Global ETD Search

111	Uma abordagem de mineração de dados educacionais para previsão de desempenho a partir de padrões comportamentais de autorregulação da aprendizagem RODRIGUES, Rodrigo Lins 21 December 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-09-01T12:03:00Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Tese_Rodrigo_Lins_Rodrigues - V0.43-FINAL-CORRIGIDA.pdf: 5476393 bytes, checksum: c893cb1720ed122fe049b35bbd11a60e (MD5) / Made available in DSpace on 2017-09-01T12:03:00Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Tese_Rodrigo_Lins_Rodrigues - V0.43-FINAL-CORRIGIDA.pdf: 5476393 bytes, checksum: c893cb1720ed122fe049b35bbd11a60e (MD5) Previous issue date: 2016-12-21 / O uso crescente dos sistemas de LMS, do inglês Learning Management System, tem gerado um crescente volume de dados provenientes de interações entre professores e alunos. Esse volume de dados, se devidamente explorado, pode fornecer o entendimento de como os alunos autorregulam-se no desenvolver da sua aprendizagem e as relações destas habilidades com o desempenho acadêmico. Diante deste contexto, delimitamos o objetivo de pesquisa desta tese como sendo a modelagem preditiva do desempenho de estudantes por meio de indicadores comportamentais de autorregulação da aprendizagem em ambientes de LMS. O método utilizado nesta pesquisa foi baseado na metodologia CRISP-DM, percorrendo pelas fases de Entendimento do domínio em educação, Entendimento dos dados educacionais, Preparação dos dados, Modelagem, Avaliação do modelo e Implementação da solução em formato de software de visualização de dados. O processo de modelagem foi realizado por meio de dados históricos de uma instituição de ensino superior, armazenados durante um período de sete anos. Como resultado da fase de modelagem, foi realizado o desenvolvimento, avaliação e comparativo entre quatro modelos de previsão, por meio dos algoritmos de Árvore de Decisão (CART), Regressão Logística, SVM e Naive Bayes. O modelo de regressão logística apresentou-se como sendo o mais satisfatório, sendo capaz de predizer o desempenho acadêmico dos estudantes, de acordo com variáveis de autorregulação da aprendizagem, com uma taxa de acurácia de 0,893 e área sobre a curva ROC de 0,9574. Por fim, foi realizada a concepção, implementação e avaliação de uma solução de software, para visualização de dados, capaz de fornecer indícios de previsibilidade do desempenho do aluno a partir do seu registro comportamental armazenado na plataforma de LMS. / The growing use of Learning Management System has generated an increasing volume of data from interactions between teachers and students. This volume of data, if properly explored, can provide an understanding of how students self-regulate themselves in the development of their learning and the relationships of these skills to academic performance. Given this context, we delimit the research objective of this thesis as the predictive modeling of student performance through behavioral indicators of self-regulation of learning in LMS environments. The method used in this research was based on the CRISP-DM methodology, through the Understanding phases of the domain in education, Understanding of educational data, Data preparation, Modeling, Evaluation of the model and Implementation of the solution in data visualization software format. The modeling process was performed through historical data from a higher education institution, stored over a period of seven years. As a result of the modeling phase, the development, evaluation, and comparison between four prediction models were performed through the Decision Tree (CART), Logistic Regression, SVM and Naive Bayes algorithms. The logistic regression model was the most satisfactory, being able to predict students' academic performance, according to self-regulated learning variables, with an accuracy rate of 0.893 and area under the ROC curve of 0.9574. Finally, the design, implementation, and evaluation of a software solution for data visualization were carried out, able to provide evidence of predictability of student performance from the behavioral register stored in the LMS platform. Mineração de Dados Educacionais Autorregulação da Aprendizagem Regressão Logística Educação a Distância
112	Descoberta direta e eficiente de regras de associação ótimas / Discovery direct and efficient of optimal association rules Alinson Sousa de Assunção 16 December 2011 (has links) Um dos principais interesses na descoberta do conhecimento e mineração de dados é a indução de regras de associação. Regras de associação caracterizam as relações entre os dados a partir de um conjunto de dados estruturado com transações, onde cada transação contém um subconjunto de itens. Seja X e Y dois conjuntos de itens disjuntos, então a regra X → Y define um relacionamento, isto é, a dependência ou a co-ocorrência entre os conjuntos X e Y. Um dos algoritmos mais conhecidos para geração de regras de associação é o algoritmo Apriori. Ele explora regras de associação que respeitam o limiar suporte mínimo, ou seja, as regras devem aparecer em uma quantidade mínima de transações. Esse limiar tem a capacidade de controlar a quantidade de regras extraídas durante a mineração. Entretanto, a frequência ou suporte não consegue medir o nível de interesse de uma regra. Para medir a importância ou interesse de uma regra em relação a outras foram desenvolvidas medidas de interesse. Tais medidas são calculadas a partir das frequências dos conjuntos de itens X, Y e do par XY. Apesar das medidas de interesse realizarem uma filtragem das regras desinteressantes, elas não acarretam na diminuição no tempo de execução da mineração. Para vencer essa dificuldade, técnicas que exploram diretamente regras de associação ótimas foram desenvolvidas. Um conjunto de regras de associação ótimas é um conjunto de regras que otimiza uma determinada medida de interesse. Na literatura existem muitos trabalhos que buscam esse tipo de conjunto de regras de forma direta e eficiente. O trabalho corrente segue esta mesma direção e visou a melhoria dessa tarefa por descobrir uma quantidade arbitrária de regras de associação ótimas. As abordagens anteriores apresentam um entrave em especial, que é a utilização do algoritmo Apriori. Tal técnica realiza uma busca em largura sobre os conjuntos de itens. No entanto, as técnicas mais promissoras que descobrem regras ótimas realizam busca em profundidade sobre o espaço de busca de regras. Em virtude dessa característica, neste trabalho foi adotada a técnica FP-growth, que realiza uma busca em profundidade sobre os conjuntos de itens explorados. Além da adoção da técnica FP-growth, foram desenvolvidas novas estratégias de poda e uma nova estratégia de busca na travessia do espaço de regras. Todas essas inovações foram adicionadas aos algoritmos desenvolvidos no corrente trabalho e proporcionaram melhor eficiência (tempo de execução) em relação ao algoritmo baseline em todos os testes. Tais testes foram realizados sobre conjuntos de dados reais e artificiais. / The induction of association rules is one of the main interests in knowledge discovery and data mining. Association rules describe the relationships between data from a transactional dataset, so that each transaction contains a subset of items. Let X and Y be two disjoint itemsets, then any rule X → Y defines a relationship that represents the dependence or co-occurrence between itemsets X and Y. Apriori is the best-known algorithm to generate association rules. It generates association rules that satisfy a user defined minimum support threshold. This means the rules should occur at least in an arbitrary number of transactions from a dataset. This threshold limits the number of association rules generated by Apriori. Yet, it is not possible to measure the interest of a rule through support. For that, interestingness measures were developed to assess the importance or interest of a rule. The values of these interestingness measures are obtained through frequencies of X, Y and XY. However, it is still an expensive task mining all the association rules and then filter them according to an interestingness measure. To overcome this difficulty, techniques to induce optimal association rules have been developed. Optimal association rules are a ruleset that optimize an arbitrary interestingness measure. In the literature, there are many papers which aim at searching for optimal association rules directly and efficiently. The current MSc thesis follows this direction, aiming at improving this objective. Previous approaches share one obstacle in particular: the use of Apriori. This algorithm performs a breadth-first search on the itemsets space. However, the most promising techniques to find optimal rules perform a depth-first search on the space of rules. Hence, in this research we adopted the FP-growth algorithm, which performs a depth-first search on the itemsets space. Besides using this algorithm, new rule pruning techniques and a new search space traversing on the space rules were developed. The algorithms developed in the current research contain all these innovations. In all tests, the proposed algorithms surpassed the baseline algorithms in terms of efficiency. These tests were conducted on real and articial datasets. Mineração de dados Regras de associação Association rules Data mining
113	Exploração de dados atomizados para previsão de vendas no varejo utilizando redes neurais. Antonio Fabrizio Lima Passari 03 July 2003 (has links) O objetivo geral desta pesquisa é explorar a possibilidade de usar uma metodologia capaz de identificar padrões de relacionamento úteis na previsão de vendas individual no varejo, com o uso do processo de mineração de dados. Essas previsões devem abordar grande parte das decisões de curto prazo enfrentadas no cotidiano do gestor da loja, num nível aprofundado detalhado quanto a produtos de decisões. O objetivo é explorar um modelo de previsão de demanda para os produtos visando identificar um composto de marketing adequado (preços, produtos e promoções). data-mining mineração de dados previsão de vendas redes neurais varejo
114	Produtividade de cana-de-açúcar : caracterização dos contextos de decisão e utilização de técnicas de mineração de dados para modelagem / Sugarcane yield : characteristics of decision contexts and data mining techniques application for modeling Bocca, Felipe Ferreira, 1988- 25 August 2018 (has links) Orientador: Luiz Henrique Antunes Rodrigues / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-25T02:35:28Z (GMT). No. of bitstreams: 1 Bocca_FelipeFerreira_M.pdf: 3408187 bytes, checksum: 42fbcc9a588255a03b2746e38bf18992 (MD5) Previous issue date: 2014 / Resumo: A tomada de decisão e o planejamento de uma usina de cana-de-açúcar têm como principal variável a produtividade dos cultivos, que em conjunto com a área permite estimar a produção. A cana-de-açúcar, uma cultura semi-perene, nas condições brasileiras, possui um ciclo inicial que pode variar de 12 a 18 meses e, após a primeira colheita, é colhida anualmente até que o decréscimo de produtividade leve ao replantio da área. Considerando o tamanho das áreas de cultivo, e o horizonte temporal, projeções de produtividade são fornecidas em diferentes contextos de decisão para cultivos que se encontram em diferentes momentos do ciclo de crescimento. Foi conduzida uma pesquisa exploratória junto a uma usina com intuito de contextualizar as principais decisões que são influenciadas pela perspectiva de produtividade futura, bem como a forma que essas predições afetam o planejamento. Tomando por base o resultado de entrevistas semiestruturadas e acompanhamento de atividades, foi possível identificar decisões chave e suas características, que foram relacionadas a soluções propostas pela comunidade científica e enquadradas dentro de uma proposta de framework para tomada de decisão e planejamento. Entre as decisões, chamou atenção as que são tomadas nos elos iniciais da cadeia de valor, que terão efeitos em todos os processos posteriores e que são tomadas na maior situação de incerteza, sendo consideradas pontos críticos no planejamento. No framework, baseado no uso de modelos empíricos de produtividade, é possível explorar o potencial das informações climáticas para projeção da produtividade e também explorar o potencial dos dados acumulados pelo setor. Para tal, foram desenvolvidos modelos empíricos de produtividade utilizando diferentes técnicas de mineração de dados. Os modelos de produtividade possuíam como atributos preditores os dados referentes aos talhões e seu manejo, em conjunto com os dados do clima ocorrido. Foi possível reduzir a magnitude de erro para menos da metade do encontrado em uma abordagem anterior. Entre as técnicas utilizadas, a SVM e a Random Forest obtiveram os melhores desempenhos, embora o modelo utilizando SVM tenha utilizado significativamente menos atributos. A estratégia de modelagem baseada em dados permitiu a criação de modelos específicos para o contexto produtivo da própria unidade, na escala da menor unidade de gestão, os talhões. Os modelos de produtividade criados possuem potencial para projeção de produtividade se utilizados em conjunto com projeções de clima / Abstract: Decision making and planning of sugarcane production have as main variable the crop yield, which in conjunction with the field area allows us to estimate production. Sugarcane, a semi-perennial crop, in Brazilian conditions, has an initial cycle that varies from 12 to 18 months and after the first harvest, is harvested annually until yield reduction lead to replanting the area. Considering the size of cultivated areas, and the time horizon, yield projections are provided in different contexts of decision for crops that are in different stages of the growth cycle. An exploratory study was conducted within a sugarcane mill to contextualize the main decisions that are influenced by the perspective of future yield, as well as how those predictions affect planning. Based on the result of semi-structured interviews and activities follow-up, it was possible to identify key decisions and their characteristics, which were related to the solutions proposed by the scientific community and framed within a proposed framework for decision making and planning. Decisions made in the first echelons of the value chain demanded early predictions and have effects in the whole value chain, being considered a critical point for planning. In the framework, based on the use of empirical models of yield, it is possible to exploit the potential of climate information to forecast yield and also explore the potential of data accumulated by the sector. Empirical yield models were developed using different data mining techniques. The models used and data from the blocks and their management, coupled with the climatic data as predictive variables. Error magnitude was reduced by half from a previous approach. Among the techniques used, SVM and Random Forest got the best performance, although the SVM model has significantly fewer attributes. The modeling strategy based on data enabled the creation of specific models for the production context of the mill, on the scale of the smallest management unit. The yield models created have potential for yield forecast if used in conjunction with weather forecasts / Mestrado / Planejamento e Desenvolvimento Rural Sustentável / Mestre em Engenharia Agrícola / 12/50049-3 / FAPESP Mineração de dados (Computação) Cana-de-açúcar Modelagem Data mining Sugarcane Modeling
115	Caracterização de alunos em ambientes de ensino online: estendendo o uso da DAMICORE para minerar dados educacionais / Characterization of students in online learning environments: extending the use of DAMICORE to educational data mining Luis Fernando de Souza Moro 04 May 2015 (has links) Com a popularização do uso de recursos tecnológicos na educação, uma enorme quantidade de dados, relacionados às interações entre alunos e esses recursos, é armazenada. Analisar esses dados, visando caracterizar os alunos, é tarefa muito importante, uma vez que os resultados dessa análise podem auxiliar professores no processo de ensino e aprendizagem. Entretanto, devido ao fato de as ferramentas utilizadas para essa caracterização serem complexas e pouco intuitivas, os profissionais da área de ensino acabam por não utilizá-las, inviabilizando a implementação de tais ferramentas em ambientes educacionais. Dentro desse contexto, a dissertação de mestrado aqui apresentada teve como objetivo analisar os dados provenientes de um sistema tutor inteligente, o MathTutor, que disponibiliza exercícios específicos de matemática, para identificar padrões de comportamento dos alunos que interagiram com esse sistema durante um determinado período. Essa análise foi realizada por meio de um processo de Mineração de Dados Educacionais (EDM), utilizando a ferramenta DAMICORE, com o intuito de possibilitar que fossem geradas, de forma rápida e eficaz, informações úteis à caracterização dos alunos. Durante a realização dessa análise, seguiram-se algumas fases do processo de descobrimento de conhecimento em bases de dados, seleção, pré-processamento, mineração dos dados e avaliação e interpretação. Na fase de mineração de dados, foi utilizada a ferramenta DAMICORE, que encontrou padrões que foram estudados na fase de avaliação e interpretação. A partir dessa análise foram encontrados padrões comportamentais dos alunos, por exemplo, alunos do sexo masculino apresentam rendimento superior ou inferior ao de alunas do sexo feminino e quais alunos terão um bom ou mau rendimento nas etapas finais do processo de ensino. Como principal resultado temos que uma das hipóteses criadas, Alunos que obtiveram bom desempenho no pós-teste imediato apresentaram dois dos três seguintes comportamentos: poucas interações na intervenção, baixo tempo interagindo com o sistema na intervenção e poucos misconceptions no pré-teste, teve sua acurácia comprovada dentre os dados utilizados nessa pesquisa. Assim, por meio desta pesquisa concluiu-se que a utilização da DAMICORE em contexto educacional pode auxiliar o professor a inferir o desempenho dos seus alunos oferecendo a ele a oportunidade de realizar as intervenções pedagógicas que auxiliem alunos com possíveis dificuldades e apresente novos desafios para aqueles com facilidade no tema estudado / With the popularization of the use of technological resources in education, a huge amount of data, related to the interactions between students and these resources, is stored. Analyzing this data, due to characterize the students, is an important task, since the results of this analysis can help teachers on teaching and learning process. However, due to the fact that the tools used to this characterization are complex and non-intuitive, the educational professionals do not use it, invalidating the implementation of such tools at educational environments. Within this context, this master\'s dissertation aimed analyzing the prevenient data from an educational web system named MathTutor, which offers specific math exercises to identify behavioral patterns of students who interacted with this system during some period. This analysis was performed by a process known as Educational Data Mining, using the tool named DAMICORE, in order to enable quickly and effectively the construction of helpful information to the characterization of the students. During the course of this analysis, some phases of the process of knowledge discovery in databases were followed: \"selection\", \"preprocessing\", \"data mining\" and \"evaluation and interpretation\". In \"data mining\" phase, the tool DAMICORE was used to find behavioral patterns of students which were studied at the \"evaluation and interpretation\" phase. From this analysis, behavioral patterns of students were found, for example, male students have higher or lower yield against the female students and which students are going to have a good or bad yield on the final steps of the educational process. As the main result we have one of the made assumptions, \"Students who get good performance in the \"immediate posttest\" showed two of the following behaviors: few interactions in the \"intervention\", low time interacting with the system in the \"intervention\" and few misconceptions in \"pretest\"\", has proven its accuracy among the data used in this dissertation. Thus, through this research, it was concluded that the use of DAMICORE at educational context can help teacher to infer the performance of their students offering him the opportunity to perform the pedagogical interventions that help students who faces difficulties and show new challenges for those who have facilities in the subject studied. Atributos Mineração de dados educacionais Atributes Educational data mining
116	Ferramenta computacional para análise integrada de dados clínicos e biomoleculares / Computational framework for integrated analysis of biomolecular and clinical data Yuri Ferretti 11 December 2015 (has links) A massificação dos estudos da medicina translacional permite aos pesquisadores que usufruam de fontes de dados das mais diversas áreas. Uma área de suma importância e a bioinformatica, que agrega o alta capacidade de processamento computacional disponível atualmente, com a infindável quantidade de dados gerada por métodos de sequenciamento de ultima geração, para entregar aos pesquisadores uma quantidade rica de dados para serem analisados. Apesar da disponibilidade desses dados, a expertise necessária para analisa-los dificulta que profissionais com pouco conhecimento em bioinformatica, estatística e ciência da computação possam realizar pesquisas e analises com estes dados. Dada esta situação, este trabalho consistiu em criar uma ferramenta que tira proveito da integração de múltiplas bases de dados proporcionada pelo framework IPTrans, permitindo que usuários da área biomédica realizem analises com os dados contidos nessas bases. Com base em outras ferramentas existentes e em um levantamento de requisitos junto a potenciais usuários, foram identificadas as funcionalidades mais importantes e assim foi projetada e implementada a IPTrans Advanced Analysis Tool (IPTrans A2Tool). Esta ferramenta permite que usuários façam analises de expressão diferencial mais comuns como heatmaps, volcano plots, consenso de agrupamentos e blox-plot. Além disso, a ferramenta proporciona um algoritmo de mineração de dados baseado na extração de regras de associação entre dados clínicos e biomoleculares, que permite ao usuário descobrir novas associações entre a expressão dos genes dados clínicos e fenotípicos. Adicionalmente a este trabalho, foi criado também o BioBank Warden, um sistema de controle de dados clínicos e amostras biomoleculares, que foi utilizado como uma das fontes de dados para o IPTrans A2Tool. Este sistema permite que usuários adicionem informações clinicas de pacientes e também das amostras extraídas para a realização de estudos. Uma avaliação preliminar de usabilidade, realizada junto a profissionais da área biomédica, mostrou que as ferramentas possuem potencial para serem utilizadas no contexto da medicina translacional. / The great number of translational medicine studies allows researchers to make benefit of data sources from various fields. An area of great importance is bioinformatics, which combines the high computational processing capabilities found nowadays with the endless amount of data generated by next-generation sequencing methods, to give researchers a rich amount of data to be analyzed. Despite the availability of such data, the expertise required to analyze it makes difficult for professionals with little knowledge in bioinformatics, statistics or computer science, to conduct research and analysis on this data. Given this situation, this work was intended to create a tool that takes advantage of multiple databases integration capabilities provided by IPTrans and that allows users to perform analysis on the data contained in these databases. To accomplish that other tools were studied in order to observe which features our framework should aggregate and thus was created the IPTrans A2Tool (IPTrans Advanced Analysis Tool). This tool allows users to perform differential expression analysis and generate output as heatmaps, volcano plots, consensus clustering and blox-plots. In addition, the tool provides an association rule extraction algorithm between clinical and biomolecular data, allowing the user to discover hidden associations between the expression of analyzed genes and clinical data. As a by-product of this work was also created the BioBank Warden a clinical data and biomolecular samples management system that was used as one of the data sources for IPTrans A2Tool. This system allows users to add patients clinical information and also of samples taken for carrying out studies. In addition, the system provides a strong research group and project permission management that ensures only authorized people to have access to patients data. Bioinformática Medicina translacional Mineração de dados Bioinformatics Data mining Translational medicine
117	Aplicação de classificadores Bayesianos e regressão logística na análise de desempenho dos alunos de graduação Kuribara, Alex Rodrigo 15 December 2015 (has links) Submitted by Alex Kuribara (alex_kuribara@yahoo.com.br) on 2016-01-04T20:27:16Z No. of bitstreams: 1 MPA Sistema da Informação - Alex Kuribara.pdf: 2558507 bytes, checksum: 5157a9a4230813d00ed67591adac5ccf (MD5) / Rejected by Ana Luiza Holme (ana.holme@fgv.br), reason: Alex, Na pagina 04 precisa retirar os dizeres Projeto de Dissertação. Ana Luiza Holme 3799-3492 on 2016-01-05T11:50:07Z (GMT) / Submitted by Alex Kuribara (alex_kuribara@yahoo.com.br) on 2016-01-05T13:16:47Z No. of bitstreams: 1 MPA Sistema da Informação - Alex Kuribara.pdf: 2558380 bytes, checksum: 7b98268613b3870b062daca2fceae2ab (MD5) / Approved for entry into archive by Ana Luiza Holme (ana.holme@fgv.br) on 2016-01-05T13:22:22Z (GMT) No. of bitstreams: 1 MPA Sistema da Informação - Alex Kuribara.pdf: 2558380 bytes, checksum: 7b98268613b3870b062daca2fceae2ab (MD5) / Made available in DSpace on 2016-01-05T13:33:50Z (GMT). No. of bitstreams: 1 MPA Sistema da Informação - Alex Kuribara.pdf: 2558380 bytes, checksum: 7b98268613b3870b062daca2fceae2ab (MD5) Previous issue date: 2015-12-15 / Este trabalho minera as informações coletadas no processo de vestibular entre 2009 e 2012 para o curso de graduação de administração de empresas da FGV-EAESP, para estimar classificadores capazes de calcular a probabilidade de um novo aluno ter bom desempenho. O processo de KDD (Knowledge Discovery in Database) desenvolvido por Fayyad et al. (1996a) é a base da metodologia adotada e os classificadores serão estimados utilizando duas ferramentas matemáticas. A primeira é a regressão logística, muito usada por instituições financeiras para avaliar se um cliente será capaz de honrar com seus pagamentos e a segunda é a rede Bayesiana, proveniente do campo de inteligência artificial. Este estudo mostre que os dois modelos possuem o mesmo poder discriminatório, gerando resultados semelhantes. Além disso, as informações que influenciam a probabilidade de o aluno ter bom desempenho são a sua idade no ano de ingresso, a quantidade de vezes que ele prestou vestibular da FGV/EAESP antes de ser aprovado, a região do Brasil de onde é proveniente e as notas das provas de matemática fase 01 e fase 02, inglês, ciências humanas e redação. Aparentemente o grau de formação dos pais e o grau de decisão do aluno em estudar na FGV/EAESP não influenciam nessa probabilidade. / This dissertation mines a database with information gathered from 2009 to 2012 during the application process to join the business administration course offered by FGV-EAESP. The goal is to develop classifiers which estimate whether a new student will have good performance. The methodology of this dissertation is based on KDD process (Knowledge Discovery in Database) developed by Fayyad et al. (1996a); in addition, the classifiers will be developed by using two theories. The first one is the logistic regression, broadly adopted in financial institutions to assess the potential default of their customers in the credit market. The second one Bayesian networks from artificial intelligence field. The outcomes of this dissertation show that both classifiers have the same discriminant capacity. In addition, the student’s age, the number of times she/he applied for FGV/EAESP before joining the school, the region of Brazil she/he comes from and the grades of five exams: Mathematics phase 01 and phase 02, English, Human Science and Essay influence the student performance. However, neither the parents’ formal education background nor the student’s willingness to join FGV/EAESP impact on such performance. Redes bayesianas KDD Mineração de dados Administração de empresas Análise de regressão logística Mineração de dados (Computação)
118	Análise preditiva de Churn com ênfase em técnicas de Machine Learning: uma revisão Schneider, Pedro Henrique 27 July 2016 (has links) Submitted by Pedro Henrique Schneider (pedro.hesch@gmail.com) on 2016-09-09T15:00:58Z No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-09-26T12:55:03Z (GMT) No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-10-17T16:18:06Z (GMT) No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Made available in DSpace on 2016-10-17T16:18:27Z (GMT). No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) Previous issue date: 2016-07-27 / In the last two decades, the growth of the Internet and its associated technologies, are transforming the way of the relationship between companies and their clients. In general, the acquisition of a new customer is much more expensive for a company than the retention of a current one. Thus, customer retention studies or Churn management has become more important for companies. This study represents the review and classi cation of literature on applications of Machine Learning techniques to build predictive models of customers loss, also called Churn. The objective of this study was collecting the largest possible number of documents on the subject within the proposed methodology and classi es them as per application areas, year of publication, Machine Learning techniques applied, journals and repositories used and in uence level of the documents. And thus, bringing to the light the existing studies in this eld of activity, consolidating what is the state of the art of research in this area, and signi cantly contribute as a reference for future applications and researches in this area. Although, the study has not been the rst in the literature of Machine Learning related to the loss of customer or customer retention in the way of literature review, it was the rst, among the ones we have found, with focus on documents studying, not exclusively, loss or retention of customers by Machine Learning techniques, and without any kind of restriction. Furthermore it was the rst to classify documents by in uence, through the quotations from each document. As a nal database was collected and analyzed 80 documents, from which were found as main application areas: Telecommunications, Financial, Newspapers, Retail, among others. As per Machine Learning techniques applied, the most applied techniques founded related to the problem, were the following: Logistic Regression, Decision Tree and Neural Networks, among others. And based on the results, this kind of study is dated since 2000. / Nas últimas duas décadas, o crescimento da internet e suas tecnologias associadas, vêm transformando a forma de relacionamento entre as empresas e seus clientes. Em geral, a aquisição de um novo cliente custa muito mais caro para uma empresa que a retenção do mesmo. Desta forma, estudos de retenção de clientes, ou gerenciamento do Churn, se tornaram mais importantes para as empresas. O presente trabalho consiste na revisão e classificação da literatura sobre aplicações de técnicas com ênfase em Machine Learning para construir modelos preditivos de perda de clientes, também chamada de Churn. O objetivo do trabalho foi reunir o maior número possível de documentos sobre o assunto, dentro da metodologia proposta, e classificá-los quanto às áreas de aplicação, ano de publicação, técnicas de Machine Learning aplicadas, periódicos e repositórios utilizados, nível de influência dos documentos e desta forma trazer à luz os estudos já existentes nesse campo de atuação, consolidando o que há do estado da arte em pesquisas desta área, e de forma significativa contribuir como uma referência para futuras aplicações e pesquisas nesta área. Embora o trabalho não tenha sido o primeiro na literatura de Machine Learning relacionado a perda ou retenção de clientes na linha de revisão literária, foi o primeiro encontrado com foco em documentos que estudam, não exclusivamente, a perda ou retenção de clientes por técnicas de Machine Learning e sem nenhum tipo de restrições. Da mesma forma foi o primeiro a classificar os documentos por influência através das citações entre os documentos. Assim, como base final para o trabalho, analisou-se 80 documentos, onde foram encontradas como principais áreas de aplicação: Telecomunicações, Financeiras, Jornais, Varejo entre outras. Constataram-se como técnicas de Machine Learning mais utilizadas para o problema em questão: Regressão Logística, Árvores de Decisão e Redes Neurais, entre outras. E ainda, de acordo com os resultados obtidos, notou-se que ano 2000 tende a ser um marco para esta pesquisa, pois foi a data mais antiga para a qual foi encontrado um artigo nesse trabalho. Churn Análise Preditiva de Churn Retenção de clientes Machine learning Aprendizagem de máquina Data mining Mineração de dados Revisão Matemática Mineração de dados (Computação) Aprendizado do computador
119	Análise de sentimento para textos curtos Avila, Gustavo Vianna 10 March 2017 (has links) Submitted by Gustavo Vianna Avila (guavila@gmail.com) on 2017-03-30T18:26:08Z No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2017-04-07T15:10:23Z (GMT) No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Made available in DSpace on 2017-04-12T19:10:52Z (GMT). No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) Previous issue date: 2017-03-10 / A huge number of short informal messages are posted every day in social network sites, discussion forums and customer surveys. Emotions seem to be frequently important in these texts. The challenge of identifying and understanding an emotion present in this type of communication is important in distinguishing the sentiment in the text and also in identifying anomalous and inappropriate behaviors, eventually offering some kind of risk. This work proposes the implementation of a sentiment analysis solution based on machine learning. Using supervised learning techniques, it is desired to discern whether a message has a positive, neutral, or negative sentiment. The messages to be analyzed are IT service satisfaction surveys. Two models were used in the analysis, the first model where only the ”Comment”, a nonstructured text field was considered and the second model, where besides the ”Comment”field, two objective questions were considered. The results obtained indicate that the techniques of machine learning, are not behind the results produced by human-produced baselines. The accuracy obtained was up to 86.8% accuracy for a three class model: ”praise”, ”neutral”and ”complaint”. Accuracy was significantly higher, reaching up to 94.5 % in an alternative model of only two classes: ”praise”and ”non-praise”. / Um grande número de mensagens curtas informais são postadas diariamente em redes sociais, fórums de discussão e pesquisas de satisfação. Emoções parecem ser importantes de forma frequente nesses textos. O desafio de identificar e entender a emoção presente nesse tipo de comunicação é importante para distinguir o sentimento presente no texto e também para identificar comportamentos anômalos e inapropriados, eventualmente oferecendo algum tipo de risco. Este trabalho propõe a implementação de uma solução para a análise de sentimento de textos curtos baseada em aprendizado por máquina. Utilizando técnicas de aprendizado supervisionado, é desejado discernir se uma mensagem possui sentimento positivo, neutro ou negativo. As mensagens a serem analisadas serão pesquisas de satisfação de serviços de TI. Foram utilizados nas análises dois modelos, o primeiro modelo onde apenas o campo de texto livre "Comentário" foi considerado e o segundo modelo, onde além do campo de texto livre "Comentário", foram consideradas, adicionalmente, duas perguntas objetivas da pesquisa de satisfação. Os resultados obtidos indicam que as técnicas utilizadas de aprendizado por máquina, não ficam atrás dos resultados produzidos por aprendizado humano. A acurácia obtida foi de até 86,8% de acerto para um modelo de três classes: "elogio", "neutro" e "reclamação". A acurácia foi significativamente superior, alcançando até 94,5% em um modelo alternativo, de apenas duas classes: "elogio" e "não-elogio". Mineração de dados Processamento da linguagem natural Aprendizado do computador Análise de Sentimentos Tecnologia Mineração de dados (Computação) Aprendizado do computador Modelagem de dados
120	COMOVI: um framework para transformação de dados em aplicações de credit behavior scoring baseado no desenvolvimento dirigido por modelos OlLIVEIRA NETO, Rosalvo Ferreira de 11 December 2015 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-07-12T12:11:15Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Tese_Rosalvo_Neto_CIN_2015.pdf: 7674683 bytes, checksum: 99037c704450a9a878bcbe93ab8b392d (MD5) / Made available in DSpace on 2016-07-12T12:11:15Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Tese_Rosalvo_Neto_CIN_2015.pdf: 7674683 bytes, checksum: 99037c704450a9a878bcbe93ab8b392d (MD5) Previous issue date: 2015-12-11 / CAPEs / A etapa de pré-processamento em um projeto de descoberta do conhecimento é custosa, em geral, consome cerca de 50 a 80% do tempo total de um projeto. É nesta etapa que um banco de dados relacional é transformado para aplicação de um algoritmo de mineração de dados. A transformação dos dados nesta etapa é uma tarefa complexa, uma vez que exige uma forte integração entre projetistas de banco de dados e especialistas do domínio da aplicação. Os frameworks que buscam sistematizar a etapa de transformação dos dados encontrados na literatura apresentam limitações significativas quando aplicados a soluções comportamentais, como Credit Behavior Scoring. Estas soluções visam a auxiliar as instituições financeiras a decidirem sobre a concessão de crédito aos consumidores com base no risco das solicitações. Este trabalho propõe um framework baseado no Desenvolvimento Dirigido por Modelos para sistematizar esta etapa em soluções de Credit Behavior Scoring. Ele é composto por um meta-modelo que mapeia os conceitos do domínio e um conjunto de regras de transformações. As três principais contribuições do framework proposto são: 1) aumentar o poder discriminatório da solução, através da construção de novas variáveis que maximizam o conteúdo estatístico da informação do domínio; 2) reduzir o tempo da transformação dos dados através da geração automática de código e 3) permitir que profissionais e pesquisadores de Inteligência Artificial e Estatística realizem a transformação dos dados sem o auxílio de especialistas de Banco de Dados. Para validar o framework proposto, dois estudos comparativos foram realizados. Primeiro, um estudo comparando o desempenho entre os principais frameworks existentes na literatura e o framework proposto foi realizado em duas bases de dados. Uma base de dados de um conhecido benchmark de uma competição internacional organizada pela PKDD, e outra obtida de uma das maiores empresas de varejo do Brasil, que possui seu próprio cartão de crédito. Os frameworks RelAggs e Validação de Múltiplas Visões Baseado em Correção foram escolhidos como representantes das abordagens proposicional e mineração de dados relacional, respectivamente. A comparação foi realizada através do processo de validação cruzada estratificada, para definir os intervalos de confiança para a avaliação de desempenho. Os resultados mostram que o framework proposto proporciona um desempenho equivalente ou superior aos principais framework existentes, medido pela área sob a curva ROC, utilizando uma rede neural MultiLayer Perceptron, K vizinho mais próximos e Random Forest como classificadores, com um nível de confiança de 95%. O segundo estudo verificou a redução de tempo proporcionada pelo framework durante a transformação dos dados. Para isso, sete times compostos por estudantes de uma universidade brasileira mensuraram o tempo desta atividade com e sem o framework proposto. O teste pareado Wilcoxon Signed-Rank mostrou que o framework proposto reduz o tempo de transformação com um nível de confiança de 95%. / The pre-processing stage in knowledge discovery projects is costly, generally taking between 50 and 80% of total project time. It is in this stage that data in a relational database are transformed for applying a data mining technique. This stage is a complex task that demands from database designers a strong interaction with experts who have a broad knowledge about the application domain. The frameworks that aim to systemize the data transformation stage have significant limitations when applied to behavior solutions such as the Credit Behavior Scoring solutions. Their goal is help financial institutions to decide whether to grant credit to consumers based on the credit risk of their requests. This work proposes a framework based on the Model Driven Development to systemize this stage in Credit Behavioral Scoring solutions. It is composed by a meta-model which maps the domain concepts and a set of transformation rules. This work has three main contributions: 1) improving the discriminant power of data mining techniques by means of the construction of new input variables, which embed new knowledge for the technique; 2) reducing the time of data transformation using automatic code generation and 3) allowing artificial intelligence and statistics modelers to perform the data transformation without the help of database experts. In order to validate the proposed framework, two comparative studies were conducted. First, a comparative study of performance between the main existing frameworks found in literature and the proposed framework applied to two databases was performed. One database from a known benchmark of an international competition organized by PKDD, and another one obtained from one of the biggest retail companies from Brazil, that has its own private label credit card. The RelAggs and Correlation-based Multiple View Validation frameworks were chosen as representatives of the propositional and relational data mining approaches, respectively. The comparison was carried out through by a 10-fold stratified cross-validation process with ten stratified parts in order to define the confidence intervals. The results show that the proposed framework delivers a performance equivalent or superior to those of existing frameworks, for the evaluation of performance measured by the area under the ROC curve, using a Multilayer Perceptron neural network, k-nearest neighbors and Random Forest as classifiers, with a confidence level of 95%. The second comparative study verified the reduction of time required for data transformation using the proposed framework. For this, seven teams composed by students from a Brazilian university measured the runtime of this stage with and without the proposed framework. The paired Wilcoxon Signed-Rank’s Test showed that the proposed framework reduces the time of data transformation with a confidence level of 95%. Mineração de dados Proposicionalização Mineração de dados Relacional Credit Behavior Scoring Desenvolvimento Dirigido por Modelos Data Mining. Propositionalization Relational Data Mining Credit Behavior Scoring Model-Driven Development

Search results