• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 190
  • 15
  • 13
  • 13
  • 12
  • 12
  • 5
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 203
  • 203
  • 203
  • 84
  • 82
  • 54
  • 41
  • 40
  • 38
  • 34
  • 32
  • 30
  • 28
  • 28
  • 27
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Análise de sentimento para textos curtos

Avila, Gustavo Vianna 10 March 2017 (has links)
Submitted by Gustavo Vianna Avila (guavila@gmail.com) on 2017-03-30T18:26:08Z No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2017-04-07T15:10:23Z (GMT) No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) / Made available in DSpace on 2017-04-12T19:10:52Z (GMT). No. of bitstreams: 1 FGV EMAp - Gustavo Avila - Análise de Sentimento para Textos Curtos.pdf: 1066914 bytes, checksum: 245f39102b78290b281cc9f68239d26d (MD5) Previous issue date: 2017-03-10 / A huge number of short informal messages are posted every day in social network sites, discussion forums and customer surveys. Emotions seem to be frequently important in these texts. The challenge of identifying and understanding an emotion present in this type of communication is important in distinguishing the sentiment in the text and also in identifying anomalous and inappropriate behaviors, eventually offering some kind of risk. This work proposes the implementation of a sentiment analysis solution based on machine learning. Using supervised learning techniques, it is desired to discern whether a message has a positive, neutral, or negative sentiment. The messages to be analyzed are IT service satisfaction surveys. Two models were used in the analysis, the first model where only the ”Comment”, a nonstructured text field was considered and the second model, where besides the ”Comment”field, two objective questions were considered. The results obtained indicate that the techniques of machine learning, are not behind the results produced by human-produced baselines. The accuracy obtained was up to 86.8% accuracy for a three class model: ”praise”, ”neutral”and ”complaint”. Accuracy was significantly higher, reaching up to 94.5 % in an alternative model of only two classes: ”praise”and ”non-praise”. / Um grande número de mensagens curtas informais são postadas diariamente em redes sociais, fórums de discussão e pesquisas de satisfação. Emoções parecem ser importantes de forma frequente nesses textos. O desafio de identificar e entender a emoção presente nesse tipo de comunicação é importante para distinguir o sentimento presente no texto e também para identificar comportamentos anômalos e inapropriados, eventualmente oferecendo algum tipo de risco. Este trabalho propõe a implementação de uma solução para a análise de sentimento de textos curtos baseada em aprendizado por máquina. Utilizando técnicas de aprendizado supervisionado, é desejado discernir se uma mensagem possui sentimento positivo, neutro ou negativo. As mensagens a serem analisadas serão pesquisas de satisfação de serviços de TI. Foram utilizados nas análises dois modelos, o primeiro modelo onde apenas o campo de texto livre "Comentário" foi considerado e o segundo modelo, onde além do campo de texto livre "Comentário", foram consideradas, adicionalmente, duas perguntas objetivas da pesquisa de satisfação. Os resultados obtidos indicam que as técnicas utilizadas de aprendizado por máquina, não ficam atrás dos resultados produzidos por aprendizado humano. A acurácia obtida foi de até 86,8% de acerto para um modelo de três classes: "elogio", "neutro" e "reclamação". A acurácia foi significativamente superior, alcançando até 94,5% em um modelo alternativo, de apenas duas classes: "elogio" e "não-elogio".
152

Random forest em dados desbalanceados: uma aplicação na modelagem de churn em seguro saúde

Lento, Gabriel Carneiro 27 March 2017 (has links)
Submitted by Gabriel Lento (gabriel.carneiro.lento@gmail.com) on 2017-05-01T23:16:04Z No. of bitstreams: 1 Dissertação Gabriel Carneiro Lento.pdf: 832965 bytes, checksum: f79e7cb4e5933fd8c3a7c67ed781ddb5 (MD5) / Approved for entry into archive by Leiliane Silva (leiliane.silva@fgv.br) on 2017-05-04T18:39:57Z (GMT) No. of bitstreams: 1 Dissertação Gabriel Carneiro Lento.pdf: 832965 bytes, checksum: f79e7cb4e5933fd8c3a7c67ed781ddb5 (MD5) / Made available in DSpace on 2017-05-17T12:43:35Z (GMT). No. of bitstreams: 1 Dissertação Gabriel Carneiro Lento.pdf: 832965 bytes, checksum: f79e7cb4e5933fd8c3a7c67ed781ddb5 (MD5) Previous issue date: 2017-03-27 / In this work we study churn in health insurance, that is predicting which clients will cancel the product or service within a preset time-frame. Traditionally, the probability whether a client will cancel the service is modeled using logistic regression. Recently, modern machine learning techniques are becoming popular in churn modeling, having been applied in the areas of telecommunications, banking, and car insurance, among others. One of the big challenges in this problem is that only a fraction of all customers cancel the service, meaning that we have to deal with highly imbalanced class probabilities. Under-sampling and over-sampling techniques have been used to overcome this issue. We use random forests, that are ensembles of decision trees, where each of the trees fits a subsample of the data constructed using either under-sampling or over-sampling. We compare the distinct specifications of random forests using various metrics that are robust to imbalanced classes, both in-sample and out-of-sample. We observe that random forests using imbalanced random samples with fewer observations than the original series present a better overall performance. Random forests also present a better performance than the classical logistic regression, often used in health insurance companies to model churn. / Neste trabalho estudamos o problema de churn em seguro saúde, isto é, a previsão se o cliente irá cancelar o produto ou serviço em até um período de tempo pré-estipulado. Tradicionalmente, regressão logística é utilizada para modelar a probabilidade de cancelamento do serviço. Atualmente, técnicas modernas de machine learning vêm se tornando cada vez mais populares para esse tipo de problema, com exemplos nas áreas de telecomunicação, bancos, e seguros de carro, dentre outras. Uma das grandes dificuldades nesta modelagem é que apenas uma pequena fração dos clientes de fato cancela o serviço, o que significa que a base de dados tratada é altamente desbalanceada. Técnicas de under-sampling e over-sampling são utilizadas para contornar esse problema. Neste trabalho, aplicamos random forests, que são combinações de árvores de decisão ajustadas em subamostras dos dados, construídas utilizando under-sampling e over-sampling. Ao fim do trabalho comparamos métricas de ajustes obtidas nas diversas especificações dos modelos testados e avaliamos seus resultados dentro e fora da amostra. Observamos que técnicas de random forest utilizando sub-amostras não balanceadas com o tamanho menor do que a amostra original apresenta a melhor performance dentre as random forests utilizadas e uma melhora com relação ao praticado no mercado de seguro saúde.
153

Aplicação de computação evolucionária na mineração de dados físico-químicos da água e do solo

Guimarães, Alaine Margarete [UNESP] 05 December 2005 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:31:37Z (GMT). No. of bitstreams: 0 Previous issue date: 2005-12-05Bitstream added on 2014-06-13T19:20:52Z : No. of bitstreams: 1 guimaraes_am_dr_botfca.pdf: 960847 bytes, checksum: a716ab7dc09b4f9f246b403c778558b1 (MD5) / Essa tese apresenta o desenvolvimento de um sistema de mineração de dados baseado na técnica de computação evolucionária denominada Algoritmos Genéticos. O sistema resultante, de nome MinAG, realiza a tarefa de classificação de dados contínuos e destina-se a minerar dados físico-químicos do solo e da água. Os padrões de comportamento dos atributos minerados são apresentados no formato SE-ENTÃO, facilitando a compreensão da informação descoberta. Foram definidos alguns requerimentos e restrições para o uso desse sistema relacionados às características do arquivo de dados possível de ser minerado. O MinAG adota o conceito de computação em grid, o que propicia para que mais e melhores resultados sejam obtidos. Os testes realizados permitiram concluir que o sistema executou as tarefas definidas para o mesmo e gerou resultados corretos ao minerar as bases de dados a que se propôs, atingindo, portanto os objetivos dessa tese. Foram realizados dois estudos de casos. No primeiro foi utilizada uma base de dados brasileira sobre dados físico-químicos do solo obtidos por equipamentos de agricultura de precisão na região de Campos Novos Paulista - SP. No segundo estudo de caso usou-se uma base de dados de qualidade de água do estado da Flórida - EUA. Em ambos os casos o sistema foi capaz de atingir seu objetivo encontrando padrões de comportamento nos dados. Pode-se concluir que o sistema MinAG apresenta-se como uma nova maneira de analisar a correlação entre os elementos físico-químicos do solo e da água. Esse sistema não deve ser entendido como um substituto de métodos de análise tradicionais, como a estatística. Sua função é servir como uma ferramenta adicional na geração de informações para auxílio à compreensão do comportamento existente nos dados. / This thesis presents the data mining system development based on an evolutionary computation technique named Genetic Algorithms. The MinAG system performs the continuous data classification task and mines water and soil physico-chemical datasets. The patterns discovered by mining the attributes are presented using the IF-THEN rule format. It makes it easier to understand the information discovered. Some requirements and restrictions related to the dataset features were defined in order to use the system. MinAG adopts the grid computing concept in order to produce more and better results. By the evaluation system, it was possible to conclude that it is able to perform the proposed tasks and produces correct results when mining the datasets. Therefore, the system reached the thesis goals. Two case studies were performed. In the first one, a Brazilian dataset related to soil physico-chemical properties was used. The data was obtained in Campos Novos Paulista - SP by Precision Agriculture equipment. In the second case study, a Florida - USA water quality dataset was utilized. The system discovered behavior patterns achieving the goals in both cases. The MinAG system presents a new way to analyse the correlation between the water and soil physico-chemical attributes. This system is not a substitute for traditional methods such as statistics. In fact, it is an auxiliary tool to generate information in order to help understand the behavior between data.
154

Recursos computacionais para auxiliar a análise da aptidão física relacionada à saúde de universitários /

Sena, Rafael Veloso da. January 2013 (has links)
Orientador: Carlos Norberto Fisher / Banca: Marcelo Tavella Navega / Banca: Alexandre Janotta Drigo / Resumo: Estudar as características relacionadas à aptidão física é um importante passo tanto para avaliar indivíduos quanto à sua saúde, em relação aos considerados padrões de normalidade, como para procurar identificar possíveis associações entre essas características. Isso possibilita propor medidas que possam ser tomadas visando melhorar variáveis relacionadas à aptidão física para a manutenção ou melhora da saúde das pessoas. Esta dissertação visou identificar associações entre características de composição corporal e resultados referentes ao desempenho em testes neuromotores e cardiorrespiratório de universitários. Os dados coletados foram analisados usando recursos e técnicas computacionais, no caso, Banco de Dados e Mineração de Dados. Foram identificadas associações relevantes entre as próprias características de composição corporal e delas com os desempenhos nos testes realizados. Algumas associações mostraram valores altos para a Confiança, métrica usada nesta dissertação. Os resultados das análises permitiram descrever o perfil do grupo analisado. Considerando este perfil, foi construído um aplicativo computacional que compara dados de um indivíduo com valores de variáveis referentes ao perfil e mostra a situação do mesmo em relação a este perfil. O aplicativo também mostra como aquele indivíduo se encontra em relação a tabelas padrão conhecidas / Abstract: The study of the characteristics related to physical fitness is an important step to evaluate individuals according to their health, based on the considered standards of normality. It is also important to try to identify associations between these characteristics in order to try to propose ways to improve the variables related to physical fitness to maintain or improve people health. This work was aimed to identify associations between body composition and results from neuromotor and cardiopulmonary tests of university students. The results were analyzed using Database and Data Mining techniques. Important associations were identified amongst body composition characteristics and amongst them and the test results. Some associations showed high values to Confidence, the metric used in this study. Based on the analysis results, it was possible to describe the profile of the analyzed group and, based on this profile, develop a computational system that compares data of a person with values of a specific profile and shows his/her situation with regard to that profile. The application also show the comparison of a person data with known reference tables / Mestre
155

Identificação de padrões para a análise da evasão em cursos de graduação usando mineração de dados educacionais / Pattern identification for dropout analysis in undergraduate courses usinge educational data mining

Oliveira Júnior, José Gonçalves de 08 December 2015 (has links)
A mineração de dados educacionais é uma área recente de pesquisa que está ganhando popularidade por causa de seus potenciais para as instituições de ensino. Um dos desafios dessas instituições é a redução da evasão escolar. A evasão no ensino superior é um fenômeno em crescimento e tornou-se foco de preocupação para pesquisadores de diferentes áreas. Entretanto, as características da evasão ainda são pouco estudadas e há carência de informações e modelos de identificação dos seus motivos. Esta pesquisa propõe uma abordagem computacional para a identificação de padrões a serem utilizados na análise da evasão de estudantes em cursos presenciais de graduação, a fim de auxiliar os tomadores de decisão das instituições de ensino. Propõe-se um método para seleção dos melhores atributos para tarefa de classificação, que considera as classes “haverá evasão” e “não haverá evasão”, baseado na seleção e criação de atributos. Os experimentos foram realizados com dados de alunos da Universidade Tecnológica Federal do Paraná, consolidados em um Data Warehouse, que permitiu investigar a evasão entre os anos de 1980 e 2014. Nesta pesquisa são abordados os problemas mais comuns que ocorrem na mineração de dados educacionais, como a seleção do subconjunto de atributos, dados desbalanceados, valores discrepantes e sobreajuste. Os resultados experimentais apresentam os atributos mais relevantes a previsão da evasão, indicando a contribuição da criação de atributos na tarefa de mineração de dados, permitindo com estas inferências apoiar a tomada de decisão pelos gestores educacionais situados nos níveis estratégico, tático e operacional. / Educational data mining is a recent research area that is gaining popularity because of their potential for educational institutions. One of the challenges of these institutions is to reduce the course dropout. The dropout in higher education is a phenomenon in growth and has become the focus of concern for researchers from different areas. However, the avoidance features are poorly studied and there is a lack of information and identification of models of their motives. This research proposes a computational approach for identifying patterns to be used in the analysis of dropout students in undergraduate classroom courses, in order to assist decision-makers in educational institutions. The proposed method selects the best attributes for classification task, in which the classes “dropout” and “non-dropout” are considered, based on the feature subset selection and feature creation. The experiments were conducted with the undergraduate students’ data at the Federal University of Technology - Paraná, consolidated in a Data Warehouse, that allowed the dropout investigation between the years 1980 and 2014. In this research are discussed the most common problems that occur in educational data mining, such as feature subset selection, unbalanced data, outliers and overfitting. The experimental results show the most relevant attributes to dropout prediction, indicating the contribution of the feature creation in the data mining task, allowing with these inferences to support the decision-making by educational managers located in strategic, tactical and operational levels.
156

Estimativa de desempenho acadêmico de estudantes em um AVA utilizando técnicas de mineração de dados

Gottardo, Ernani 04 December 2012 (has links)
Alguns ambientes educacionais têm incorporado softwares que são utilizados como apoio ou, em alguns casos, como condição básica para a disponibilização de cursos. Neste cenário, destacam-se os Ambientes Virtuais de Aprendizagem (AVA) usados para apoiar o desenvolvimento de cursos presenciais, semipresenciais e a distância. Os AVA caracterizam-se por armazenar um grande volume de dados. Contudo, esses ambientes carecem de ferramentas que permitam extrair informações úteis para o desenvolvimento de processos de acompanhamento eficiente dos estudantes. Diante disso, esta pesquisa investiga como os dados armazenados em um AVA poderiam ser processados para geração de informações relacionadas a estimativas de desempenho acadêmico futuro de estudantes. Para obter essas informações, primeiramente fez-se necessário a seleção de um conjunto de atributos para representar estudantes em um curso a distância (EAD) utilizando um AVA. O conjunto de atributos foi escolhido considerando-se três dimensões, selecionadas partir da análise de referências teóricas da literatura sobre cursos EAD: perfil de uso do AVA, interação estudante-estudante e interação bidirecional estudante-professor. Aplicando-se técnicas de mineração de dados sobre o conjunto de atributos selecionados, foi possível então a obter estimativas sobre o desempenho futuro de estudantes. Essas estimativas poderiam apoiar o desenvolvimento de processos de acompanhamento efetivo dos estudantes, atividade de fundamental importância em cursos EAD. Neste trabalho, um estudo com sete experimentos foram realizados e apresentam diferentes cenários em que as estimativas sobre o desempenho podem ser obtidas. Os resultados desses experimentos apontam para a viabilidade desta proposta, tendo em vista os índices promissores de acurácia obtidos na classificação de estudantes quanto ao seu desempenho final nos cursos. / Some educational environments have incorporated software to support or, in some cases, as a basic condition to the availability of courses. In this scenario, stand out Learning Management Systems (LMS) used to support the development of classroom, blended or distance courses. Learning Management System are characterized by storing a large volume of data. However, these environments lack tools to extract useful information for the development of efficient processes for monitoring students’. Thus, this research investigates how data stored in a LMS could be processed to generate information regarding estimates of students’ future academic performance. To obtain this information, first became necessary to select a set of attributes to represent students in an online course using a LMS. This set of attributes was chosen considering three dimensions, selected through the analysis of theoretical bases about online courses: LMS use profile, student-student interaction and bidirectional student-teacher interaction. Applying data mining techniques on the set of selected attributes, it was possible to obtain estimates of students’ future performance. These estimates can support the development of effective processes for monitoring students, activity of fundamental importance in distance learning. In this research, a study with seven experiments were conducted and present different scenarios where estimates of performance can be obtained. The results of these experiments indicate the viability of this proposal, given the promising accuracy rates obtained in the classification of students regarding their final performance in courses.
157

Previsão do índice de desenvolvimento humano e da expectativa de vida na América Latina por meio de técnicas de mineração de dados / Prediction of the human development index and life expectancy in Latin American using data mining techniques

Santos, Celso Bilynkievycz dos 22 December 2016 (has links)
A previsibilidade de indicadores de qualidade de vida pode contribuir na projeção de variáveis dependentes, auxiliar em tomadas de decisões para sustentar ou não políticas públicas e justificar o cenário vivido pelos países e o mundo. Objetivo: Prever o Índice de Desenvolvimento Humano (IDH) e a expectativa de vida (EV) nos países latino-americanos no período de 2015 a 2020, utilizando técnicas de Mineração de Dados. Metodologia: Foram percorridas as etapas do processo Descoberta de Conhecimento em Base Dados (DCBD). Durante a etapa de DCBD de Mineração de Dados, foi avaliado o desempenho de diferentes algoritmos com paradigma de aprendizado baseados em funções. A partir do algoritmo com melhor desempenho, foram desenvolvidos 748 modelos de previsão univariados e dois multivariados para previsão do IDH de 187 países do mundo e seus resultados, comparados com os últimos relatórios do United Nations Development Programme (UNDP), para definição do modelo mais eficiente. Os resultados desses testes de previsões ainda foram comparados com 44 modelos univariados Autoregressive Integrated Moving Average (ARIMA). A partir da definição do melhor algoritmo de Mineração de Dados e modelo, fez-se a previsão do IDH e da EV para os países da America Latina para o período de 2015 a 2020. Resultados: O algoritmo SMOReg e os modelos multivariados apresentaram melhor desempenho nos testes desenvolvidos durante o experimento. As médias de crescimento do IDH e EV previstas para os países latino-americanos tendem a aumentar no período analisado, respectivamente, 4,99±3,90 % e 2,47±0,09 anos. Conclusão: Experiências multivariadas possibilitam maior aprendizagem dos algoritmos, aumentando sua precisão. As técnicas de Mineração de Dados apresentaram melhor qualidade nas previsões em relação à técnica mais popular, ARIMA. As previsões sugerem média de crescimento do IDH e EV dos países latino-americanos maiores que a média mundial. / The predictability of quality of life indicators can contribute to the projection of dependent variables, help decision-making processes to support public policies and justify the scenario experienced by the countries and the world. Aim: This study aimed to predict the Human Development Index (HDI) and life expectancy (LE) in Latin American countries in the period of 2015–2020 using data mining techniques. Methodology: The study followed the steps of Knowledge Discovery in Database (KDD) processes. During the data mining KDD step, the performance of different algorithms with function-based learning paradigms was analyzed. From the algorithm with the best performance, 748 prediction models of univariate and two multivariate were developed to predict the HDI of 187 countries and their results were compared with the last reports from the United Nations Development Program (UNDP) in order to define the most efficient model. The results of these prediction tests were compared with 44 univariate Autoregressive Integrated Moving Average (ARIMA) models. From the definition of the best algorithm of data mining and model, the prediction of HDI and LE for Latin American countries from 2015 and 2020 was done. Results: The SMOReg algorithm and the multivariate models presented the best performance in the tests during the experiment. The average growth in HDI and LE predicted for Latin American countries tend to increase in the period analyzed, 4.99±3.90 % and 2.47±0.09 years, respectively. Conclusion: Multivariate experiences allow better learning of algorithms, increasing their prediction. Mining data techniques present better quality in the predictions compared to Autoregressive Integrated Moving Average (ARIMA), which is the most popular technique. The predictions suggest an average growth in HDI and LE in Latin American countries compared to the world average.
158

Identificação e propagação de temas em redes sociais

Klinczak, Marjori Naiele Mocelin 24 August 2016 (has links)
Os últimos anos foram marcados pelo surgimento de diversas mídias sociais, desde o Orkut até o Facebook, assim como Twitter, Youtube, Google+ e tantos outros: cada um oferece novas funcionalidades como forma de atrair um maior número de usuários. Essas mídias sociais geram uma grande quantidade de dados, que se devidamente processados podem ser utilizados para se identificar tendências, padrões e mudanças. O objetivo deste trabalho é a descoberta dos principais temas abordados em uma rede social, caracterizados como agrupamentos de termos relevantes, restritos a determinado contexto e o estudo de sua evolução ao longo do tempo. Para tanto serão utilizados procedimentos fundamentados em Mineração de Dados e no Processamento de Textos. Em um primeiro momento são utilizadas técnicas de pré-processamento de textos com o objetivo de identificar os termos mais relevantes que aparecem nas mensagens textuais da rede social. Em seguida utilizam-se algoritmos clássicos de agrupamento - k-means, k-medoids, DBSCAN - e o recente NMF (Non-negative Matrix Factorization), para a identificação dos temas principais destas mensagens, caracterizados como agrupamentos de termos relevantes. A proposta foi avaliada sobre a rede Twitter, utilizando-se bases de tweets considerando diversos contextos. Os resultados obtidos evidenciam a viabilidade da proposta e sua aplicação na identificação de temas relevantes desta rede social. / Recent years have been marked by the emergence of various social media, from Orkut to Facebook, and Twitter, Youtube, Google+ and many others: each offers new features as a way to attract more users. These social media generate a large amount of data which is processed properly can be used to identify trends, patterns and changes. The objective of this work is the discovery of the key topics in a social network, characterized as relevant terms groupings, restricted to a particular context and the study of its evolution over time. For that will be used procedures based on Data Mining and Text Processing. At first techniques are used preprocessing of texts in order to identify the most relevant terms that appear in the text messages from the social network. Next are used grouping of classical algorithms - k-means, k-medoids, DBSCAN - and the recent NMF (Non-negative Matrix Factorization), to identify the main themes of these messages, characterized as relevant terms groupings. The proposal was evaluated on the Twitter network, using bases tweets considering different contexts. The results show the feasibility of the proposal and its application in the identification of relevant topics of this social network
159

Utilizando técnicas de mineração de dados para apoiar a busca ativa de famílias em situação de vulnerabilidade e risco social / Using data mining techniques to support active search for families in situations of social risk and vulnerability

Terrin, Marcos Alexandre Pastori 18 August 2015 (has links)
No âmbito da Assistência Social, existe a necessidade de se identificar as famílias em situação de vulnerabilidade e risco social, processo esse chamado de “Busca Ativa”, para que as famílias nesta situação possam ser assistidas adequadamente. O Ministério do Desenvolvimento Social e Combate à Fome do Brasil orienta que seja realizado o cruzamento de bases de dados como forma de realizar a Busca Ativa, mas não disponibiliza nenhuma ferramenta para realização desse processo. Este trabalho busca identificar e aplicar técnicas de mineração de dados para apoiar a identificação das famílias em situação de vulnerabilidade e risco social. Os resultados obtidos em experimentos preliminares demonstraram que na maioria dos casos os modelos gerados preveem sempre a classe majoritária. Após realizar um balanceamento manual das classes removendo algumas amostras os experimentos foram repetidos e indicaram que os resultados estavam sendo diretamente afetados devido ao desbalanceamento das classes. Por esse motivo foram utilizados diversos métodos específicos para realizar o balanceamento das amostras a fim de que todas as classes possuíssem a mesma quantidade de amostras. Após realizar o balanceamento das amostras novos experimentos foram realizados. Durante a análise dos resultados foi observado que com as medidas padrões de avaliação de aprendizado de máquina não estava sendo possível identificar qual método havia obtido o melhor resultado. Em função disso um método de qualidade de ranking foi utilizado juntamente com a medida Recall para avaliar os resultados. / In the current Brazilian Government there is a Social Assistance policy that is highly concerned about helping families who might be at social risk and vulnerability. The process of identification of these families is known as “active search”. The task of active search is defined in a document by the Brazilian Ministry of Social Development and Fight Against Hunger. This document provides the main guidelines about how to perform the active search. However, despite the task’s importance, there are still no tool to help the social assistants with this task. This work aim to investigate the use of data mining techniques to identify the families in vulnerability and social risk situations. The results obtained in preliminary experiments showed that the classification models created always predict the majority class. After balancing manually the datasets by removing some examples the experiments were repeated and showed that the results were being directly influenced by the imbalanced data. Because of it was used a bunch of sampling methods to produce the same amount of examples in each class. After proceed with the sampling of the examples new experiments were proceeded. During the result’s evaluation it was realized that the standard metrics used in machine learn were not being able to identify wich method obtained the best result. Due to this situation a ranking quality method was used combined with the Recall metric to evaluate the results.
160

Identificação de padrões para a análise da evasão em cursos de graduação usando mineração de dados educacionais / Pattern identification for dropout analysis in undergraduate courses usinge educational data mining

Oliveira Júnior, José Gonçalves de 08 December 2015 (has links)
A mineração de dados educacionais é uma área recente de pesquisa que está ganhando popularidade por causa de seus potenciais para as instituições de ensino. Um dos desafios dessas instituições é a redução da evasão escolar. A evasão no ensino superior é um fenômeno em crescimento e tornou-se foco de preocupação para pesquisadores de diferentes áreas. Entretanto, as características da evasão ainda são pouco estudadas e há carência de informações e modelos de identificação dos seus motivos. Esta pesquisa propõe uma abordagem computacional para a identificação de padrões a serem utilizados na análise da evasão de estudantes em cursos presenciais de graduação, a fim de auxiliar os tomadores de decisão das instituições de ensino. Propõe-se um método para seleção dos melhores atributos para tarefa de classificação, que considera as classes “haverá evasão” e “não haverá evasão”, baseado na seleção e criação de atributos. Os experimentos foram realizados com dados de alunos da Universidade Tecnológica Federal do Paraná, consolidados em um Data Warehouse, que permitiu investigar a evasão entre os anos de 1980 e 2014. Nesta pesquisa são abordados os problemas mais comuns que ocorrem na mineração de dados educacionais, como a seleção do subconjunto de atributos, dados desbalanceados, valores discrepantes e sobreajuste. Os resultados experimentais apresentam os atributos mais relevantes a previsão da evasão, indicando a contribuição da criação de atributos na tarefa de mineração de dados, permitindo com estas inferências apoiar a tomada de decisão pelos gestores educacionais situados nos níveis estratégico, tático e operacional. / Educational data mining is a recent research area that is gaining popularity because of their potential for educational institutions. One of the challenges of these institutions is to reduce the course dropout. The dropout in higher education is a phenomenon in growth and has become the focus of concern for researchers from different areas. However, the avoidance features are poorly studied and there is a lack of information and identification of models of their motives. This research proposes a computational approach for identifying patterns to be used in the analysis of dropout students in undergraduate classroom courses, in order to assist decision-makers in educational institutions. The proposed method selects the best attributes for classification task, in which the classes “dropout” and “non-dropout” are considered, based on the feature subset selection and feature creation. The experiments were conducted with the undergraduate students’ data at the Federal University of Technology - Paraná, consolidated in a Data Warehouse, that allowed the dropout investigation between the years 1980 and 2014. In this research are discussed the most common problems that occur in educational data mining, such as feature subset selection, unbalanced data, outliers and overfitting. The experimental results show the most relevant attributes to dropout prediction, indicating the contribution of the feature creation in the data mining task, allowing with these inferences to support the decision-making by educational managers located in strategic, tactical and operational levels.

Page generated in 0.1379 seconds