• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • 1
  • Tagged with
  • 11
  • 11
  • 7
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Solução de auxílio ao diagnóstico e à pesquisa médica baseada em mineração de dados utilizando interface android

Chimieski, Bruno Fernandes January 2013 (has links)
Made available in DSpace on 2013-08-07T18:53:29Z (GMT). No. of bitstreams: 1 000445055-Texto+Completo-0.pdf: 5786647 bytes, checksum: cdcdc51bf8f86cf0c8bce837ef82e984 (MD5) Previous issue date: 2013 / Since the primary studies on the applications of Information Technology aiming to add value to other areas of knowledge, the playing eld of medicine has always been seen as fertile ground for such. With the advent of Arti cial Intelligence techniques, computer programs have been given a power of learning more sophisticated and thus opening the possibility of its use beyond the hospital administrative processes, drawing ever closer to the provision of patient care. Therefore, this paper proposes to demonstrate the feasibility of an aid to medical diagnosis and obtaining implicit knowledge in databases of three diseases: breast cancer, dermatology and vertebral column problems. To do so, is applied the process of extracting knowledge from databases in order to achieve these goals. This process has Data Mining as its core, which in turn relies on machine learning algorithms to transform data, sometimes not analyzed, in useful information for business referred to, in this case about health care. Therefore, this work presents a study aided by the tool Weka, to determine which machine learning algorithms perform best when applied to target databases. With these algorithms in hand, is implemented a solution to aid the diagnosis and study of medical applications making use of Android as interface for healthcare professionals, with it, utilizing what is most modern in terms of mobile electronic devices in the world market. The results were quite satisfactory, given that the objectives for the study on the determination of Data Mining algorithms, preparation of databases for future research and implementation of the solution for the diagnosis have been met and, together, prove that you can apply tools of information technology to add value to medical practice. / Desde os estudos primordiais sobre as aplicações da Tecnologia da Informação objetivando agregar valor a outras areas do conhecimento, o campo de atuação da Medicina sempre foi visto como terreno fértil para tal. Com o advento das técnicas de Inteligência Artificial, os programas de computador passaram a ter um poderio de aprendizagem mais sofisticado e, portanto, abrindo a possibilidade da sua utilização além dos processos administrativos hospitalares, chegando cada vez mais próximo da prestação de cuidados aos pacientes. Por isso, a presente dissertação propõe-se a demonstrar a viabilidade de uma solução de auxílio ao diagnóstico médico e a obtenção de conhecimento implícito em bases de dados de três doenças: tumor de mama, problemas dermatológicos e da coluna vertebral. Para tanto, aplica-se o processo de extração de conhecimento de bases de dados afim de atingir esses objetivos. Esse processo tem como cerne o uso da Mineração de Dados, que por sua vez, apoia-se nos algoritmos de aprendizado de máquina para transformar dados em informações úteis para os negócios a que se referem. Por isso, esse trabalho apresenta um estudo, auxiliado pela ferramenta Weka, para a determinação de quais os algoritmos de aprendizado de máquina apresentam melhor desempenho quando aplicados as bases de dados alvo .Com esses algoritmos em mãos, implementou-se uma solução de auxilio ao diagnóstico e estudo médico fazendo uso de aplicativos Android como interface de utilização para os profissionais de saúde, com isso, utilizando o que há de mais moderno em termos de dispositivos eletrônicos móveis no mercado mundial. Os resultados foram bastante satisfatórios, dado que os objetivos traçados referentes ao estudo sobre a determinação de algoritmos de Mineração de Dados, a preparação das bases de dados para futuras pesquisas e a implementação da solução de auxílio ao diagnóstico foram atingidos e, em conjunto, comprovam que e possível aplicar ferramentas da Tecnologia da Informação para agregar valor a prática médica.
2

RecRoute: Um Sistema de Recomendação de Rotas de Ônibus Baseado em Informações Contextuais dos Usuários

Tito, Adriano de Oliveira 23 August 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-09T14:10:24Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação Adriano Tito.pdf: 3370866 bytes, checksum: fafacaf4a32455e59fa2cd1eac5524cd (MD5) / Made available in DSpace on 2015-03-09T14:10:24Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação Adriano Tito.pdf: 3370866 bytes, checksum: fafacaf4a32455e59fa2cd1eac5524cd (MD5) Previous issue date: 2013-08-23 / Nas últimas décadas, o trânsito em cidades de médio e grande porte, bem como os transtornos causados direta ou indiretamente por este, tem se tornado um problema crescente no cotidiano de qualquer cidadão. Isto tem contribuído para a ineficiência do transporte público, onde uma das principais barreiras é a ausência de informações aos usuários. Em tempos onde soluções tecnológicas para tarefas diárias estão sendo amplamente disponibilizadas, surgem como uma possível solução os Sistemas de Informação ao Usuário do transporte coletivo, que têm por finalidade fornecer informações aos passageiros e apoiar suas decisões. A maioria dos sistemas com esse propósito utiliza informações estáticas ou auxiliadas por transmissores GPS instalados nos veículos. Este trabalho tem por objetivo desenvolver um sistema de recomendação de rotas de transporte público por ônibus, denominado RecRoute, que considera informações contextuais dos usuários, condições climáticas, temporais e do trânsito para recomendar rotas de ônibus aos passageiros, apoiando-os em suas tomadas de decisão. No experimento realizado com o RecRoute os resultados gerados pelas recomendações foram bem avaliados pelos participantes. Sendo assim, espera-se prover informações de grande relevância para os usuários de transporte coletivo urbano, melhorando a qualidade do transporte público por ônibus e incentivando o uso deste tipo de meio de transporte.
3

Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data

Alves, Melina Brilhadori January 2017 (has links)
Orientadora: Profa. Dra. Patrícia Belfiore Fávero / Coorientador: Prof. Dr. Marcelo de Souza Lauretto / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2017. / Big data trouxe vários desafios para os conceitos dos algoritmos de mineração de dados, a iniciar pelas limitações de memória e tempo, bem como dados de natureza e distribuição com variação constante. Essa massa de dados interessa públicos diversos pelas informações intrínsecas em seu interior e a análise de dados é uma importante fonte estratégica aplicada com objetivos de conhecimento, desenvolvimento e planejamento. Nos últimos anos, diversos métodos baseados em ensembles de classificadores têm sido propostos. Nesses métodos, a idéia central é construir vários classificadores "fracos" para formar um classificador "robusto", que utiliza como convergência a soma (ponderada) dos votos dos subclassificadores nas possíveis classes. Os objetivos deste trabalho foram realizar análises comparativas de desempenho de classificadores de Big Data das famílias de árvores de classificação quando combinados na forma de ensembles (ou metaclassificadores) bagging e boosting. Foi implementado um ambiente de testes, utilizando algoritmos de árvores de classificação sobre datasets públicos a fim de verificar três itens fundamentais: a . Para um certo algoritmo de classificação, a configuração de ensemble (entre Bagging e Boosting) que resulta em maior acurácia. b . Para um certo tipo de ensemble, o melhor algoritmo de classificação. c . A possibilidade de identificar as famílias de Big Data (agrupado segundo um conjunto de características) em que cada tipo de classificador possui melhor desempenho. Os resultados indicaram que o ensemble Boosting apresenta acurácia superior para um número maior das amostras testadas em comparação com os demais algoritmos abordados. Entre os classificadores, sugere-se que representantes de árvores de decisão são suscetíveis à escolha do método de ensemble e, principalmente, da amostra. A análise da aplicação dos ensembles sobre as amostras e as características dos conjuntos exibiu resultados muito variáveis, entretanto notou-se uma melhoria de desempenho quando a classificação é binária. / Big data has brought several challenges to the concepts of data mining algorithms, starting with the limitations of memory and time, as well as data of nature and distribution with constant variation. This mass of data interests diverse publics by the intrinsic information inside and the data analysis is an important strategic source applied with objectives of knowledge, development and planning. In recent years, several methods based on ensembles of classifiers have been proposed. In those methods, the central idea is to construct several "weak" classifiers to form a "robust" classifier, which uses as a convergence the (weighted) sum of the subclassifier¿s votes in the possible classes. The objectives of this work were to perform comparative performance analysis of Big Data classifiers of the classification tree families when combined in the form of bagging and boosting ensembles (or metaclassifiers). A test environment was implemented using classification tree algorithms on public datasets in order to verify three fundamental items: a . For a certain classification algorithm, the ensemble configuration (between Bagging and Boosting) results in greater accuracy. b . For a certain type of ensemble, the best classification algorithm. c . The possibility of identifying Big Data families (grouped according to a set of characteristics) in which each type of classifier performs better. The results indicated that the Boosting ensemble presents superior accuracy for a larger number of samples tested in comparison to the other algorithms. Among the classifiers, it is suggested that representatives of decisions trees are susceptible to the choice of the ensemble method and, mainly, of the sample. The ensembles application analysis on the samples and the characteristics of the sets showed very variable results, however a performance improvement was noticed when the classification was binary.
4

Uma investigação do uso de características na tetecção de URLs

Bezerra, Maria Azevedo 11 September 2015 (has links)
Submitted by Geyciane Santos (geyciane_thamires@hotmail.com) on 2015-12-02T21:31:19Z No. of bitstreams: 1 Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-12-03T19:17:32Z (GMT) No. of bitstreams: 1 Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-12-03T19:24:08Z (GMT) No. of bitstreams: 1 Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) / Made available in DSpace on 2015-12-03T19:24:08Z (GMT). No. of bitstreams: 1 Dissertação - Maria Azevedo Bezerra.pdf: 3338616 bytes, checksum: fc58f97452c2e63faf03817434866ec3 (MD5) Previous issue date: 2015-09-11 / Não Informada / Malicious URLs have become a channel for criminal activities on the Internet, such as spam and phishing. Current solutions for validation and verification of malicious URLs are considered or are believed to be accurate, with well-adjusted results. However, is it really possible or feasible to obtain 100% of accuracy in these solutions? This work describes a simple and direct investigation of features, bases and URL formats, aiming to show that the results of validation and verification URLs are highly dependent on certain aspects/factors. The idea is to extract URL features (lexical, DNS and others) for obtain the maximum information from the URLs and employ machine learning algorithms to question their influence throughout the process. In order to prove this idea, were created four hypotheses that showed that it is possible to disagree with the results of several studies from the literature. / URLs maliciosas tornaram-se um canal para atividades criminosas na Internet, como spam e phishing. As atuais soluções para validação e verificação de URLs maliciosas se consideram ou são consideradas precisas, com resultados bem ajustados. Contudo, será que realmente é possível ou factível se obter percentuais beirando 100% de precisão nessas soluções? Neste sentido, esta dissertação descreve uma simples e direta investigação de características, bases e formatos de URLs, visando mostrar que os resultados de validação e verificação de URLs são bastante dependentes de certos aspectos/fatores. A ideia é extrair características (léxicas, DNS e outras) que permitam obter o máximo de informação das URLs e empregar algoritmos de aprendizagem de máquina para questionar a influência dessas características em todo o processo. Como forma de provar essa ideia, foram elaboramos quatro hipóteses, que ao final no trabalho, mostraram que é possível discordar do resultado de vários trabalhos já existentes na literatura.
5

Mineração de dados aplicada à classificação do risco de evasão de discentes ingressantes em instituições federais de ensino superior

AMARAL, Marcelo Gomes do 08 July 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-07-11T14:35:16Z No. of bitstreams: 3 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) projeto_v26016.pdf: 1271790 bytes, checksum: f724d8523f2ffdb11ce599aff1eb8eb6 (MD5) projeto_v26016.pdf: 1271790 bytes, checksum: f724d8523f2ffdb11ce599aff1eb8eb6 (MD5) / Made available in DSpace on 2017-07-11T14:35:16Z (GMT). No. of bitstreams: 3 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) projeto_v26016.pdf: 1271790 bytes, checksum: f724d8523f2ffdb11ce599aff1eb8eb6 (MD5) projeto_v26016.pdf: 1271790 bytes, checksum: f724d8523f2ffdb11ce599aff1eb8eb6 (MD5) Previous issue date: 2016-07-08 / As Instituições Federais de Ensino Superior (IFES) possuem um importante papel no desenvolvimento social e econômico do país, contribuindo para o avanço tecnológico e cientifico e fomentando investimentos. Nesse sentido, entende-se que um melhor aproveitamento dos recursos educacionais ofertados pelas IFES contribui para a evolução da educação superior, como um todo. Uma maneira eficaz de atender esta necessidade é analisar o perfil dos estudantes ingressos e procurar prever, com antecedência, casos indesejáveis de evasão que, quanto mais cedo identificados, melhor poderão ser estudados e tratados pela administração. Neste trabalho, propõe-se a definição de uma abordagem para aplicação de técnicas diretas de Mineração de Dados objetivando a classificação dos discentes ingressos de acordo com o risco de evasão que apresentam. Como prova de conceito, a análise dos aspectos inerentes ao processo de Mineração de Dados proposto se deu por meio de experimentações conduzidas no ambiente da Universidade Federal de Pernambuco (UFPE). Para alguns dos algoritmos classificadores, foi possível obter uma acurácia de classificação de 73,9%, utilizando apenas dados socioeconômicos disponíveis quando do ingresso do discente na instituição, sem a utilização de nenhum dado dependente do histórico acadêmico. / The Brazilian's Federal Institutions of Higher Education have an important role in the social and economic development of the country, contributing to the technological and scientific advances and encouraging investments. Therefore, it is possible to infer that a better use of the educational resources offered by those institutions contributes to the evolution of higher education as a whole. An effective way to meet this need is to analyze the profile of the freshmen students and try to predict, as soon as possible, undesirable cases of dropout that when earlier identified can be examined and addressed by the institution's administration. This work propose the development of a approach for direct application of Data Mining techniques to classify newcomer students according to their dropout risk. As a viability proof, the proposed Data Mining approach was evaluated through experimentations conducted in the Federal University of Pernambuco. Some of the classification algorithms tested had an classification accuracy of 73.9% using only socioeconomic data available since the student's admission to the institution, without the use of any academic related data.
6

Análise temporal da sinalização elétrica em plantas de soja submetidas a diferentes perturbações externas / Temporal analysis of electrical signaling in soybean plants subjected to different external disturbances

Saraiva, Gustavo Francisco Rosalin 31 March 2017 (has links)
Submitted by Michele Mologni (mologni@unoeste.br) on 2018-07-27T17:57:40Z No. of bitstreams: 1 Gustavo Francisco Rosalin Saraiva.pdf: 5041218 bytes, checksum: 30127a7816b12d3bd7e57182e6229bc2 (MD5) / Made available in DSpace on 2018-07-27T17:57:40Z (GMT). No. of bitstreams: 1 Gustavo Francisco Rosalin Saraiva.pdf: 5041218 bytes, checksum: 30127a7816b12d3bd7e57182e6229bc2 (MD5) Previous issue date: 2017-03-31 / Plants are complex organisms with dynamic processes that, due to their sessile way of life, are influenced by environmental conditions at all times. Plants can accurately perceive and respond to different environmental stimuli intelligently, but this requires a complex and efficient signaling system. Electrical signaling in plants has been known for a long time, but has recently gained prominence with the understanding of the physiological processes of plants. The objective of this thesis was to test the following hypotheses: temporal series of data obtained from electrical signaling of plants have non-random information, with dynamic and oscillatory pattern, such dynamics being affected by environmental stimuli and that there are specific patterns in responses to stimuli. In a controlled environment, stressful environmental stimuli were applied in soybean plants, and the electrical signaling data were collected before and after the application of the stimulus. The time series obtained were analyzed using statistical and computational tools to determine Frequency Spectrum (FFT), Autocorrelation of Values and Approximate Entropy (ApEn). In order to verify the existence of patterns in the series, classification algorithms from the area of machine learning were used. The analysis of the time series showed that the electrical signals collected from plants presented oscillatory dynamics with frequency distribution pattern in power law. The results allow to differentiate with great efficiency series collected before and after the application of the stimuli. The PSD and autocorrelation analyzes showed a great difference in the dynamics of the electric signals before and after the application of the stimuli. The ApEn analysis showed that there was a decrease in the signal complexity after the application of the stimuli. The classification algorithms reached significant values in the accuracy of pattern detection and classification of the time series, showing that there are mathematical patterns in the different electrical responses of the plants. It is concluded that the time series of bioelectrical signals of plants contain discriminant information. The signals have oscillatory dynamics, having their properties altered by environmental stimuli. There are still mathematical patterns built into plant responses to specific stimuli. / As plantas são organismos complexos com processos dinâmicos que, devido ao seu modo séssil de vida, sofrem influência das condições ambientais todo o tempo. Plantas podem percebem e responder com precisão a diferentes estímulos ambientais de forma inteligente, mas para isso se faz necessário um complexo e eficiente sistema de sinalização. A sinalização elétrica em plantas já é conhecida há muito tempo, mas vem ganhando destaque recentemente com seu entendimento em relação aos processos fisiológicos das plantas. O objetivo desta tese foi testar as seguintes hipóteses: séries temporais de dados obtidos da sinalização elétrica de plantas possuem informação não aleatória, com padrão dinâmico e oscilatório, sendo tal dinâmica afetada por estímulos ambientais e que há padrões específicos nas respostas a estímulos. Em ambiente controlado, foram aplicados estímulos ambientais estressantes em plantas de soja, e captados os dados de sinalização elétrica antes e após a aplicação dos mesmos. As séries temporais obtidas foram analisadas utilizando ferramentas estatísticas e computacionais para se determinar o Espectro de Frequências (FFT), Autocorrelação dos valores e Entropia Aproximada (ApEn). Para se verificar a existência de padrões nas séries, foram utilizados algoritmos de classificação da área de aprendizado de máquina. A análise das séries temporais mostrou que os sinais elétricos coletados de plantas apresentaram dinâmica oscilatória com padrão de distribuição de frequências em lei de potência. Os resultados permitem diferenciar com grande eficácia séries coletadas antes e após a aplicação dos estímulos. As análises de PSD e autocorrelação mostraram grande diferença na dinâmica dos sinais elétricos antes e após a aplicação dos estímulos. A análise de ApEn mostrou haver diminuição da complexidade do sinal após a aplicação dos estímulos. Os algoritmos de classificação alcançaram valores significativos na acurácia de detecção de padrões e classificação das séries temporais, mostrando haver padrões matemáticos nas diferentes respostas elétricas das plantas. Conclui-se que as séries temporais de sinais bioelétricos de plantas possuem informação discriminante. Os sinais possuem dinâmica oscilatória, tendo suas propriedades alteradas por estímulos ambientais. Há ainda padrões matemáticos embutidos nas respostas da planta a estímulos específicos.
7

Uma comparação da aplicação de métodos computacionais de classificação de dados aplicados ao consumo de cinema no Brasil / A comparison of the application of data classification computational methods to the consumption of film at theaters in Brazil

Nieuwenhoff, Nathalia 13 April 2017 (has links)
As técnicas computacionais de aprendizagem de máquina para classificação ou categorização de dados estão sendo cada vez mais utilizadas no contexto de extração de informações ou padrões em bases de dados volumosas em variadas áreas de aplicação. Em paralelo, a aplicação destes métodos computacionais para identificação de padrões, bem como a classificação de dados relacionados ao consumo dos bens de informação é considerada uma tarefa complexa, visto que tais padrões de decisão do consumo estão relacionados com as preferências dos indivíduos e dependem de uma composição de características individuais, variáveis culturais, econômicas e sociais segregadas e agrupadas, além de ser um tópico pouco explorado no mercado brasileiro. Neste contexto, este trabalho realizou o estudo experimental a partir da aplicação do processo de Descoberta do conhecimento (KDD), o que inclui as etapas de seleção e Mineração de Dados, para um problema de classificação binária, indivíduos brasileiros que consomem e não consomem um bem de informação, filmes em salas de cinema, a partir dos dados obtidos na Pesquisa de Orçamento Familiar (POF) 2008-2009, pelo Instituto Brasileiro de Geografia e Estatística (IBGE). O estudo experimental resultou em uma análise comparativa da aplicação de duas técnicas de aprendizagem de máquina para classificação de dados, baseadas em aprendizado supervisionado, sendo estas Naïve Bayes (NB) e Support Vector Machine (SVM). Inicialmente, a revisão sistemática realizada com o objetivo de identificar estudos relacionados a aplicação de técnicas computacionais de aprendizado de máquina para classificação e identificação de padrões de consumo indica que a utilização destas técnicas neste contexto não é um tópico de pesquisa maduro e desenvolvido, visto que não foi abordado em nenhum dos trabalhos estudados. Os resultados obtidos a partir da análise comparativa realizada entre os algoritmos sugerem que a escolha dos algoritmos de aprendizagem de máquina para Classificação de Dados está diretamente relacionada a fatores como: (i) importância das classes para o problema a ser estudado; (ii) balanceamento entre as classes; (iii) universo de atributos a serem considerados em relação a quantidade e grau de importância destes para o classificador. Adicionalmente, os atributos selecionados pelo algoritmo de seleção de variáveis Information Gain sugerem que a decisão de consumo de cultura, mais especificamente do bem de informação, filmes em cinema, está fortemente relacionada a aspectos dos indivíduos relacionados a renda, nível de educação, bem como suas preferências por bens culturais / Machine learning techniques for data classification or categorization are increasingly being used for extracting information or patterns from volumous databases in various application areas. Simultaneously, the application of these computational methods to identify patterns, as well as data classification related to the consumption of information goods is considered a complex task, since such decision consumption paterns are related to the preferences of individuals and depend on a composition of individual characteristics, cultural, economic and social variables segregated and grouped, as well as being not a topic explored in the Brazilian market. In this context, this study performed an experimental study of application of the Knowledge Discovery (KDD) process, which includes data selection and data mining steps, for a binary classification problem, Brazilian individuals who consume and do not consume a information good, film at theaters in Brazil, from the microdata obtained from the Brazilian Household Budget Survey (POF), 2008-2009, performed by the Brazilian Institute of Geography and Statistics (IBGE). The experimental study resulted in a comparative analysis of the application of two machine-learning techniques for data classification, based on supervised learning, such as Naïve Bayes (NB) and Support Vector Machine (SVM). Initially, a systematic review with the objective of identifying studies related to the application of computational techniques of machine learning to classification and identification of consumption patterns indicates that the use of these techniques in this context is not a mature and developed research topic, since was not studied in any of the papers analyzed. The results obtained from the comparative analysis performed between the algorithms suggest that the choice of the machine learning algorithms for data classification is directly related to factors such as: (i) importance of the classes for the problem to be studied; (ii) balancing between classes; (iii) universe of attributes to be considered in relation to the quantity and degree of importance of these to the classifiers. In addition, the attributes selected by the Information Gain variable selection algorithm suggest that the decision to consume culture, more specifically information good, film at theaters, is directly related to aspects of individuals regarding income, educational level, as well as preferences for cultural goods
8

Uma comparação da aplicação de métodos computacionais de classificação de dados aplicados ao consumo de cinema no Brasil / A comparison of the application of data classification computational methods to the consumption of film at theaters in Brazil

Nathalia Nieuwenhoff 13 April 2017 (has links)
As técnicas computacionais de aprendizagem de máquina para classificação ou categorização de dados estão sendo cada vez mais utilizadas no contexto de extração de informações ou padrões em bases de dados volumosas em variadas áreas de aplicação. Em paralelo, a aplicação destes métodos computacionais para identificação de padrões, bem como a classificação de dados relacionados ao consumo dos bens de informação é considerada uma tarefa complexa, visto que tais padrões de decisão do consumo estão relacionados com as preferências dos indivíduos e dependem de uma composição de características individuais, variáveis culturais, econômicas e sociais segregadas e agrupadas, além de ser um tópico pouco explorado no mercado brasileiro. Neste contexto, este trabalho realizou o estudo experimental a partir da aplicação do processo de Descoberta do conhecimento (KDD), o que inclui as etapas de seleção e Mineração de Dados, para um problema de classificação binária, indivíduos brasileiros que consomem e não consomem um bem de informação, filmes em salas de cinema, a partir dos dados obtidos na Pesquisa de Orçamento Familiar (POF) 2008-2009, pelo Instituto Brasileiro de Geografia e Estatística (IBGE). O estudo experimental resultou em uma análise comparativa da aplicação de duas técnicas de aprendizagem de máquina para classificação de dados, baseadas em aprendizado supervisionado, sendo estas Naïve Bayes (NB) e Support Vector Machine (SVM). Inicialmente, a revisão sistemática realizada com o objetivo de identificar estudos relacionados a aplicação de técnicas computacionais de aprendizado de máquina para classificação e identificação de padrões de consumo indica que a utilização destas técnicas neste contexto não é um tópico de pesquisa maduro e desenvolvido, visto que não foi abordado em nenhum dos trabalhos estudados. Os resultados obtidos a partir da análise comparativa realizada entre os algoritmos sugerem que a escolha dos algoritmos de aprendizagem de máquina para Classificação de Dados está diretamente relacionada a fatores como: (i) importância das classes para o problema a ser estudado; (ii) balanceamento entre as classes; (iii) universo de atributos a serem considerados em relação a quantidade e grau de importância destes para o classificador. Adicionalmente, os atributos selecionados pelo algoritmo de seleção de variáveis Information Gain sugerem que a decisão de consumo de cultura, mais especificamente do bem de informação, filmes em cinema, está fortemente relacionada a aspectos dos indivíduos relacionados a renda, nível de educação, bem como suas preferências por bens culturais / Machine learning techniques for data classification or categorization are increasingly being used for extracting information or patterns from volumous databases in various application areas. Simultaneously, the application of these computational methods to identify patterns, as well as data classification related to the consumption of information goods is considered a complex task, since such decision consumption paterns are related to the preferences of individuals and depend on a composition of individual characteristics, cultural, economic and social variables segregated and grouped, as well as being not a topic explored in the Brazilian market. In this context, this study performed an experimental study of application of the Knowledge Discovery (KDD) process, which includes data selection and data mining steps, for a binary classification problem, Brazilian individuals who consume and do not consume a information good, film at theaters in Brazil, from the microdata obtained from the Brazilian Household Budget Survey (POF), 2008-2009, performed by the Brazilian Institute of Geography and Statistics (IBGE). The experimental study resulted in a comparative analysis of the application of two machine-learning techniques for data classification, based on supervised learning, such as Naïve Bayes (NB) and Support Vector Machine (SVM). Initially, a systematic review with the objective of identifying studies related to the application of computational techniques of machine learning to classification and identification of consumption patterns indicates that the use of these techniques in this context is not a mature and developed research topic, since was not studied in any of the papers analyzed. The results obtained from the comparative analysis performed between the algorithms suggest that the choice of the machine learning algorithms for data classification is directly related to factors such as: (i) importance of the classes for the problem to be studied; (ii) balancing between classes; (iii) universe of attributes to be considered in relation to the quantity and degree of importance of these to the classifiers. In addition, the attributes selected by the Information Gain variable selection algorithm suggest that the decision to consume culture, more specifically information good, film at theaters, is directly related to aspects of individuals regarding income, educational level, as well as preferences for cultural goods
9

Classificação supervisionada da cobertura do solo : uma abordagem aplicada em imagens de sensoriamento remoto

Barbosa, David Pereira January 2016 (has links)
Orientador: Prof. Dr. Alexandre Noma / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / A classificação supervisionada consiste em utilizar uma base de dados rotulada para avaliar o desempenho de um determinado classifcador. Mensurando tal desempenho, podemos inferir se, para o problema abordado, tal classifcador poderá ser empregado ou não. Métodos classicos de classificação utilizam um unico classifcador para a analise de um problema. Uma forma de melhorar o desempenho da classificação é empregar técnicas que misturam classifcadores, sejam com base em seus resultados ou nas caracteristicas intrinsecas que cada classicador possui. Neste trabalho, foram empregados os métodos Votação e Adaboost para combinar classifcadores e utilizando base de dados rotuladas provenientes de imagens satelitais extraídas da regi~ao da Amazonia Legal para classificar a cobertura do solo. Resultados obtidos mostraram que o algoritmo SVM por si so consegue resultados de classificação em torno dos 90% em casos gerais. Para casos especifios, a empregabilidade do Adaboost resultou em um acrescimo de, aproximadamente, 10% na taxa de acurácia para um tipo de classe em comparação o com o melhor resultado dos métodos tradicionais. / Supervised classification is based on using a labeled database to evaluate a given classifer's performance. Measuring such performance, it is possible to infer if, for the problem addressed, such a classifer can be employed or not. Classical classification methods use a single classier to analyze a problem. One way to improve classifcation's performance is to employ techniques that mix classifers, based on their results or by each classifer's intrinsic characteristics. In this paper, the methods Voting and Adaboost were used to combine classifers and using labeled data bases from satellite's images extracted from the Legal Amazon region to classify the soil cover. Results obtained showed that the SVM algorithm alone achieves classifcation results around 90 % in general cases. For specific cases, the employability of Adaboost resulted in an increase of approximately 10 % in the accuracy rate for a class type compared to the best result of the traditional methods.
10

Uma abordagem temporal para identificação precoce de estudantes de graduação a distância com risco de evasão utilizando técnicas de mineração de dados

Santos, Ramon Nóbrega dos 29 May 2015 (has links)
Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T18:37:51Z No. of bitstreams: 1 arquivototal.pdf: 2981698 bytes, checksum: 6dfa47590c870db030e7c1cbea499120 (MD5) / Made available in DSpace on 2016-02-15T18:37:51Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2981698 bytes, checksum: 6dfa47590c870db030e7c1cbea499120 (MD5) Previous issue date: 2015-05-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Through the use of data mining techniques, more usually the classification algorithms, it is possible to implement predictive models that are able to early identify a student in risk of dropout. Several studies used data obtained from a Virtual Learning Environment (VLE) to implement predictive performance models in a discipline of a course. However, any study was carried out aimed at developing a model for dropout prediction, to distance graduation courses of longer duration, which integrates works that carry out performance prediction based on a VLE, allowing an early prediction during the first semester and throughout the others semesters. Thus, this work proposes a dropout identification approach for distance graduation courses that use the Rule-Based Classification technique to firstly identify the disciplines and grades limits that have higher influence on dropout, so that the predictive models for performance in a VLE can be used regarding the dropout detection of students along the whole distance graduation course. Experiments were carried out using four rulebased classification algorithms: JRip, OneR, PART and Ridor. Considering the use of this temporal approach, it was possible to prove the advantages of this approach, once better accuracies were obtained along the semesters and important rules were discovered to early identify students in risk of dropout. Among the applied algorithms, JRip and PART obtained the best predictive results with average accuracy of 81% at the end of first semester. Furthermore, considering our proposed partition methodology, where attributes of the predictive models are incrementally applied, it was possible to discovery rules potentially useful to dropout prevention. / Com a utilização de técnicas de mineração de dados, mais comumente os algoritmos de Classificação, pode-se construir modelos preditivos capazes de identificar precocemente um estudante com risco de evasão. Diversos estudos utilizaram dados obtidos de um Ambiente Virtual de Aprendizagem (AVA) para a construção de modelos preditivos de desempenho em uma disciplina de um curso. Porém, nenhum estudo foi realizado com o objetivo de desenvolver um modelo de predição de evasão, para um curso de graduação a distância de maior duração, que integre trabalhos que fazem a predição de desempenho a partir de um AVA, possibilitando uma predição da evasão antecipada durante o primeiro semestre e ao longo dos demais semestres. Assim, este trabalho propõe uma abordagem de identificação de evasão em um curso de graduação a distância a partir da utilização da técnica de classificação baseada em regras para, primeiramente, identificar as disciplinas e os limites de notas que mais influenciam na evasão para que os modelos preditivos de desempenhos em um AVA possam ser utilizados para a predição da evasão de um aluno com risco de evasão ao longo de todo o curso de graduação a distância. Foram realizados experimentos com quatro algoritmos de classificação baseados em regras: o JRip, o OneR, o PART e o Ridor. A partir da utilização da abordagem temporal proposta foi possível comprovar sua vantagem, uma vez que foram obtidos melhores desempenhos preditivos ao longo dos semestres e foram descobertas importantes regras para a identificação precoce de um estudante com risco de evasão. Entre os algoritmos estudados, JRip e PART obtiveram os melhores desempenhos preditivos com acurácia média de 81% ao final do primeiro semestre. A partir da metodologia proposta de partições, na qual os atributos dos modelos preditivos são aplicados de forma incremental, foi possível a descoberta de regras potencialmente úteis para prevenir a evasão.

Page generated in 0.0356 seconds