• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 96
  • 21
  • 20
  • 20
  • 20
  • 17
  • 8
  • 3
  • 3
  • 3
  • 3
  • Tagged with
  • 106
  • 106
  • 51
  • 35
  • 35
  • 33
  • 24
  • 24
  • 23
  • 23
  • 22
  • 22
  • 22
  • 21
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Análise preditiva de Churn com ênfase em técnicas de Machine Learning: uma revisão

Schneider, Pedro Henrique 27 July 2016 (has links)
Submitted by Pedro Henrique Schneider (pedro.hesch@gmail.com) on 2016-09-09T15:00:58Z No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-09-26T12:55:03Z (GMT) No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-10-17T16:18:06Z (GMT) No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Made available in DSpace on 2016-10-17T16:18:27Z (GMT). No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) Previous issue date: 2016-07-27 / In the last two decades, the growth of the Internet and its associated technologies, are transforming the way of the relationship between companies and their clients. In general, the acquisition of a new customer is much more expensive for a company than the retention of a current one. Thus, customer retention studies or Churn management has become more important for companies. This study represents the review and classi cation of literature on applications of Machine Learning techniques to build predictive models of customers loss, also called Churn. The objective of this study was collecting the largest possible number of documents on the subject within the proposed methodology and classi es them as per application areas, year of publication, Machine Learning techniques applied, journals and repositories used and in uence level of the documents. And thus, bringing to the light the existing studies in this eld of activity, consolidating what is the state of the art of research in this area, and signi cantly contribute as a reference for future applications and researches in this area. Although, the study has not been the rst in the literature of Machine Learning related to the loss of customer or customer retention in the way of literature review, it was the rst, among the ones we have found, with focus on documents studying, not exclusively, loss or retention of customers by Machine Learning techniques, and without any kind of restriction. Furthermore it was the rst to classify documents by in uence, through the quotations from each document. As a nal database was collected and analyzed 80 documents, from which were found as main application areas: Telecommunications, Financial, Newspapers, Retail, among others. As per Machine Learning techniques applied, the most applied techniques founded related to the problem, were the following: Logistic Regression, Decision Tree and Neural Networks, among others. And based on the results, this kind of study is dated since 2000. / Nas últimas duas décadas, o crescimento da internet e suas tecnologias associadas, vêm transformando a forma de relacionamento entre as empresas e seus clientes. Em geral, a aquisição de um novo cliente custa muito mais caro para uma empresa que a retenção do mesmo. Desta forma, estudos de retenção de clientes, ou gerenciamento do Churn, se tornaram mais importantes para as empresas. O presente trabalho consiste na revisão e classificação da literatura sobre aplicações de técnicas com ênfase em Machine Learning para construir modelos preditivos de perda de clientes, também chamada de Churn. O objetivo do trabalho foi reunir o maior número possível de documentos sobre o assunto, dentro da metodologia proposta, e classificá-los quanto às áreas de aplicação, ano de publicação, técnicas de Machine Learning aplicadas, periódicos e repositórios utilizados, nível de influência dos documentos e desta forma trazer à luz os estudos já existentes nesse campo de atuação, consolidando o que há do estado da arte em pesquisas desta área, e de forma significativa contribuir como uma referência para futuras aplicações e pesquisas nesta área. Embora o trabalho não tenha sido o primeiro na literatura de Machine Learning relacionado a perda ou retenção de clientes na linha de revisão literária, foi o primeiro encontrado com foco em documentos que estudam, não exclusivamente, a perda ou retenção de clientes por técnicas de Machine Learning e sem nenhum tipo de restrições. Da mesma forma foi o primeiro a classificar os documentos por influência através das citações entre os documentos. Assim, como base final para o trabalho, analisou-se 80 documentos, onde foram encontradas como principais áreas de aplicação: Telecomunicações, Financeiras, Jornais, Varejo entre outras. Constataram-se como técnicas de Machine Learning mais utilizadas para o problema em questão: Regressão Logística, Árvores de Decisão e Redes Neurais, entre outras. E ainda, de acordo com os resultados obtidos, notou-se que ano 2000 tende a ser um marco para esta pesquisa, pois foi a data mais antiga para a qual foi encontrado um artigo nesse trabalho.
72

Random forest em dados desbalanceados: uma aplicação na modelagem de churn em seguro saúde

Lento, Gabriel Carneiro 27 March 2017 (has links)
Submitted by Gabriel Lento (gabriel.carneiro.lento@gmail.com) on 2017-05-01T23:16:04Z No. of bitstreams: 1 Dissertação Gabriel Carneiro Lento.pdf: 832965 bytes, checksum: f79e7cb4e5933fd8c3a7c67ed781ddb5 (MD5) / Approved for entry into archive by Leiliane Silva (leiliane.silva@fgv.br) on 2017-05-04T18:39:57Z (GMT) No. of bitstreams: 1 Dissertação Gabriel Carneiro Lento.pdf: 832965 bytes, checksum: f79e7cb4e5933fd8c3a7c67ed781ddb5 (MD5) / Made available in DSpace on 2017-05-17T12:43:35Z (GMT). No. of bitstreams: 1 Dissertação Gabriel Carneiro Lento.pdf: 832965 bytes, checksum: f79e7cb4e5933fd8c3a7c67ed781ddb5 (MD5) Previous issue date: 2017-03-27 / In this work we study churn in health insurance, that is predicting which clients will cancel the product or service within a preset time-frame. Traditionally, the probability whether a client will cancel the service is modeled using logistic regression. Recently, modern machine learning techniques are becoming popular in churn modeling, having been applied in the areas of telecommunications, banking, and car insurance, among others. One of the big challenges in this problem is that only a fraction of all customers cancel the service, meaning that we have to deal with highly imbalanced class probabilities. Under-sampling and over-sampling techniques have been used to overcome this issue. We use random forests, that are ensembles of decision trees, where each of the trees fits a subsample of the data constructed using either under-sampling or over-sampling. We compare the distinct specifications of random forests using various metrics that are robust to imbalanced classes, both in-sample and out-of-sample. We observe that random forests using imbalanced random samples with fewer observations than the original series present a better overall performance. Random forests also present a better performance than the classical logistic regression, often used in health insurance companies to model churn. / Neste trabalho estudamos o problema de churn em seguro saúde, isto é, a previsão se o cliente irá cancelar o produto ou serviço em até um período de tempo pré-estipulado. Tradicionalmente, regressão logística é utilizada para modelar a probabilidade de cancelamento do serviço. Atualmente, técnicas modernas de machine learning vêm se tornando cada vez mais populares para esse tipo de problema, com exemplos nas áreas de telecomunicação, bancos, e seguros de carro, dentre outras. Uma das grandes dificuldades nesta modelagem é que apenas uma pequena fração dos clientes de fato cancela o serviço, o que significa que a base de dados tratada é altamente desbalanceada. Técnicas de under-sampling e over-sampling são utilizadas para contornar esse problema. Neste trabalho, aplicamos random forests, que são combinações de árvores de decisão ajustadas em subamostras dos dados, construídas utilizando under-sampling e over-sampling. Ao fim do trabalho comparamos métricas de ajustes obtidas nas diversas especificações dos modelos testados e avaliamos seus resultados dentro e fora da amostra. Observamos que técnicas de random forest utilizando sub-amostras não balanceadas com o tamanho menor do que a amostra original apresenta a melhor performance dentre as random forests utilizadas e uma melhora com relação ao praticado no mercado de seguro saúde.
73

Facial expression recognition using deep learning - convolutional neural network

Lopes, André Teixeira 03 March 2016 (has links)
Made available in DSpace on 2016-08-29T15:33:24Z (GMT). No. of bitstreams: 1 tese_9629_dissertacao(1)20160411-102533.pdf: 9277551 bytes, checksum: c18df10308db5314d25f9eb1543445b3 (MD5) Previous issue date: 2016-03-03 / CAPES / O reconhecimento de expressões faciais tem sido uma área de pesquisa ativa nos últimos dez anos, com uma área de aplicação em crescimento como animação de personagens e neuro-marketing. O reconhecimento de uma expressão facial não é um problema fácil para métodos de aprendizagem de máquina, dado que pessoas diferentes podem variar na forma com que mostram suas expressões. Até uma imagem da mesma pessoa em uma expressão pode variar em brilho, cor de fundo e posição. Portanto, reconhecer expressões faciais ainda é um problema desafiador em visão computacional. Para resolver esses problemas, nesse trabalho, nós propomos um sistema de reconhecimento de expressões faciais que usa redes neurais de convolução. Geração sintética de dados e diferentes operações de pré-processamento foram estudadas em conjunto com várias arquiteturas de redes neurais de convolução. A geração sintética de dados e as etapas de pré-processamento foram usadas para ajudar a rede na seleção de características. Experimentos foram executados em três bancos de dados largamente utilizados (CohnKanade, JAFFE, e BU3DFE) e foram feitas validações entre bancos de dados(i.e., treinar em um banco de dados e testar em outro). A abordagem proposta mostrou ser muito efetiva, melhorando os resultados do estado-da-arte na literatura. / Facial expression recognition has been an active research area in the past ten years, with growing application areas such avatar animation, neuromarketing and sociable robots. The recognition of facial expressions is not an easy problem for machine learning methods, since people can vary signi cantly in the way that they show their expressions. Even images of the same person in one expression can vary in brightness, background and position. Hence, facial expression recognition is still a challenging problem. To address these problems, in this work we propose a facial expression recognition system that uses Convolutional Neural Networks. Data augmentation and di erent preprocessing steps were studied together with various Convolutional Neural Networks architectures. The data augmentation and pre-processing steps were used to help the network on the feature selection. Experiments were carried out with three largely used databases (Cohn-Kanade, JAFFE, and BU3DFE) and cross-database validations (i.e. training in one database and test in another) were also performed. The proposed approach has shown to be very e ective, improving the state-of-the-art results in the literature and allowing real time facial expression recognition with standard PC computers.
74

Tipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuais

Souza, Jacqueline Aparecida de 26 February 2010 (has links)
Made available in DSpace on 2016-06-02T20:25:07Z (GMT). No. of bitstreams: 1 3377.pdf: 3546850 bytes, checksum: d15885076635f742d9e61ee253c4d220 (MD5) Previous issue date: 2010-02-26 / Universidade Federal de Minas Gerais / Based on methodological postulates of the Linguistic of corpus and on the genre concepts, proposed by Swales (1990) and Biber (1995), this research intends to describe linguistic traces which are characteristic of historic texts and correlate them to their respective genres, as well as propose a typology of traces so that it is possible to automatically identify the genre. In order to execute the research, the corpus of the Portuguese of the centuries XVI, XVII and XVII of the project Historical Dictionary of the Portuguese in Brazil (program Institutes of the Millennium/CNPq UNESP/Araraquara), which is constituted by 2,459 texts and 7,5 million words has been used. In order to realize a historical description, the study has started from synchronic characteristics obtained from the table of contemporary traces elaborated by Aires (2005). As for the manipulation of the corpus, it has been used the Philologic, the Unitex as well as another tool for the extraction and quantification of traces that has been developed. For the purposes of classification, algorithms available at Weka (Waikato Environment for knowledge Analysis) such as: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree have been used. The description has been made based on the 62 traces, which include statistics based on a text as a whole and on words, including classes of verbs, pronouns, adverbs as well as discourse markers, expressions and lexical units. It has been concluded that the genres share specific linguistic characteristics. However, they also present their own standards with the use of specific expressions and the frequency of lexical units. Despite the limitations and complications in using a historical corpus, the performance of the classifiers based on the raised traces was satisfactory and the rate of correct classification was 84% and 92%. / Com base nos postulados metodológicos da Linguística de Corpus e nos conceitos de gênero, propostos por Swales (1990) e Biber (1995), esta pesquisa pretende descrever traços linguísticos característicos de textos históricos, correlacionando-os a seus respectivos gêneros, e propor uma tipologia de traços de forma que seja possível identificar o gênero de cada texto automaticamente. Para execução da pesquisa foi utilizado o corpus do português dos séculos XVI, XVII e XVIII do projeto Dicionário Histórico do Português do Brasil (programa Institutos do Milênio/CNPq UNESP/Araraquara), constituído por 2.459 textos e 7.5 milhões de palavras. Para realizar uma descrição histórica, partiu-se de características sincrônicas obtidas a partir da tabela de traços contemporâneos elaborada por Aires (2005). No que tange à manipulação do corpus, utilizou-se o Philologic, o Unitex e desenvolveu-se uma ferramenta para extração e quantificação dos traços. Para fins de classificação, foram utilizados os algoritmos disponibilizados no Weka (Waikato Environment for Knowledge Analysis), tais como: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree. A descrição foi realizada com base em 62 traços, os quais abarcam estatísticas baseadas no texto como um todo e em palavras, incluindo as classes de verbos, pronomes, advérbios, como também marcadores discursivos, expressões e unidades lexicais. Concluiu-se que os gêneros compartilham características linguísticas específicas, porém, também apresentam seus padrões próprios, como o uso de determinadas expressões e a frequência de unidades lexicais. Apesar das limitações e complicações em utilizar um corpus histórico, o desempenho dos classificadores com base nos traços levantados foi satisfatório, com a taxa de acerto 84% e 92% de classificação correta.
75

Detecção adaptativa de anomalias em redes de computadores utilizando técnicas não supervisionadas /

Galhardi, Vinícius Vassoler. January 2017 (has links)
Orientador: Adriano Mauro Cansian / Banca: Cesar Augusto Cavalheiro Marcondes / Banca: Leandro Alves Neves / Resumo: Ataques às redes de computadores têm sido cada vez mais constantes e possuem grande capacidade destrutiva. Os sistemas de detecção de intrusão possuem um importante papel na detecção destas ameaças. Dentre estes sistemas, a detecção de anomalias tem sido uma área amplamente explorada devido à possibilidade de detectar ataques até então desconhecidos. Devido à complexidade para a geração de modelos que sejam capazes de descrever o comportamento padrão de um ambiente, técnicas de aprendizagem automática vêm sendo amplamente exploradas. Este trabalho aborda a detecção de ataques a redes de computadores utilizando uma combinação de técnicas de agrupamento. Desse modo, espera-se obter um sistema adaptativo, capaz de encontrar anomalias presentes na rede sem a necessidade de uma etapa de treinamento com dados rotulados. Dado que a taxa de falsos negativos é um dos maiores problemas encontrados na utilização de algoritmos não supervisionados, pretende-se alcançar uma melhora neste quesito através do uso combinado de diferentes técnicas / Abstract: Attacks on computer networks have been constantly increased and have great destructive capacity. Intrusion detection systems have an important role in the detection of these threats. Among these systems, anomaly detection has been widely explored due to the possibility of detecting unknown attacks. These systems are usually built using machine learning techniques due to the complexity of generating models capable of describing the normal behavior of an environment. We aim to addresses the detection of anomalies on computer networks using a combination of clustering techniques. Thus, we expect to achieve an adaptive system, able to find anomalies present in the network without the need of a training step with labeled data. Given that false positive rate is one of the major problems faced when using unsupervised algorithms, we intend to achieve an improvement in this issue with the combined use of different techniques / Mestre
76

Uma abordagem de sistema de recomendação orientada pelo aprendizado sem fim

Gotardo, Reginaldo Aparecido 28 February 2014 (has links)
Made available in DSpace on 2016-06-02T19:03:59Z (GMT). No. of bitstreams: 1 6340.pdf: 3337556 bytes, checksum: 693a6a9cfb4dc2a26651724099fcf890 (MD5) Previous issue date: 2014-02-28 / Financiadora de Estudos e Projetos / Recommender Systems have a very well defined function: recommend something to someone. Through Artificial Intelligence techniques, more particularly from areas such as Data Mining and Machine Learning, it is possible to build recommendation systems. These systems will analyze large amounts of data and will inform users about some items that will probably interest them. However, some limitations of the recommender systems, which are sometimes, caused by the Mining or Learning models themselves or by the lack of available data make them computationally expensive or inaccurate. Besides, recommender systems in real environments are dynamic: data change over time or with new ratings, new users, new items or when user updates previous ratings. The Never Ending-Learning Approach (NEL) aims at a self-supervised and self-reflexive learning to mainly maximize learning of a system based on data from several sources, algorithms that can cooperate to make a better knowledge base considering the dynamic of real learning problems: learning improves along the time. As mentioned before, recommender systems are dynamic and depend on data between user and items. In order to minimize this dependency and to provide meaningful and useful results to users, this work presents a Recommender System approach guided by NEL Principles. Results show that it is possible to minimize or delay the data dependency through classifiers coupling techniques and concept deviation control. Due to that, it is possible to start with little data from a recommender system that will be dynamic and will receive new information. These new information will help even more in controlling the concept deviation and promoting the most useful recommendations. Then, this thesis presents how the Recommender System guided by NEL principles can contribute to the state of the art in recommender systems and implement a system with practical results through the Never-Ending Learning Approach. / Os Sistemas de Recomendação possuem uma função muito bem definida: recomendar algo a alguém. Através de técnicas de Inteligência Artificial, mais particularmente de áreas como a Mineração de Dados e o Aprendizado de Máquina é possível construir Sistemas de Recomendação que analisem grandes volumes de dados e consigam predizer aos usuários algo que provavelmente irá lhes interessar. No entanto, algumas limitações dos Sistemas de Recomendações, causadas as vezes pelos próprios modelos de Mineração ou Aprendizado utilizados ou pela escassez dos dados disponíveis, os tornam computacionalmente caros ou imprecisos. Além disto, Sistemas de Recomendação em ambientes reais são dinâmicos, ou seja, os dados mudam com o passar do tempo seja com novas avaliações, novos usuários, novos itens ou mesmo atualizações de avaliações anteriores. A abordagem de Aprendizado Sem-Fim (SASF) visa um aprendizado autossupervisionado e autorreflexivo para, sobretudo, maximizar o aprendizado de um sistema com base em dados de fontes diversas, algoritmos que cooperem entre si para melhor modelar uma base de conhecimento e considerar a dinamicidade de problemas reais de aprendizado: Aprender amadurece com o tempo. Como já dito, sistemas de recomendação são dinâmicos e dependem de dados entre usuários e itens. Para minimizar esta dependência e prover resultados significativos e úteis aos usuários é apresentada neste trabalho uma abordagem de Sistema de Recomendação orientada pelos Princípios do Aprendizado Sem-Fim. Os resultados obtidos sugerem que é possível minimizar ou retardar a dependência de dados através de técnicas de acoplamento de classificadores e do controle do desvio de conceito. Com isto, é possível atuar com poucos dados de um sistema de recomendação que será dinâmico e receberá novas informações. Estas novas informações auxiliarão ainda mais no controle do desvio de conceito e na promoção de recomendações mais úteis. Por tudo isto, este trabalho apresenta como proposta o desenvolvimento de uma Abordagem para Sistemas de Recomendação baseada no Aprendizado Sem Fim, como forma de contribuir para o estado da arte em sistemas de recomendação e de implementar um sistema com resultados práticos através do Aprendizado sem Fim.
77

Aprendizado semi-supervisionado e não supervisionado para análise de dados de expressão gênica

Assao, Fabiana Mari 27 May 2008 (has links)
Made available in DSpace on 2016-06-02T19:05:34Z (GMT). No. of bitstreams: 1 2160.pdf: 2987031 bytes, checksum: c428afa9febfedfbb3e778b30d48e9c0 (MD5) Previous issue date: 2008-05-27 / Data clustering has been seen, in the last decades, as an important tool for gene expression data analysis. In recent years, due to the progress in gene annotation research, a growing interest has been noticed for the semi-supervised clustering techniques, which use knowledge previously available about some gene functions to discover functions of other genes by means of clustering. This work investigates non-supervised and semi-supervised clustering algorithms applied to gene expression data. The goal is to perform an inspection on strengths and weaknesses of the use of such clustering methods and, based on these findings, to provide ways of obtaining results significant to biology. Algorithms with different characteristics were implemented and tested, with the objective of verifying evidences of eventual gains with the partial labeling, as compared to the non-supervised techniques. The experiments considered data sets from the gene expression domain as well as more generic domains. The obtained results were evaluated with validation measures usually applied in similar contexts. The analysis developed, though, emphasize the important role of computational techniques in biological data analysis, by accelerating the process of deriving results and conclusions, to better understand gene functions and structures. The results of this stydy justify the large investiment in the research of behavior of semi-supervised techniques in gene expression data, as we shall see. / O agrupamento de dados destacou-se nas últimas décadas como uma importante ferramenta para a análise de dados de expressão gênica. Nos últimos anos, em função do progresso das pesquisas para rotulação de genes, surgiu um interesse pelas técnicas de agrupamento semi-supervisionado, que utilizam o conhecimento prévio disponível sobre a função de alguns genes para descobrir funções de outros genes por meio do agrupamento. Neste trabalho são investigados algoritmos de agrupamento semi-supervisionado e não supervisionados aplicados a dados de expressão gênica. O intuito é realizar uma inspeção das vantagens e desvantagens da utilização destes métodos de agrupamento e, a partir disso, prover subsídios para obtenção de resultados significativos para a área de Biologia. Foram implementados e testados algoritmos de agrupamento com diferentes características, com o objetivo de verificar evidências de eventuais ganhos obtidos com a rotulação parcial dos genes com relação a técnicas não-supervisionadas. Os experimentos realizados consideraram conjuntos de dados do domínio de expressão gênica e de outros domínios mais genéricos. Os resultados obtidos foram avaliados com medidas de validação usualmente aplicadas em contextos semelhantes. Assim, as análises desenvolvidas reforçam o importante papel da computação na análise de dados biológicos, a fim de acelerar o processo de obtenção de resultados e conclusões, na compreensão das estruturas e funções dos genes. Os resultados obtidos neste trabalho justificam o grande investimento na pesquisa do comportamento de técnicas semi-supervisionadas em dados de expressão gênica, como veremos mais adiante.
78

Aprendizado semissupervisionado através de técnicas de acoplamento

Duarte, Maisa Cristina 17 February 2011 (has links)
Made available in DSpace on 2016-06-02T19:05:51Z (GMT). No. of bitstreams: 1 3777.pdf: 3225691 bytes, checksum: 38e3ba8f3c842f4e05d42710339e897a (MD5) Previous issue date: 2011-02-17 / Machine Learning (ML) can be seen as research area within the Artificial Intelligence (AI) that aims to develop computer programs that can evolve with new experiences. The main ML purpose is the search for methods and techniques that enable the computer system improve its performance autonomously using information learned through its use. This feature can be considered the fundamental mechanisms of the processes of automatic learning. The main goal in this research project was to investigate, propose and implement methods and algorithms to allow the construction of a continuous learning system capable of extracting knowledge from the Web in Portuguese, throughout the creation of a knowledge base which can be constantly updated as new knowledge is extracted. / O Aprendizado de Máquina (AM) pode ser visto como uma área de pesquisa dentro da Inteligência Artificial (IA) que busca o desenvolvimento de programas de computador que possam evoluir à medida que vão sendo expostos a novas experiências. O principal objetivo de AM é a busca por métodos e técnicas que permitem a concepção de sistemas computacionais capazes de melhorar seu desempenho, de maneira autônoma, usando informações obtidas ao longo de seu uso; tal característica pode, de certa forma, ser considerada como um dos mecanismos fundamentais que regem os processos de aprendizado automático. O principal objetivo da pesquisa descrita neste documento foi investigar, propor e implementar métodos e algoritmos que permitissem a construção de um sistema computacional de aprendizado contínuo capaz de realizar a extração de conhecimento a partir da Web em português, por meio da criação de uma base de conhecimento atualizada constantemente à medida que novos conhecimentos vão sendo extraídos.
79

Aplicação de máquinas de vetores de suporte na identificação de perfis de alunos de acordo com características da teoria das inteligências múltiplas /

Lázaro, Diego Henrique Emygdio. January 2016 (has links)
Orientador: Norian Marranghello / Banca: Renata Spolon Lobato / Banca: Henrique Dezani / Resumo: Nesta dissertação foi desenvolvido um mecanismo de classificação capaz de identificar o perfil de um aluno de acordo com características da teoria das inteligências múltiplas, baseado em Support Vector Machines (SVMs, sigla em inglês para Máquinas de Vetores de Suporte), métodos de agrupamento e balanceamento de classes. O objetivo dessa classificação consiste em permitir que os tutores responsáveis por gerar o material para aulas em ferramentas de apoio ao ensino à distância possam utilizar este método de classificação para direcionar o conteúdo ao aluno de forma a explorar sua inteligência múltipla predominante. Para realização dos experimentos, duas SVMs foram criadas, utilizando o método de classificação baseado em k problemas binários, que reduzem o problema de múltiplas classes a um conjunto de problemas binários. Os resultados obtidos durante as fases de treino e teste das SVMs foram apresentados em percentuais por meio de um algoritmo de agrupamento particionado. Esses percentuais ajudam a interpretar a classificação do perfil de acordo com as inteligências predominantes. Além disso, com o uso de métodos de balanceamento de classes, obteve-se melhora no desempenho do classificador, assim, aumentando a eficácia do mecanismo, pois, suas taxas de incorreções foram baixas / Abstract: In this work, it was developed a mechanism in order to classify students' profiles according to the Theory of Multiple Intelligences, based on Support Vector Machines (SVMs), cluster methods and classes balancing. By using these classifications, tutors, who prepare materials for classes in specific tools for distance education purposes, are able to suggest contents for students so that they are able to explore their predominant multiple intelligence. To perform these experiments, SVMs were created by using classification methods based on binary problems that reduce multiple classes problems into a set of binary problems. The results generated during the training and the SVM test stages were presented in percentages by using partitioning clustering algorithm. These percentages are helpful for analysis of profiles classifications according to multiple intelligences. Besides that, by using classes balancing methods, it was possible to obtain improvements on the classifier performance and, consequently, the mechanism efficiency was increased as well, considering the fact that inaccuracy rates were low / Mestre
80

Classificação de conteúdo malicioso baseado em floresta de caminhos ótimos /

Fernandes, Dheny. January 2016 (has links)
Orientador: João Paulo Papa / Coorientador: Kelton Augusto Pontara da Costa / Banca: Aparecido Nilceu Marana / Banca: Jurandy Gomes Almeida Jr. / Resumo: O advento da Internet trouxe amplos benefícios nas áreas de comunicação, entretenimento, compras, relações sociais, entre outras. Entretanto, várias ameaças começaram a surgir nesse cenário, levando pesquisadores a criar ferramentas para lidar com elas. Spam, malwares, conteúdos maliciosos, pishing, fraudes e falsas URLs são exemplos de ameaças. Em contrapartida, sistemas antivírus, firewalls e sistemas de detecção e prevenção de intrusão são exemplos de ferramentas de combate às tais ameaças. Principalmente a partir de 2010, encabeçado pelo malware Stuxnet, as ameaças tornaram-se muito mais complexas e persistentes, fazendo com que as ferramentas até então utilizadas se tornassem obsoletas. O motivo é que tais ferramentas, baseadas em assinaturas e anomalias, não conseguem acompanhar tanto a velocidade de desenvolvimento das ameaças quanto sua complexidade. Desde então, pesquisadores têm voltado suas atenções a métodos mais eficazes para se combater ciberameaças. Nesse contexto, algoritmos de aprendizagem de máquina estão sendo explorados na busca por soluções que analisem em tempo real ameaças provenientes da internet. Assim sendo, este trabalho tem como objetivo analisar o desempenho dos classificadores baseados em Floresta de Caminhos Ótimos, do inglês Optimum-path Forest (OPF), comparando-os com os demais classificadores do estado-da-arte. Para tanto, serão analisados dois métodos de extração de características: um baseado em tokens e o outro baseado em Ngrams, sendo N igual a 3. De maneira geral, o OPF mais se destacou no não bloqueio de mensagens legítimas e no tempo de treinamento. Em algumas bases a quantidade de spam corretamente classificada também foi alta. A versão do OPF que utiliza grafo completo foi melhor, apesar de que em alguns casos a versão com grafo knn se sobressaiu. Devido às exigências atuais em questões de segurança, o OPF, pelo seu rápido tempo de treinamento,... / Abstract: The advent of Internet has brought widespread benefits in the areas of communication, entertainment, shopping, social relations, among others. However, several threats began to emerge in this scenario, leading researchers to create tools to deal with them. Spam, malware, malicious content, phishing, fraud and false URLs are some examples of these threats. In contrast, anti-virus systems, firewalls and intrusion detection and prevention systems are examples of tools to combat such threats. Especially since 2010, headed by the Stuxnet malware, threats have become more complex and persistent, making the tools previously used became obsolete. The reason is that such tools based on signatures and anomalies can not follow both the speed of development of the threats and their complexity. Since then, researchers have turned their attention to more effective methods to combat cyber threats. In this context, machine learning algorithms are being exploited in the search for solutions to analyze real-time threats from the internet. Therefore, this study aims to analyze the performance of classifiers based on Optimum-path Forest, OPF, comparing them with the other state-of-the-art classifiers. To do so, two features extraction methods will be analyzed: one based on tokens and other based on Ngrams, considering N equal 3. Overall, OPF stood out in not blocking legitimate messages and training time. In some bases the amount of spam classified correctly was high as well. The version that uses complete graph was better, although in some cases the version that makes use of knn graph outperformed it. Due to the current demands on security issues, OPF, considering its fast training time, can be improved in its effectiveness aiming at a real application. In relation to feature extraction methods, 3gram was better, improving OPF's results / Mestre

Page generated in 0.2314 seconds