Global ETD Search

1	Neural networks forecasting and classification-based techniques for novelty detection in time series Oliveira, Adriano Lorena Inácio de 31 January 2011 (has links) Made available in DSpace on 2014-06-12T15:52:37Z (GMT). No. of bitstreams: 2 arquivo4525_1.pdf: 1657788 bytes, checksum: 5abba3555b6cbbc4fa073f1b718d6579 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2011 / O problema da detecção de novidades pode ser definido como a identificação de dados novos ou desconhecidos aos quais um sistema de aprendizagem de máquina não teve acesso durante o treinamento. Os algoritmos para detecção de novidades são projetados para classificar um dado padrão de entrada como normal ou novidade. Esses algoritmos são usados em diversas areas, como visão computacional, detecçãao de falhas em máquinas, segurança de redes de computadores e detecção de fraudes. Um grande número de sistemas pode ter seu comportamento modelado por séries temporais. Recentemente o pro oblema de detecção de novidades em séries temporais tem recebido considerável atenção. Várias técnicas foram propostas, incluindo téecnicas baseadas em previsão de séries temporais com redes neurais artificiais e em classificação de janelas das s´eries temporais. As t´ecnicas de detec¸c ao de novidades em s´eries temporais atrav´es de previs ao t em sido criticadas devido a seu desempenho considerado insatisfat´orio. Em muitos problemas pr´aticos, a quantidade de dados dispon´ıveis nas s´eries ´e bastante pequena tornando a previs ao um problema ainda mais complexo. Este ´e o caso de alguns problemas importantes de auditoria, como auditoria cont´abil e auditoria de folhas de pagamento. Como alternativa aos m´etodos baseados em previs ao, alguns m´etodos baseados em classificação foram recentemente propostos para detecção de novidades em séries temporais, incluindo m´etodos baseados em sistemas imunol´ogicos artificiais, wavelets e m´aquinas de vetor de suporte com uma ´unica classe. Esta tese prop oe um conjunto de m´etodos baseados em redes neurais artificiais para detecção de novidades em séries temporais. Os métodos propostos foram projetados especificamente para detec¸c ao de fraudes decorrentes de desvios relativamente pequenos, que s ao bastante importantes em aplica¸c oes de detec¸c ao de fraudes em sistemas financeiros. O primeiro m´etodo foi proposto para melhorar o desempenho de detec¸c ao de novidades baseada em previs ao. Este m´etodo ´e baseado em intervalos de confian¸ca robustos, que s ao usados para definir valores adequados para os limiares a serem usados para detec¸c ao de novidades. O m´etodo proposto foi aplicado a diversas s´eries temporais financeiras e obteve resultados bem melhores que m´etodos anteriores baseados em previs ao. Esta tese tamb´em prop oe dois diferentes m´etodos baseados em classifica¸c ao para detec ¸c ao de novidades em s´eries temporais. O primeiro m´etodo ´e baseado em amostras negativas, enquanto que o segundo m´etodo ´e baseado em redes neurais artificiais RBFDDA e n ao usa amostras negativas na fase de treinamento. Resultados de simula¸c ao usando diversas s´eries temporais extra´ıdas de aplica¸c oes reais mostraram que o segundo m´etodo obt´em melhor desempenho que o primeiro. Al´em disso, o desempenho do segundo m´etodo n ao depende do tamanho do conjunto de teste, ao contr´ario do que acontece com o primeiro m´etodo. Al´em dos m´etodos para detec¸c ao de novidades em s´eries temporais, esta tese prop oe e investiga quatro diferentes m´etodos para melhorar o desempenho de redes neurais RBF-DDA. Os m´etodos propostos foram avaliados usando seis conjuntos de dados do reposit´orio UCI e os resultados mostraram que eles melhoram consideravelmente o desempenho de redes RBF-DDA e tamb´em que eles obt em melhor desempenho que redes MLP e que o m´etodo AdaBoost. Al´em disso, mostramos que os m´etodos propostos obt em resultados similares a k-NN. Os m´etodos propostos para melhorar RBF-DDA foram tamb´em usados em conjunto com o m´etodo proposto nesta tese para detec¸c ao de novidades em s´eries temporais baseado em amostras negativas. Os resultados de diversos experimentos mostraram que esses m´etodos tamb´em melhoram bastante o desempenho da detec¸c ao de fraudes em s´eries temporais, que ´e o foco principal desta tese. Detecção de fraud
2	Detecção de novidade em fluxos contínuos de dados multiclasse / Novelty detection in multiclass data streams Paiva, Elaine Ribeiro de Faria 08 May 2014 (has links) Mineração de fluxos contínuos de dados é uma área de pesquisa emergente que visa extrair conhecimento a partir de grandes quantidades de dados, gerados continuamente. Detecção de novidade é uma tarefa de classificação que consiste em reconhecer que um exemplo ou conjunto de exemplos em um fluxo de dados diferem significativamente dos exemplos vistos anteriormente. Essa é uma importante tarefa para fluxos contínuos de dados, principalmente porque novos conceitos podem aparecer, desaparecer ou evoluir ao longo do tempo. A maioria dos trabalhos da literatura apresentam a detecção de novidade como uma tarefa de classificação binária. Poucos trabalhos tratam essa tarefa como multiclasse, mas usam medidas de avaliação binária. Em vários problemas, o correto seria tratar a detecção de novidade em fluxos contínuos de dados como uma tarefa multiclasse, no qual o conceito conhecido do problema é formado por uma ou mais classes, e diferentes novas classes podem aparecer ao longo do tempo. Esta tese propõe um novo algoritmo MINAS para detecção de novidade em fluxos contínuos de dados. MINAS considera que a detecção de novidade é uma tarefa multiclasse. Na fase de treinamento, MINAS constrói um modelo de decisão com base em um conjunto de exemplos rotulados. Na fase de aplicação, novos exemplos são classificados usando o modelo de decisão atual, ou marcados como desconhecidos. Grupos de exemplos desconhecidos podem formar padrões-novidade válidos, que são então adicionados ao modelo de decisão. O modelo de decisão é atualizado ao longo do fluxo a fim de refletir mudanças nas classes conhecidas e permitir inserção de padrões-novidade. Esta tese também propõe uma nova metodologia para avaliação de algoritmos para detecção de novidade em fluxos contínuos de dados. Essa metodologia associa os padrões-novidade não rotulados às classes reais do problema, permitindo assim avaliar a matriz de confusão que é incremental e retangular. Além disso, a metodologia de avaliação propõe avaliar os exemplos desconhecidos separadamente e utilizar medidas de avaliação multiclasse. Por último, esta tese apresenta uma série de experimentos executados usando o MINAS e os principais algoritmos da literatura em bases de dados artificiais e reais. Além disso, o MINAS foi aplicado a um problema real, que consiste no reconhecimento de atividades humanas usando dados de acelerômetro. Os resultados experimentais mostram o potencial do algoritmo e da metodologia propostos / Data stream mining is an emergent research area that aims to extract knowledge from large amounts of continuously generated data. Novelty detection is a classification task that assesses if an example or a set of examples differ significantly from the previously seen examples. This is an important task for data streams, mainly because new concepts may appear, disappear or evolve over time. Most of the work found in the novelty detection literature presents novelty detection as a binary classification task. A few authors treat this task as multiclass, but even they use binary evaluation measures. In several real problems, novelty detection in data streams must be treated as a multiclass task, in which, the known concept about the problem is composed by one or more classes and different new classes may appear over time. This thesis proposes a new algorithm MINAS for novelty detection in data streams. MINAS deals with novelty detection as a multiclass task. In the training phase, MINAS builds a decision model based on a labeled data set. In the application phase, new examples are classified using the decision model, or marked with an unknown profile. Groups of unknown examples can be later used to create valid novelty patterns, which are added to the current decision model. The decision model is updated as new data arrives in the stream in order to reflect changes in the known classes and to allow the addition of novelty patterns. This thesis also proposes a new methodology to evaluate classifiers for novelty detection in data streams. This methodology associates the unlabeled novelty patterns to the true problem classes, allowing the evaluation of a confusion matrix that is incremental and rectangular. In addition, the proposed methodology allows the evaluation of unknown examples separately and the use multiclass evaluation measures. Additionally, this thesis presents a set of experiments carried out comparing the MINAS algorithm and the main novelty detection algorithms found in the literature, using artificial and real data sets. Finally, MINAS was applied to a human activity recognition problem using accelerometer data. The experimental results show the potential of the proposed algorithm and methodologies Data streams Detecção de novidades Fluxos contínuos de dados Novelty detection
3	Detecção de novidade em fluxos contínuos de dados multiclasse / Novelty detection in multiclass data streams Elaine Ribeiro de Faria Paiva 08 May 2014 (has links) Mineração de fluxos contínuos de dados é uma área de pesquisa emergente que visa extrair conhecimento a partir de grandes quantidades de dados, gerados continuamente. Detecção de novidade é uma tarefa de classificação que consiste em reconhecer que um exemplo ou conjunto de exemplos em um fluxo de dados diferem significativamente dos exemplos vistos anteriormente. Essa é uma importante tarefa para fluxos contínuos de dados, principalmente porque novos conceitos podem aparecer, desaparecer ou evoluir ao longo do tempo. A maioria dos trabalhos da literatura apresentam a detecção de novidade como uma tarefa de classificação binária. Poucos trabalhos tratam essa tarefa como multiclasse, mas usam medidas de avaliação binária. Em vários problemas, o correto seria tratar a detecção de novidade em fluxos contínuos de dados como uma tarefa multiclasse, no qual o conceito conhecido do problema é formado por uma ou mais classes, e diferentes novas classes podem aparecer ao longo do tempo. Esta tese propõe um novo algoritmo MINAS para detecção de novidade em fluxos contínuos de dados. MINAS considera que a detecção de novidade é uma tarefa multiclasse. Na fase de treinamento, MINAS constrói um modelo de decisão com base em um conjunto de exemplos rotulados. Na fase de aplicação, novos exemplos são classificados usando o modelo de decisão atual, ou marcados como desconhecidos. Grupos de exemplos desconhecidos podem formar padrões-novidade válidos, que são então adicionados ao modelo de decisão. O modelo de decisão é atualizado ao longo do fluxo a fim de refletir mudanças nas classes conhecidas e permitir inserção de padrões-novidade. Esta tese também propõe uma nova metodologia para avaliação de algoritmos para detecção de novidade em fluxos contínuos de dados. Essa metodologia associa os padrões-novidade não rotulados às classes reais do problema, permitindo assim avaliar a matriz de confusão que é incremental e retangular. Além disso, a metodologia de avaliação propõe avaliar os exemplos desconhecidos separadamente e utilizar medidas de avaliação multiclasse. Por último, esta tese apresenta uma série de experimentos executados usando o MINAS e os principais algoritmos da literatura em bases de dados artificiais e reais. Além disso, o MINAS foi aplicado a um problema real, que consiste no reconhecimento de atividades humanas usando dados de acelerômetro. Os resultados experimentais mostram o potencial do algoritmo e da metodologia propostos / Data stream mining is an emergent research area that aims to extract knowledge from large amounts of continuously generated data. Novelty detection is a classification task that assesses if an example or a set of examples differ significantly from the previously seen examples. This is an important task for data streams, mainly because new concepts may appear, disappear or evolve over time. Most of the work found in the novelty detection literature presents novelty detection as a binary classification task. A few authors treat this task as multiclass, but even they use binary evaluation measures. In several real problems, novelty detection in data streams must be treated as a multiclass task, in which, the known concept about the problem is composed by one or more classes and different new classes may appear over time. This thesis proposes a new algorithm MINAS for novelty detection in data streams. MINAS deals with novelty detection as a multiclass task. In the training phase, MINAS builds a decision model based on a labeled data set. In the application phase, new examples are classified using the decision model, or marked with an unknown profile. Groups of unknown examples can be later used to create valid novelty patterns, which are added to the current decision model. The decision model is updated as new data arrives in the stream in order to reflect changes in the known classes and to allow the addition of novelty patterns. This thesis also proposes a new methodology to evaluate classifiers for novelty detection in data streams. This methodology associates the unlabeled novelty patterns to the true problem classes, allowing the evaluation of a confusion matrix that is incremental and rectangular. In addition, the proposed methodology allows the evaluation of unknown examples separately and the use multiclass evaluation measures. Additionally, this thesis presents a set of experiments carried out comparing the MINAS algorithm and the main novelty detection algorithms found in the literature, using artificial and real data sets. Finally, MINAS was applied to a human activity recognition problem using accelerometer data. The experimental results show the potential of the proposed algorithm and methodologies Detecção de novidades Fluxos contínuos de dados Data streams Novelty detection
4	Classificação com exemplos de uma única classe baseada na busca pelos limites das características do problema CABRAL, George Gomes 31 January 2014 (has links) Submitted by Nayara Passos (nayara.passos@ufpe.br) on 2015-03-11T19:52:28Z No. of bitstreams: 2 TESE George Gomes Cabral.pdf: 3153073 bytes, checksum: 0d149ea3bf3d88d754b81befbafa8b70 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-11T19:52:28Z (GMT). No. of bitstreams: 2 TESE George Gomes Cabral.pdf: 3153073 bytes, checksum: 0d149ea3bf3d88d754b81befbafa8b70 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014 / FACEPE / A detecção de novidades é um problema com um grande número de aplicações. Em algumas aplicações, o foco está na prevenção ou detecção de estados indesejados. Em alguns casos, esses estados não são conhecidos durante o treinamento do modelo de classificador; em outros, como monitoramento de máquinas, por exemplo, uma quebra da máquina pode ser bem rara e exemplos desse caso podem ser bastante raros. Nestes casos, a abordagem mais aceita consiste em se modelar o comportamento normal do sistema de forma a, no futuro, se detectar eventos desconhecidos. Esse é o conceito básico de Classificação com Exemplos de uma Única Classe (One-Class Classification - OCC). Esta tese introduz duas versões de um método simples e efetivo para OCC, chamado de FBDOCC (Feature Boundaries Detector for One-Class Classification). O FBDOCC funciona analisando cada característica (dimensão) do problema e criando uma representação sintética da classe novidade (desconhecida a priori) que engloba os dados da classe normal. Esse trabalho também considera o uso do algoritmo Particle Swarm Optimization (PSO) na busca da melhor configuração dos parâmetros do método proposto. Além disso, o presente trabalho introduz também um procedimento para a melhoria do custo computacional durante o treinamento, da técnica proposta, sem que haja a degradação na qualidade da classificação. Entre as motivações por trás deste trabalho, estão a criação de um método com baixo custo computacional e com a mesma ou melhor precisão na classificação que métodos para detecção de novidades do estado da arte. Vários experimentos foram executados com bases de dados do mundo real e artificiais no intuito de comparar as duas versões desenvolvidas do método proposto com alguns dos mais recentes e efetivos métodos OCC, são eles: Support Vector Data Description (SVDD), One-Class SVM (OCSVM), Least Squares One-class SVM (LSOCSVM), Kernel Principal Component Analysis (KPCA), Gaussian Process Prior OCC (GP-OCC), Condensed Nearest Neighbor Data Description (CNNDD) e One-class Random Forests (OCRF). As métricas de desempenho consideradas nos experimentos foram: (i) a area sob a curva ROC (Area Under the Curve - AUC); (ii) o coeficiente de correlação deMatthews (Matthews Correlation Coefficient - MCC); (iii) o tempo de treinamento; e (iv) a taxa de redução de protótipos. Em relação às métricas AUC e MCC, a primeira versão do método FBDOCC apresentou a melhor média global entre todos os métodos enquanto que a segunda versão do método proposto, FBDOCC2, obteve resultados comparáveis aosmelhoresmétodos em experimentos onde o FBDOCC obteve um baixo desempenho. O FBDOCC obteve os melhores resultados considerando o tempo de treinamento em todas as bases de dados, exceto uma. Em adição, o FBDOCC foi bem mais rápido que todos os métodos baseados em Máquinas de Vetores de Suporte. Além disso, um estudo de caso foi realizado utilizando dados adquiridos em um hospital local de renome. Estes dados são compostos de informações não-invasivas sobre as crianças que compareceram ao hospital com sintomas de sopro no coração. Informações como idade, peso, altura, etc., foram usadas para prever se a criança é ou cardiopata. Devido ao elevado grau de desequilíbrio entre as classes (ou seja, o número de pacientes saudáveis foi consideravelmente mais elevado), a abordagem adotada foi a de construir uma descrição dos casos saudáveis deixando casos desconhecidos fora desta descrição. Os resultados mostram que dois dos classificadores OCC aplicados (FBDOCC e OCSVM) obtiveram êxito nesta tarefa, resultando na melhor taxa, entre os métodos investigados, de detecção baseada exclusivamente em dados não-invasivo Detecção de anomalias Detecção de novidades Regra do vizinho mais próximo Redução de protótipos

1

Page generated in 0.3444 seconds