Spelling suggestions: "subject:"detecção dde novidade"" "subject:"detecção dee novidade""
1 |
Neural networks forecasting and classification-based techniques for novelty detection in time seriesOliveira, Adriano Lorena Inácio de 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T15:52:37Z (GMT). No. of bitstreams: 2
arquivo4525_1.pdf: 1657788 bytes, checksum: 5abba3555b6cbbc4fa073f1b718d6579 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / O problema da detecção de novidades pode ser definido como a identificação de dados
novos ou desconhecidos aos quais um sistema de aprendizagem de máquina não teve
acesso durante o treinamento. Os algoritmos para detecção de novidades são projetados
para classificar um dado padrão de entrada como normal ou novidade. Esses algoritmos
são usados em diversas areas, como visão computacional, detecçãao de falhas em máquinas,
segurança de redes de computadores e detecção de fraudes.
Um grande número de sistemas pode ter seu comportamento modelado por séries temporais.
Recentemente o pro oblema de detecção de novidades em séries temporais tem recebido
considerável atenção. Várias técnicas foram propostas, incluindo téecnicas baseadas
em previsão de séries temporais com redes neurais artificiais e em classificação de janelas
das s´eries temporais. As t´ecnicas de detec¸c ao de novidades em s´eries temporais atrav´es
de previs ao t em sido criticadas devido a seu desempenho considerado insatisfat´orio. Em
muitos problemas pr´aticos, a quantidade de dados dispon´ıveis nas s´eries ´e bastante pequena
tornando a previs ao um problema ainda mais complexo. Este ´e o caso de alguns
problemas importantes de auditoria, como auditoria cont´abil e auditoria de folhas de
pagamento.
Como alternativa aos m´etodos baseados em previs ao, alguns m´etodos baseados em
classificação foram recentemente propostos para detecção de novidades em séries temporais,
incluindo m´etodos baseados em sistemas imunol´ogicos artificiais, wavelets e m´aquinas
de vetor de suporte com uma ´unica classe.
Esta tese prop oe um conjunto de m´etodos baseados em redes neurais artificiais para
detecção de novidades em séries temporais. Os métodos propostos foram projetados especificamente
para detec¸c ao de fraudes decorrentes de desvios relativamente pequenos,
que s ao bastante importantes em aplica¸c oes de detec¸c ao de fraudes em sistemas financeiros.
O primeiro m´etodo foi proposto para melhorar o desempenho de detec¸c ao de
novidades baseada em previs ao. Este m´etodo ´e baseado em intervalos de confian¸ca robustos,
que s ao usados para definir valores adequados para os limiares a serem usados
para detec¸c ao de novidades. O m´etodo proposto foi aplicado a diversas s´eries temporais
financeiras e obteve resultados bem melhores que m´etodos anteriores baseados em
previs ao.
Esta tese tamb´em prop oe dois diferentes m´etodos baseados em classifica¸c ao para detec
¸c ao de novidades em s´eries temporais. O primeiro m´etodo ´e baseado em amostras
negativas, enquanto que o segundo m´etodo ´e baseado em redes neurais artificiais RBFDDA
e n ao usa amostras negativas na fase de treinamento. Resultados de simula¸c ao
usando diversas s´eries temporais extra´ıdas de aplica¸c oes reais mostraram que o segundo
m´etodo obt´em melhor desempenho que o primeiro. Al´em disso, o desempenho do segundo
m´etodo n ao depende do tamanho do conjunto de teste, ao contr´ario do que acontece com o primeiro m´etodo.
Al´em dos m´etodos para detec¸c ao de novidades em s´eries temporais, esta tese prop oe
e investiga quatro diferentes m´etodos para melhorar o desempenho de redes neurais
RBF-DDA. Os m´etodos propostos foram avaliados usando seis conjuntos de dados do
reposit´orio UCI e os resultados mostraram que eles melhoram consideravelmente o desempenho
de redes RBF-DDA e tamb´em que eles obt em melhor desempenho que redes MLP e
que o m´etodo AdaBoost. Al´em disso, mostramos que os m´etodos propostos obt em resultados
similares a k-NN. Os m´etodos propostos para melhorar RBF-DDA foram tamb´em
usados em conjunto com o m´etodo proposto nesta tese para detec¸c ao de novidades em
s´eries temporais baseado em amostras negativas. Os resultados de diversos experimentos
mostraram que esses m´etodos tamb´em melhoram bastante o desempenho da detec¸c ao de
fraudes em s´eries temporais, que ´e o foco principal desta tese.
|
2 |
Detecção de novidade em fluxos contínuos de dados multiclasse / Novelty detection in multiclass data streamsPaiva, Elaine Ribeiro de Faria 08 May 2014 (has links)
Mineração de fluxos contínuos de dados é uma área de pesquisa emergente que visa extrair conhecimento a partir de grandes quantidades de dados, gerados continuamente. Detecção de novidade é uma tarefa de classificação que consiste em reconhecer que um exemplo ou conjunto de exemplos em um fluxo de dados diferem significativamente dos exemplos vistos anteriormente. Essa é uma importante tarefa para fluxos contínuos de dados, principalmente porque novos conceitos podem aparecer, desaparecer ou evoluir ao longo do tempo. A maioria dos trabalhos da literatura apresentam a detecção de novidade como uma tarefa de classificação binária. Poucos trabalhos tratam essa tarefa como multiclasse, mas usam medidas de avaliação binária. Em vários problemas, o correto seria tratar a detecção de novidade em fluxos contínuos de dados como uma tarefa multiclasse, no qual o conceito conhecido do problema é formado por uma ou mais classes, e diferentes novas classes podem aparecer ao longo do tempo. Esta tese propõe um novo algoritmo MINAS para detecção de novidade em fluxos contínuos de dados. MINAS considera que a detecção de novidade é uma tarefa multiclasse. Na fase de treinamento, MINAS constrói um modelo de decisão com base em um conjunto de exemplos rotulados. Na fase de aplicação, novos exemplos são classificados usando o modelo de decisão atual, ou marcados como desconhecidos. Grupos de exemplos desconhecidos podem formar padrões-novidade válidos, que são então adicionados ao modelo de decisão. O modelo de decisão é atualizado ao longo do fluxo a fim de refletir mudanças nas classes conhecidas e permitir inserção de padrões-novidade. Esta tese também propõe uma nova metodologia para avaliação de algoritmos para detecção de novidade em fluxos contínuos de dados. Essa metodologia associa os padrões-novidade não rotulados às classes reais do problema, permitindo assim avaliar a matriz de confusão que é incremental e retangular. Além disso, a metodologia de avaliação propõe avaliar os exemplos desconhecidos separadamente e utilizar medidas de avaliação multiclasse. Por último, esta tese apresenta uma série de experimentos executados usando o MINAS e os principais algoritmos da literatura em bases de dados artificiais e reais. Além disso, o MINAS foi aplicado a um problema real, que consiste no reconhecimento de atividades humanas usando dados de acelerômetro. Os resultados experimentais mostram o potencial do algoritmo e da metodologia propostos / Data stream mining is an emergent research area that aims to extract knowledge from large amounts of continuously generated data. Novelty detection is a classification task that assesses if an example or a set of examples differ significantly from the previously seen examples. This is an important task for data streams, mainly because new concepts may appear, disappear or evolve over time. Most of the work found in the novelty detection literature presents novelty detection as a binary classification task. A few authors treat this task as multiclass, but even they use binary evaluation measures. In several real problems, novelty detection in data streams must be treated as a multiclass task, in which, the known concept about the problem is composed by one or more classes and different new classes may appear over time. This thesis proposes a new algorithm MINAS for novelty detection in data streams. MINAS deals with novelty detection as a multiclass task. In the training phase, MINAS builds a decision model based on a labeled data set. In the application phase, new examples are classified using the decision model, or marked with an unknown profile. Groups of unknown examples can be later used to create valid novelty patterns, which are added to the current decision model. The decision model is updated as new data arrives in the stream in order to reflect changes in the known classes and to allow the addition of novelty patterns. This thesis also proposes a new methodology to evaluate classifiers for novelty detection in data streams. This methodology associates the unlabeled novelty patterns to the true problem classes, allowing the evaluation of a confusion matrix that is incremental and rectangular. In addition, the proposed methodology allows the evaluation of unknown examples separately and the use multiclass evaluation measures. Additionally, this thesis presents a set of experiments carried out comparing the MINAS algorithm and the main novelty detection algorithms found in the literature, using artificial and real data sets. Finally, MINAS was applied to a human activity recognition problem using accelerometer data. The experimental results show the potential of the proposed algorithm and methodologies
|
3 |
Detecção de novidade em fluxos contínuos de dados multiclasse / Novelty detection in multiclass data streamsElaine Ribeiro de Faria Paiva 08 May 2014 (has links)
Mineração de fluxos contínuos de dados é uma área de pesquisa emergente que visa extrair conhecimento a partir de grandes quantidades de dados, gerados continuamente. Detecção de novidade é uma tarefa de classificação que consiste em reconhecer que um exemplo ou conjunto de exemplos em um fluxo de dados diferem significativamente dos exemplos vistos anteriormente. Essa é uma importante tarefa para fluxos contínuos de dados, principalmente porque novos conceitos podem aparecer, desaparecer ou evoluir ao longo do tempo. A maioria dos trabalhos da literatura apresentam a detecção de novidade como uma tarefa de classificação binária. Poucos trabalhos tratam essa tarefa como multiclasse, mas usam medidas de avaliação binária. Em vários problemas, o correto seria tratar a detecção de novidade em fluxos contínuos de dados como uma tarefa multiclasse, no qual o conceito conhecido do problema é formado por uma ou mais classes, e diferentes novas classes podem aparecer ao longo do tempo. Esta tese propõe um novo algoritmo MINAS para detecção de novidade em fluxos contínuos de dados. MINAS considera que a detecção de novidade é uma tarefa multiclasse. Na fase de treinamento, MINAS constrói um modelo de decisão com base em um conjunto de exemplos rotulados. Na fase de aplicação, novos exemplos são classificados usando o modelo de decisão atual, ou marcados como desconhecidos. Grupos de exemplos desconhecidos podem formar padrões-novidade válidos, que são então adicionados ao modelo de decisão. O modelo de decisão é atualizado ao longo do fluxo a fim de refletir mudanças nas classes conhecidas e permitir inserção de padrões-novidade. Esta tese também propõe uma nova metodologia para avaliação de algoritmos para detecção de novidade em fluxos contínuos de dados. Essa metodologia associa os padrões-novidade não rotulados às classes reais do problema, permitindo assim avaliar a matriz de confusão que é incremental e retangular. Além disso, a metodologia de avaliação propõe avaliar os exemplos desconhecidos separadamente e utilizar medidas de avaliação multiclasse. Por último, esta tese apresenta uma série de experimentos executados usando o MINAS e os principais algoritmos da literatura em bases de dados artificiais e reais. Além disso, o MINAS foi aplicado a um problema real, que consiste no reconhecimento de atividades humanas usando dados de acelerômetro. Os resultados experimentais mostram o potencial do algoritmo e da metodologia propostos / Data stream mining is an emergent research area that aims to extract knowledge from large amounts of continuously generated data. Novelty detection is a classification task that assesses if an example or a set of examples differ significantly from the previously seen examples. This is an important task for data streams, mainly because new concepts may appear, disappear or evolve over time. Most of the work found in the novelty detection literature presents novelty detection as a binary classification task. A few authors treat this task as multiclass, but even they use binary evaluation measures. In several real problems, novelty detection in data streams must be treated as a multiclass task, in which, the known concept about the problem is composed by one or more classes and different new classes may appear over time. This thesis proposes a new algorithm MINAS for novelty detection in data streams. MINAS deals with novelty detection as a multiclass task. In the training phase, MINAS builds a decision model based on a labeled data set. In the application phase, new examples are classified using the decision model, or marked with an unknown profile. Groups of unknown examples can be later used to create valid novelty patterns, which are added to the current decision model. The decision model is updated as new data arrives in the stream in order to reflect changes in the known classes and to allow the addition of novelty patterns. This thesis also proposes a new methodology to evaluate classifiers for novelty detection in data streams. This methodology associates the unlabeled novelty patterns to the true problem classes, allowing the evaluation of a confusion matrix that is incremental and rectangular. In addition, the proposed methodology allows the evaluation of unknown examples separately and the use multiclass evaluation measures. Additionally, this thesis presents a set of experiments carried out comparing the MINAS algorithm and the main novelty detection algorithms found in the literature, using artificial and real data sets. Finally, MINAS was applied to a human activity recognition problem using accelerometer data. The experimental results show the potential of the proposed algorithm and methodologies
|
4 |
Classificação com exemplos de uma única classe baseada na busca pelos limites das características do problemaCABRAL, George Gomes 31 January 2014 (has links)
Submitted by Nayara Passos (nayara.passos@ufpe.br) on 2015-03-11T19:52:28Z
No. of bitstreams: 2
TESE George Gomes Cabral.pdf: 3153073 bytes, checksum: 0d149ea3bf3d88d754b81befbafa8b70 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-11T19:52:28Z (GMT). No. of bitstreams: 2
TESE George Gomes Cabral.pdf: 3153073 bytes, checksum: 0d149ea3bf3d88d754b81befbafa8b70 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014 / FACEPE / A detecção de novidades é um problema com um grande número de aplicações. Em
algumas aplicações, o foco está na prevenção ou detecção de estados indesejados. Em alguns
casos, esses estados não são conhecidos durante o treinamento do modelo de classificador; em
outros, como monitoramento de máquinas, por exemplo, uma quebra da máquina pode ser bem
rara e exemplos desse caso podem ser bastante raros. Nestes casos, a abordagem mais aceita
consiste em se modelar o comportamento normal do sistema de forma a, no futuro, se detectar
eventos desconhecidos. Esse é o conceito básico de Classificação com Exemplos de uma Única
Classe (One-Class Classification - OCC).
Esta tese introduz duas versões de um método simples e efetivo para OCC, chamado de
FBDOCC (Feature Boundaries Detector for One-Class Classification). O FBDOCC funciona
analisando cada característica (dimensão) do problema e criando uma representação sintética da
classe novidade (desconhecida a priori) que engloba os dados da classe normal. Esse trabalho
também considera o uso do algoritmo Particle Swarm Optimization (PSO) na busca da melhor
configuração dos parâmetros do método proposto. Além disso, o presente trabalho introduz
também um procedimento para a melhoria do custo computacional durante o treinamento, da
técnica proposta, sem que haja a degradação na qualidade da classificação. Entre as motivações
por trás deste trabalho, estão a criação de um método com baixo custo computacional e com a
mesma ou melhor precisão na classificação que métodos para detecção de novidades do estado
da arte.
Vários experimentos foram executados com bases de dados do mundo real e artificiais
no intuito de comparar as duas versões desenvolvidas do método proposto com alguns dos
mais recentes e efetivos métodos OCC, são eles: Support Vector Data Description (SVDD),
One-Class SVM (OCSVM), Least Squares One-class SVM (LSOCSVM), Kernel Principal
Component Analysis (KPCA), Gaussian Process Prior OCC (GP-OCC), Condensed Nearest
Neighbor Data Description (CNNDD) e One-class Random Forests (OCRF). As métricas de
desempenho consideradas nos experimentos foram: (i) a area sob a curva ROC (Area Under the
Curve - AUC); (ii) o coeficiente de correlação deMatthews (Matthews Correlation Coefficient
- MCC); (iii) o tempo de treinamento; e (iv) a taxa de redução de protótipos. Em relação às
métricas AUC e MCC, a primeira versão do método FBDOCC apresentou a melhor média
global entre todos os métodos enquanto que a segunda versão do método proposto, FBDOCC2,
obteve resultados comparáveis aosmelhoresmétodos em experimentos onde o FBDOCC obteve
um baixo desempenho. O FBDOCC obteve os melhores resultados considerando o tempo de
treinamento em todas as bases de dados, exceto uma. Em adição, o FBDOCC foi bem mais
rápido que todos os métodos baseados em Máquinas de Vetores de Suporte.
Além disso, um estudo de caso foi realizado utilizando dados adquiridos em um hospital
local de renome. Estes dados são compostos de informações não-invasivas sobre as crianças
que compareceram ao hospital com sintomas de sopro no coração. Informações como idade,
peso, altura, etc., foram usadas para prever se a criança é ou cardiopata. Devido ao elevado
grau de desequilíbrio entre as classes (ou seja, o número de pacientes saudáveis foi consideravelmente
mais elevado), a abordagem adotada foi a de construir uma descrição dos casos
saudáveis deixando casos desconhecidos fora desta descrição. Os resultados mostram que dois
dos classificadores OCC aplicados (FBDOCC e OCSVM) obtiveram êxito nesta tarefa, resultando
na melhor taxa, entre os métodos investigados, de detecção baseada exclusivamente em
dados não-invasivo
|
Page generated in 0.0979 seconds