Spelling suggestions: "subject:"detecção dde outliers"" "subject:"detecção dde outlier's""
1 |
Análise de viés em notícias na língua portuguesa / Bias analysis on newswire in portugueseArruda, Gabriel Domingos de 02 December 2015 (has links)
O projeto descrito neste documento propõe um modelo para análise de viés em notícias, procurando identificar o viés dos meios de comunicação em relação a entidades políticas. Foram analisados três tipos de viés: o viés de seleção, que avalia o quanto uma entidade é referenciada pelo meio de comunicação; o viés de cobertura, que avalia quanto destaque é destinado a entidade e, por fim, o viés de afirmação, que avalia se estão falando mal ou bem da entidade. Para tal, foi construído um corpus de notícias sistematicamente extraídas de 5 produtores de notícias e classificadas manualmente em relação à polaridade e entidade alvo. Técnicas de análise de sentimentos baseadas em aprendizado de máquina foram validadas utilizando o corpus criado. Criou-se uma metodologia para identificação de viés, utilizando o conceito de outliers, a partir de métricas indicadoras. A partir da metodologia proposta, foi analisado o viés em relação aos candidatos ao governo de São Paulo e à presidência a partir do corpus criado, em que se identificou os três tipos de viés em dois produtores de notícias / The project described here proposes a model to study bias on newswire texts, related to political entities. Three types of bias are analysed: selection bias, which refers to the amount of times an entity is referenced by the media outlet; coverage bias, which assesses the amount of coverage given to an entity and, finally, the assertion bias, which analyses whether the news is a positive or negative report of an entity. To accomplish this, a corpus was systematically built by extracting news from 5 different newswires. These texts were manually classified according to their polarity alignment and associated entity. Sentiment Analysis techniques were applied and evaluated using the corpus. Based on the concept of outliers, a methodology for bias detection was created. Bias was analysed using the proposed methodology on the generated corpus for candidates to the government of the state of São Paulo and to presidency, being identified in two newswires for the three above-defined types
|
2 |
Análise de viés em notícias na língua portuguesa / Bias analysis on newswire in portugueseGabriel Domingos de Arruda 02 December 2015 (has links)
O projeto descrito neste documento propõe um modelo para análise de viés em notícias, procurando identificar o viés dos meios de comunicação em relação a entidades políticas. Foram analisados três tipos de viés: o viés de seleção, que avalia o quanto uma entidade é referenciada pelo meio de comunicação; o viés de cobertura, que avalia quanto destaque é destinado a entidade e, por fim, o viés de afirmação, que avalia se estão falando mal ou bem da entidade. Para tal, foi construído um corpus de notícias sistematicamente extraídas de 5 produtores de notícias e classificadas manualmente em relação à polaridade e entidade alvo. Técnicas de análise de sentimentos baseadas em aprendizado de máquina foram validadas utilizando o corpus criado. Criou-se uma metodologia para identificação de viés, utilizando o conceito de outliers, a partir de métricas indicadoras. A partir da metodologia proposta, foi analisado o viés em relação aos candidatos ao governo de São Paulo e à presidência a partir do corpus criado, em que se identificou os três tipos de viés em dois produtores de notícias / The project described here proposes a model to study bias on newswire texts, related to political entities. Three types of bias are analysed: selection bias, which refers to the amount of times an entity is referenced by the media outlet; coverage bias, which assesses the amount of coverage given to an entity and, finally, the assertion bias, which analyses whether the news is a positive or negative report of an entity. To accomplish this, a corpus was systematically built by extracting news from 5 different newswires. These texts were manually classified according to their polarity alignment and associated entity. Sentiment Analysis techniques were applied and evaluated using the corpus. Based on the concept of outliers, a methodology for bias detection was created. Bias was analysed using the proposed methodology on the generated corpus for candidates to the government of the state of São Paulo and to presidency, being identified in two newswires for the three above-defined types
|
3 |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados / A framework for online detection of outliers in clusters of continuous data streamingPereira, Mariana Alves 31 July 2017 (has links)
Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2018-02-27T14:32:20Z
No. of bitstreams: 1
texto completo.pdf: 1919837 bytes, checksum: 88b24ab33cb2eb64595fbfbf8ffeb254 (MD5) / Made available in DSpace on 2018-02-27T14:32:20Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1919837 bytes, checksum: 88b24ab33cb2eb64595fbfbf8ffeb254 (MD5)
Previous issue date: 2017-07-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Avanços da tecnologia acarretam na geração rápida e contínua de massivas quantida- des de dados. Tal cenário requer a criação de algoritmos de agrupamento incremen- tais para extração de conhecimento. Entre as restrições impostas a esses algoritmos, os mesmos devem ser capazes de detectar e tratar possíveis outliers que chegam ao fluxo. O arcabouço desenvolvido nesse trabalho apresenta uma estratégia para a restrição de tratamento e detecção de outliers na componente online dos algoritmos de agrupamento de fluxo de dados. A principal contribuição da proposta em estudo é a capacidade de validar possíveis outliers detectados previamente, com o intuito de manter um modelo sempre atualizado e com qualidade. Para isso, todos os potenci- ais outliers são armazenados em uma memória auxiliar que de tempos em tempos é verificada, agrupando seus objetos, validando os micro-grupos formados por inliers e inserindo-os no modelo. Todos os objetos restantes que não foram validados, são mantidos na memória auxiliar até que se tornem válidos ou obsoletos. Em seguida, objetos obsoletos são removidos. Este trabalho também propõe o CluStreamOD, uma extensão do algoritmo de agrupamento CluStream, que aplica a estratégia em estudo em sua componente online, para tratar outliers. Os experimentos realizados mostram a eficácia do CluStreamOD para detecção e tratamento online de outliers do fluxo em comparação com CluStream, e a potencialidade da abordagem proposta para ser aplicada em outros algoritmos de fluxo de dados baseados em micro-grupos. / Advances in technology have led to the rapid and continuous generation of massive amounts of data. Such a scenario requires the creation of incremental clustering algorithms for knowledge extraction. Among the constraints imposed on these al- gorithms, they must be able to detect and treat possible outliers that arrive at the flow. The framework developed in this work presents a strategy for the restriction of treatment and detection of outliers in the online component of the clustering algorithms in data stream. The main contribution of the proposal under study is the ability to validate possible outliers previously detected, in order to maintain a model that is always updated and with quality. For this, all the potential outliers are stored in an auxiliary memory when for time to time is verified, clustering its objects, validating the formed micro-clusters by inserting them into the model. All remaining objects that have not been validated are held in auxiliary memory until they become valid or obsolete. Then obsolete objects are removed. This work also proposes the CluStreamOD, an extension of the CluStream clustering algorithm, which applies the strategy under study in its component online, to treat outliers. Experiments carried out show the efficacy of the CluStreamOD for online detection and treatment of the outliers in the data streams compared to CluStream, and the potentiality of the proposed approach to be applied in other algorithms in data stream based on micro-clusters.
|
4 |
Seleção Ativa de Exemplos de Treinamento para Meta-AprendizadoSousa, Arthur Fernandes Minduca de 29 July 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T11:54:25Z
No. of bitstreams: 2
Dissertaçao Arthur Minduca.pdf: 1331924 bytes, checksum: c5fbf43c427a68b5d9b2a75d156766cb (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T11:54:25Z (GMT). No. of bitstreams: 2
Dissertaçao Arthur Minduca.pdf: 1331924 bytes, checksum: c5fbf43c427a68b5d9b2a75d156766cb (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-07-29 / Várias abordagens têm sido aplicadas à tarefa de seleção de algoritmos. Nesse
contexto, Meta-Aprendizado surge como uma abordagem eficiente para predizer o
desempenho de algoritmos adotando uma estratégia supervisionada. Os exemplos de
treinamento de Meta-Aprendizado (ou meta-exemplos) são construídos a partir de um
repositório de instâncias de problemas (como, por exemplo, um repositório de bases de
dados de classificação). Cada meta-exemplo armazena características descritivas de
uma instância de problema e um rótulo indicando o melhor algoritmo para o problema
(empiricamente identificado entre um conjunto de algoritmos candidatos). Os melhores
algoritmos para novos problemas podem ser preditos se baseando apenas em suas
características descritivas, sem a necessidade de qualquer avaliação empírica
adicional dos algoritmos candidatos. Apesar dos resultados Meta-Aprendizado
requererem a implementação de um número suficiente de instâncias de problemas
para produzir um conjunto rico de meta-exemplos. Abordagens recentes para gerar
conjuntos de dados sintéticos ou manipulado foram adotados com sucesso no contexto
de Meta-Aprendizado. Essas propostas incluem a abordagem de Datasetoids, que é
uma técnica simples de manipulação de dados que permite a geração de novos
conjuntos de dados a partir de bases existentes. Apesar dessas propostas produzirem
dados relevantes para Meta-Aprendizado, eles podem eventualmente produzir
instâncias de problemas redundantes ou até mesmo irrelevantes. Meta-Aprendizado
Ativo surge nesse contexto para selecionar somente as instâncias mais informativas
para a geração de meta-exemplos. Neste trabalho, investigamos o uso de Meta-
Aprendizado Ativo combinado com Datasetoids, focando no uso do algoritmo Random
forest em Meta-Aprendizado. Para selecionar as instâncias de problemas,
implementamos um critério de incerteza baseado em entropia, específico para o
Random forest. Também investigamos o uso de uma técnica de detecção de outliers a
fim de remover a priori os problemas considerados outliers, objetivando melhorar o
desempenho dos métodos de Aprendizagem Ativa. Nossos experimentos revelaram
uma melhora no desempenho do Meta-Aprendizado e uma redução no custo
computacional para a geração de meta-exemplos.
|
5 |
Avaliação e seleção de modelos em detecção não supervisionada de outliers / On the internal evaluation of unsupervised outlier detectionMarques, Henrique Oliveira 23 March 2015 (has links)
A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas. O presente trabalho enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura, porém cada um deles utiliza uma intuição própria do que deve ser considerado um outlier ou não, que é naturalmente um conceito subjetivo. Isso dificulta sensivelmente a escolha de um algoritmo em particular e também a escolha de uma configuração adequada para o algoritmo escolhido em uma dada aplicação prática. Isso também torna altamente complexo avaliar a qualidade da solução obtida por um algoritmo/configuração em particular adotados pelo analista, especialmente em função da problemática de se definir uma medida de qualidade que não seja vinculada ao próprio critério utilizado pelo algoritmo. Tais questões estão inter-relacionadas e se referem respectivamente aos problemas de seleção de modelos e avaliação (ou validação) de resultados em aprendizado de máquina não supervisionado. Neste trabalho foi desenvolvido um índice pioneiro para avaliação não supervisionada de detecção de outliers. O índice, chamado IREOS (Internal, Relative Evaluation of Outlier Solutions), avalia e compara diferentes soluções (top-n, i.e., rotulações binárias) candidatas baseando-se apenas nas informações dos dados e nas próprias soluções a serem avaliadas. O índice também é ajustado estatisticamente para aleatoriedade e extensivamente avaliado em vários experimentos envolvendo diferentes coleções de bases de dados sintéticas e reais. / Outlier detection (or anomaly detection) plays an important role in the pattern discovery from data that can be considered exceptional in some sense. An important distinction is that between the supervised and unsupervised techniques. In this work we focus on unsupervised outlier detection techniques. There are dozens of algorithms of this category in literature, however, each of these algorithms uses its own intuition to judge what should be considered an outlier or not, which naturally is a subjective concept. This substantially complicates the selection of a particular algorithm and also the choice of an appropriate configuration of parameters for a given algorithm in a practical application. This also makes it highly complex to evaluate the quality of the solution obtained by an algorithm or configuration adopted by the analyst, especially in light of the problem of defining a measure of quality that is not hooked on the criterion used by the algorithm itself. These issues are interrelated and refer respectively to the problems of model selection and evaluation (or validation) of results in unsupervised learning. Here we developed a pioneer index for unsupervised evaluation of outlier detection results. The index, called IREOS (Internal, Relative Evaluation of Outlier Solutions), can evaluate and compare different candidate (top-n, i.e., binary labelings) solutions based only upon the data information and the solution to be evaluated. The index is also statistically adjusted for chance and extensively evaluated in several experiments involving different collections of synthetic and real data sets.
|
6 |
Caracterização de classes e detecção de outliers em redes complexa / Characterization of classes and outliers detection in complex networksBerton, Lilian 25 April 2011 (has links)
As redes complexas surgiram como uma nova e importante maneira de representação e abstração de dados capaz de capturar as relações espaciais, topológicas, funcionais, entre outras características presentes em muitas bases de dados. Dentre as várias abordagens para a análise de dados, destacam-se a classificação e a detecção de outliers. A classificação de dados permite atribuir uma classe aos dados, baseada nas características de seus atributos e a detecção de outliers busca por dados cujas características se diferem dos demais. Métodos de classificação de dados e de detecção de outliers baseados em redes complexas ainda são pouco estudados. Tendo em vista os benefícios proporcionados pelo uso de redes complexas na representação de dados, o presente trabalho apresenta o desenvolvimento de um método baseado em redes complexas para detecção de outliers que utiliza a caminhada aleatória e um índice de dissimilaridade. Este método possibilita a identificação de diferentes tipos de outliers usando a mesma medida. Dependendo da estrutura da rede, os vértices outliers podem ser tanto aqueles distantes do centro como os centrais, podem ser hubs ou vértices com poucas ligações. De um modo geral, a medida proposta é uma boa estimadora de vértices outliers em uma rede, identificando, de maneira adequada, vértices com uma estrutura diferenciada ou com uma função especial na rede. Foi proposta também uma técnica de construção de redes capaz de representar relações de similaridade entre classes de dados, baseada em uma função de energia que considera medidas de pureza e extensão da rede. Esta rede construída foi utilizada para caracterizar mistura entre classes de dados. A caracterização de classes é uma questão importante na classificação de dados, porém ainda é pouco explorada. Considera-se que o trabalho desenvolvido é uma das primeiras tentativas nesta direção / Complex networks have emerged as a new and important way of representation and data abstraction capable of capturing the spatial relationships, topological, functional, and other features present in many databases. Among the various approaches to data analysis, we highlight classification and outlier detection. Data classification allows to assign a class to the data based on characteristics of their attributes and outlier detection search for data whose characteristics differ from the others. Methods of data classification and outlier detection based on complex networks are still little studied. Given the benefits provided by the use of complex networks in data representation, this study developed a method based on complex networks to detect outliers based on random walk and on a dissimilarity index. The method allows the identification of different types of outliers using the same measure. Depending on the structure of the network, the vertices outliers can be either those distant from the center as the central, can be hubs or vertices with few connections. In general, the proposed measure is a good estimator of outlier vertices in a network, properly identifying vertices with a different structure or a special function in the network. We also propose a technique for building networks capable of representing similarity relationships between classes of data based on an energy function that considers measures of purity and extension of the network. This network was used to characterize mixing among data classes. Characterization of classes is an important issue in data classification, but it is little explored. We consider that this work is one of the first attempts in this direction
|
7 |
Técnica de aprendizado semissupervisionado para detecção de outliers / A semi-supervised technique for outlier detectionZamoner, Fabio Willian 23 January 2014 (has links)
Detecção de outliers desempenha um importante papel para descoberta de conhecimento em grandes bases de dados. O estudo é motivado por inúmeras aplicações reais como fraudes de cartões de crédito, detecção de falhas em componentes industriais, intrusão em redes de computadores, aprovação de empréstimos e monitoramento de condições médicas. Um outlier é definido como uma observação que desvia das outras observações em relação a uma medida e exerce considerável influência na análise de dados. Embora existam inúmeras técnicas de aprendizado de máquina para tratar desse problemas, a maioria delas não faz uso de conhecimento prévio sobre os dados. Técnicas de aprendizado semissupervisionado para detecção de outliers são relativamente novas e incluem apenas um pequeno número de rótulos da classe normal para construir um classificador. Recentemente um modelo semissupervisionado baseado em rede foi proposto para classificação de dados empregando um mecanismo de competição e cooperação de partículas. As partículas são responsáveis pela propagação dos rótulos para toda a rede. Neste trabalho, o modelo foi adaptado a fim de detectar outliers através da definição de um escore de outlier baseado na frequência de visitas. O número de visitas recebido por um outlier é significativamente diferente dos demais objetos de mesma classe. Essa abordagem leva a uma maneira não tradicional de tratar os outliers. Avaliações empíricas sobre bases artificiais e reais demonstram que a técnica proposta funciona bem para bases desbalanceadas e atinge precisão comparável às obtidas pelas técnicas tradicionais de detecção de outliers. Além disso, a técnica pode fornecer novas perspectivas sobre como diferenciar objetos, pois considera não somente a distância física, mas também a formação de padrão dos dados / Outloier detection plays an important role for discovering knowledge in large data sets. The study is motivated by plethora of real applications such as credit card frauds, fault detection in industrial components, network instrusion detection, loan application precoessing and medical condition monitoring. An outlier is defined as an observation that deviates from other observations with respect to a measure and exerts a substantial influence on data analysis. Although numerous machine learning techniques have been developed for attacking this problem, most of them work with no prior knowledge of the data. Semi-supervised outlier detection techniques are reçlatively new and include only a few labels of normal class for building a classifier. Recently, a network-based semi-supervised model was proposed for data clasification by employing a mechanism based on particle competiton and cooperation. Such particle competition and cooperaction. Such particles are responsible for label propagation throughout the network. In this work, we adapt this model by defining a new outlier score based on visit frequency counting. The number of visits received by an outlier is significantly different from the remaining objects. This approach leads to an anorthodox way to deal with outliers. Our empirical ecaluations on both real and simulated data sets demonstrate that proposed technique works well with unbalanced data sets and achieves a precision compared to traditional outlier detection techniques. Moreover, the technique might provide new insights into how to differentiate objects because it considers not only the physical distance but also the pattern formation of the data
|
8 |
Métodos robustos em regressão linear para dados simbólicos do tipo intervaloDOMINGUES, Marco Antonio de Oliveira 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:51:56Z (GMT). No. of bitstreams: 2
arquivo2961_1.pdf: 1358041 bytes, checksum: 6856c7acfe3c44063d89520f13a9da5f (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Fundação de Amparo à Pesquisa do Estado do Amazonas / A análise de dados simbólicos (Symbolic Data Analysis - SDA) tem se destacado como um
conjunto de ferramentas úteis à análise de grandes bases de dados, aprendizagem de máquina
e reconhecimento de padrões. Os dados simbólicos podem representar variáveis estruturadas,
listas, intervalos e distribuições. Nesse contexto, vários métodos estatísticos têm sido estendidos
para o domínio de SDA (análise de cluster, estatísticas descritivas, componentes principais,
análise fatorial, regressão linear, e outras). Como exemplo, os métodos de regressão linear
propostos recentemente para dados simbólicos são extensões do método dos mínimos quadrados
para minimização dos erros do modelo. Estes métodos estimam os parâmetros do modelo
da regressão linear considerando apenas as informações sobre os pontos médios (centros) das
variáveis simbólicas, considerando os valores dos limites inferiores e superiores dos intervalos
e considerando os valores dos pontos médios e das amplitudes dos intervalos.
Apesar da técnica dos mínimos quadrados ser computacionalmente simples, a qualidade
dos ajustes é degradada quando o conjunto sob investigação contém dados atípicos. Na análise
de regressão clássica, esses dados atípicos são frequentemente removidos do conjunto de dados
sob investigação, sendo normalmente considerados como erros do processo. Contudo, em SDA,
esse tipo de procedimento não é aconselhável, haja vista um dado simbólico poder representar
a generalização de um conjunto de outras observações clássicas.
Este trabalho propõe um método resistente (robusto) de regressão linear para dados simbólicos
do tipo intervalo, paramétrico, inspirado na análise de regressão simétrica, cujos estimadores
tenham alto ponto de ruptura . O método proposto permite ainda a construção de intervalos
de confiança e testes de hipóteses para os parâmetros do ajuste, enquanto os métodos encontrados
na literatura não estabelecem suposições probabilísticas. Além disso, considerando que
a ausência de observações atípicas em um conjunto de dados indica a possibilidade de utilização
de métodos baseados nos mínimos quadrados, esta tese também propõe um conjunto de
técnicas para a identificação de dados simbólicos intervalares atípicos
|
9 |
Técnica de aprendizado semissupervisionado para detecção de outliers / A semi-supervised technique for outlier detectionFabio Willian Zamoner 23 January 2014 (has links)
Detecção de outliers desempenha um importante papel para descoberta de conhecimento em grandes bases de dados. O estudo é motivado por inúmeras aplicações reais como fraudes de cartões de crédito, detecção de falhas em componentes industriais, intrusão em redes de computadores, aprovação de empréstimos e monitoramento de condições médicas. Um outlier é definido como uma observação que desvia das outras observações em relação a uma medida e exerce considerável influência na análise de dados. Embora existam inúmeras técnicas de aprendizado de máquina para tratar desse problemas, a maioria delas não faz uso de conhecimento prévio sobre os dados. Técnicas de aprendizado semissupervisionado para detecção de outliers são relativamente novas e incluem apenas um pequeno número de rótulos da classe normal para construir um classificador. Recentemente um modelo semissupervisionado baseado em rede foi proposto para classificação de dados empregando um mecanismo de competição e cooperação de partículas. As partículas são responsáveis pela propagação dos rótulos para toda a rede. Neste trabalho, o modelo foi adaptado a fim de detectar outliers através da definição de um escore de outlier baseado na frequência de visitas. O número de visitas recebido por um outlier é significativamente diferente dos demais objetos de mesma classe. Essa abordagem leva a uma maneira não tradicional de tratar os outliers. Avaliações empíricas sobre bases artificiais e reais demonstram que a técnica proposta funciona bem para bases desbalanceadas e atinge precisão comparável às obtidas pelas técnicas tradicionais de detecção de outliers. Além disso, a técnica pode fornecer novas perspectivas sobre como diferenciar objetos, pois considera não somente a distância física, mas também a formação de padrão dos dados / Outloier detection plays an important role for discovering knowledge in large data sets. The study is motivated by plethora of real applications such as credit card frauds, fault detection in industrial components, network instrusion detection, loan application precoessing and medical condition monitoring. An outlier is defined as an observation that deviates from other observations with respect to a measure and exerts a substantial influence on data analysis. Although numerous machine learning techniques have been developed for attacking this problem, most of them work with no prior knowledge of the data. Semi-supervised outlier detection techniques are reçlatively new and include only a few labels of normal class for building a classifier. Recently, a network-based semi-supervised model was proposed for data clasification by employing a mechanism based on particle competiton and cooperation. Such particle competition and cooperaction. Such particles are responsible for label propagation throughout the network. In this work, we adapt this model by defining a new outlier score based on visit frequency counting. The number of visits received by an outlier is significantly different from the remaining objects. This approach leads to an anorthodox way to deal with outliers. Our empirical ecaluations on both real and simulated data sets demonstrate that proposed technique works well with unbalanced data sets and achieves a precision compared to traditional outlier detection techniques. Moreover, the technique might provide new insights into how to differentiate objects because it considers not only the physical distance but also the pattern formation of the data
|
10 |
Caracterização de classes e detecção de outliers em redes complexa / Characterization of classes and outliers detection in complex networksLilian Berton 25 April 2011 (has links)
As redes complexas surgiram como uma nova e importante maneira de representação e abstração de dados capaz de capturar as relações espaciais, topológicas, funcionais, entre outras características presentes em muitas bases de dados. Dentre as várias abordagens para a análise de dados, destacam-se a classificação e a detecção de outliers. A classificação de dados permite atribuir uma classe aos dados, baseada nas características de seus atributos e a detecção de outliers busca por dados cujas características se diferem dos demais. Métodos de classificação de dados e de detecção de outliers baseados em redes complexas ainda são pouco estudados. Tendo em vista os benefícios proporcionados pelo uso de redes complexas na representação de dados, o presente trabalho apresenta o desenvolvimento de um método baseado em redes complexas para detecção de outliers que utiliza a caminhada aleatória e um índice de dissimilaridade. Este método possibilita a identificação de diferentes tipos de outliers usando a mesma medida. Dependendo da estrutura da rede, os vértices outliers podem ser tanto aqueles distantes do centro como os centrais, podem ser hubs ou vértices com poucas ligações. De um modo geral, a medida proposta é uma boa estimadora de vértices outliers em uma rede, identificando, de maneira adequada, vértices com uma estrutura diferenciada ou com uma função especial na rede. Foi proposta também uma técnica de construção de redes capaz de representar relações de similaridade entre classes de dados, baseada em uma função de energia que considera medidas de pureza e extensão da rede. Esta rede construída foi utilizada para caracterizar mistura entre classes de dados. A caracterização de classes é uma questão importante na classificação de dados, porém ainda é pouco explorada. Considera-se que o trabalho desenvolvido é uma das primeiras tentativas nesta direção / Complex networks have emerged as a new and important way of representation and data abstraction capable of capturing the spatial relationships, topological, functional, and other features present in many databases. Among the various approaches to data analysis, we highlight classification and outlier detection. Data classification allows to assign a class to the data based on characteristics of their attributes and outlier detection search for data whose characteristics differ from the others. Methods of data classification and outlier detection based on complex networks are still little studied. Given the benefits provided by the use of complex networks in data representation, this study developed a method based on complex networks to detect outliers based on random walk and on a dissimilarity index. The method allows the identification of different types of outliers using the same measure. Depending on the structure of the network, the vertices outliers can be either those distant from the center as the central, can be hubs or vertices with few connections. In general, the proposed measure is a good estimator of outlier vertices in a network, properly identifying vertices with a different structure or a special function in the network. We also propose a technique for building networks capable of representing similarity relationships between classes of data based on an energy function that considers measures of purity and extension of the network. This network was used to characterize mixing among data classes. Characterization of classes is an important issue in data classification, but it is little explored. We consider that this work is one of the first attempts in this direction
|
Page generated in 0.0627 seconds