91 |
Estudo do balan?o de umidade por meio de modelos regionais para o clima do passado e do futuro sobre a Am?rica do Sul / Moisture budget stydy of regioal models into through for past and future climates of the South AmericaCoutinho, Mayt? Duarte Leal 18 June 2015 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2016-05-31T20:42:21Z
No. of bitstreams: 1
MayteDuarteLealCoutinho_TESE.pdf: 5311317 bytes, checksum: abfa1929995ae7c350372d6daa5498e6 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2016-06-03T20:03:24Z (GMT) No. of bitstreams: 1
MayteDuarteLealCoutinho_TESE.pdf: 5311317 bytes, checksum: abfa1929995ae7c350372d6daa5498e6 (MD5) / Made available in DSpace on 2016-06-03T20:03:24Z (GMT). No. of bitstreams: 1
MayteDuarteLealCoutinho_TESE.pdf: 5311317 bytes, checksum: abfa1929995ae7c350372d6daa5498e6 (MD5)
Previous issue date: 2015-06-18 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior (CAPES) / No contexto de mudan?as clim?ticas sobre a Am?rica do Sul (AS) tem-se observado que a combina??o de altas temperaturas mais chuvas e altas temperaturas menos chuvas, provocam diferentes impactos como: eventos extremos de precipita??o, condi??es favor?veis para queimadas e secas. Com isto, estas regi?es enfrentam amea?a crescente de escassez de ?gua, local ou generalizada. Assim, a disponibilidade de ?gua no Brasil depende em grande parte, do clima e de suas varia??es em diversas escalas de tempo. Neste sentido, o objetivo principal desta pesquisa ? estudar o balan?o de umidade por meio de Regional Climate Models (RCM) do Project Regional Climate Change Assessments for La Plata Basin (CLARIS- LPB), assim como, combinar estes RCM por meio de duas t?cnicas estat?sticas, na tentativa de melhorar a previs?o sobre tr?s ?reas da AS: Amaz?nia (AMZ), Nordeste do Brasil (NEB) e Bacia do Prata (LPB) nos climas do passado (1961-1990) e do futuro (2071-2100). O transporte de umidade sobre AS foi investigado por meio do fluxo de umidade integrado verticalmente. Os principais resultados mostraram que os fluxos m?dios de vapor d??gua nas regi?es tropicais (AMZ e NEB) s?o maiores atrav?s das bordas leste e norte, assim indicando que as contribui??es dos ventos al?sios do Atl?ntico Norte e do Sul s?o igualmente importantes para a entrada de umidade durante os meses de JJA e DJF. Esta configura??o foi observada em todos os modelos e climas. Na compara??o dos climas verificou-se que a converg?ncia do fluxo de umidade no clima passado foi menor em rela??o ao futuro em diferentes regi?es e ?pocas. De forma semelhante, constatou-se que a precipita??o foi reduzida no clima futuro nas regi?es tropicais (AMZ e NEB), possivelmente devido os intensos fluxos de umidade que adentraram nas regi?es. Por interm?dio das t?cnicas de Regress?o M?ltipla por Componente Principal (C_RCP) e da combina??o convexa (C_EQM), analisamos e comparamos as combina??es dos modelos (ensemble). Os resultados indicaram que a combina??o por RCP foi melhor em representar a precipita??o observada em ambos os climas. Sendo que, al?m dos valores mostrarem ser pr?ximos aos observados, a t?cnica obteve coeficiente de correla??o de moderada ? forte magnitude, em praticamente todos os meses nos diferentes climas e regi?es. Al?m do mais, na avalia??o das t?cnicas de combina??o, a tend?ncia percentual (PBIAS) mostrou que em geral, a C_RCP obteve valores de baixa magnitude (PBIAS = 0%) indicando ter um desempenho ?muito bom? no clima passado e (PBIAS = -4% a 3%) para o clima futuro, sobre as regi?es de estudo. Enquanto a C_EQM mostrou no clima passado, que a AMZ obteve um desempenho ?bom? e nas regi?es do NEB e LPB obtiveram desempenho de ?bom a satisfat?rio?. Logo, os resultados mostraram que as t?cnicas tem um potencial promissor para aplica??es operacionais em centro de previs?o de tempo e clima. / In the context of climate change over South America (SA) has been observed that the combination of high temperatures and rain more temperatures less rainfall, cause different impacts such as extreme precipitation events, favorable conditions for fires and droughts. As a result, these regions face growing threat of water shortage, local or generalized. Thus, the water availability in Brazil depends largely on the weather and its variations in different time scales. In this sense, the main objective of this research is to study the moisture budget through regional climate models (RCM) from Project Regional Climate Change Assessments for La Plata Basin (CLARIS-LPB) and combine these RCM through two statistical techniques in an attempt to improve prediction on three areas of AS: Amazon (AMZ), Northeast Brazil (NEB) and the Plata Basin (LPB) in past climates (1961-1990) and future (2071-2100). The moisture transport on AS was investigated through the moisture fluxes vertically integrated. The main results showed that the average fluxes of water vapor in the tropics (AMZ and NEB) are higher across the eastern and northern edges, thus indicating that the contributions of the trade winds of the North Atlantic and South are equally important for the entry moisture during the months of JJA and DJF. This configuration was observed in all the models and climates. In comparison climates, it was found that the convergence of the flow of moisture in the past weather was smaller in the future in various regions and seasons. Similarly, the majority of the SPC simulates the future climate, reduced precipitation in tropical regions (AMZ and NEB), and an increase in the LPB region. The second phase of this research was to carry out combination of RCM in more accurately predict precipitation, through the multiple regression techniques for components Main (C.RPC) and convex combination (C.EQM), and then analyze and compare combinations of RCM (ensemble). The results indicated that the combination was better in RPC represent precipitation observed in both climates. Since, in addition to showing values be close to those observed, the technique obtained coefficient of correlation of moderate to strong magnitude in almost every month in different climates and regions, also lower dispersion of data (RMSE). A significant advantage of the combination of methods was the ability to capture extreme events (outliers) for the study regions. In general, it was observed that the wet C.EQM captures more extreme, while C.RPC can capture more extreme dry climates and in the three regions studied.
|
92 |
Proposta de um novo método para o planejamento de redes geodésicasKlein, Ivandro January 2014 (has links)
O objetivo deste trabalho é desenvolver e propor um novo método para o planejamento de redes geodésicas. O planejamento (ou pré-análise) de uma rede geodésica consiste em planejar (ou otimizar) a rede, de modo que a mesma atenda a critérios de qualidade pré-estabelecidos de acordo com os objetivos do projeto, como precisão, confiabilidade e custos. No método aqui proposto, os critérios a serem considerados na etapa de planejamento são os níveis de confiabilidade e homogeneidade mínimos aceitáveis para as observações; a acurácia posicional dos vértices, considerando tanto os efeitos de precisão quanto os (possíveis) efeitos de tendência, segundo ainda um determinado nível de confiança; o número de outliers não detectados máximo admissível; e o poder do teste mínimo do procedimento Data Snooping (DS) no cenário n-dimensional, isto é, considerando todas as observações (testadas individualmente). De acordo com as classificações encontradas na literatura, o método aqui proposto consiste em um projeto combinado, solucionado por meio do método da tentativa e erro, além de apresentar alguns aspectos inéditos em seus critérios de planejamento. Para demonstrar a sua aplicação prática, um exemplo numérico de planejamento de uma rede GNSS (Global Navigation Satellite System – Sistema Global de Navegação por Satélite) é apresentado e descrito. Os resultados obtidos após o processamento dos dados da rede GNSS foram concordantes com os valores estimados na sua etapa de planejamento, ou seja, o método aqui proposto apresentou desempenho satisfatório na prática. Além disso, também foram investigados como os critérios pré-estabelecidos, a geometria/configuração da rede geodésica e a precisão/correlação inicial das observações podem influenciar nos resultados obtidos na etapa de planejamento, seguindo o método aqui proposto. Com a realização destes experimentos, dentre outras conclusões, verificou-se que todo os critérios de planejamento do método aqui proposto estão intrinsecamente interligados, pois, por exemplo, uma baixa redundância conduz a um valor relativamente mais alto para a componente de precisão, e consequentemente, um valor relativamente mais baixo para a componente de tendência (mantendo a acurácia final constante), o que também conduz a um poder do teste mínimo nos cenários unidimensional e n-dimensional significativamente mais baixos. / The aim of this work is to develop and propose a new method for the design of geodetic networks. Design (planning or pre-analysis) of a geodetic network consists of planning (or optimizing) the network so that it follows the pre-established quality criteria according to the project objectives, such as accuracy, reliability and costs. In the method proposed here, the criteria to be considered in the planning stage are the minimum acceptable levels of reliability and homogeneity of the observations; the positional accuracy of the points considering both the effects of precision and the (possible) effects of bias (according to a given confidence level); the maximum allowable number of undetected outliers; and the minimum power of the test of the Data Snooping procedure (DS) in the n-dimensional scenario, i.e., considering all observations (individually tested). According to the classifications found in the literature, the method proposed here consists of a combined project, solved by means of trial and error approach, and presents some new aspects in their planning criteria. To demonstrate its practical application, a numerical example of a GNSS (Global Navigation Satellite System) network design is presented and described. The results obtained after processing the data of the GNSS network were found in agreement with the estimated values in the design stage, i.e., the method proposed here showed satisfactory performance in practice. Moreover, were also investigated as the pre-established criteria, the geometry/configuration of the geodetic network, and the initial values for precision/correlation of the observations may influence the results obtained in the planning stage, following the method proposed here. In these experiments, among other findings, it was found that all the design criteria of the method proposed here are intrinsically related, e.g., a low redundancy leads to a relatively higher value for the precision component, and consequently to a relatively lower value for the bias component (keeping constant the final accuracy), which also leads to a minimum power of the test significantly lower in the one-dimensional and the n-dimensional scenarios.
|
93 |
Proposta de um novo método para o planejamento de redes geodésicasKlein, Ivandro January 2014 (has links)
O objetivo deste trabalho é desenvolver e propor um novo método para o planejamento de redes geodésicas. O planejamento (ou pré-análise) de uma rede geodésica consiste em planejar (ou otimizar) a rede, de modo que a mesma atenda a critérios de qualidade pré-estabelecidos de acordo com os objetivos do projeto, como precisão, confiabilidade e custos. No método aqui proposto, os critérios a serem considerados na etapa de planejamento são os níveis de confiabilidade e homogeneidade mínimos aceitáveis para as observações; a acurácia posicional dos vértices, considerando tanto os efeitos de precisão quanto os (possíveis) efeitos de tendência, segundo ainda um determinado nível de confiança; o número de outliers não detectados máximo admissível; e o poder do teste mínimo do procedimento Data Snooping (DS) no cenário n-dimensional, isto é, considerando todas as observações (testadas individualmente). De acordo com as classificações encontradas na literatura, o método aqui proposto consiste em um projeto combinado, solucionado por meio do método da tentativa e erro, além de apresentar alguns aspectos inéditos em seus critérios de planejamento. Para demonstrar a sua aplicação prática, um exemplo numérico de planejamento de uma rede GNSS (Global Navigation Satellite System – Sistema Global de Navegação por Satélite) é apresentado e descrito. Os resultados obtidos após o processamento dos dados da rede GNSS foram concordantes com os valores estimados na sua etapa de planejamento, ou seja, o método aqui proposto apresentou desempenho satisfatório na prática. Além disso, também foram investigados como os critérios pré-estabelecidos, a geometria/configuração da rede geodésica e a precisão/correlação inicial das observações podem influenciar nos resultados obtidos na etapa de planejamento, seguindo o método aqui proposto. Com a realização destes experimentos, dentre outras conclusões, verificou-se que todo os critérios de planejamento do método aqui proposto estão intrinsecamente interligados, pois, por exemplo, uma baixa redundância conduz a um valor relativamente mais alto para a componente de precisão, e consequentemente, um valor relativamente mais baixo para a componente de tendência (mantendo a acurácia final constante), o que também conduz a um poder do teste mínimo nos cenários unidimensional e n-dimensional significativamente mais baixos. / The aim of this work is to develop and propose a new method for the design of geodetic networks. Design (planning or pre-analysis) of a geodetic network consists of planning (or optimizing) the network so that it follows the pre-established quality criteria according to the project objectives, such as accuracy, reliability and costs. In the method proposed here, the criteria to be considered in the planning stage are the minimum acceptable levels of reliability and homogeneity of the observations; the positional accuracy of the points considering both the effects of precision and the (possible) effects of bias (according to a given confidence level); the maximum allowable number of undetected outliers; and the minimum power of the test of the Data Snooping procedure (DS) in the n-dimensional scenario, i.e., considering all observations (individually tested). According to the classifications found in the literature, the method proposed here consists of a combined project, solved by means of trial and error approach, and presents some new aspects in their planning criteria. To demonstrate its practical application, a numerical example of a GNSS (Global Navigation Satellite System) network design is presented and described. The results obtained after processing the data of the GNSS network were found in agreement with the estimated values in the design stage, i.e., the method proposed here showed satisfactory performance in practice. Moreover, were also investigated as the pre-established criteria, the geometry/configuration of the geodetic network, and the initial values for precision/correlation of the observations may influence the results obtained in the planning stage, following the method proposed here. In these experiments, among other findings, it was found that all the design criteria of the method proposed here are intrinsically related, e.g., a low redundancy leads to a relatively higher value for the precision component, and consequently to a relatively lower value for the bias component (keeping constant the final accuracy), which also leads to a minimum power of the test significantly lower in the one-dimensional and the n-dimensional scenarios.
|
94 |
Métodos robustos em regressão linear para dados simbólicos do tipo intervaloDOMINGUES, Marco Antonio de Oliveira 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:51:56Z (GMT). No. of bitstreams: 2
arquivo2961_1.pdf: 1358041 bytes, checksum: 6856c7acfe3c44063d89520f13a9da5f (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Fundação de Amparo à Pesquisa do Estado do Amazonas / A análise de dados simbólicos (Symbolic Data Analysis - SDA) tem se destacado como um
conjunto de ferramentas úteis à análise de grandes bases de dados, aprendizagem de máquina
e reconhecimento de padrões. Os dados simbólicos podem representar variáveis estruturadas,
listas, intervalos e distribuições. Nesse contexto, vários métodos estatísticos têm sido estendidos
para o domínio de SDA (análise de cluster, estatísticas descritivas, componentes principais,
análise fatorial, regressão linear, e outras). Como exemplo, os métodos de regressão linear
propostos recentemente para dados simbólicos são extensões do método dos mínimos quadrados
para minimização dos erros do modelo. Estes métodos estimam os parâmetros do modelo
da regressão linear considerando apenas as informações sobre os pontos médios (centros) das
variáveis simbólicas, considerando os valores dos limites inferiores e superiores dos intervalos
e considerando os valores dos pontos médios e das amplitudes dos intervalos.
Apesar da técnica dos mínimos quadrados ser computacionalmente simples, a qualidade
dos ajustes é degradada quando o conjunto sob investigação contém dados atípicos. Na análise
de regressão clássica, esses dados atípicos são frequentemente removidos do conjunto de dados
sob investigação, sendo normalmente considerados como erros do processo. Contudo, em SDA,
esse tipo de procedimento não é aconselhável, haja vista um dado simbólico poder representar
a generalização de um conjunto de outras observações clássicas.
Este trabalho propõe um método resistente (robusto) de regressão linear para dados simbólicos
do tipo intervalo, paramétrico, inspirado na análise de regressão simétrica, cujos estimadores
tenham alto ponto de ruptura . O método proposto permite ainda a construção de intervalos
de confiança e testes de hipóteses para os parâmetros do ajuste, enquanto os métodos encontrados
na literatura não estabelecem suposições probabilísticas. Além disso, considerando que
a ausência de observações atípicas em um conjunto de dados indica a possibilidade de utilização
de métodos baseados nos mínimos quadrados, esta tese também propõe um conjunto de
técnicas para a identificação de dados simbólicos intervalares atípicos
|
95 |
Técnica de aprendizado semissupervisionado para detecção de outliers / A semi-supervised technique for outlier detectionFabio Willian Zamoner 23 January 2014 (has links)
Detecção de outliers desempenha um importante papel para descoberta de conhecimento em grandes bases de dados. O estudo é motivado por inúmeras aplicações reais como fraudes de cartões de crédito, detecção de falhas em componentes industriais, intrusão em redes de computadores, aprovação de empréstimos e monitoramento de condições médicas. Um outlier é definido como uma observação que desvia das outras observações em relação a uma medida e exerce considerável influência na análise de dados. Embora existam inúmeras técnicas de aprendizado de máquina para tratar desse problemas, a maioria delas não faz uso de conhecimento prévio sobre os dados. Técnicas de aprendizado semissupervisionado para detecção de outliers são relativamente novas e incluem apenas um pequeno número de rótulos da classe normal para construir um classificador. Recentemente um modelo semissupervisionado baseado em rede foi proposto para classificação de dados empregando um mecanismo de competição e cooperação de partículas. As partículas são responsáveis pela propagação dos rótulos para toda a rede. Neste trabalho, o modelo foi adaptado a fim de detectar outliers através da definição de um escore de outlier baseado na frequência de visitas. O número de visitas recebido por um outlier é significativamente diferente dos demais objetos de mesma classe. Essa abordagem leva a uma maneira não tradicional de tratar os outliers. Avaliações empíricas sobre bases artificiais e reais demonstram que a técnica proposta funciona bem para bases desbalanceadas e atinge precisão comparável às obtidas pelas técnicas tradicionais de detecção de outliers. Além disso, a técnica pode fornecer novas perspectivas sobre como diferenciar objetos, pois considera não somente a distância física, mas também a formação de padrão dos dados / Outloier detection plays an important role for discovering knowledge in large data sets. The study is motivated by plethora of real applications such as credit card frauds, fault detection in industrial components, network instrusion detection, loan application precoessing and medical condition monitoring. An outlier is defined as an observation that deviates from other observations with respect to a measure and exerts a substantial influence on data analysis. Although numerous machine learning techniques have been developed for attacking this problem, most of them work with no prior knowledge of the data. Semi-supervised outlier detection techniques are reçlatively new and include only a few labels of normal class for building a classifier. Recently, a network-based semi-supervised model was proposed for data clasification by employing a mechanism based on particle competiton and cooperation. Such particle competition and cooperaction. Such particles are responsible for label propagation throughout the network. In this work, we adapt this model by defining a new outlier score based on visit frequency counting. The number of visits received by an outlier is significantly different from the remaining objects. This approach leads to an anorthodox way to deal with outliers. Our empirical ecaluations on both real and simulated data sets demonstrate that proposed technique works well with unbalanced data sets and achieves a precision compared to traditional outlier detection techniques. Moreover, the technique might provide new insights into how to differentiate objects because it considers not only the physical distance but also the pattern formation of the data
|
96 |
Robustní regrese - identifikace odlehlých pozorování / Robust regression - outlier detectionHradilová, Lenka January 2017 (has links)
This master thesis is focused on methods of outlier detection. The aim of this work is to assess the suitability of using robust methods on real data of EKO-KOM, a.s. The first part of the thesis provides an overview and a theoretical treatise on classic and robust methods of outlier detection. These methods are subsequently applied to the obtained data file of EKO-KOM, a.s. in the practical part of the thesis. At the conclusion of the thesis, there are recommendations about suitability of methods, which are based on comparison of classical and robust methods.
|
97 |
Procedimento objetivo para a garantia da qualidade de dados observacionais de vento em superfície no litoral do Rio Grande do NorteMORAES, Camila Freitas Wanderley de Carvalho Bezerra 27 February 2015 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-07-17T16:14:10Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação_Camila F. Wanderley de C. B. Moraes_versão Final.pdf: 2535411 bytes, checksum: d1c049b373557622907f11095871b5d0 (MD5) / Made available in DSpace on 2017-07-17T16:14:11Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação_Camila F. Wanderley de C. B. Moraes_versão Final.pdf: 2535411 bytes, checksum: d1c049b373557622907f11095871b5d0 (MD5)
Previous issue date: 2015-02-27 / O crescimento da energia eólica no Mundo vem fomentando a geração de uma grande
quantidade de dados observacionais oriundos de torres anemométricas. Tais dados são
imprescindíveis a várias aplicações, entre as quais se destacam: a análise de viabilidade
com respeito à implantação de centrais eólicas (na fase de prospecção) e avaliação do
desempenho dos aerogeradores (na fase de operação da central eólica). Por exemplo, os
dados observacionais do vento em superfície são empregados para a parametrização,
calibração e validação dos modelos utilizados na avaliação do recurso eólico. Portanto,
a análise de viabilidade para implantação de centrais eólicas é fortemente dependente da
qualidade dos dados observacionais. Porém, apesar da importância de tais dados, são
ainda extremamente escassas as publicações sobre garantia e controle de qualidade
aplicados a dados anemométricos. De maneira a tentar mitigar esta lacuna do setor
eólico, propõe-se, neste trabalho, um procedimento objetivo (automático) para a
garantia da qualidade que permita o tratamento de quantidades massivas de dados
observacionais, quantidades para as quais se tem como inviável o emprego de
procedimentos subjetivos (baseados, por exemplo, no “olho treinado” de um
meteorologista) ou mesmo semiobjetivos (semiautomáticos). O procedimento objetivo
proposto está baseado em uma sequência de testes organizados em duas grandes classes:
testes globais (que avaliam a qualidade de uma série temporal como um todo) e testes
locais (que avaliam a qualidade de conjuntos de dados e mesmo dados individuais),
sendo 3 as principais inovações deste trabalho: a introdução de uma análise paramétrica
objetiva no teste do limite, a realização de um teste objetivo de consistência espacial
para a verificação de dados individuais e (a mais relevante) a aplicação de um método
objetivo para inferir os parâmetros dos testes. O procedimento objetivo proposto para a
garantia da qualidade foi experimentado sobre os dados observacionais de velocidade
média do vento (integrados em 10 min) oriundos de quatro torres anemométricas
localizadas no litoral do Rio Grande do Norte. Tanto o procedimento como os
resultados são aqui apresentados e discutidos. / The world wind power growth has been responsible for the generation of a huge amount
of observational data from anemometrical masts. Such data are essential to several
applications, being highlighted some of them: the feasibility analysis with respect to the
deployment of wind farms (in the exploration phase) and the performance evaluation of
wind turbines (during the wind farms operation phase). For example, surface wind
observational data are used for parameterization, calibration and validation of models
used for the wind resource assessment. Therefore, the feasibility analysis concerning the
installation of wind farms is strongly dependent on the observational data quality.
However, despite the importance of such data, publications on quality assurance and
quality control applied to observational wind data are extremely scarce. In order to try
to mitigate this gap in the wind sector, this work aims to establish an objective
(automatic) procedure for quality assurance which addresses the treatment of a massive
amount of observational data considering that for such amount it is unfeasible the
employment of subjective procedures (for example, based on the "trained eye" of a
meteorologist) or even a semi-objective (semi-automatic) procedure. The proposed
objective procedure is based on a sequence of tests organized into two classes: the
global tests (which evaluate the quality of a time series as a whole) and the local tests
(which evaluate the quality of data clusters and even individual data), being the main
innovations the addition of a parametric analysis in the range test, the addition of an
objective spatial consistency test for verifying individual data and the (most important)
the employment of an objective method to infer parameters of the tests. The proposed
objective procedure for quality assurance was tested on 10 min-averaged wind speed
observational data from four anemometrical masts located in the coastal region of the
state of Rio Grande do Norte, Brazil. Both the procedures and the results are presented
here.
|
98 |
Caracterização de classes e detecção de outliers em redes complexa / Characterization of classes and outliers detection in complex networksLilian Berton 25 April 2011 (has links)
As redes complexas surgiram como uma nova e importante maneira de representação e abstração de dados capaz de capturar as relações espaciais, topológicas, funcionais, entre outras características presentes em muitas bases de dados. Dentre as várias abordagens para a análise de dados, destacam-se a classificação e a detecção de outliers. A classificação de dados permite atribuir uma classe aos dados, baseada nas características de seus atributos e a detecção de outliers busca por dados cujas características se diferem dos demais. Métodos de classificação de dados e de detecção de outliers baseados em redes complexas ainda são pouco estudados. Tendo em vista os benefícios proporcionados pelo uso de redes complexas na representação de dados, o presente trabalho apresenta o desenvolvimento de um método baseado em redes complexas para detecção de outliers que utiliza a caminhada aleatória e um índice de dissimilaridade. Este método possibilita a identificação de diferentes tipos de outliers usando a mesma medida. Dependendo da estrutura da rede, os vértices outliers podem ser tanto aqueles distantes do centro como os centrais, podem ser hubs ou vértices com poucas ligações. De um modo geral, a medida proposta é uma boa estimadora de vértices outliers em uma rede, identificando, de maneira adequada, vértices com uma estrutura diferenciada ou com uma função especial na rede. Foi proposta também uma técnica de construção de redes capaz de representar relações de similaridade entre classes de dados, baseada em uma função de energia que considera medidas de pureza e extensão da rede. Esta rede construída foi utilizada para caracterizar mistura entre classes de dados. A caracterização de classes é uma questão importante na classificação de dados, porém ainda é pouco explorada. Considera-se que o trabalho desenvolvido é uma das primeiras tentativas nesta direção / Complex networks have emerged as a new and important way of representation and data abstraction capable of capturing the spatial relationships, topological, functional, and other features present in many databases. Among the various approaches to data analysis, we highlight classification and outlier detection. Data classification allows to assign a class to the data based on characteristics of their attributes and outlier detection search for data whose characteristics differ from the others. Methods of data classification and outlier detection based on complex networks are still little studied. Given the benefits provided by the use of complex networks in data representation, this study developed a method based on complex networks to detect outliers based on random walk and on a dissimilarity index. The method allows the identification of different types of outliers using the same measure. Depending on the structure of the network, the vertices outliers can be either those distant from the center as the central, can be hubs or vertices with few connections. In general, the proposed measure is a good estimator of outlier vertices in a network, properly identifying vertices with a different structure or a special function in the network. We also propose a technique for building networks capable of representing similarity relationships between classes of data based on an energy function that considers measures of purity and extension of the network. This network was used to characterize mixing among data classes. Characterization of classes is an important issue in data classification, but it is little explored. We consider that this work is one of the first attempts in this direction
|
99 |
Avaliação e seleção de modelos em detecção não supervisionada de outliers / On the internal evaluation of unsupervised outlier detectionHenrique Oliveira Marques 23 March 2015 (has links)
A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas. O presente trabalho enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura, porém cada um deles utiliza uma intuição própria do que deve ser considerado um outlier ou não, que é naturalmente um conceito subjetivo. Isso dificulta sensivelmente a escolha de um algoritmo em particular e também a escolha de uma configuração adequada para o algoritmo escolhido em uma dada aplicação prática. Isso também torna altamente complexo avaliar a qualidade da solução obtida por um algoritmo/configuração em particular adotados pelo analista, especialmente em função da problemática de se definir uma medida de qualidade que não seja vinculada ao próprio critério utilizado pelo algoritmo. Tais questões estão inter-relacionadas e se referem respectivamente aos problemas de seleção de modelos e avaliação (ou validação) de resultados em aprendizado de máquina não supervisionado. Neste trabalho foi desenvolvido um índice pioneiro para avaliação não supervisionada de detecção de outliers. O índice, chamado IREOS (Internal, Relative Evaluation of Outlier Solutions), avalia e compara diferentes soluções (top-n, i.e., rotulações binárias) candidatas baseando-se apenas nas informações dos dados e nas próprias soluções a serem avaliadas. O índice também é ajustado estatisticamente para aleatoriedade e extensivamente avaliado em vários experimentos envolvendo diferentes coleções de bases de dados sintéticas e reais. / Outlier detection (or anomaly detection) plays an important role in the pattern discovery from data that can be considered exceptional in some sense. An important distinction is that between the supervised and unsupervised techniques. In this work we focus on unsupervised outlier detection techniques. There are dozens of algorithms of this category in literature, however, each of these algorithms uses its own intuition to judge what should be considered an outlier or not, which naturally is a subjective concept. This substantially complicates the selection of a particular algorithm and also the choice of an appropriate configuration of parameters for a given algorithm in a practical application. This also makes it highly complex to evaluate the quality of the solution obtained by an algorithm or configuration adopted by the analyst, especially in light of the problem of defining a measure of quality that is not hooked on the criterion used by the algorithm itself. These issues are interrelated and refer respectively to the problems of model selection and evaluation (or validation) of results in unsupervised learning. Here we developed a pioneer index for unsupervised evaluation of outlier detection results. The index, called IREOS (Internal, Relative Evaluation of Outlier Solutions), can evaluate and compare different candidate (top-n, i.e., binary labelings) solutions based only upon the data information and the solution to be evaluated. The index is also statistically adjusted for chance and extensively evaluated in several experiments involving different collections of synthetic and real data sets.
|
100 |
Analýza metod pro detekci odlehlých hodnot / Analysis of Outlier Detection MethodsLabaš, Dominik January 2021 (has links)
The topic of this thesis is analysis of methods for detection of outliers. Firstly, a description of outliers and various methods for their detection is provided. Then a description of selected data sets for testing of methods for detection of outliers is given. Next, an application design for the analysis of the described methods is presented. Then, technologies are presented, which provide models for described methods of detection of outliers. The implementation is then described in more detail. Subsequently, the results of experiments are presented, which represent the main part of this thesis. The results are evaluated and the individual models are compared with each other. Lastly, a method for accelerating outlier detection is demonstrated.
|
Page generated in 0.0433 seconds