Global ETD Search

1	Análise de componentes principais em séries temporais multivariadas com heteroscedasticidade condicional e outliers: uma aplicação para a poluição do ar, na Região da Grande Vitória, Espírito Santo, Brasil MONTE, E. Z. 01 April 2016 (has links) Made available in DSpace on 2018-08-24T22:56:07Z (GMT). No. of bitstreams: 1 tese_9916_Tese_versao_final.pdf: 3910739 bytes, checksum: 53a25e4e46a439f2c6d5f8e7d3510675 (MD5) Previous issue date: 2016-04-01 / as questões relativas à qualidade do ar têm se tornado cada vez mais importantes, uma vez que vários problemas de saúde decorrem da poluição atmosférica. Além disso, a poluição do ar contribui para a degradação do meio ambiente e, consequentemente, para o agravamento do efeito estufa. Dessa forma, diversos estudos adotando técnicas estatísticas têm sido realizados, com o intuito de contribuir na tomada de decisões dos agentes públicos e privados no que diz respeito ao combate à poluição, à prevenção de altas concentrações e à formulação de legislações para esse fim. Uma das metodologias estatísticas adotadas é a análise de componentes principais (ACP) clássica, sendo a mesma utilizada para o redimensionamento de rede, em análises de cluster, em análise de regressão, entre outros. No entanto, observa-se que, entre os estudos que têm adotado a ACP clássica, uma característica comum é negligenciar a heteroscedasticidade condicional e/ou a presença de outliers aditivos, que pode levar à resultados espúrios (enganosos), uma vez que a matriz de autocovariância estimada pode ser viesada (estimada incorretamente). Nota-se que as séries temporais relacionadas à poluição atmosférica tendem à apresentar heteroscedasticidade condicional e outliers aditivos. Assim, o primeiro artigo desta tese propôs aplicar um filtro multivariado VARFIMA-GARCH aos dados originais e utilizar a ACP clássica sobre os resíduos do modelo VARFIMA-GARCH. Com esse modelo, buscou-se filtrar, além da volatilidade, a correlação temporal e o comportamento de memória longa. A aplicação da ACP sobre os resíduos do modelo VARFIMA-GARCH mostrou-se mais coerente com as características ambientais da Região da Grande Vitória (RGV), Espírito Santo, Brasil, do que a aplicação usando os dados originais. No segundo artigo, que é a principal contribuição desta tese, a técnica de componentes principais com volatilidade (PVC), proposta por Hu e Tsay (2014), foi estendida para uma abordagem robusta (RPVC), a fim de capturar a volatilidade presente nos processos temporais multivariados, mas, levando-se em consideração os efeitos de outliers aditivos sobre a covariância condicional, uma vez que esses outliers podem mascarar (esconder) a heteroscedasticidade condicional ou, até mesmo, produzir efeitos voláteis espúrios, quando os dados não apresentarem volatilidade. O método RPVC proposto melhorou as predições dos picos de concentração do poluente MP10, na estação de Laranjeiras, RGV. 1 Análise de componentes principais 2 Valores estranhos
2	Identificação e transformação de valores aberrantes como medida de confiabilidade do metodo das diferenças para estimativa de fluxo optico em sequencias de imagens Rittner, Leticia, 1972- 03 August 2018 (has links) Orientador: Luiz Cesar Martini / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-03T20:57:31Z (GMT). No. of bitstreams: 1 Rittner_Leticia_M.pdf: 1276832 bytes, checksum: 4bede3566d06ba7ded935fd9708d4828 (MD5) Previous issue date: 2004 / Mestrado Processamento de imagens Valores estranhos (Estatistica) Movimento
3	Diagnostico de influencia em modelos de volatilidade estocastica / Influence diagnostics in stochastic volatility models Martim, Simoni Fernanda 14 August 2018 (has links) Orientadores: Mauricio Enrique Zevallos Herencia, Luiz Koodi Hotta / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-14T12:07:35Z (GMT). No. of bitstreams: 1 Martim_SimoniFernanda_M.pdf: 2441806 bytes, checksum: 4d34450ac590270c90e7eb66a293b51b (MD5) Previous issue date: 2009 / Resumo: O diagnóstico de modelos é uma etapa fundamental para avaliar a qualidade do ajuste dos modelos. Nesse sentido, uma das ferramentas de diagnóstico mais importantes é a análise de influência. Peña (2005) introduziu uma forma de analisar a influência em modelos de regressão, a qual avalia como cada ponto é influenciado pelos outros na amostra. Essa estratégia de diagnóstico foi adaptada por Hotta e Motta (2007) na análise de influência dos modelos de volatilidade estocástica univariados. Nesta dissertação, é realizado um estudo de diagnóstico de influência para modelos de volatilidade estocástica univariados assimétricos, assim como para modelos de volatilidade estocástica multivariados. As metodologias propostas são ilustradas através da análise de dados simulados e séries reais de retornos financeiros. / Abstract: Model diagnostics is a key step to assess the quality of fitted models. In this sense, one of the most important tools is the analysis of influence. Peña (2005) introduced a way of assessing influence in linear regression models, which evaluates how each point is influenced by the others in the sample. This diagnostic strategy was adapted by Hotta and Motta (2007) on the influence analysis of univariate stochastic volatility models. In this dissertation, it is performed a study of influence diagnostics of asymmetric univariate stochastic volatility models as well as multivariate stochastic volatility models. The proposed methodologies are illustrated through the analysis of simulated data and financial time series returns. / Mestrado / Series Temporais Financeiras / Mestra em Estatística Observações influentes (Estatística) Valores estranhos (Estatistica) Diagnóstico Series temporais Finanças - Estatística Influential observations Outliers (Statistics) Diagnostics Time-series Finance - Statistics
4	Métodos para detecção de outliers em séries de preços do índice de preços ao consumidor Lyra, Taíse Ferraz 24 February 2014 (has links) Submitted by Taíse Ferraz Lyra (taise.lyra@fgv.br) on 2014-05-14T15:24:28Z No. of bitstreams: 1 Dissertação - Taíse Ferraz Lyra (Versão Final).pdf: 1069993 bytes, checksum: 3407689a27bfac06aff01d4fda05f6f2 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2014-05-19T16:45:31Z (GMT) No. of bitstreams: 1 Dissertação - Taíse Ferraz Lyra (Versão Final).pdf: 1069993 bytes, checksum: 3407689a27bfac06aff01d4fda05f6f2 (MD5) / Approved for entry into archive by Marcia Bacha (marcia.bacha@fgv.br) on 2014-05-26T19:26:19Z (GMT) No. of bitstreams: 1 Dissertação - Taíse Ferraz Lyra (Versão Final).pdf: 1069993 bytes, checksum: 3407689a27bfac06aff01d4fda05f6f2 (MD5) / Made available in DSpace on 2014-05-26T19:28:52Z (GMT). No. of bitstreams: 1 Dissertação - Taíse Ferraz Lyra (Versão Final).pdf: 1069993 bytes, checksum: 3407689a27bfac06aff01d4fda05f6f2 (MD5) Previous issue date: 2014-02-24 / Outliers are observations that appear to be inconsistent with the others. Also called atypical, extreme or aberrant values, these inconsistencies can be caused, for instance, by political changes or economic crises, unexpected cold or heat waves, and measurement or typing errors. Although outliers are not necessarily incorrect values, they can distort the results of an analysis and lead researchers to erroneous conclusions if they are related to measurement or typing errors. The objective of this research is to study and compare different methods for detecting abnormalities in the price series from the Consumer Price Index (Índice de Preços ao Consumidor - IPC), calculated by the Brazilian Institute of Economy (Instituto Brasileiro de Economia - IBRE) from Getulio Vargas Foundation (Fundação Getulio Vargas - FGV). The IPC measures the price variation of a fixed set of goods and services, which are part of customary expenses for families with income levels between 1 and 33 monthly minimum wages and is mainly used as an indice of reference to evaluate the purchasing power of consumer. In addition to the method currently used by price analysts in IBRE, the study also considered variations of the IBRE Method, the Boxplot Method, the SIQR Boxplot Method, the Adjusted Boxplot Method, the Resistant Fences Method, the Quartile Method, the Modified Quartile Method, the Median Absolute Deviation Method and the Tukey Algorithm. These methods wre applied to data of the munucipalities Rio de Janeiro and São Paulo. In order to analyze the performance of each method, it is necessary to know the real extreme values in advance. Therefore, in this study, it was assumed that prices which were discarded or changed by analysts in the critical process were the real outliers. The method from IBRE is correlated with altered or discarded prices by analysts. Thus, the assumption that the changed or discarded prices by the analysts are the real outliers can influence the results, causing the method from IBRE be favored compared to other methods. However, thus, it is possible to compute two measurements by which the methods are evaluated. The first is the method’s accuracy score, which displays the proportion of detected real outliers. The second is the number of false-positive produced by the method, that tells how many values needed to be flagged to detect a real outlier. As higher the hit rate generated by the method and as the lower the amount of false positives produced therefrom, the better the performance of the method. Therefore, it was possible to construct a ranking relative to the performance of the methods, identifying the best among those analyzed. In the municipality of Rio de Janeiro, some of the variations of the method from IBRE showed equal or superior to the original method performances. As for the city of São Paulo, the method from IBRE showed the best performance. It is argued that a method correctly detects an outlier when it signals a real outlier as an extreme value. The method with the highest accuracy score and with smaller number of false-positive was from IBRE. For future investigations, we hope to test the methods in data obtained from simulation and from widely used data bases, so that the assumption related to the discarded or changed prices, during the critical process, does not alter the results. / Outliers são observações que parecem ser inconsistentes com as demais. Também chamadas de valores atípicos, extremos ou aberrantes, estas inconsistências podem ser causadas por mudanças de política ou crises econômicas, ondas inesperadas de frio ou calor, erros de medida ou digitação, entre outras. Outliers não são necessariamente valores incorretos, mas, quando provenientes de erros de medida ou digitação, podem distorcer os resultados de uma análise e levar o pesquisador à conclusões equivocadas. O objetivo deste trabalho é estudar e comparar diferentes métodos para detecção de anormalidades em séries de preços do Índice de Preços ao Consumidor (IPC), calculado pelo Instituto Brasileiro de Economia (IBRE) da Fundação Getulio Vargas (FGV). O IPC mede a variação dos preços de um conjunto ﬁxo de bens e serviços componentes de despesas habituais das famílias com nível de renda situado entre 1 e 33 salários mínimos mensais e é usado principalmente como um índice de referência para avaliação do poder de compra do consumidor. Além do método utilizado atualmente no IBRE pelos analistas de preços, os métodos considerados neste estudo são: variações do Método do IBRE, Método do Boxplot, Método do Boxplot SIQR, Método do Boxplot Ajustado, Método de Cercas Resistentes, Método do Quartil, do Quartil Modiﬁcado, Método do Desvio Mediano Absoluto e Algoritmo de Tukey. Tais métodos foram aplicados em dados pertencentes aos municípios Rio de Janeiro e São Paulo. Para que se possa analisar o desempenho de cada método, é necessário conhecer os verdadeiros valores extremos antecipadamente. Portanto, neste trabalho, tal análise foi feita assumindo que os preços descartados ou alterados pelos analistas no processo de crítica são os verdadeiros outliers. O Método do IBRE é bastante correlacionado com os preços alterados ou descartados pelos analistas. Sendo assim, a suposição de que os preços alterados ou descartados pelos analistas são os verdadeiros valores extremos pode inﬂuenciar os resultados, fazendo com que o mesmo seja favorecido em comparação com os demais métodos. No entanto, desta forma, é possível computar duas medidas através das quais os métodos são avaliados. A primeira é a porcentagem de acerto do método, que informa a proporção de verdadeiros outliers detectados. A segunda é o número de falsos positivos produzidos pelo método, que informa quantos valores precisaram ser sinalizados para um verdadeiro outlier ser detectado. Quanto maior for a proporção de acerto gerada pelo método e menor for a quantidade de falsos positivos produzidos pelo mesmo, melhor é o desempenho do método. Sendo assim, foi possível construir um ranking referente ao desempenho dos métodos, identiﬁcando o melhor dentre os analisados. Para o município do Rio de Janeiro, algumas das variações do Método do IBRE apresentaram desempenhos iguais ou superiores ao do método original. Já para o município de São Paulo, o Método do IBRE apresentou o melhor desempenho. Em trabalhos futuros, espera-se testar os métodos em dados obtidos por simulação ou que constituam bases largamente utilizadas na literatura, de forma que a suposição de que os preços descartados ou alterados pelos analistas no processo de crítica são os verdadeiros outliers não interﬁra nos resultados. Hit rate False positives Intervalo de tolerância Proporção de acerto Falsos positivos Tolerance interval Matemática Valores estranhos (Estatística) Índices de preços ao consumidor Índices de preços
5	Análise fatorial em series temporais com long-memory, outliers e sazonalidade : aplicação em poluição do ar na região da Grande Vitória-ES Sgrancio, Adriano Marcio 20 July 2015 (has links) Submitted by Elizabete Silva (elizabete.silva@ufes.br) on 2015-11-23T18:55:03Z No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) ANALISE FATORIAL EM SERIES TEMPORAIS.pdf: 2194722 bytes, checksum: 443c7c57567200ac6397234fc6b5687f (MD5) / Approved for entry into archive by Morgana Andrade (morgana.andrade@ufes.br) on 2016-01-05T10:06:44Z (GMT) No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) ANALISE FATORIAL EM SERIES TEMPORAIS.pdf: 2194722 bytes, checksum: 443c7c57567200ac6397234fc6b5687f (MD5) / Made available in DSpace on 2016-01-05T10:06:44Z (GMT). No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) ANALISE FATORIAL EM SERIES TEMPORAIS.pdf: 2194722 bytes, checksum: 443c7c57567200ac6397234fc6b5687f (MD5) Previous issue date: 2015 / CAPES / Os estudos de polui c~ao atmosf erica geralmente envolvem medi c~oes e an alises de dados de concentra c~oes de poluentes, como e o caso do MP10 (material particulado), de SO2 (di oxido de enxofre) e de outros poluentes. Estes dados normalmente possuem caracter sticas importantes como autocorrela c~ao, longa depend^encia, sazonalidade e observa c~oes at picas, que necessitam de ferramentas de an alise de s eries temporais multivariadas para avaliar o seu comportamento na atmosfera. Neste contexto, propomos um estimador fracion ario robusto da matriz de autocovari^ancia robusta de longa depend^encia e frequ^encia sazonal, para o modelo SARFIMA. O interesse pr atico em polui c~ao do ar e avaliar o comportamento das s eries de concentra c~oes de SO2 e fazer as previs~oes, mais acuradas, deste poluente. As previs~oes, do modelo SARFIMA estimado, s~ao comparadas as previs~oes do modelo SARMA, atrav es do erro quadr atico m edio. Existe outra di culdade na investiga c~ao dos poluentes atmosf ericos, por modelos de s eries temporais: os dados de SO2, de MP10 e de outros poluentes possuem alta dimensionalidade. Este fato di culta o tratamento dos dados atrav es de modelos vetoriais autorregressivos, pelo excessivo n umero de par^ametros estimados. Na literatura, a abordagem do problema para s eries temporais de grandes dimens~oes e feita atrav es da redu c~ao da dimensionalidade dos dados, utilizando, principalmente, o modelo fatorial e o m etodo de componentes principais. Por em, as caracter sticas de longa depend^encia e de observa c~oes at picas das s eries de polui c~ao atmosf erica, normalmente, n~ao s~ao envolvidas na teoria de an alise fatorial. Neste contexto, propomos aqui uma contribui c~ao te orica para o modelo fatorial de s eries temporais de grandes dimens~oes, envolvendo longa depend^encia e robustez na estima c~ao dos fatores. O modelo sugerido e aplicado em s eries de MP10 da rede de monitoramento da qualidade do ar da Grande Vit oria - ES. / Studies about air pollution typically involve measurements and analysis of pollutants, such as PM10 (particulate matter), SO2 (sulfur dioxide) and others. These data typically have important features like serial correlation, long dependency, seasonality and occurence of atypical observations, and many others, which may be analyzed by means of multivariate time series. In this context, a robust estimator of fractional robust autocovariance matrix of long dependence and seasonal frequency for SARFIMA model is proposed. The model is compared to SARMA model and is applied to SO2 concentrations. In addition of the mentioned features the data present high dimensionality in relation to sample size and number of variables. This fact complicates the analisys of the data using vector time series models. In the literature, the approach to mitigate this problem for high dimensional time series is to reduce the dimensionality using the factor analysis and principal component analysis. However, the long dependence characteristics and atypical observations, very common in air pollution series, is not considered by the standard factor analysis method. In this context, the standard factor model is extended to consider time series data presenting long dependence and outliers. The proposed method is applied to PM10 series of air quality monitoring network of the Greater Vit oria Region - ES. Análise fatorial Ar – Poluição Análise de séries temporais Valores estranhos (Estatística) Estatística robusta Dióxido de enxofre Material particulado Poluição do ar Outliers Robustez Longa dependência Material particulado Dióxido de enxofre 628
6	Novos algoritmos de aprendizado para classificação de padrões utilizando floresta de caminhos ótimos / New learning algorithms for pattern classification using optimum-path forest Castelo Fernández, César Christian 05 November 2011 (has links) Orientadores: Pedro Jussieu de Rezende, Alexandre Xavier Falcão / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-18T13:40:27Z (GMT). No. of bitstreams: 1 CasteloFernandez_CesarChristian_M.pdf: 2721705 bytes, checksum: 0d764319e69f64e1b806f60bbbf54b92 (MD5) Previous issue date: 2011 / Resumo: O Reconhecimento de Padrões pode ser definido como a capacidade de identificar a classe de algum objeto dentre um dado conjunto de classes, baseando-se na informação fornecida por amostras conhecidas (conjunto de treinamento). Nesta dissertação, o foco de estudo é o paradigma de classificação supervisionada, no qual se conhece a classe de todas as amostras utilizadas para o projeto do classificador. Especificamente, estuda-se o Classificador baseado em Floresta de Caminhos Ótimos (Optimum-Path Forest - OPF) e propõem três novos algoritmos de aprendizado, os quais representam melhorias em comparação com o Classificador OPF tradicional. Primeiramente, é desenvolvida uma metodologia simples, porém efetiva, para detecção de outliers no conjunto de treinamento. O método visa uma melhoria na acurácia do Classificador OPF tradicional através da troca desses outliers por novas amostras do conjunto de avaliação e sua exclusão do processo de aprendizagem. Os outliers são detectados computando uma penalidade para cada amostra baseada nos seus acertos e erros na classificação, o qual pode ser medido através do número de falsos positivos/negativos e verdadeiros positivos/negativos obtidos por cada amostra. O método obteve uma melhoria na acurácia em comparação com o OPF tradicional, com apenas um pequeno aumento no tempo de treinamento. Em seguida, é proposto um aprimoramento ao primeiro algoritmo, que permite detectar com maior precisão os outliers presentes na base de dados. Neste caso, utiliza-se a informação de falsos positivos/negativos e verdadeiros positivos/negativos de cada amostra para explorar intrinsecamente as relações de adjacência de cada amostra e determinar se é outlier. Uma inovação do método é que não existe necessidade de se computar explicitamente tal adjacência, como é feito nas técnicas tradicionais, o qual pode ser inviável para grandes bases de dados. O método obteve uma boa taxa de detecção de outliers e um tempo de treinamento muito baixo em vista do tamanho das bases de dados utilizadas. Finalmente, é abordado o problema de se selecionar um úmero tão pequeno quanto possível de amostras de treinamento e se obter a maior acurácia possível sobre o conjunto de teste. Propõe-se uma metodologia que se inicia com um pequeno conjunto de treinamento e, através da classificação de um conjunto bem maior de avaliação, aprende quais amostras são as mais representativas para o conjunto de treinamento. Os resultados mostram que é possível obter uma melhor acurácia que o Classificador OPF tradicional ao custo de um pequeno incremento no tempo de treinamento, mantendo, no entanto, o conjunto de treinamento menor que o conjunto inicial, o que significa um tempo de teste reduzido / Abstract: Pattern recognition can be defined as the capacity of identifying the class of an object among a given set of classes, based on the information provided by known samples (training set). In this dissertation, the focus is on the supervised classification approach, for which we are given the classes of all the samples used in the design of the classifier. Specifically, the Optimum-Path Forest Classifier (OPF) is studied and three new learning algorithms are proposed, which represent improvements to the traditional OPF classifier. First of all, a simple yet effective methodology is developed for the detection of outliers in a training set. This method aims at improving OPF's accuracy through the swapping of outliers for new samples from the evaluating set and their exclusion from the learning process itself. Outliers are detected by computing a penalty for each sample based on its classification-hits and -misses, which can be measured through the number of false positive/negatives and true positives/negatives obtained by each sample. The method achieved an accuracy improvement over the traditional OPF, with just a slight increment in the training time. An improvement to the first algorithm is proposed, allowing for a more precise detection of outliers present in the dataset. In this case, the information on the number of false positive/negatives and true positives/negatives of each sample is used to explore the adjacency relations of each sample and determine whether it is an outlier. The method's merit is that there is no need of explicitly computing an actual vicinity, as the traditional techniques do, which could be infeasible for large datasets. The method achieves a good outlier detection rate and a very low training time, considering the size of the datasets. Finally, the problem of choosing a small number of training samples while achieving a high accuracy in the testing set is addressed. We propose a methodology which starts with a small training set and, through the classification of a much larger evaluating set, it learns which are the most representative samples for the training set. The results show that it is possible to achieve higher accuracy than the traditional OPF's at the cost of a slight increment in the training time, preserving, however, a smaller training set than the original one, leading to a lower testing time / Mestrado / Ciência da Computação / Mestre em Ciência da Computação Reconhecimento de padrões Aprendizado de máquina Teoria dos grafos Valores estranhos (Estatistica) Processamento de imagens Visão por computador Pattern recognition Machine learning Graph theory Outliers (Statistics) Image processing Machine vision
7	On biclusters aggregation and its benefits for enumerative solutions = Agregação de biclusters e seus benefícios para soluções enumerativas / Agregação de biclusters e seus benefícios para soluções enumerativas Oliveira, Saullo Haniell Galvão de, 1988- 27 August 2018 (has links) Orientador: Fernando José Von Zuben / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-27T03:28:44Z (GMT). No. of bitstreams: 1 Oliveira_SaulloHaniellGalvaode_M.pdf: 1171322 bytes, checksum: 5488cfc9b843dbab6d7a5745af1e3d4b (MD5) Previous issue date: 2015 / Resumo: Biclusterização envolve a clusterização simultânea de objetos e seus atributos, definindo mo- delos locais de relacionamento entre os objetos e seus atributos. Assim como a clusterização, a biclusterização tem uma vasta gama de aplicações, desde suporte a sistemas de recomendação, até análise de dados de expressão gênica. Inicialmente, diversas heurísticas foram propostas para encontrar biclusters numa base de dados numérica. No entanto, tais heurísticas apresen- tam alguns inconvenientes, como não encontrar biclusters relevantes na base de dados e não maximizar o volume dos biclusters encontrados. Algoritmos enumerativos são uma proposta recente, especialmente no caso de bases numéricas, cuja solução é um conjunto de biclusters maximais e não redundantes. Contudo, a habilidade de enumerar biclusters trouxe mais um cenário desafiador: em bases de dados ruidosas, cada bicluster original se fragmenta em vá- rios outros biclusters com alto nível de sobreposição, o que impede uma análise direta dos resultados obtidos. Essa fragmentação irá ocorrer independente da definição escolhida de co- erência interna no bicluster, sendo mais relacionada com o próprio nível de ruído. Buscando reverter essa fragmentação, nesse trabalho propomos duas formas de agregação de biclusters a partir de resultados que apresentem alto grau de sobreposição: uma baseada na clusteriza- ção hierárquica com single linkage, e outra explorando diretamente a taxa de sobreposição dos biclusters. Em seguida, um passo de poda é executado para remover objetos ou atributos indesejados que podem ter sido incluídos como resultado da agregação. As duas propostas foram comparadas entre si e com o estado da arte, em diversos experimentos, incluindo bases de dados artificiais e reais. Essas duas novas formas de agregação não só reduziram significa- tivamente a quantidade de biclusters, essencialmente defragmentando os biclusters originais, mas também aumentaram consistentemente a qualidade da solução, medida em termos de precisão e recuperação, quando os biclusters são conhecidos previamente / Abstract: Biclustering involves the simultaneous clustering of objects and their attributes, thus defin- ing local models for the two-way relationship of objects and attributes. Just like clustering, biclustering has a broad set of applications, ranging from an advanced support for recom- mender systems of practical relevance to a decisive role in data mining techniques devoted to gene expression data analysis. Initially, heuristics have been proposed to find biclusters, and their main drawbacks are the possibility of losing some existing biclusters and the inca- pability of maximizing the volume of the obtained biclusters. Recently efficient algorithms were conceived to enumerate all the biclusters, particularly in numerical datasets, so that they compose a complete set of maximal and non-redundant biclusters. However, the ability to enumerate biclusters revealed a challenging scenario: in noisy datasets, each true bicluster becomes highly fragmented and with a high degree of overlapping, thus preventing a direct analysis of the obtained results. Fragmentation will happen no matter the boundary condi- tion adopted to specify the internal coherence of the valid biclusters, though the degree of fragmentation will be associated with the noise level. Aiming at reverting the fragmentation, we propose here two approaches for properly aggregating a set of biclusters exhibiting a high degree of overlapping: one based on single linkage and the other directly exploring the rate of overlapping. A pruning step is then employed to filter intruder objects and/or attributes that were added as a side effect of aggregation. Both proposals were compared with each other and also with the actual state-of-the-art in several experiments, including real and artificial datasets. The two newly-conceived aggregation mechanisms not only significantly reduced the number of biclusters, essentially defragmenting true biclusters, but also consistently in- creased the quality of the whole solution, measured in terms of Precision and Recall when the composition of the dataset is known a priori / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica Aprendizado de máquina Análise por agrupamento Mineração de dados (Computação) Valores estranhos (Estatistica) Problemas de enumeração combinatória Machine learning Cluster analysis Data mining and knowledge discovery Outliers (statistics) Combinatorial enumeration problems
8	O uso de quase U-estatísticas para séries temporais uni e multivaridas / The use of quasi U-statistics for univariate and multivariate time series Valk, Marcio 17 August 2018 (has links) Orientador: Aluísio de Souza Pinheiro / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Matemática Estatítica e Computação Científica / Made available in DSpace on 2018-08-17T14:57:09Z (GMT). No. of bitstreams: 1 Valk_Marcio_D.pdf: 2306844 bytes, checksum: 31162915c290291a91806cdc6f69f697 (MD5) Previous issue date: 2011 / Resumo: Classificação e agrupamento de séries temporais são problemas bastante explorados na literatura atual. Muitas técnicas são apresentadas para resolver estes problemas. No entanto, as restrições necessárias, em geral, tornam os procedimentos específicos e aplicáveis somente a uma determinada classe de séries temporais. Além disso, muitas dessas abordagens são empíricas. Neste trabalho, propomos métodos para classificação e agrupamento de séries temporais baseados em quase U-estatísticas(Pinheiro et al. (2009) e Pinheiro et al. (2010)). Como núcleos das U-estatísticas são utilizadas métricas baseadas em ferramentas bem conhecidas na literatura de séries temporais, entre as quais o periodograma e a autocorrelação amostral. Três situações principais são consideradas: séries univariadas; séries multivariadas; e séries com valores aberrantes. _E demonstrada a normalidade assintética dos testes propostos para uma ampla classe de métricas e modelos. Os métodos são estudados também por simulação e ilustrados por aplicação em dados reais. / Abstract: Classifcation and clustering of time series are problems widely explored in the current literature. Many techniques are presented to solve these problems. However, the necessary restrictions in general, make the procedures specific and applicable only to a certain class of time series. Moreover, many of these approaches are empirical. We present methods for classi_cation and clustering of time series based on Quasi U-statistics (Pinheiro et al. (2009) and Pinheiro et al. (2010)). As kernel of U-statistics are used metrics based on tools well known in the literature of time series, including the sample autocorrelation and periodogram. Three main situations are considered: univariate time series, multivariate time series, and time series with outliers. It is demonstrated the asymptotic normality of the proposed tests for a wide class of metrics and models. The methods are also studied by simulation and applied in a real data set. / Doutorado / Estatistica / Doutor em Estatística Análise de séries temporais Series temporais Estatística não paramétrica Testes de hipóteses estatísticas Valores estranhos (Estatistica) Teoria da previsão Time-series analysis Time-series Nonparametric statistics Statistical hypothesis testing Outliers (Statistics) Prediction theory

Search results