Global ETD Search

1	Métodos para detecção de outliers em séries de preços do índice de preços ao consumidor Lyra, Taíse Ferraz 24 February 2014 (has links) Submitted by Taíse Ferraz Lyra (taise.lyra@fgv.br) on 2014-05-14T15:24:28Z No. of bitstreams: 1 Dissertação - Taíse Ferraz Lyra (Versão Final).pdf: 1069993 bytes, checksum: 3407689a27bfac06aff01d4fda05f6f2 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2014-05-19T16:45:31Z (GMT) No. of bitstreams: 1 Dissertação - Taíse Ferraz Lyra (Versão Final).pdf: 1069993 bytes, checksum: 3407689a27bfac06aff01d4fda05f6f2 (MD5) / Approved for entry into archive by Marcia Bacha (marcia.bacha@fgv.br) on 2014-05-26T19:26:19Z (GMT) No. of bitstreams: 1 Dissertação - Taíse Ferraz Lyra (Versão Final).pdf: 1069993 bytes, checksum: 3407689a27bfac06aff01d4fda05f6f2 (MD5) / Made available in DSpace on 2014-05-26T19:28:52Z (GMT). No. of bitstreams: 1 Dissertação - Taíse Ferraz Lyra (Versão Final).pdf: 1069993 bytes, checksum: 3407689a27bfac06aff01d4fda05f6f2 (MD5) Previous issue date: 2014-02-24 / Outliers are observations that appear to be inconsistent with the others. Also called atypical, extreme or aberrant values, these inconsistencies can be caused, for instance, by political changes or economic crises, unexpected cold or heat waves, and measurement or typing errors. Although outliers are not necessarily incorrect values, they can distort the results of an analysis and lead researchers to erroneous conclusions if they are related to measurement or typing errors. The objective of this research is to study and compare different methods for detecting abnormalities in the price series from the Consumer Price Index (Índice de Preços ao Consumidor - IPC), calculated by the Brazilian Institute of Economy (Instituto Brasileiro de Economia - IBRE) from Getulio Vargas Foundation (Fundação Getulio Vargas - FGV). The IPC measures the price variation of a fixed set of goods and services, which are part of customary expenses for families with income levels between 1 and 33 monthly minimum wages and is mainly used as an indice of reference to evaluate the purchasing power of consumer. In addition to the method currently used by price analysts in IBRE, the study also considered variations of the IBRE Method, the Boxplot Method, the SIQR Boxplot Method, the Adjusted Boxplot Method, the Resistant Fences Method, the Quartile Method, the Modified Quartile Method, the Median Absolute Deviation Method and the Tukey Algorithm. These methods wre applied to data of the munucipalities Rio de Janeiro and São Paulo. In order to analyze the performance of each method, it is necessary to know the real extreme values in advance. Therefore, in this study, it was assumed that prices which were discarded or changed by analysts in the critical process were the real outliers. The method from IBRE is correlated with altered or discarded prices by analysts. Thus, the assumption that the changed or discarded prices by the analysts are the real outliers can influence the results, causing the method from IBRE be favored compared to other methods. However, thus, it is possible to compute two measurements by which the methods are evaluated. The first is the method’s accuracy score, which displays the proportion of detected real outliers. The second is the number of false-positive produced by the method, that tells how many values needed to be flagged to detect a real outlier. As higher the hit rate generated by the method and as the lower the amount of false positives produced therefrom, the better the performance of the method. Therefore, it was possible to construct a ranking relative to the performance of the methods, identifying the best among those analyzed. In the municipality of Rio de Janeiro, some of the variations of the method from IBRE showed equal or superior to the original method performances. As for the city of São Paulo, the method from IBRE showed the best performance. It is argued that a method correctly detects an outlier when it signals a real outlier as an extreme value. The method with the highest accuracy score and with smaller number of false-positive was from IBRE. For future investigations, we hope to test the methods in data obtained from simulation and from widely used data bases, so that the assumption related to the discarded or changed prices, during the critical process, does not alter the results. / Outliers são observações que parecem ser inconsistentes com as demais. Também chamadas de valores atípicos, extremos ou aberrantes, estas inconsistências podem ser causadas por mudanças de política ou crises econômicas, ondas inesperadas de frio ou calor, erros de medida ou digitação, entre outras. Outliers não são necessariamente valores incorretos, mas, quando provenientes de erros de medida ou digitação, podem distorcer os resultados de uma análise e levar o pesquisador à conclusões equivocadas. O objetivo deste trabalho é estudar e comparar diferentes métodos para detecção de anormalidades em séries de preços do Índice de Preços ao Consumidor (IPC), calculado pelo Instituto Brasileiro de Economia (IBRE) da Fundação Getulio Vargas (FGV). O IPC mede a variação dos preços de um conjunto ﬁxo de bens e serviços componentes de despesas habituais das famílias com nível de renda situado entre 1 e 33 salários mínimos mensais e é usado principalmente como um índice de referência para avaliação do poder de compra do consumidor. Além do método utilizado atualmente no IBRE pelos analistas de preços, os métodos considerados neste estudo são: variações do Método do IBRE, Método do Boxplot, Método do Boxplot SIQR, Método do Boxplot Ajustado, Método de Cercas Resistentes, Método do Quartil, do Quartil Modiﬁcado, Método do Desvio Mediano Absoluto e Algoritmo de Tukey. Tais métodos foram aplicados em dados pertencentes aos municípios Rio de Janeiro e São Paulo. Para que se possa analisar o desempenho de cada método, é necessário conhecer os verdadeiros valores extremos antecipadamente. Portanto, neste trabalho, tal análise foi feita assumindo que os preços descartados ou alterados pelos analistas no processo de crítica são os verdadeiros outliers. O Método do IBRE é bastante correlacionado com os preços alterados ou descartados pelos analistas. Sendo assim, a suposição de que os preços alterados ou descartados pelos analistas são os verdadeiros valores extremos pode inﬂuenciar os resultados, fazendo com que o mesmo seja favorecido em comparação com os demais métodos. No entanto, desta forma, é possível computar duas medidas através das quais os métodos são avaliados. A primeira é a porcentagem de acerto do método, que informa a proporção de verdadeiros outliers detectados. A segunda é o número de falsos positivos produzidos pelo método, que informa quantos valores precisaram ser sinalizados para um verdadeiro outlier ser detectado. Quanto maior for a proporção de acerto gerada pelo método e menor for a quantidade de falsos positivos produzidos pelo mesmo, melhor é o desempenho do método. Sendo assim, foi possível construir um ranking referente ao desempenho dos métodos, identiﬁcando o melhor dentre os analisados. Para o município do Rio de Janeiro, algumas das variações do Método do IBRE apresentaram desempenhos iguais ou superiores ao do método original. Já para o município de São Paulo, o Método do IBRE apresentou o melhor desempenho. Em trabalhos futuros, espera-se testar os métodos em dados obtidos por simulação ou que constituam bases largamente utilizadas na literatura, de forma que a suposição de que os preços descartados ou alterados pelos analistas no processo de crítica são os verdadeiros outliers não interﬁra nos resultados. Hit rate False positives Intervalo de tolerância Proporção de acerto Falsos positivos Tolerance interval Matemática Valores estranhos (Estatística) Índices de preços ao consumidor Índices de preços
2	Análise fatorial em series temporais com long-memory, outliers e sazonalidade : aplicação em poluição do ar na região da Grande Vitória-ES Sgrancio, Adriano Marcio 20 July 2015 (has links) Submitted by Elizabete Silva (elizabete.silva@ufes.br) on 2015-11-23T18:55:03Z No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) ANALISE FATORIAL EM SERIES TEMPORAIS.pdf: 2194722 bytes, checksum: 443c7c57567200ac6397234fc6b5687f (MD5) / Approved for entry into archive by Morgana Andrade (morgana.andrade@ufes.br) on 2016-01-05T10:06:44Z (GMT) No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) ANALISE FATORIAL EM SERIES TEMPORAIS.pdf: 2194722 bytes, checksum: 443c7c57567200ac6397234fc6b5687f (MD5) / Made available in DSpace on 2016-01-05T10:06:44Z (GMT). No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) ANALISE FATORIAL EM SERIES TEMPORAIS.pdf: 2194722 bytes, checksum: 443c7c57567200ac6397234fc6b5687f (MD5) Previous issue date: 2015 / CAPES / Os estudos de polui c~ao atmosf erica geralmente envolvem medi c~oes e an alises de dados de concentra c~oes de poluentes, como e o caso do MP10 (material particulado), de SO2 (di oxido de enxofre) e de outros poluentes. Estes dados normalmente possuem caracter sticas importantes como autocorrela c~ao, longa depend^encia, sazonalidade e observa c~oes at picas, que necessitam de ferramentas de an alise de s eries temporais multivariadas para avaliar o seu comportamento na atmosfera. Neste contexto, propomos um estimador fracion ario robusto da matriz de autocovari^ancia robusta de longa depend^encia e frequ^encia sazonal, para o modelo SARFIMA. O interesse pr atico em polui c~ao do ar e avaliar o comportamento das s eries de concentra c~oes de SO2 e fazer as previs~oes, mais acuradas, deste poluente. As previs~oes, do modelo SARFIMA estimado, s~ao comparadas as previs~oes do modelo SARMA, atrav es do erro quadr atico m edio. Existe outra di culdade na investiga c~ao dos poluentes atmosf ericos, por modelos de s eries temporais: os dados de SO2, de MP10 e de outros poluentes possuem alta dimensionalidade. Este fato di culta o tratamento dos dados atrav es de modelos vetoriais autorregressivos, pelo excessivo n umero de par^ametros estimados. Na literatura, a abordagem do problema para s eries temporais de grandes dimens~oes e feita atrav es da redu c~ao da dimensionalidade dos dados, utilizando, principalmente, o modelo fatorial e o m etodo de componentes principais. Por em, as caracter sticas de longa depend^encia e de observa c~oes at picas das s eries de polui c~ao atmosf erica, normalmente, n~ao s~ao envolvidas na teoria de an alise fatorial. Neste contexto, propomos aqui uma contribui c~ao te orica para o modelo fatorial de s eries temporais de grandes dimens~oes, envolvendo longa depend^encia e robustez na estima c~ao dos fatores. O modelo sugerido e aplicado em s eries de MP10 da rede de monitoramento da qualidade do ar da Grande Vit oria - ES. / Studies about air pollution typically involve measurements and analysis of pollutants, such as PM10 (particulate matter), SO2 (sulfur dioxide) and others. These data typically have important features like serial correlation, long dependency, seasonality and occurence of atypical observations, and many others, which may be analyzed by means of multivariate time series. In this context, a robust estimator of fractional robust autocovariance matrix of long dependence and seasonal frequency for SARFIMA model is proposed. The model is compared to SARMA model and is applied to SO2 concentrations. In addition of the mentioned features the data present high dimensionality in relation to sample size and number of variables. This fact complicates the analisys of the data using vector time series models. In the literature, the approach to mitigate this problem for high dimensional time series is to reduce the dimensionality using the factor analysis and principal component analysis. However, the long dependence characteristics and atypical observations, very common in air pollution series, is not considered by the standard factor analysis method. In this context, the standard factor model is extended to consider time series data presenting long dependence and outliers. The proposed method is applied to PM10 series of air quality monitoring network of the Greater Vit oria Region - ES. Análise fatorial Ar – Poluição Análise de séries temporais Valores estranhos (Estatística) Estatística robusta Dióxido de enxofre Material particulado Poluição do ar Outliers Robustez Longa dependência Material particulado Dióxido de enxofre 628

Search results

Métodos para detecção de outliers em séries de preços do índice de preços ao consumidor

Análise fatorial em series temporais com long-memory, outliers e sazonalidade : aplicação em poluição do ar na região da Grande Vitória-ES