Return to search

Uma metodologia de identificação e tratamento de pontos fora da curva ("outliers")

"Outliers" são pontos que se desviam do restante dos pontos de uma amostra, parecendo ter sido gerados por um mecanismo distinto. Os "outliers" podem contaminar as características de uma amostra e causar uma tendenciosidade ou até mesmo falha de estimadores. Este trabalho tem como objetivo avaliar e comparar novas metodologias de identificação e tratamento de "outliers" com as metodologias de regressão robusta e convencional existentes. Foi avaliada uma nova metodologia de identificação de "outliers", LTS-n, minimização da somatória dos resíduos ao quadrado, comparando-a com as seguintes metodologias: (a) LMS: minimização da mediana do resíduo ao quadrado; (b) LTS-h: minimização da somatória de, aproximadamente, metade dos resíduos ao quadrado, ordenados; e (c) metodologia convencional de "Banda" (margem em torno de uma curva de referência). Foi sugerida uma nova metodologia de tratamento de "outliers" cujo princípio primordial consiste em não se descartar totalmente os "outliers" mas sim suavizar o critério de eliminação dos mesmos, WLS, com atribuição de peso parcial (entre zero e um) aos "outliers" marginais. A avaliação foi realizada através da comparação com a metodologia convencional RLS, que atribui peso 0 ou 1. Para tanto, foi desenvolvido um software empregando as metodologias citadas anteriormente. Após a análise de diversos exemplos, concluiu-se que as metodologias de regressão robusta são ferramentas mais eficientes na identificação de "outliers" do que a metodologia Banda, cujas curvas de referência tornam-se tendenciosas devido à presença dos "outliers". A metodologia LTS-n é menos resistente aos "outliers" que as outras regressões robustas (LMS, LTS-h). A WLS é significativamente diferente da RLS quando a amostra possui um percentual elevado de "outliers" (acima de 10%). A grande vantagem desta metodologia consiste em não se descartar "outliers" marginais. O uso desta metodologia mostrou-se interessante tanto para amostras pequenas (n<15), quando não se deseja descartar observações de forma arbitrária, como também para grandes massas de dados em sistemas automáticos de decisões.

Identiferoai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:1610
Date01 January 1996
CreatorsArie Zeyulun Lionel Dotan
ContributorsArmando Zeferino Milioni
PublisherInstituto Tecnológico de Aeronáutica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds