O presente trabalho utiliza as informações da Pesquisa Anual do Comércio - PAC, uma das quatro pesquisas econômicas estruturais do IBGE, para avaliar o Modelo de Imputação atual da pesquisa comparando-o com outros modelos disponíveis na literatura. Foi feito um recorte da base da PAC-IBGE dos anos de 2014 e 2015 e foram testados vinte modelos de imputação. Na PAC, tem sido observado um aumento do impacto das não-respostas nas estimativas de seus totais. Isto deriva da alta assimetria das variáveis econômicas em conjunto com o pequeno número de empresas de alguns estratos, somados ainda ao aumento populacional de algumas atividades econômicas - e, por consequência, dos pesos amostrais - e ainda do elevado número de mortes (fechamento) de empresas pequenas. Tais problemas apresentados geram a necessidade de se estudar alternativas de tratamento para essas empresas não-respondentes. Os modelos foram analisados selecionando algumas empresas aleatoriamente e assumindo que elas não tivessem respondido à pesquisa. Posteriormente, essas empresas foram submetidas aos modelos de imputação selecionados e os resultados foram avaliados utilizando Erro Quadrático Médio (EQM) e Variação Percentual (VP) dos totais estimados contra o real. Foi escolhida a variável de RECEITA para ser usada nos testes. Os modelos utilizados podem ser agrupados em quatro grupos: de médias de respondentes; através de uma regressão com uso de variáveis auxiliares de cadastro; média dos respondentes mais próximos através de uma função distância; e através de uma regressão dos respondentes mais próximos com uso de uma função distância. Ao final das análises, verificou-se que apesar de alguns modelos também terem tido bons desempenhos, não foi observado um fator relevante que indique a troca do modelo atual de imputação utilizado na PAC-IBGE. / The present work uses the information from the Annual Survey of Commerce - PAC, one of the four structural surveys of IBGE, to evaluate its current imputation model against other available models in the literature. The dataset used was obtained from PAC in the years of 2014 and 2015 and twenty imputation models were tested. At PAC, there has been an increase in the impact of non-responses on its totals estimative. This is due to the high asymmetry of the economic variables together with the small number of companies of some strata, added to the population increase of some economic activities - and, consequently, of their sample weights - and also with the high number of deaths (closure) of small businesses. Such problems present the need to study alternatives treatments for these non-responding companies. The analysis of models were made by selecting some companies randomly and assuming that they had not responded the survey. Subsequently, these companies were submitted to the selected imputation models and the results were evaluated using Mean Square Error (MSE) and the Percent Variation (PV) between the estimated totals against the real ones. The Revenue variable was the one chosen to be used in the tests. The models used can be grouped into four groups: average of the respondents; through a regression function using auxiliary variables of cadastre; average of the closest respondents through a distance function; and through a regression function of the closest respondents using a distance function. At the end of the analyzes, it was verified that although some imputation models presented good results, there is no relevant factor indicating the change of the current one.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-15072019-104904 |
Date | 07 June 2019 |
Creators | Rodrigues, João Carlos Silva |
Contributors | Barroso, Lucia Pereira |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0023 seconds