En este trabajo, se presenta una metodología orientada a procesar datos provenientes de censos o encuestas. La metodología propuesta se basa en las características de los grandes volúmenes de datos y la relevancia que tiene la información que se obtiene de censos o encuestas. El método propuesto aborda el problema de imputación de datos perdidos o ausentes que son muy frecuentes en censos o encuestas. Previo al proceso de imputación, la información necesita ser procesada para extraer un subconjunto de información completa necesaria para entrenar modelos de aprendizaje automático con la finalidad de predecir los valores ausentes. Para conseguir este dataset se utilizaron varias técnicas tradicionales tales como Pairwise Deletion y Listwise Deletion con la finalidad de eliminar observaciones que presentan valores perdidos. Como siguiente paso en la metodología, se plantea la generación de grupos de información a través de técnicas de aprendizaje automático no supervisado y a través de redes neuronales artificiales. Estos grupos de información que comparten características comunes sirven como fuente de entrada en el proceso de imputación de datos perdidos o ausentes. Los resultados obtenidos en la fase experimental muestran que la generación de grupos (de forma manual o automática) permiten mejorar la clasificación de la variable de prueba, sin embargo también se debe considerar la etapa previa a la de generación de grupos. Finalmente, como caso de estudio para validar la propuesta se plantea la imputación de datos para calcular la tasa de mortalidad infantil con brechas educativas para lo cual se seleccionó un dataset de pruebas de una región geográfica específica.
Identifer | oai:union.ndltd.org:ua.es/oai:rua.ua.es:10045/95608 |
Date | 11 June 2019 |
Creators | Ruiz, Zoila |
Contributors | Garcia-Rodriguez, Jose, Universidad de Alicante. Departamento de Tecnología Informática y Computación, Universidad de Alicante. Instituto Universitario de Investigación Informática |
Publisher | Universidad de Alicante |
Source Sets | Universidad de Alicante |
Language | Spanish |
Detected Language | Spanish |
Type | info:eu-repo/semantics/doctoralThesis |
Rights | Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds