Global ETD Search

Return to search

Distance estimation for mixed continuous and categorical data with missing values

Submitted by Glauco Gomes de Azevedo (glaucogazevedo@gmail.com) on 2018-08-28T20:54:50Z
No. of bitstreams: 1
dissertacao_glauco_azevedo.pdf: 1909706 bytes, checksum: 6636e75aa9da1db2615932f064fd1138 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2018-09-10T19:38:08Z (GMT) No. of bitstreams: 1
dissertacao_glauco_azevedo.pdf: 1909706 bytes, checksum: 6636e75aa9da1db2615932f064fd1138 (MD5) / Made available in DSpace on 2018-09-12T17:39:51Z (GMT). No. of bitstreams: 1
dissertacao_glauco_azevedo.pdf: 1909706 bytes, checksum: 6636e75aa9da1db2615932f064fd1138 (MD5)
Previous issue date: 2018-06-04 / Neste trabalho é proposta uma metodologia para estimar distâncias entre pontos de dados mistos, contínuos e categóricos, contendo dados faltantes. Estimação de distâncias é a base para muitos métodos de regressão/classificação, tais como vizinhos mais próximos e análise de discriminantes, e para técnicas de clusterização como k-means e k-medoids. Métodos clássicos para manipulação de dados faltantes se baseiam em imputação pela média, o que pode subestimar a variância, ou em métodos baseados em regressão. Infelizmente, quando a meta é a estimar a distância entre observações, a imputação de dados pode performar de modo ineficiente e enviesar os resultados na direção do modelo. Na proposta desse trabalho, estima-se a distância dos pares diretamente, tratando os dados faltantes como aleatórios. A distribuição conjunta dos dados é aproximada utilizando um modelo de mistura multivariado para dados mistos, contínuos e categóricos. Apresentamentos um algoritmo do tipo EM para estimar a mistura e uma metodologia geral para estimar a distância entre observações. Simulações mostram que um método proposto performa tanto dados simulados, como reais. / In this work we propose a methodology to estimate the pairwise distance between mixed continuous and categorical data with missing values. Distance estimation is the base for many regression/classification methods, such as nearest neighbors and discriminant analysis, and for clustering techniques such as k-means and k-medoids. Classical methods for handling missing data rely on mean imputation, that could underestimate the variance, or regression-based imputation methods. Unfortunately, when the goal is to estimate the distance between observations, data imputation may perform badly and bias the results toward the data imputation model. In this work we estimate the pairwise distances directly, treating the missing data as random. The joint distribution of the data is approximated using a multivariate mixture model for mixed continuous and categorical data. We present an EM-type algorithm for estimating the mixture and a general methodology for estimating the distance between observations. Simulation shows that the proposed method performs well in both simulated and real data.

http://hdl.handle.net/10438/24742

Aprendizado do computador

Ausencia de dados (Estatistica)

Modelagem de dados

Identifer	oai:union.ndltd.org:IBICT/oai:bibliotecadigital.fgv.br:10438/24742
Date	04 June 2018
Creators	Azevedo, Glauco Gomes de
Contributors	Souza, Renato Lopes de, Mello, Carlos Eduardo, Escolas::EMAp, Mendes, Eduardo Fonseca
Source Sets	IBICT Brazilian ETDs
Language	English
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional do FGV, instname:Fundação Getulio Vargas, instacron:FGV
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds

Distance estimation for mixed continuous and categorical data with missing values

Description

Links & Downloads

Tags

Additional Fields