181 |
The development of missing transverse momentum reconstruction with the ATLAS detector using the PUfit algorithm in pp collisions at 13 TeVLi, Zhelun 19 August 2019 (has links)
Many interesting physical processes produce non-interacting particles that could only be measured using the missing transverse momentum. The increase of the proton beam intensity in the Large Hadron Collider (LHC) provides sensitivity to rare physics processes while inevitably increasing the number of simultaneous proton collisions in each event. The missing transverse momentum (MET) is a variable of great interest, defined as the negative sum of the transverse momentum of all visible particles. The precision of the MET determination deteriorates as the complexity of the recorded data escalates. Given the current complexity of data analysis, a new algorithm is developed to effectively determine the MET. Several well-understood physics processes were used to test the effectiveness of the newly designed algorithm. The performance of the new algorithm is also compared to that of the standard algorithm used in the ATLAS experiment. / Graduate
|
182 |
Caracterização da estrutura de interação genótipo e ambiente utilizando modelo AMMI e W-AMMI por meio de Biplot / Characterization of structure of genotype and environment interaction using AMMI and W-AMMI models through BiplotHirai, Welinton Yoshio 05 February 2019 (has links)
A estatística é uma ferramenta muito importante na área de melhoramento genético devido a necessidade de se analisar, em determinadas espécies, características de adaptabilidade e estabilidade. Uma medida que ajuda o pesquisador nas avaliações destes comportamentos é a interação genótipo x ambiente (IGA). Existem inúmeras metodologias que ajudam na caracterização deste efeito, e um destes métodos é o modelo AMMI (Additive Main effects and Multiplicative Interaction), em que os efeitos são estimados utilizando ANOVA (Análise de Variância) e a estrutura da interação é caracterizada por meio de ACP (Análise de Componentes Principais). Entretanto, uma pressuposição necessária para o modelo é a homogeneidade de variâncias, e caso este pressuposto não aconteça, foi proposto uma generalização do modelo AMMI, o W-AMMI (Weighted AMMI) que utiliza um método de DVS (Decomposição em Valores Singulares) ponderado. Com isto, o trabalho teve como objetivo avaliar a IGA por meio dos modelos AMMI e W-AMMI através de gráficos Biplot\'s. Utilizou-se 2 conjuntos de dados, em que o primeiro experimento foi realizado no Instituto Agronômico de Cam- pinas, afim de avaliar um híbrido de uva (SR 0.501-17) enxertada sobre 4 porta-enxertos (IAC 766, IAC 572, IAC 571-6 e IAC 313), em 2 municípios do estado de São Paulo (Votuporanga e Jundiaí) nos anos de 2012, 2013 e 2014. O segundo experimento foi realizado pela EMBRAPA - Fortaleza com o objetivo de caracterizar o fruto do melão a partir de 92 famílias, em 3 diferentes ambientes. Na primeira análise, mesmo com o fator da interação da ANOVA conjunta não sendo significativa, prosseguiu-se com a abordagem do modelo AMMI afim de caracterizar o comportamento de estabilidade que os porta-enxertos apresentam nos diferentes ambientes. Por conta da alta heterogeneidade entre os ambientes, observou-se que o modelo W-AMMI apresentou melhor comportamento para a caracterização da IGA. A análise para o segundo experimento apresentou dados faltantes, e desta forma, foi utilizado o método de imputação baseado na DVS livre de distribuição. Por falta de hetero- geneidade nos 3 ambientes, constatou-se que o modelo W-AMMI apresentou comportamento parecido com o AMMI para a descrição da IGA. Conclui-se que mesmo em casos que haja independência entre os fatores de genótipos e ambientes, seria viável ao pesquisador utilizar o modelo AMMI como um complemento na análise, devido a complexidade multivariada que este fator pode apresentar. Além disto, para experimentos com homogeneidade de variância o modelo W-AMMI não apresenta melhora na caracterização, evidenciando desta forma, o objetivo da metodologia. / Statistic is a very important approach in field of quantitative genetics due to necessity analyse, in determinate species, characteristics of the adaptability and stability. One measure that helps the researcher assessing this behavior is the Genotype × Environment Interaction (GEI). There many methodologies that help characterization this effect, and one of there methods is the AMMI (Additive Main effects and Multiplicative Interaction) model, where the effects are estimated using ANOVA (Analysis of Variance) and the structure of interaction is characterized for PCA (Principal Component Analysis). However, a assumption necessity for the model is the homogeneity of variance, and for this, was proposed a generalization of AMMI model, the W-AMMI (Weighted AMMI) that using SVD (Singular Value Decomposition) weighted. In this work, a objective was evaluated the GEI through the AMMI and W-AMMI models using Biplot\'s graphs. It was analyzed two data sets, fist experiment was design in IAC (Institute Agronomic of Campinas), that evaluate a hybrid grape (SR 0.501-17) on four rootstocks (IAC 766, IAC 572, IAC 571-6 e IAC 313), in two city of state of São Paulo (Votuporanga and Jundiaí), in the years 2012, 2013 and 2014. The second experiment was carried by EMBRAPA-Fortaleza with aim of characterizing the melon fruit from 92 families, in 3 differents environments. In the first analysis, even with interaction factor of ANOVA not was significative, continued with approach of AMMI model, in order to characterize the stability behavior the rootstocks present in the different environments. Due to heterogeneity among the environments, was observed that W-AMMI model presented better behavior for description of the IGA. The analysis for the second experiment presented missing values, and was used the imputation method based on DVS free of distribution. Due to lack of heterogeneity in the environments, it was observed that W- AMMI model presented similar with AMMI, for description of the GEI. Finally, was concluded the even in cases whose factor of genotype and environments being independence, would be feasible for the researcher use the AMMI model for complement in the analysis, because the multivariate complexity that this factor can present. In addition, for experiments with homogeneity of variance, the W-AMMI model does not present improvement in the characterization, thus evidencing the objective of the methodology.
|
183 |
Bushing diagnosis using artificial intelligence and dissolved gas analysisDhlamini, Sizwe Magiya 20 June 2008 (has links)
This dissertation is a study of artificial intelligence for diagnosing the condition of
high voltage bushings. The techniques include neural networks, genetic algorithms,
fuzzy set theory, particle swarm optimisation, multi-classifier systems, factor analysis,
principal component analysis, multidimensional scaling, data-fusion techniques,
automatic relevance determination and autoencoders. The classification is done using
Dissolved Gas Analysis (DGA) data based on field experience together with
criteria from IEEEc57.104 and IEC60599. A review of current literature showed
that common methods for the diagnosis of bushings are: partial discharge, DGA,
tan- (dielectric dissipation factor), water content in oil, dielectric strength of oil,
acidity level (neutralisation value), visual analysis of sludge in suspension, colour of
the oil, furanic content, degree of polymerisation (DP), strength of the insulating
paper, interfacial tension or oxygen content tests. All the methods have limitations
in terms of time and accuracy in decision making. The fact that making decisions
using each of these methods individually is highly subjective, also the huge size of
the data base of historical data, as well as the loss of skills due to retirement of
experienced technical staff, highlights the need for an automated diagnosis tool that
integrates information from the many sensors and recalls the historical decisions and
learns from new information. Three classifiers that are compared in this analysis are
radial basis functions (RBF), multiple layer perceptrons (MLP) and support vector
machines (SVM). In this work 60699 bushings were classified based on ten criteria.
Classification was done based on a majority vote. The work proposes the application
of neural networks with particle swarm optimisation (PSO) and genetic algorithms
(GA) to compensate for missing data in classifying high voltage bushings. The work
also proposes the application of fuzzy set theory (FST) to diagnose the condition of
high voltage bushings. The relevance and redundancy detection methods were able
to prune the redundant measured variables and accurately diagnose the condition
of the bushing with fewer variables. Experimental results from bushings that were
evaluated in the field verified the simulations. The results of this work can help to
develop real-time monitoring and decision making tools that combine information
from chemical, electrical and mechanical measurements taken from bushings.
|
184 |
Predicting the Unobserved : A statistical analysis of missing data techniques for binary classificationSäfström, Stella January 2019 (has links)
The aim of the thesis is to investigate how the classification performance of random forest and logistic regression differ, given an imbalanced data set with MCAR missing data. The performance is measured in terms of accuracy and sensitivity. Two analyses are performed: one with a simulated data set and one application using data from the Swedish population registries. The simulation study is created to have the same class imbalance at 1:5. The missing values are handled using three different techniques: complete case analysis, predictive mean matching and mean imputation. The thesis concludes that logistic regression and random forest are on average equally accurate, with some instances of random forest outperforming logistic regression. Logistic regression consistently outperforms random forest with regards to sensitivity. This implies that logistic regression may be the best option for studies where the goal is to accurately predict outcomes in the minority class. None of the missing data techniques stood out in terms of performance.
|
185 |
Modelando o efeito da omissão de atributos em um estudo de análise de preferência conjunta / Conjoint analysis model for missing attributes infomation.Pretto, Karina 09 May 2007 (has links)
A Análise de Preferência Conjunta (APC) é uma metodologia estatística bastante utilizada em estudos de comportamento do consumidor e do mercado em geral. Ela possibilita a realização de estudos sobre julgamentos individuais, tais como a aceita-bilidade e preferência por um determinado produto no momento da sua aquisição (ver Artes, 1991 e Friedmann, 1998). Em um estudo de preferência conjunta, são apresentadas configurações hipotéticas de um mesmo produto, que devem ser avaliadas segundo a preferência do respondente. O julgamento de um estímulo é denominado de valor de preferência que nada mais é do que a quantificação da preferência do indivíduo por um estímulo. Quanto maior o número de atributos e níveis utilizados na caracterização de um produto, mais real será sua descrição. No entanto, a complexidade dos estímulos e o número de configurações possíveis aumenta exponencialmente a cada novo atributo ou nível acrescentado, podendo comprometer a qualidade dos resultados de uma pesquisa. Este problema é contornado através da utilização de estímulos gerados através de planejamentos fracionários combinado na omissão de um ou mais atributos nos diferentes estímulos, conhecidos como perfis incompletos. Neste trabalho, pretende-se testar o efeito da ausência de atributos na classificação de estímulos e diferentes formas de imputação da informação faltante em uma aplicação sobre o efeito de características do emprego na satisfação do funcionário. / Conjoint Analysis is a statistic technique used in many behavior studies, product management and marketing researches. The conjoint method involves presenting customers with a test set of hypothetical products profiles and collecting their preferences. It\'s task is to identify some within a set of attributes those ones that are the most important for the research participants. Conjoint Analysis works better when the test set of profiles is small and the number of attributes is not so large. When a large number of attributes are considered in a conjoint study, the final number of possible profiles increase a lot. In this cases, fractional designs and incomplete profiles can be used to solve this problem. In this study will be tested the missing information efect in a conjoint study and will be compared some diferent imputations methods.
|
186 |
Uma proposta de prática psicológica para casos de desaparecimento de crianças e adolescentes / A psychological practice proposal for cases of disappearance of children and teenagersFigaro-Garcia, Claudia 30 June 2010 (has links)
A gravidade do tema do desaparecimento de crianças e de adolescentes exige que o mesmo seja trabalhado de forma multidisciplinar uma vez que o índice anual de ocorrências no Brasil é de 40.000 casos/ano e 9000 casos no Estado de São Paulo. É imprescindível a atenção governamental para políticas públicas, a atenção acadêmica para o desenvolvimento de pesquisas e tecnologia, e, atenção clínica para o desenvolvimento de modelos de atendimento psicológico às famílias e aos desaparecidos quando encontrados. O objetivo geral desse trabalho foi descrever a criação de uma metodologia de prática psicológica oferecida aos familiares de crianças e de adolescentes desaparecidos e aos desaparecidos posteriormente encontrados que é executada em uma delegacia de polícia especializada na investigação de pessoas desaparecidas. Tal prática foi desenvolvida dentro de um projeto multidisciplinar que agrega diferentes metodologias para busca e identificação de desaparecidos menores de 18 anos. Na pesquisa foram descritas as etapas de planejamento desse projeto enfatizando a inserção e os efeitos da psicologia e da psicanálise em seu escopo multidisciplinar. O modelo clínico incluiu pelo menos 04 (quatro) entrevistas (uma semi-aberta e três abertas) e se utilizou o dispositivo analítico para levantar hipóteses sobre as prováveis razões para a ocorrência dos desaparecimentos configurando, portanto, um exemplo de psicanálise aplicada. Nas entrevistas semi-abertas foram utilizados questionários cujas respostas foram armazenadas em Banco de Dados. Os entrevistados assinaram Termo de Consentimento Pós-esclarecido. Os casos foram supervisionados e encaminhados para a rede psicossocial da cidade de São Paulo. A partir do referencial psicanalítico de orientação lacaniana foi realizada uma análise clínico-qualitativa de 16 casos-piloto atendidos pela pesquisadora e alguns casos por ela supervisionados. O mesmo referencial foi utilizado na discussão das questões multidisciplinares e dos efeitos da prática clínica no ambiente da delegacia. Os desaparecimentos analisados foram fugas de casa ocorridas principalmente a partir da entrada da puberdade e de forma repetida. Nas famílias foi observado principalmente, histórico de violência doméstica, de uso de drogas ilícitas, de alcoolismo, de prática de atos infracionais e de infrações penais. Os significantes mais utilizados pelos familiares para representar o desaparecido foram filho incômodo ou filho problema. A fuga de casa foi considerada um sintoma do desaparecido, sinalizando modos de gozo nas repetições. Foi possível observar aspectos da singularidade dos desaparecidos encontrados e entrevistados, pois alguns se identificaram com o lugar simbólico destinado pelo grupo familiar e utilizaram as fugas para manter essa posição. Outros lançaram mão da fuga justamente para ir contra o desejo dos pais e tentar encontrar um caminho pessoal. E, em alguns casos, a fuga de casa configurou uma saída para a sobrevivência psíquica da criança ou do adolescente. A clínica executada em uma delegacia marcou a diferença entre a escuta policial, de cunho investigatório, e a escuta analítica voltada ao particular de cada caso e às suas implicações (ou não) com o desaparecimento, possibilitando a abertura de um novo campo de trabalho ao psicólogo / The seriousness of the issue of missing children and adolescents requires an interdisciplinary approach to intervention. The need for such broad-based action is necessitated by the large number of children that go missing each year, i.e., approximately 40,000 cases per year in Brazil and an annual average of at least 9,000 cases in the state of Sao Paulo. The sheer number of cases makes obvious the need for increased public policy attention as well as careful research by the academic community into the causes and prevention of this phenomenon. More particularly, in depth psychological attention must be given to understanding the complex psychological factors that contribute to the problem. The aim of this study was to describe the creation of a methodology of psychological practice offered to families of missing and found children. The psychological practice described herein operated out of a police station specializing in the investigation of missing persons of all ages. This practice was developed within a multidisciplinary project that combines different methods to search for and identify missing children under the age of 18 years. This practice was developed within a multidisciplinary project that combines different methods to search for and identify missing children and youth. In the research phase of this effort, we described the projects planning stages with emphasis on the integration and the effects of psychology and psychoanalysis in its multidisciplinary scope. The clinical model of intervention included at least four interviews (a half-open and three open) and the analytical device used to raise hypotheses about the probable reasons into the occurrence and reoccurrence of missing and disappeared children. The approach used was that of applied psychoanalysis. Using semi-open questionnaires we sought answers related to questions that made up part of our comprehensive database relating to disappearances. All respondents in the project signed a written Consent Form. The cases were supervised and directed to the psychosocial network in São Paulo. From the psychoanalysis of the Lacanian orientation, a clinical-qualitative analysis of 16 cases treated by the researcher was undertaken. The same reference was used in the discussion of disciplinary issues as well as with respect to the effects of clinical practice in the environment of the police station. Repeated running away from home was the most common factor contributing to the disappearance of pre- and post-pubescent youth. The disappearances, though, also were associated with family histories of domestic violence, use of illicit drugs, alcoholism, the practice of illegal acts, and criminal offenses. The signifier most used by adult caregivers in describing their runaway child or teenager, however, was \"troublesome or problematic. Leaving home was considered a symptom of child disappearance and, often, was associated with considerable pleasure for the child. The analysis also made it possible to observe aspects of the uniqueness of the disappeared and many of these children identified themselves with the symbolic place determined by their family group. Others leaving home wanted simply to go against the wishes of parents and to try to find a personal path. And in some cases, leaving home set up a way out of psychic survival of the child or adolescent, especially in cases of domestic violence. The use of a police station as setting for clinical intervention with children and youth marked the difference between what the policeman can listen to about the cases and what the psychologist can listen to. The latters ability to use analytical listening focused on the particular features of each case and the implications (or not) with the disappearances, allowing the opening of a new field of work psychologist
|
187 |
Uso de modelos com fração de cura na análise de dados de sobrevivência com omissão nas covariáveis / Use of cure rate models in survival data analysis with missing covariatesPaes, Angela Tavares 01 June 2007 (has links)
Em estudos cujo interesse é avaliar o efeito de fatores prognósticos sobre a sobrevida ou algum outro evento de interesse, é comum o uso de modelos de regressão que relacionam tempos de sobrevivência e covariáveis. Quando covariáveis que apresentam dados omissos são incluídas nos modelos de regressão, os programas estatísticos usuais automaticamente excluem aqueles indivíduos que apresentam omissão em pelo menos uma das covariáveis. Com isso, muitos pesquisadores utilizam apenas as observações completas, descartando grande parte da informação disponível. Está comprovado que a análise baseada apenas nos dados completos pode levar a estimadores altamente viesados e ineficientes. Para lidar com este problema, alguns métodos foram propostos na literatura. O objetivo deste trabalho é estender métodos que lidam com dados de sobrevivência e omissão nas covariáveis para a situação em que existe uma proporção de pacientes na população que não são suscetíveis ao evento de interesse. A idéia principal é utilizar modelos com fração de cura incluindo ponderações para compensar possíveis desproporcionalidades na subamostra de casos completos, levando-se em conta uma possível relação entre omissão e pior prognóstico. Foi considerado um modelo de mistura no qual os tempos de falha foram modelados através da família Weibull ou do modelo semiparamétrico de Cox e as probabilidade de cura foram especificadas por um modelo logístico. Os métodos propostos foram aplicados a dados reais, em que a omissão foi simulada em 10\\%, 30\\% e 50\\% das observações. / Survival regression models are considered to evaluate the effect of prognostic factors for survival or some other event of interest. The standard statistical packages automatically exclude cases with at least one missing covariate value. Thus, many researchers use only the complete cases, discarding substantial part of the available information. It is known that this complete case analysis provides biased and inefficient estimates. The aim of this work is to extend survival models with missing covariate values to situations where some individuals are not susceptible to the event of interest. The main idea is to use cure rate models introducing individual weights to incorporate possible bias in the sample with complete cases, taking a possible relation between missingness and worse prognosis into account. Mixture models in which Weibull and Cox models are used to represent the failure times and logistic models to model the cure probabilities are considered. The performance of the procedure was evaluated via a simulation study. The proposed methods were applied to real data where the missingness was simulated in 10\\%, 30\\% and 50\\% of the observations.
|
188 |
Estratégias para tratamento de variáveis com dados faltantes durante o desenvolvimento de modelos preditivos / Strategies for treatment of variables with missing data during the development of predictive modelsAssunção, Fernando 09 May 2012 (has links)
Modelos preditivos têm sido cada vez mais utilizados pelo mercado a fim de auxiliarem as empresas na mitigação de riscos, expansão de carteiras, retenção de clientes, prevenção a fraudes, entre outros objetivos. Entretanto, durante o desenvolvimento destes modelos é comum existirem, dentre as variáveis preditivas, algumas que possuem dados não preenchidos (missings), sendo necessário assim adotar algum procedimento para tratamento destas variáveis. Dado este cenário, este estudo tem o objetivo de discutir metodologias de tratamento de dados faltantes em modelos preditivos, incentivando o uso de algumas delas já conhecidas pelo meio acadêmico, só que não utilizadas pelo mercado. Para isso, este trabalho descreve sete metodologias. Todas elas foram submetidas a uma aplicação empírica utilizando uma base de dados referente ao desenvolvimento de um modelo de Credit Score. Sobre esta base foram desenvolvidos sete modelos (um para cada metodologia descrita) e seus resultados foram avaliados e comparados através de índices de desempenho amplamente utilizados pelo mercado (KS, Gini, ROC e Curva de Aprovação). Nesta aplicação, as técnicas que apresentaram melhor desempenho foram a que tratam os dados faltantes como uma categoria à parte (técnica já utilizada pelo mercado) e a metodologia que consiste em agrupar os dados faltantes na categoria conceitualmente mais semelhante. Já a que apresentou o pior desempenho foi a metodologia que simplesmente não utiliza a variável com dados faltantes, outro procedimento comumente visto no mercado. / Predictive models have been increasingly used by the market in order to assist companies in risk mitigation, portfolio growth, customer retention, fraud prevention, among others. During the model development, however, it is usual to have, among the predictive variables, some who have data not filled in (missing values), thus it is necessary to adopt a procedure to treat these variables. Given this scenario, the aim of this study is to discuss frameworks to deal with missing data in predictive models, encouraging the use of some already known by academia that are still not used by the market. This paper describes seven methods, which were submitted to an empirical application using a Credit Score data set. Each framework described resulted in a predictive model developed and the results were evaluated and compared through a series of widely used performance metrics (KS, Gini, ROC curve, Approval curve). In this application, the frameworks that presented better performance were the ones that treated missing data as a separate category (technique already used by the market) and the framework which consists of grouping the missing data in the category most similar conceptually. The worst performance framework otherwise was the one that simply ignored the variable containing missing values, another procedure commonly used by the market.
|
189 |
Avaliação de redes Bayesianas para imputação em variáveis qualitativas e quantitativas. / Evaluating Bayesian networks for imputation with qualitative and quantitative variables.Magalhães, Ismenia Blavatsky de 29 March 2007 (has links)
Redes Bayesianas são estruturas que combinam distribuições de probabilidade e grafos. Apesar das redes Bayesianas terem surgido na década de 80 e as primeiras tentativas em solucionar os problemas gerados a partir da não resposta datarem das décadas de 30 e 40, a utilização de estruturas deste tipo especificamente para imputação é bem recente: em 2002 em institutos oficiais de estatística e em 2003 no contexto de mineração de dados. O intuito deste trabalho é o de fornecer alguns resultados da aplicação de redes Bayesianas discretas e mistas para imputação. Para isso é proposto um algoritmo que combina o conhecimento de especialistas e dados experimentais observados de pesquisas anteriores ou parte dos dados coletados. Ao empregar as redes Bayesianas neste contexto, parte-se da hipótese de que uma vez preservadas as variáveis em sua relação original, o método de imputação será eficiente em manter propriedades desejáveis. Neste sentido, foram avaliados três tipos de consistências já existentes na literatura: a consistência da base de dados, a consistência lógica e a consistência estatística, e propôs-se a consistência estrutural, que se define como sendo a capacidade de a rede manter sua estrutura na classe de equivalência da rede original quando construída a partir dos dados após a imputação. É utilizada pela primeira vez uma rede Bayesiana mista para o tratamento da não resposta em variáveis quantitativas. Calcula-se uma medida de consistência estatística para redes mistas usando como recurso a imputação múltipla para a avaliação de parâmetros da rede e de modelos de regressão. Como aplicação foram conduzidos experimentos com base nos dados de domicílios e pessoas do Censo Demográfico 2000 do município de Natal e nos dados de um estudo sobre homicídios em Campinas. Dos resultados afirma-se que as redes Bayesianas para imputação em atributos discretos são promissoras, principalmente se o interesse estiver em manter a consistência estatística e o número de classes da variável for pequeno. Já para outras características, como o coeficiente de contingência entre as variáveis, são afetadas pelo método à medida que se aumenta o percentual de não resposta. Nos atributos contínuos, a mediana apresenta-se mais sensível ao método. / Bayesian networks are structures that combine probability distributions with graphs. Although Bayesian networks initially appeared in the 1980s and the first attempts to solve the problems generated from the non-response date back to the 1930s and 1940s, the use of structures of this kind specifically for imputation is rather recent: in 2002 by official statistical institutes, and in 2003 in the context of data mining. The purpose of this work is to present some results on the application of discrete and mixed Bayesian networks for imputation. For that purpose, we present an algorithm combining knowledge obtained from experts with experimental data derived from previous research or part of the collected data. To apply Bayesian networks in this context, it is assumed that once the variables are preserved in their original relation, the imputation method will be effective in maintaining desirable properties. Pursuant to this, three types of consistence which already exist in literature are evaluated: the database consistence, the logical consistence and the statistical consistence. In addition, the structural consistence is proposed, which can be defined as the ability of a network to maintain its structure in the equivalence class of the original network when built from the data after imputation. For the first time a mixed Bayesian network is used for the treatment of the non-response in quantitative variables. The statistical consistence for mixed networks is being developed by using, as a resource, the multiple imputation for evaluating network parameters and regression models. For the purpose of application, some experiences were conducted using simple networks based on data for dwellings and people from the 2000 Demographic Census in the City of Natal and on data from a study on homicides in the City of Campinas. It can be stated from the results that the Bayesian networks for imputation in discrete attributes seem to be promising, particularly if the interest is to maintain the statistical consistence and if the number of classes of the variable is small. Features such as the contingency tables coefficient among variables, on the other hand, are affected by this method as the percentage of non-response increases. The median is more sensitive to this method in continuous attributes.
|
190 |
Substituição de valores ausentes: uma abordagem baseada em um algoritmo evolutivo para agrupamento de dados / Missing value substitution: an approach based on evolutionary algorithm for clustering dataSilva, Jonathan de Andrade 29 April 2010 (has links)
A substituição de valores ausentes, também conhecida como imputação, é uma importante tarefa para a preparação dos dados em aplicações de mineração de dados. Este trabalho propõe e avalia um algoritmo para substituição de valores ausentes baseado em um algoritmo evolutivo para agrupamento de dados. Este algoritmo baseia-se na suposição de que grupos (previamente desconhecidos) de dados podem prover informações úteis para o processo de imputação. Para avaliar experimentalmente o algoritmo proposto, simulações de valores ausentes foram realizadas em seis bases de dados, para problemas de classificação, com a aplicação de dois mecanismos amplamente usados em experimentos controlados: MCAR e MAR. Os algoritmos de imputação têm sido tradicionalmente avaliados por algumas medidas de capacidade de predição. Entretanto, essas tradicionais medidas de avaliação não estimam a influência dos métodos de imputação na etapa final em tarefas de modelagem (e.g., em classificação). Este trabalho descreve resultados experimentais obtidos sob a perspectiva de predição e inserção de tendências (viés) em problemas de classificação. Os resultados de diferentes cenários nos quais o algoritmo proposto, apresenta em geral, desempenho semelhante a outros seis algoritmos de imputação reportados na literatura. Finalmente, as análises estatísticas reportadas sugerem que melhores resultados de predição não implicam necessariamente em menor viés na classificação / The substitution of missing values, also called imputation, is an important data preparation task for data mining applications. This work proposes and evaluates an algorithm for missing values imputation that is based on an evolutionary algorithm for clustering. This algorithm is based on the assumption that clusters of (partially unknown) data can provide useful information for the imputation process. In order to experimentally assess the proposed method, simulations of missing values were performed on six classification datasets, with two missingness mechanisms widely used in practice: MCAR and MAR. Imputation algorithms have been traditionally assessed by some measures of prediction capability. However, this traditionall approach does not allow inferring the influence of imputed values in the ultimate modeling tasks (e.g., in classification). This work describes the experimental results obtained from the prediction and insertion bias perspectives in classification problems. The results illustrate different scenarios in which the proposed algorithm performs similarly to other six imputation algorithms reported in the literature. Finally, statistical analyses suggest that best prediction results do not necessarily imply in less classification bias
|
Page generated in 0.0732 seconds