Global ETD Search

1	Estratégias para tratamento de variáveis com dados faltantes durante o desenvolvimento de modelos preditivos / Strategies for treatment of variables with missing data during the development of predictive models Assunção, Fernando 09 May 2012 (has links) Modelos preditivos têm sido cada vez mais utilizados pelo mercado a fim de auxiliarem as empresas na mitigação de riscos, expansão de carteiras, retenção de clientes, prevenção a fraudes, entre outros objetivos. Entretanto, durante o desenvolvimento destes modelos é comum existirem, dentre as variáveis preditivas, algumas que possuem dados não preenchidos (missings), sendo necessário assim adotar algum procedimento para tratamento destas variáveis. Dado este cenário, este estudo tem o objetivo de discutir metodologias de tratamento de dados faltantes em modelos preditivos, incentivando o uso de algumas delas já conhecidas pelo meio acadêmico, só que não utilizadas pelo mercado. Para isso, este trabalho descreve sete metodologias. Todas elas foram submetidas a uma aplicação empírica utilizando uma base de dados referente ao desenvolvimento de um modelo de Credit Score. Sobre esta base foram desenvolvidos sete modelos (um para cada metodologia descrita) e seus resultados foram avaliados e comparados através de índices de desempenho amplamente utilizados pelo mercado (KS, Gini, ROC e Curva de Aprovação). Nesta aplicação, as técnicas que apresentaram melhor desempenho foram a que tratam os dados faltantes como uma categoria à parte (técnica já utilizada pelo mercado) e a metodologia que consiste em agrupar os dados faltantes na categoria conceitualmente mais semelhante. Já a que apresentou o pior desempenho foi a metodologia que simplesmente não utiliza a variável com dados faltantes, outro procedimento comumente visto no mercado. / Predictive models have been increasingly used by the market in order to assist companies in risk mitigation, portfolio growth, customer retention, fraud prevention, among others. During the model development, however, it is usual to have, among the predictive variables, some who have data not filled in (missing values), thus it is necessary to adopt a procedure to treat these variables. Given this scenario, the aim of this study is to discuss frameworks to deal with missing data in predictive models, encouraging the use of some already known by academia that are still not used by the market. This paper describes seven methods, which were submitted to an empirical application using a Credit Score data set. Each framework described resulted in a predictive model developed and the results were evaluated and compared through a series of widely used performance metrics (KS, Gini, ROC curve, Approval curve). In this application, the frameworks that presented better performance were the ones that treated missing data as a separate category (technique already used by the market) and the framework which consists of grouping the missing data in the category most similar conceptually. The worst performance framework otherwise was the one that simply ignored the variable containing missing values, another procedure commonly used by the market. credit score credit score dados faltantes imputação múltipla missing values modelos preditivos multiple imputation predictive models
2	Dados filogenômicos para inferência de relações evolutivas entre espécies do gênero Cereus Mill. (Cactaceae, Cereeae) / Phylogenomic data for inference of evolutionary relationships among species of the genus Cereus Mill. (Cactaceae, Cereeae) Bombonato, Juliana Rodrigues 04 June 2018 (has links) Estudos filogenômicos usando Sequenciamento de Próxima Geração (do inglês, Next Generation Sequencing - NGS) estão se tornando cada vez mais comuns. O uso de marcadores oriundos do sequenciamento de DNA de uma biblioteca genômica reduzida, neste caso ddRADSeq (do inglês, Double Digestion Restriction Site Associated DNA Sequencing), para este fim é promissor, pelo menos considerando sua relação custo-benefício em grandes conjuntos de dados de grupos não-modelo, bem como a representação genômica recuperada. Aqui usamos ddRADSeq para inferir a filogenia em nível de espécie do gênero Cereus (Cactaceae). Esse gênero compreende em cerca de 25 espécies reconhecidas predominantemente sul-americanas distribuídas em quatro subgêneros. Nossa amostra inclui representantes de Cereus, além de espécies dos gêneros próximos, Cipocereus e Praecereus, além de grupos externos. A biblioteca ddRADSeq foi preparada utilizando as enzimas EcoRI e HPAII. Após o controle de qualidade (tamanho e quantificação dos fragmentos), a biblioteca foi sequenciada no Illumina HiSeq 2500. O processamento de bioinformática a partir de arquivos FASTQ incluiu o controle da presença de adaptadores, filtragem por qualidade (softwares FastQC, MultiQC e SeqyClean) e chamada de SNPs (software iPyRAD). Três cenários de permissividade a dados faltantes foram realizados no iPyRAD, recuperando conjuntos de dados com 333 (até 40% de dados perdidos), 1440 (até 60% de dados perdidos) e 6141 (até 80% de dados faltantes) loci. Para cada conjunto de dados, árvores de Máxima Verossimilhança (MV) foram geradas usando duas supermatrizes: SNPs ligados e Loci. Em geral, observamos algumas inconsistências entre as árvores ML geradas em softwares distintos (IQTree e RaxML) ou baseadas no tipo de matriz distinta (SNPs ligados e Loci). Por outro lado, a precisão e a resolução, foram melhoradas usando o maior conjunto de dados (até 80% de dados perdidos). Em geral, apresentamos uma filogenia com resolução inédita para o gênero Cereus, que foi resolvido como um provável grupo monofilético, composto por quatro clados principais e com alto suporte em suas relações internas. Além disso, nossos dados contribuem para agregar informações sobre o debate sobre o aumento de dados faltantes para conduzir a análise filogenética com loci RAD. / Phylogenomics studies using Next Generation Sequencing (NGS) are becoming increasingly common. The use of Double Digest Restriction Site Associated DNA Sequencing (ddRADSeq) markers to this end is promising, at least considering its cost-effectiveness in large datasets of non-model groups as well as the genome-wide representation recovered in the data. Here we used ddRADSeq to infer the species level phylogeny of genus Cereus (Cactaceae). This genus comprises about 25 species recognized predominantly South American species distributed into four subgenera. Our sample includes representatives of Cereus, in addition to species from the closely allied genera Cipocereus and Praecereus, besides outgroups. The ddRADSeq library was prepared using EcoRI and HPAII enzymes. After the quality control (fragments size and quantification) the library was sequenced in Illumina HiSeq 2500. The bioinformatic processing on raw FASTQ files included adapter trimming, quality filtering (FastQC, MultiQC and SeqyClean softwares) and SNPs calling (iPyRAD software). Three scenarios of permissiveness to missing data were carry out in iPyRAD, recovering datasets with 333 (up tp 40% missing data), 1440 (up to 60% missing data) and 6141 (up to 80% missing data) loci. For each dataset, Maximum Likelihood (ML) trees were generated using two supermatrices: SNPs linked and Loci. In general, we observe few inconsistences between ML trees generated in distinct softwares (IQTree and RaxML) or based in distinctive matrix type (SNP linked and Loci). On the other hand, the accuracy and resolution were improved using the larger dataset (up to 80% missing data). Overall, we present a phylogeny with unprecedent resolution for genus Cereus, which was resolved as a likely monophyletic group, composed by four main clades and with high support in their internal relationships. Further, our data contributes to aggregate information on the debate about to increasing missing data to conduct phylogenetic analysis with RAD loci.
3	Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde / Multiple imputation of missing data: application in the Pro-Saude Program Thaís de Paulo Rangel 05 March 2013 (has links) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto. / Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text. Dados faltantes Imputação múltipla Análise de sobrevivência Tutorial Missing data Multiple imputation Survival analysis Tutorial EPIDEMIOLOGIA
4	Estratégias para tratamento de variáveis com dados faltantes durante o desenvolvimento de modelos preditivos / Strategies for treatment of variables with missing data during the development of predictive models Fernando Assunção 09 May 2012 (has links) Modelos preditivos têm sido cada vez mais utilizados pelo mercado a fim de auxiliarem as empresas na mitigação de riscos, expansão de carteiras, retenção de clientes, prevenção a fraudes, entre outros objetivos. Entretanto, durante o desenvolvimento destes modelos é comum existirem, dentre as variáveis preditivas, algumas que possuem dados não preenchidos (missings), sendo necessário assim adotar algum procedimento para tratamento destas variáveis. Dado este cenário, este estudo tem o objetivo de discutir metodologias de tratamento de dados faltantes em modelos preditivos, incentivando o uso de algumas delas já conhecidas pelo meio acadêmico, só que não utilizadas pelo mercado. Para isso, este trabalho descreve sete metodologias. Todas elas foram submetidas a uma aplicação empírica utilizando uma base de dados referente ao desenvolvimento de um modelo de Credit Score. Sobre esta base foram desenvolvidos sete modelos (um para cada metodologia descrita) e seus resultados foram avaliados e comparados através de índices de desempenho amplamente utilizados pelo mercado (KS, Gini, ROC e Curva de Aprovação). Nesta aplicação, as técnicas que apresentaram melhor desempenho foram a que tratam os dados faltantes como uma categoria à parte (técnica já utilizada pelo mercado) e a metodologia que consiste em agrupar os dados faltantes na categoria conceitualmente mais semelhante. Já a que apresentou o pior desempenho foi a metodologia que simplesmente não utiliza a variável com dados faltantes, outro procedimento comumente visto no mercado. / Predictive models have been increasingly used by the market in order to assist companies in risk mitigation, portfolio growth, customer retention, fraud prevention, among others. During the model development, however, it is usual to have, among the predictive variables, some who have data not filled in (missing values), thus it is necessary to adopt a procedure to treat these variables. Given this scenario, the aim of this study is to discuss frameworks to deal with missing data in predictive models, encouraging the use of some already known by academia that are still not used by the market. This paper describes seven methods, which were submitted to an empirical application using a Credit Score data set. Each framework described resulted in a predictive model developed and the results were evaluated and compared through a series of widely used performance metrics (KS, Gini, ROC curve, Approval curve). In this application, the frameworks that presented better performance were the ones that treated missing data as a separate category (technique already used by the market) and the framework which consists of grouping the missing data in the category most similar conceptually. The worst performance framework otherwise was the one that simply ignored the variable containing missing values, another procedure commonly used by the market. credit score dados faltantes imputação múltipla modelos preditivos credit score missing values multiple imputation predictive models
5	Comparação de método de imputação para dados de precipitação diária / Comparison of imputation method for daily precipitation data Teodoro, Valiana Alves 28 August 2019 (has links) As principais causas da redução da produtividade agrícola são os eventos climáticos, e a variável meteorológica de grande importância para a produção agrícola é a precipitação. Alguns dos problemas das bases de dados meteorológicos são a descontinuidade e dados faltantes. Nesse sentido, os dados de precipitação em ponto de grade (Gridpoint), são uma excelente fonte de informações em pesquisas climatológicas. Para superar os problemas de dados faltantes e construir um banco de dados completos é necessário um processo de imputação. Portanto, o objetivo do trabalho foi comparar metodologias de imputação, utilizou abordagens univariada e múltipla, e comparou o desempenho em termos de imputação em diferentes cenários de dados faltantes e utilizou a raiz do erro quadrático médio (RMSE) como métrica. Para séries de precipitação diária que tinham dados faltantes foi realizado a imputação pelo método imputação múltipla por equações encadeadas (MICE), utilizando a informação de mês, ano e precipitação em ponto de grade. Foram utilizados quatro modelos, nos quais a precipitação diária dependia de: mês; mês e ano; precipitação em ponto de grade; mês, ano e precipitação diária em ponto de grade. Utilizou-se a raiz do erro quadrático médio (RMSE) como métrica e para verificar as imputações, analisou-se a semelhança entre os dados observados e os dados imputados pelo Teste de Kolmogorov-Smirnov e pelos gráficos da média e variância das imputações. O modelo com o maior número de variáveis foi escolhido para imputar os dados faltantes das séries de precipitação diária. Nesse trabalho, o uso de dados de precipitação em ponto de grade mostrou ser na imputação de dados de séries de precipitação diária. Para uma série de precipitação diária completa, concentra-se na comparação e avaliação de métodos de imputação nas abordagens univariada e múltipla, para dados de precipitação diária. Na abordagem univariada, utilizou-se diferentes configurações filtro de Kalman, Média Móvel Ponderada e Decomposição Sazonal. Na abordagem múltipla, utilizou-se o método MICE, com diferentes modelos. Os dados faltantes foram estimados em uma série de precipitação diária, em que os dados faltantes foram gerados de maneira aleatória e em trechos e utilizou-se a raiz do erro quadrático médio (RMSE) como métrica. Os resultados identificaram que o método de Filtro de Kalman forneceu os menores valores de RMSE, para todos os cenários de dados faltantes. A aplicação do algoritmo Filtro de Kalman produziu melhores estimativas para os valores diários de precipitação. O Filtro de Kalman pode ser uma importante metodologia para imputação de dados de precipitação diária, garantido uma série temporal completa para análises de vários setores, dentre eles a agricultura. / The main causes of the reduction of agricultural productivity are the climatic events, and the meteorological variable of great importance for the agricultural production is precipitation. Some of the problems of meteorological databases are discontinuity and missing data. In this sense, grid point precipitation (Gridpoint) data is an excellent source of information in climatological research. To overcome missing data problems and build a continuous database, an imputation process is required. Therefore, this work has the objective of comparing two imputation methodologies, using the MICE method and the Kalman filter, and comparing the performance in terms of imputation in different scenarios of missing data, using root mean square error (RMSE) as metric. For series of daily precipitation that had missing data, imputation was carried out by the multiple imputation method by chain equations (MICE), using the information of month, year and precipitation in grid point. Four models were used, in which the daily precipitation depended on: month; month and year; precipitation in grid point; month, year and daily precipitation in grid point. The root mean squared error (RMSE) was used as a metric and to verify imputations, the similarity between the observed data and the data imputed by the Kolmogorov-Smirnov test and the mean and variance imputation graphs were analyzed. The model with the largest number of variables was chosen to impute missing data from the daily precipitation series. In this work, precipitation data in grid point showed the importance and advantages of their use as information in imputation of daily precipitation series data. For a complete daily precipitation series, it focuses on the comparison and evaluation of imputation methods in the univariate and multiple approaches for daily precipitation data. In the univariate approach, we used different Kalman filter configurations, Weighted Moving Average, and Seasonal Decomposition. In the multiple approach, the MICE method was used, with different models. The missing data were estimated in a series of daily precipitation, in which the missing data were generated randomly and in sections, and the root mean square error (RMSE) was used as a metric. The results identified that the Kalman Filter method provided the lowest RMSE values for all missing data scenarios. The application of the Kalman filter algorithm produced better estimates for the daily values of precipitation. The Kalman Filter can be an important methodology for imputation of daily precipitation data, ensuring a complete time series for analysis of several sectors, among them agriculture. Dados faltantes Filtro de Kalman Gripoint Kalman filters MICE MICE Missing data Ponto de grade
6	Imputação múltipla de dados faltantes: exemplo de aplicação no Estudo Pró-Saúde / Multiple imputation of missing data: application in the Pro-Saude Program Thaís de Paulo Rangel 05 March 2013 (has links) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto. / Missing data are a common problem in epidemiologic studies and depending on the way they occur, the resulting estimates may be biased. Literature shows several techniques to deal with this subject and multiple imputation has been receiving attention in the recent years. This dissertation presents the results of applying multiple imputation of missing data in the context of the Pro-Saude Study, a longitudinal study among civil servants at a university in Rio de Janeiro, Brazil. In the first paper, after simulation of missing data, the variable color/race of the female servants was imputed and analyzed through a previously established survival model, which had the self-reported history of uterine leiomyoma as the outcome. The process has been replicated a hundred times in order to determine the distribution of the coefficient and standard errors of the variable being imputed. Although the data presented were cross-sectionally collected (baseline data of the Pro-Saude Study, gathered in 1999 and 2001), the following of the servants were determined using self-reported information. In this scenario, the Cox proportional hazards model could be applied. In the situations created, imputation showed adequate results, including in the performance analyses. The technique had a satisfactory effectiveness when the missing mechanism was MAR (Missing At Random) and the percent of missing data was 10. Imputing the missing information and combining the estimates of the 10 resulting datasets produced a bias of 0,0011 to black women and 0,0015 to brown (mixed-race) women, what corroborates the efficiency of multiple imputation in this scenario. In the second paper, a tutorial was created to guide the application of multiple imputation in epidemiologic studies, which should facilitate the use of the technique by Brazilian researchers who are still not familiarized with the procedure. Basic steps and important decisions necessary to impute a dataset are presented and one of the scenarios of the first paper is used as an application example. All the analyses were performed at R statistical software, version 2.15 and the scripts are presented at the end of the text. Dados faltantes Imputação múltipla Análise de sobrevivência Tutorial Missing data Multiple imputation Survival analysis Tutorial EPIDEMIOLOGIA
7	Dados filogenômicos para inferência de relações evolutivas entre espécies do gênero Cereus Mill. (Cactaceae, Cereeae) / Phylogenomic data for inference of evolutionary relationships among species of the genus Cereus Mill. (Cactaceae, Cereeae) Juliana Rodrigues Bombonato 04 June 2018 (has links) Estudos filogenômicos usando Sequenciamento de Próxima Geração (do inglês, Next Generation Sequencing - NGS) estão se tornando cada vez mais comuns. O uso de marcadores oriundos do sequenciamento de DNA de uma biblioteca genômica reduzida, neste caso ddRADSeq (do inglês, Double Digestion Restriction Site Associated DNA Sequencing), para este fim é promissor, pelo menos considerando sua relação custo-benefício em grandes conjuntos de dados de grupos não-modelo, bem como a representação genômica recuperada. Aqui usamos ddRADSeq para inferir a filogenia em nível de espécie do gênero Cereus (Cactaceae). Esse gênero compreende em cerca de 25 espécies reconhecidas predominantemente sul-americanas distribuídas em quatro subgêneros. Nossa amostra inclui representantes de Cereus, além de espécies dos gêneros próximos, Cipocereus e Praecereus, além de grupos externos. A biblioteca ddRADSeq foi preparada utilizando as enzimas EcoRI e HPAII. Após o controle de qualidade (tamanho e quantificação dos fragmentos), a biblioteca foi sequenciada no Illumina HiSeq 2500. O processamento de bioinformática a partir de arquivos FASTQ incluiu o controle da presença de adaptadores, filtragem por qualidade (softwares FastQC, MultiQC e SeqyClean) e chamada de SNPs (software iPyRAD). Três cenários de permissividade a dados faltantes foram realizados no iPyRAD, recuperando conjuntos de dados com 333 (até 40% de dados perdidos), 1440 (até 60% de dados perdidos) e 6141 (até 80% de dados faltantes) loci. Para cada conjunto de dados, árvores de Máxima Verossimilhança (MV) foram geradas usando duas supermatrizes: SNPs ligados e Loci. Em geral, observamos algumas inconsistências entre as árvores ML geradas em softwares distintos (IQTree e RaxML) ou baseadas no tipo de matriz distinta (SNPs ligados e Loci). Por outro lado, a precisão e a resolução, foram melhoradas usando o maior conjunto de dados (até 80% de dados perdidos). Em geral, apresentamos uma filogenia com resolução inédita para o gênero Cereus, que foi resolvido como um provável grupo monofilético, composto por quatro clados principais e com alto suporte em suas relações internas. Além disso, nossos dados contribuem para agregar informações sobre o debate sobre o aumento de dados faltantes para conduzir a análise filogenética com loci RAD. / Phylogenomics studies using Next Generation Sequencing (NGS) are becoming increasingly common. The use of Double Digest Restriction Site Associated DNA Sequencing (ddRADSeq) markers to this end is promising, at least considering its cost-effectiveness in large datasets of non-model groups as well as the genome-wide representation recovered in the data. Here we used ddRADSeq to infer the species level phylogeny of genus Cereus (Cactaceae). This genus comprises about 25 species recognized predominantly South American species distributed into four subgenera. Our sample includes representatives of Cereus, in addition to species from the closely allied genera Cipocereus and Praecereus, besides outgroups. The ddRADSeq library was prepared using EcoRI and HPAII enzymes. After the quality control (fragments size and quantification) the library was sequenced in Illumina HiSeq 2500. The bioinformatic processing on raw FASTQ files included adapter trimming, quality filtering (FastQC, MultiQC and SeqyClean softwares) and SNPs calling (iPyRAD software). Three scenarios of permissiveness to missing data were carry out in iPyRAD, recovering datasets with 333 (up tp 40% missing data), 1440 (up to 60% missing data) and 6141 (up to 80% missing data) loci. For each dataset, Maximum Likelihood (ML) trees were generated using two supermatrices: SNPs linked and Loci. In general, we observe few inconsistences between ML trees generated in distinct softwares (IQTree and RaxML) or based in distinctive matrix type (SNP linked and Loci). On the other hand, the accuracy and resolution were improved using the larger dataset (up to 80% missing data). Overall, we present a phylogeny with unprecedent resolution for genus Cereus, which was resolved as a likely monophyletic group, composed by four main clades and with high support in their internal relationships. Further, our data contributes to aggregate information on the debate about to increasing missing data to conduct phylogenetic analysis with RAD loci.
8	Estimação de maxima verossimilhança para processo de nascimento puro espaço-temporal com dados parcialmente observados / Maximum likelihood estimation for space-time pu birth process with missing data Goto, Daniela Bento Fonsechi 09 October 2008 (has links) Orientador: Nancy Lopes Garcia / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-11T16:45:43Z (GMT). No. of bitstreams: 1 Goto_DanielaBentoFonsechi_M.pdf: 3513260 bytes, checksum: ff6f9e35005ad9015007d1f51ee722c1 (MD5) Previous issue date: 2008 / Resumo: O objetivo desta dissertação é estudar estimação de máxima verossimilhança para processos de nascimento puro espacial para dois diferentes tipos de amostragem: a) quando há observação permanente em um intervalo [0, T]; b) quando o processo é observado após um tempo T fixo. No caso b) não se conhece o tempo de nascimento dos pontos, somente sua localização (dados faltantes). A função de verossimilhança pode ser escrita para o processo de nascimento puro não homogêneo em um conjunto compacto através do método da projeção descrito por Garcia and Kurtz (2008), como projeção da função de verossimilhança. A verossimilhança projetada pode ser interpretada como uma esperança e métodos de Monte Carlo podem ser utilizados para estimar os parâmetros. Resultados sobre convergência quase-certa e em distribuição são obtidos para a aproximação do estimador de máxima verossimilhança. Estudos de simulação mostram que as aproximações são adequadas. / Abstract: The goal of this work is to study the maximum likelihood estimation of a spatial pure birth process under two different sampling schemes: a) permanent observation in a fixed time interval [0, T]; b) observation of the process only after a fixed time T. Under scheme b) we don't know the birth times, we have a problem of missing variables. We can write the likelihood function for the nonhomogeneous pure birth process on a compact set through the method of projection described by Garcia and Kurtz (2008), as the projection of the likelihood function. The fact that the projected likelihood can be interpreted as an expectation suggests that Monte Carlo methods can be used to compute estimators. Results of convergence almost surely and in distribution are obtained for the aproximants to the maximum likelihood estimator. Simulation studies show that the approximants are appropriate. / Mestrado / Inferencia em Processos Estocasticos / Mestre em Estatística Método de projeção Estimador de máxima verossimilhança Dados faltantes (Estatística) Projection method Maximum likelihood estimation Missing data (Statistics)
9	Misturas de escala da distribuição normal assimétrica com dados faltantes Pinheiro, Camila Xavier Sá Peixoto, 92-98825-5055 03 May 2016 (has links) Submitted by Ingrid Lima (ingrdslima@hotmail.com) on 2017-11-03T15:24:11Z No. of bitstreams: 2 DISSERTACAO final Camila Sá Peixoto Pinheiro - com folha assinada.pdf: 2249114 bytes, checksum: 3bdd9a6d1539c3d7b14311776dda4f28 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-11-07T14:06:59Z (GMT) No. of bitstreams: 2 DISSERTACAO final Camila Sá Peixoto Pinheiro - com folha assinada.pdf: 2249114 bytes, checksum: 3bdd9a6d1539c3d7b14311776dda4f28 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-11-07T14:16:03Z (GMT) No. of bitstreams: 2 DISSERTACAO final Camila Sá Peixoto Pinheiro - com folha assinada.pdf: 2249114 bytes, checksum: 3bdd9a6d1539c3d7b14311776dda4f28 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-11-07T14:16:03Z (GMT). No. of bitstreams: 2 DISSERTACAO final Camila Sá Peixoto Pinheiro - com folha assinada.pdf: 2249114 bytes, checksum: 3bdd9a6d1539c3d7b14311776dda4f28 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-05-03 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / No summary / Neste trabalho estudamos uma ferramenta de estimação para modelos sob a classe de misturas de escala da distribuição normal assimétrica multivariada onde valores faltantes ocorrem nos dados. Desta forma, apresentamos uma proposta utilizando tais modelos flexíveis e algoritmos computacionais para a análise de dados multivariados com comportamento que foge do padrão usual da distribuição normal e outras distribuições simétricas usuais, apresentando forte assimetria e caudas pesadas. Além disso, mostramos a eficiência da aplicação da modelagem sugerida e do método de estimação proposto, por meio de estudos de simulação computacional, analisando a qualidade dos estimadores via estudos de vício e erro quadrático médio e comparando diferentes modelos via critérios de seleção. A abordagem inferencial utilizada foi a Bayesiana, utilizando os métodos MCMC tradicionais para obter gerações de amostras da distribuição a posterior. Algoritmos MCMC Normal assimétrica Misturas de escala Dados faltantes CIÊNCIAS EXATAS E DA TERRA: MATEMÁTICA
10	[en] LOGLINEAR MODEL ESTIMATION WITH MISSING DATA: AN APPLICATION TO SAEB/99. / [pt] ESTIMAÇÃO DE MODELOS LOGLINEARES COM DADOS FALTANTES: UMA APLICAÇÃO AO SAEB 99 DENIS PAULO DOS SANTOS 27 March 2002 (has links) [pt] Geralmente, em análises estatísticas, dados faltantes em ao menos uma variável resulta da completa eliminação da unidade respondente. Esta estratégia, padrão na maioria dos pacotes estatísticos, não produz resultados livres de viés, a não ser que os dados faltantes sejam Missing Completly At Random (MCAR). A tese mostra a classificação usada para o mecanismo gerador de dados faltantes e a modelagem de dados categóricos levando em conta os dados faltantes. Para isto, utiliza-se o modelo loglinear em combinação com o algoritmo EM (Expectation-Maximization). Esta combinação produz o algoritmo conhecido como ECM (Expectation-Conditional Maximization). A aplicação do método é feita com os dados do SAEB (Sistema Nacional de Avaliação da Educação Básica) para o ano de 1999, investigando a relação entre o responsável pelo desenvolvimento do projeto pedagógico na escola e o impacto na proficiência média da escola. / [en] Generally, in statiscal analysis, missing value in one variable at least, implies the elimination of the respondent unit. That strategy, default in the most of statistical softwares, don´t produce results free from bias, unless the missing data are Missing Completly At Random (MCAR). This dissertation shows the classification about the mechanisms that lead to missing data and the modeling of categorical data dealing with missing data. To do that we combine loglinear model and the EM (Expectation-Maximization)algorithm. This combination produce the agorithm called ECM (Expectation-Conditional Maximization) algorithm. The method is applied to SAEB educational data. The objective is to investigate the relationship between responsable for developing the pedagogic project and the impact on the mean proficiency of school. [pt] DADOS FALTANTES [en] MISSING DATA [pt] MODELO LOGLINEAR [en] LOGINEAR MODEL [pt] ALGORITMO ECM [en] ECM ALGORITHM

Search results