Spelling suggestions: "subject:"LASSO bayesian"" "subject:"LASSO bayesiana""
1 |
Seleção bayesiana de variáveis em modelos multiníveis da teoria de resposta ao item com aplicações em genômica / Bayesian variable selection for multilevel item response theory models with applications in genomicsFragoso, Tiago de Miranda 12 September 2014 (has links)
As investigações sobre as bases genéticas de doenças complexas em Genômica utilizam diversos tipos de informação. Diversos sintomas são avaliados de maneira a diagnosticar a doença, os indivíduos apresentam padrões de agrupamento baseados, por exemplo no seu parentesco ou ambiente comum e uma quantidade imensa de características dos indivíduos são medidas por meio de marcadores genéticos. No presente trabalho, um modelo multiníveis da teoria de resposta ao item (TRI) é proposto de forma a integrar todas essas fontes de informação e caracterizar doenças complexas através de uma variável latente. Além disso, a quantidade de marcadores moleculares induz um problema de seleção de variáveis, para o qual uma seleção baseada nos métodos da busca estocástica e do LASSO bayesiano são propostos. Os parâmetros do modelo e a seleção de variáveis são realizados sob um paradigma bayesiano, no qual um algoritmo Monte Carlo via Cadeias de Markov é construído e implementado para a obtenção de amostras da distribuição a posteriori dos parâmetros. O mesmo é validado através de estudos de simulação, nos quais a capacidade de recuperação dos parâmetros, de escolha de variáveis e características das estimativas pontuais dos parâmetros são avaliadas em cenários similares aos dados reais. O processo de estimação apresenta uma recuperação satisfatória nos parâmetros estruturais do modelo e capacidade de selecionar covariáveis em espaços de dimensão elevada apesar de um viés considerável nas estimativas das variáveis latentes associadas ao traço latente e ao efeito aleatório. Os métodos desenvolvidos são então aplicados aos dados colhidos no estudo de associação familiar \'Corações de Baependi\', nos quais o modelo multiníveis se mostra capaz de caracterizar a síndrome metabólica, uma série de sintomas associados com o risco cardiovascular. O modelo multiníveis e a seleção de variáveis se mostram capazes de recuperar características conhecidas da doença e selecionar um marcador associado. / Recent investigations about the genetic architecture of complex diseases use diferent sources of information. Diferent symptoms are measured to obtain a diagnosis, individuals may not be independent due to kinship or common environment and their genetic makeup may be measured through a large quantity of genetic markers. In the present work, a multilevel item response theory (IRT) model is proposed that unifies all these diferent sources of information through a latent variable. Furthermore, the large ammount of molecular markers induce a variable selection problem, for which procedures based on stochastic search variable selection and the Bayesian LASSO are considered. Parameter estimation and variable selection is conducted under a Bayesian framework in which a Markov chain Monte Carlo algorithm is derived and implemented to obtain posterior distribution samples. The estimation procedure is validated through a series of simulation studies in which parameter recovery, variable selection and estimation error are evaluated in scenarios similar to the real dataset. The estimation procedure showed adequate recovery of the structural parameters and the capability to correctly nd a large number of the covariates even in high dimensional settings albeit it also produced biased estimates for the incidental latent variables. The proposed methods were then applied to the real dataset collected on the \'Corações de Baependi\' familiar association study and was able to apropriately model the metabolic syndrome, a series of symptoms associated with elevated heart failure and diabetes risk. The multilevel model produced a latent trait that could be identified with the syndrome and an associated molecular marker was found.
|
2 |
Seleção bayesiana de variáveis em modelos multiníveis da teoria de resposta ao item com aplicações em genômica / Bayesian variable selection for multilevel item response theory models with applications in genomicsTiago de Miranda Fragoso 12 September 2014 (has links)
As investigações sobre as bases genéticas de doenças complexas em Genômica utilizam diversos tipos de informação. Diversos sintomas são avaliados de maneira a diagnosticar a doença, os indivíduos apresentam padrões de agrupamento baseados, por exemplo no seu parentesco ou ambiente comum e uma quantidade imensa de características dos indivíduos são medidas por meio de marcadores genéticos. No presente trabalho, um modelo multiníveis da teoria de resposta ao item (TRI) é proposto de forma a integrar todas essas fontes de informação e caracterizar doenças complexas através de uma variável latente. Além disso, a quantidade de marcadores moleculares induz um problema de seleção de variáveis, para o qual uma seleção baseada nos métodos da busca estocástica e do LASSO bayesiano são propostos. Os parâmetros do modelo e a seleção de variáveis são realizados sob um paradigma bayesiano, no qual um algoritmo Monte Carlo via Cadeias de Markov é construído e implementado para a obtenção de amostras da distribuição a posteriori dos parâmetros. O mesmo é validado através de estudos de simulação, nos quais a capacidade de recuperação dos parâmetros, de escolha de variáveis e características das estimativas pontuais dos parâmetros são avaliadas em cenários similares aos dados reais. O processo de estimação apresenta uma recuperação satisfatória nos parâmetros estruturais do modelo e capacidade de selecionar covariáveis em espaços de dimensão elevada apesar de um viés considerável nas estimativas das variáveis latentes associadas ao traço latente e ao efeito aleatório. Os métodos desenvolvidos são então aplicados aos dados colhidos no estudo de associação familiar \'Corações de Baependi\', nos quais o modelo multiníveis se mostra capaz de caracterizar a síndrome metabólica, uma série de sintomas associados com o risco cardiovascular. O modelo multiníveis e a seleção de variáveis se mostram capazes de recuperar características conhecidas da doença e selecionar um marcador associado. / Recent investigations about the genetic architecture of complex diseases use diferent sources of information. Diferent symptoms are measured to obtain a diagnosis, individuals may not be independent due to kinship or common environment and their genetic makeup may be measured through a large quantity of genetic markers. In the present work, a multilevel item response theory (IRT) model is proposed that unifies all these diferent sources of information through a latent variable. Furthermore, the large ammount of molecular markers induce a variable selection problem, for which procedures based on stochastic search variable selection and the Bayesian LASSO are considered. Parameter estimation and variable selection is conducted under a Bayesian framework in which a Markov chain Monte Carlo algorithm is derived and implemented to obtain posterior distribution samples. The estimation procedure is validated through a series of simulation studies in which parameter recovery, variable selection and estimation error are evaluated in scenarios similar to the real dataset. The estimation procedure showed adequate recovery of the structural parameters and the capability to correctly nd a large number of the covariates even in high dimensional settings albeit it also produced biased estimates for the incidental latent variables. The proposed methods were then applied to the real dataset collected on the \'Corações de Baependi\' familiar association study and was able to apropriately model the metabolic syndrome, a series of symptoms associated with elevated heart failure and diabetes risk. The multilevel model produced a latent trait that could be identified with the syndrome and an associated molecular marker was found.
|
3 |
Fine mapping and single nucleotide polymorphism effects estimation on pig chromosomes 1, 4, 7, 8, 17 and X / Mapeamento fino e estimação dos efeitos de polimorfismos de base única nos cromossomos suínos 1, 4, 7, 8, 17 e XHidalgo, André Marubayashi 08 July 2011 (has links)
Made available in DSpace on 2015-03-26T13:42:22Z (GMT). No. of bitstreams: 1
texto completo.pdf: 313433 bytes, checksum: 724d13b2161e04cdd66459909e393dfe (MD5)
Previous issue date: 2011-07-08 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Mapeamento de loci de caracaterística quantitativas (QTL) geralmente resultam na detecção de regiões genômicas que explicam parte da variação quantitativa da característica. Entretanto essas regiões são muito amplas e não permitem uma acurada identificação dos genes. Dessa forma, torna-se necessário o estreitamento dos intervalos onde os QTL estão localizados. Com a seleção genômica ampla (GWS), foram desenvolvidas ferramentas estatísticas de forma a se estimar os efeitos de cada marcador. A partir dos valores desses efeitos, pode-se analisar quais são os marcadores de maiores efeitos. Assim, objetivou-se realizar o mapeamento fino dos cromossomos suínos 1, 4, 7, 8, 17, e X, usando marcadores microsatélites e polimorfismo de base única (SNP), em uma população F2 produzida pelo cruzamento de varrões da raça naturalizada brasileira Piau com fêmeas comerciais, associados com características de desempenho, carcaça, orgãos internos, cortes e qualidade de carne. Também objetivou-se estimar os efeitos dos marcadores SNP nas características que tiveram QTL detectados, analisar quais são os mais expressivos e verificar se eles estão localizados dentro do intervalo de confiança do QTL. Os QTL foram identificados por meio do método regressão por intervalo de mapeamento e as análises foram realizadas pelo software GridQTL. O efeito de cada marcador foi estimado pela regressão de LASSO Bayesiano, usando o software R. No total, 32 QTL foram encontrados ao nível cromossômico de significância de 5%, destes, 12 eram significativos ao nível cromossômico de 1% e 7 destes eram significativos ao nível genômico de 5%. Seis de sete QTL apresentaram marcadores de efeito expressivo dentro do intervalo de confiança do QTL. Resultados deste estudo confirmaram QTL de outros trabalhos e identificaram vários outros novos. Os resultados encontrados utilizando marcadores microsatélites junto com SNPs aumentaram a saturação do genoma levando a um menor intervalo de confiança dos QTL encontrados. Os métodos usados foram importantes para estimar os efeitos dos marcadores, e também para localizar aqueles com efeitos mais expressivos dentro do intervalo de confiança do QTL, validando os QTL encontrados pelo método da regressão. / Quantitative Trait Loci (QTL) mapping efforts often result in the detection of genomic regions that explain part of the quantitative trait variation. However, these regions are very large and do not allow accurate gene identification, hence the interval must be narrowed where the QTL was located. With the genome wide selection (GWS), many statistical tools have been developed in order to estimate the effects for each marker. With the marker effects values it is possible to analyze which markers have large effects. Hence, the objective of this investigation was to fine map pig chromosomes 1, 4, 7, 8, 17 and X, using microsatellites and SNP markers, in a F2 population produced by crossing naturalized Brazilian Piau boars with commercial females, associated with performance, carcass, internal organs, cut yields and meat quality traits. A further aim was to estimate the effects of single nucleotide polymorphism (SNP) markers on traits with detected QTL, analyze the most expressive ones and verify whether the markers with larger effects were indeed within the QTL confidence interval. QTL were identified by regression interval mapping using the GridQTL software. Individual marker effects were estimated by Bayesian LASSO regression using the R software. In total, 32 QTL for the studied traits were significant at the 5% chromosome-wide level, including 12 significant QTL at the 1% chromosome-wide level and 7 significant at the 5% genome-wide level. Six out of seven QTL with genome-wide significance had markers of large effect within their confidence interval. These results confirmed some previous QTL and identified numerous novel QTL for the investigated traits. Our results have shown that the use of microsatellites and SNP markers that increase the genome saturation lead to QTL of smaller confidence intervals. The methods used were also valuable to estimate the marker effects and to locate the most expressive markers within the QTL confidence interval, validating those QTL found by the regression method.
|
4 |
Análise e comparação de alguns métodos alternativos de seleção de variáveis preditoras no modelo de regressão linear / Analysis and comparison of some alternative methods of selection of predictor variables in linear regression models.Marques, Matheus Augustus Pumputis 04 June 2018 (has links)
Neste trabalho estudam-se alguns novos métodos de seleção de variáveis no contexto da regressão linear que surgiram nos últimos 15 anos, especificamente o LARS - Least Angle Regression, o NAMS - Noise Addition Model Selection, a Razão de Falsa Seleção - RFS (FSR em inglês), o LASSO Bayesiano e o Spike-and-Slab LASSO. A metodologia foi a análise e comparação dos métodos estudados e aplicações. Após esse estudo, realizam-se aplicações em bases de dados reais e um estudo de simulação, em que todos os métodos se mostraram promissores, com os métodos Bayesianos apresentando os melhores resultados. / In this work, some new variable selection methods that have appeared in the last 15 years in the context of linear regression are studied, specifically the LARS - Least Angle Regression, the NAMS - Noise Addition Model Selection, the False Selection Rate - FSR, the Bayesian LASSO and the Spike-and-Slab LASSO. The methodology was the analysis and comparison of the studied methods. After this study, applications to real data bases are made, as well as a simulation study, in which all methods are shown to be promising, with the Bayesian methods showing the best results.
|
5 |
Análise e comparação de alguns métodos alternativos de seleção de variáveis preditoras no modelo de regressão linear / Analysis and comparison of some alternative methods of selection of predictor variables in linear regression models.Matheus Augustus Pumputis Marques 04 June 2018 (has links)
Neste trabalho estudam-se alguns novos métodos de seleção de variáveis no contexto da regressão linear que surgiram nos últimos 15 anos, especificamente o LARS - Least Angle Regression, o NAMS - Noise Addition Model Selection, a Razão de Falsa Seleção - RFS (FSR em inglês), o LASSO Bayesiano e o Spike-and-Slab LASSO. A metodologia foi a análise e comparação dos métodos estudados e aplicações. Após esse estudo, realizam-se aplicações em bases de dados reais e um estudo de simulação, em que todos os métodos se mostraram promissores, com os métodos Bayesianos apresentando os melhores resultados. / In this work, some new variable selection methods that have appeared in the last 15 years in the context of linear regression are studied, specifically the LARS - Least Angle Regression, the NAMS - Noise Addition Model Selection, the False Selection Rate - FSR, the Bayesian LASSO and the Spike-and-Slab LASSO. The methodology was the analysis and comparison of the studied methods. After this study, applications to real data bases are made, as well as a simulation study, in which all methods are shown to be promising, with the Bayesian methods showing the best results.
|
Page generated in 0.0485 seconds