• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 88
  • 64
  • 13
  • 12
  • 2
  • 2
  • 1
  • Tagged with
  • 212
  • 212
  • 92
  • 88
  • 88
  • 54
  • 46
  • 42
  • 38
  • 31
  • 28
  • 26
  • 25
  • 21
  • 20
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
161

Modelos estatísticos para dados politômicos nominais em estudos longitudinais com uma aplicação à área agronômica / Statistical models for nominal polytomous data in longitudinal studies with an application to agronomy

Vinicius Menarin 14 January 2016 (has links)
Estudos em que a resposta de interesse é uma variável categorizada são bastante comuns nas mais diversas áreas da Ciência. Em muitas situações essa resposta é composta por mais de duas categorias não ordenadas, denominada então de uma variável politômica nominal, e em geral o objetivo do estudo é associar a probabilidade de ocorrência de cada categoria aos efeitos de variáveis explicativas. Ademais, existem tipos especiais de estudos em que os dados são coletados diversas vezes para uma mesma unidade amostral ao longo do tempo, os estudos longitudinais. Estudos assim requerem o uso de modelos estatísticos que considerem em sua formulação algum tipo de estrutura que suporte a dependência que tende a surgir entre observações feitas em uma mesma unidade amostral. Neste trabalho são abordadas duas extensões do modelo de logitos generalizados, usualmente empregado quando a resposta é politômica nominal com observações independentes entre si. A primeira consiste de uma modificação das equações de estimação generalizadas para dados nominais que se utiliza de razões de chances locais para descrever a dependência entre as observações da variável resposta politômica ao longo dos diversos tempos observados. Este tipo de modelo é denominado de modelo marginal. A segunda proposta abordada consiste no modelo de logitos generalizados com a inclusão de efeitos aleatórios no preditor linear, que também leva em conta uma dependência entre as observações. Esta abordagem caracteriza o modelo de logitos generalizados misto. Há diferenças importantes inerentes às interpretações dos modelos marginais e mistos, que são discutidas e que devem ser levadas em consideração na escolha da abordagem adequada. Ambas as propostas são aplicadas em um conjunto de dados proveniente de um experimento da área agronômica realizado em campo, conduzido sob um delineamento casualizado em blocos com esquema fatorial para os tratamentos. O experimento foi acompanhado ao longo de seis estações do ano, caracterizando assim uma estrutura longitudinal, sendo a variável resposta o tipo de vegetação observado no campo (touceiras, plantas invasoras ou espaços vazios). Os resultados encontrados são satisfatórios, embora a dependência presente nos dados não seja tão caracterizada; por meio de testes como da razão de verossimilhanças e de Wald diversas diferenças significativas entre os tratamentos foram encontradas. Ainda, devido às diferenças metodológicas das duas abordagens, o modelo marginal baseado nas equações de estimação generalizadas mostra-se mais adequado para esses dados. / Studies where the response is a categorical variable are quite common in many fields of Sciences. In many situations this response is composed by more than two unordered categories characterizing a nominal polytomous outcome and, in general, the aim of the study is to associate the probability of occurrence of each category to the effects of variables. Furthermore, there are special types of study where many measurements are taken over the time for the same sampling unit, called longitudinal studies. Such studies require special statistical models that consider some kind of structure that support the dependence that tends to arise from the repeated measurements for the same sampling unit. This work focuses on two extensions of the baseline-category logit model usually employed in cases when there is a nominal polytomous response with independent observations. The first one consists in a modification of the well-known generalized estimating equations for longitudinal data based on local odds ratios to describe the dependence between the levels of the response over the repeated measurements. This type of model is also known as a marginal model. The second approach adds random effects to the linear predictor of the baseline-category logit model, which also considers a dependence between the observations. This characterizes a baseline-category mixed model. There are substantial differences inherent to interpretations when marginal and mixed models are compared, what should be considered in the choice of the most appropriated approach for each situation. Both methodologies are applied to the data of an agronomic experiment installed under a complete randomized block design with a factorial arrangement for the treatments. It was carried out over six seasons, characterizing the longitudinal structure, and the response is the type of vegetation observed in field (tussocks, weeds or regions with bare ground). The results are satisfactory, even if the dependence found in data is not so strong, and likelihood-ratio and Wald tests point to several differences between treatments. Moreover, due to methodological differences between the two approaches, the marginal model based on generalized estimating equations seems to be more appropriate for this data.
162

Estimativa volumétrica por modelo misto e tecnologia laser aerotransportado em plantios clonais de Eucalyptus sp / Estimating Eucalyptus forest plantation volume by mixed-effect model and by LiDAR-based model

Samuel de Pádua Chaves e Carvalho 29 July 2013 (has links)
O trabalho se estruturou em torno de dois estudos. O primeiro avaliou o ajuste de um modelo não linear de efeito misto para descrever o afilamento do tronco de árvores clonais de eucalipto. O modelo utilizado para descrever as variações da altura em função do raio foi o logístico de quatro parâmetros que, por integração permitiu a estimação do volume das árvores. A incorporação de funções de variância no processo de ajuste resultou em redução significativa no valor do Critério de informação de Akaike, mas os resíduos não apresentaram melhorias notáveis. Com a finalidade de compatibilizar precisão e parcimônia, o modelo que considera as variações do afilamento como uma função da altura total e do raio à altura do peito mostrou-se como o mais indicado para a estimativa do volume de árvores por funções de afilamento. O segundo estudo analisou uma nova proposta para inventários florestais em plantios clonais de eucalipto que integra modelagem geoestatística, medições de circunferência das árvores em campo e a tecnologia LiDAR aeroembarcada. As estatísticas propostas mostraram que o modelo geoestatístico com função para média foi estatisticamente superior ao modelo com média constante, com erros reduzidos em até 40%. A altura das árvores que compuseram o grid de predição para aplicação do modelo geoestatístico foi obtida pelo processamento da nuvem de pontos dos dados LiDAR. Obtidos os pares de diâmetro e altura, aplicou-se o modelo de afilamento selecionado no primeiro artigo em que se observaram diferenças médias na predição do volume próximas a 0,7%, e 0,18% para contagem de árvores, ambas com tendências de subestimativas. Diante dos resultados obtidos, o método é considerado como promissor e trabalhos futuros visam gerar um banco de parcelas permanentes que propiciem estudos de crescimento e produção florestal. / This study investigates the use of mixed-effect model and the use of LiDAR based model to estimate volume from eucalyptus forest plantation. At the first part, this study evaluates nonlinear mixed-effects to model stem taper of monoclonal Eucalyptus trees. The relation between radius and height variation was described by the four-parameter logistic model that integration returns stem volume. Embedding variance functions to the estimation process decreased significantly the Akaike\'s Information Criterion but did not improve the residual analysis. The best model to estimate stem volume from taper equations explained the stem taper as a function of the commercial height and the radius at breast height. The second part investigated the volume estimation fusing geostatistic derived from field information and airborne laser scanning data. The model based on geostatistic assumptions was statistically superior to the traditional one, with errors 40% lower. Thus, the geostatistical model was applied over tree heights extracted from the laser cloud. To each combination of diameter and height, the taper equation form the first part of this study was used. The volume and the number of trees were underestimated in 0.7% and 0.18%, respectively. The results look promising, and more permanent plots are necessary to allow studies about growth and yield of forest.
163

snpReady and BGGE: R packages to prepare datasets and perform genome-enabled predictions / snpReady e BGGE: pacotes do R para preparar dados genômicos e realizar predições genômicas

Italo Stefanine Correia Granato 07 February 2018 (has links)
The use of molecular markers allows an increase in efficiency of the selection as well as better understanding of genetic resources in breeding programs. However, with the increase in the number of markers, it is necessary to process it before it can be ready to use. Also, to explore Genotype x Environment (GE) in the context of genomic prediction some covariance matrices needs to be set up before the prediction step. Thus, aiming to facilitate the introduction of genomic practices in the breeding program pipelines, we developed two R-packages. The former is called snpReady, which is set to prepare data sets to perform genomic studies. This package offers three functions to reach this objective, from organizing and apply the quality control, build the genomic relationship matrix and a summary of a population genetics. Furthermore, we present a new imputation method for missing markers. The latter is the BGGE package that was built to generate kernels for some GE genomic models and perform predictions. It consists of two functions (getK and BGGE). The former is helpful to create kernels for the GE genomic models, and the latter performs genomic predictions with some features for GE kernels that decreases the computational time. The features covered in the two packages presents a fast and straightforward option to help the introduction and usage of genome analysis in the breeding program pipeline. / O uso de marcadores moleculares permite um aumento na eficiência da seleção, bem como uma melhor compreensão dos recursos genéticos em programas de melhoramento. No entanto, com o aumento do número de marcadores, é necessário o processamento deste antes de deixa-lo disponível para uso. Além disso, para explorar a interação genótipo x ambiente (GA) no contexto da predição genômica, algumas matrizes de covariância precisam ser obtidas antes da etapa de predição. Assim, com o objetivo de facilitar a introdução de práticas genômicas nos programa de melhoramento, dois pacotes em R foram desenvolvidos. O primeiro, snpReady, foi criado para preparar conjuntos de dados para realizar estudos genômicos. Este pacote oferece três funções para atingir esse objetivo, organizando e aplicando o controle de qualidade, construindo a matriz de parentesco genômico e com estimativas de parâmetros genéticos populacionais. Além disso, apresentamos um novo método de imputação para marcas perdidas. O segundo pacote é o BGGE, criado para gerar kernels para alguns modelos genômicos de interação GA e realizar predições genômicas. Consiste em duas funções (getK e BGGE). A primeira é utilizada para criar kernels para os modelos GA, e a última realiza predições genômicas, com alguns recursos especifico para os kernels GA que diminuem o tempo computacional. Os recursos abordados nos dois pacotes apresentam uma opção rápida e direta para ajudar a introdução e uso de análises genômicas nas diversas etapas do programa de melhoramento.
164

Análise comparativa de diferentes métodos de seleção em fases iniciais do melhoramento da cana-de-açúcar / Comparative analysis of different selection methods at early stages of sugarcane breeding

Danilo Eduardo Cursi 22 June 2016 (has links)
De forma geral, as fases iniciais dos programas de melhoramento se caracterizam pelo tamanho populacional elevado e a natureza subjetiva da seleção. Por serem consideradas etapas de grande importância e de alto grau de complexidade, torna-se necessário a utilização de metodologias que, de forma eficiente, auxiliem os melhoristas a obterem resultados mais precisos, otimizando tempo e recursos para liberação de novas cultivares. Assim, este trabalho teve como objetivo avaliar o nível de ganho genético que um programa de melhoramento de cana-de-açúcar pode ter, adotando diferentes estratégias de seleção, em fases iniciais do melhoramento. Para tanto, dois experimentos referentes à primeira e à segunda fase de seleção do Programa de Melhoramento Genético da Cana-de-açúcar da RIDESA/UFSCar, foram instalados. Na primeira etapa, identificou-se o método de seleção entre e dentro de família (BLUPi, BLUPis e BLUPseq) com maior potencial a ser aplicado na população base do experimento, utilizando a abordagem de modelos mistos. Posteriormente, praticou-se seleção, incluindo o método massal e aleatória. Na segunda etapa, a população experimental foi constituída pelos clones previamente selecionados na etapa anterior, através das diferentes estratégias de seleção. Os valores genotípicos dos indivíduos foram preditos, e então, classificados de acordo com o caráter de interesse econômico. Na primeira etapa, dentre os métodos de seleção entre e dentro de família, o que apresentou maior ganho de seleção predito (12,7%), para toneladas de Pol por hectare (TPH), foi o procedimento BLUPseq. O método BLUPis apresentou alta correlação com o método de seleção via BLUPseq e se mostrou bastante eficiente, uma vez que, o número de indivíduos a serem selecionados em cada família é determinado de forma dinâmica, assim como a intensidade de seleção em cada repetição. Por outro lado, o método BLUPi apresentou-se impraticável, uma vez que as avaliações fenotípicas devem ser realizadas em nível de indivíduo, o que demanda muito tempo e mão de obra, além do que, identificou-se tendência em selecionar indivíduos das extremidades das parcelas. De acordo com os resultados obtidos no experimento - segunda etapa, devido a baixa variância genética (CVg ≤ 15) entre as famílias que constituíram a população base do experimento, o método de seleção de família via BLUPseq foi equivalente ao método de seleção massal. Por outro lado, se ênfase for dada na escolha de genitores em etapas de hibridação para a ampliação da base genética, o método de seleção de família pode ser recomendado. / Overall, the early stages of breeding programs are characterized by high population size and the subjective nature of the selection. Considered as a stage of great importance and with high degree of complexity, it becomes necessary to use methodologies that efficiently assist plant breeders to obtain more accurate results, optimizing time and resources for releasing new cultivars. Thus, the aim of this study was to evaluate the genetic gain level that a sugarcane breeding program may have, adopting different selection strategies at early breeding stages. Therefore, two experiments concerning the first and the second selection stages of the Sugarcane Breeding Program of RIDESA/UFSCar, were installed. In the first step, the method of selection between and within families (BLUPi, BLUPis and BLUPseq) with greatest potential to be applied into the population of the experiment were identified, through mixed models approach. Later, the selection was practiced including the mass and random selection methods. In the second stage, the experimental population consisted of clones previously selected in the previous stage through the different selection strategies. The genotypic values of individuals were predicted, and then classified according to the character of economic interest. In the first stage, from the selection methods between and within families, the BLUPseq procedure was the one with highest predicted selection gain (12.7 %) for tons of Pol per hectare (TPH). The BLUPis procedure showed high correlation with BLUPseq procedure and was quite efficient, since the number of individuals to be selected in each family is determined dynamically, as well as the selection intensity in each repetition. Moreover, the BLUPi method proved to be impracticable, since the phenotypic evaluations must be performed at the individual level, which requires long time and labor force, in addition to that, it was identified trend in selecting individuals from the plots edges. According to the results of the second stage experiment, due to low genetic variance (CVg ≤ 15) among the families which composed the experimental population base, the family selection via BLUPseq was equivalent to mass selection. On the other hand, if emphasis is given on the choice of parents in hybridization steps to broaden the genetic basis, the family selection method can be recommended.
165

Predição genômica de híbridos simples de milho / Genomic prediction of maize single-crosses

Marcela Pedroso Mendes 24 February 2015 (has links)
Métodos de predição podem aumentar consideravelmente a eficiência dos programas de melhoramento de milho. O objetivo deste estudo foi predizer a performance de 250 híbridos simples de milho avaliados em múltiplos ambientes utilizando a informação de marcadores moleculares. Para isso, 50 linhagens endogâmicas provenientes de diferentes populações foram cruzadas com cinco linhagens elite, também endogâmicas, para obtenção dos 250 híbridos simples. As matrizes moleculares das linhagens e dos híbridos foram obtidas a partir da genotipagem das 55 linhagens com 614 marcadores AFLP. Os híbridos simples foram avaliados para produção de grãos em 13 ambientes. A predição dos híbridos foi realizada utilizando o modelo misto BLUP considerando diferentes coeficientes de parentesco e similaridade no estado na predição dos efeitos das capacidades geral e específica de combinação dos genitores. As médias preditas dos híbridos a partir de cada coeficiente foram correlacionadas com as médias fenotípicas para obtenção da acurácia de predição. A predição também foi realizada utilizando o modelo de seleção genômica ampla RR-BLUP. Nesse caso, a matriz molecular dos híbridos foi utilizada diretamente no modelo misto de estimação dos efeitos dos marcadores e da contribuição de cada um deles para o valor genético dos híbridos. Foram realizadas validações cruzadas entre e dentro de ambientes e entre e dentro de grupos de híbridos relacionados a fim de verificar os efeitos do tamanho da população de treinamento (N), número de marcas (NM), interação híbridos x ambientes (H x A) e da estrutura da população na estimativa da acurácia de predição. A predição genômica foi comparada com a seleção fenotípica quanto à eficiência em identificar híbridos superiores em um esquema de melhoramento de milho. Todos os coeficientes de parentesco e similaridade no estado apresentaram elevadas estimativas de acurácia, contudo foi possível observar considerável superioridade dos coeficientes Wang e Rogers Modificado tanto na predição quanto na seleção dos híbridos superiores, demonstrando o potencial dessas metodologias como ferramentas a serem utilizadas nos programas de melhoramento de milho. Os resultados da predição utilizando o modelo de seleção genômica ampla indicaram que o aumento de N e NM não alteraram significativamente as estimativas de acurácia. As estimativas da acurácia na validação cruzada dentro de ambientes foram superiores às obtidas entre ambientes, inferindo que o efeito da interação H x A foi expressivo. Também foram observadas estimativas de acurácia expressivamente maiores para populações de treinamento e validação compostas por híbridos relacionados. Em todos os casos, as estimativas de acurácia apresentaram amplos intervalos em função da amostra de híbridos utilizada nas populações de treinamento e validação, indicando que a seleção genômica pode não ser eficiente dependendo da população amostrada. Os resultados deste estudo sugerem que a predição genômica é uma ferramenta para aumentar a eficiência da seleção nos programas de melhoramento se utilizada de forma adequada pelo melhorista, considerando os efeitos de estrutura de população e interação H x A de forma a maximizar a acurácia e, consequentemente, o sucesso da predição. / Prediction using molecular markers information can greatly increase the efficiency of maize breeding programs. This study aimed to predict the performance of maize single-crosses evaluated in multiple environments and using molecular markers information. Five inbred lines used as testers were crossed to 50 inbred lines from multiple populations to obtain 250 maize single-crosses. 614 AFLP markers were used to asses molecular matrices of the inbred lines and single-crosses. The 250 single-crosses were evaluated for grain yield in 13 environments. Genomic prediction was performed using the mixed model BLUP considering different genomic relationship and similarity in state coefficients to predict the effect of general and specific combining abilities of the parents. Predicted means from each coefficient were correlated with phenotypic means for obtaining prediction accuracy. Genomewide prediction was also performed using the linear regression model RR-BLUP in the estimation of markers genotypic values and its contribution to hybrids genetic values. Cross-validations between and within environments and between and within groups of related single-crosses were performed to verify the effects of training population size (N), number of markers (NM), genotype-by-environment interaction (G x E) and population structure in estimating accuracy. Genomic prediction was compared with phenotypic selection in efficiency of selecting better hybrids in a maize breeding program. All relationship coefficients and similarity in state coefficients showed high values of accuracy, however we observed superiority of Wang relationship coefficient and Modified Rogers similarity coefficient both in predicting and in identifying the best single-crosses, showing the potential of these approaches as tools to be used in maize breeding programs. Genomewide prediction results showed that increasing N and NM did not led to higher accuracy estimates. Predicted accuracies of cross validation analysis within environments were higher than between environments, indicating that the effect of G x E interaction was significant. Greater accuracies were achieved when training and validation set were from related single-crosses. In all scenarios, wide intervals of accuracy were found, meaning that genomic prediction may not be effective depending on the sample used. Therefore, the results of this study suggest that genomic prediction is a tool to increase the efficiency of selection in breeding programs if used properly by breeders, considering the population structure and G x E interaction effect so as to reduce sample problems and maximize accuracy and hence the success of prediction.
166

Modelos para análise de dados discretos longitudinais com superdispersão / Models for analysis of longitudinal discrete data in the presence of overdispersion

Fernanda Bührer Rizzato 08 February 2012 (has links)
Dados longitudinais na forma de contagens e na forma binária são muito comuns, os quais, frequentemente, podem ser analisados por distribuições de Poisson e de Bernoulli, respectivamente, pertencentes à família exponencial. Duas das principais limitações para modelar esse tipo de dados são: (1) a ocorrência de superdispersão, ou seja, quando a variabilidade dos dados não é adequadamente descrita pelos modelos, que muitas vezes apresentam uma relação pré-estabelecida entre a média e a variância, e (2) a correlação existente entre medidas realizadas repetidas vezes na mesma unidade experimental. Uma forma de acomodar a superdispersão é pela utilização das distribuições binomial negativa e beta binomial, ou seja, pela inclusão de um efeito aleatório com distribuição gama quando se considera dados provenientes de contagens e um efeito aleatório com distribuição beta quando se considera dados binários, ambos introduzidos de forma multiplicativa. Para acomodar a correlação entre as medidas realizadas no mesmo indivíduo podem-se incluir efeitos aleat órios com distribuição normal no preditor linear. Esses situações podem ocorrer separada ou simultaneamente. Molenberghs et al. (2010) propuseram modelos que generalizam os modelos lineares generalizados mistos Poisson-normal e Bernoulli-normal, incorporando aos mesmos a superdispersão. Esses modelos foram formulados e ajustados aos dados, usando-se o método da máxima verossimilhança. Entretanto, para um modelo de efeitos aleatórios, é natural pensar em uma abordagem Bayesiana. Neste trabalho, são apresentados modelos Bayesianos hierárquicos para dados longitudinais, na forma de contagens e binários que apresentam superdispersão. A análise Bayesiana hierárquica é baseada no método de Monte Carlo com Cadeias de Markov (MCMC) e para implementação computacional utilizou-se o software WinBUGS. A metodologia para dados na forma de contagens é usada para a análise de dados de um ensaio clínico em pacientes epilépticos e a metodologia para dados binários é usada para a análise de dados de um ensaio clínico para tratamento de dermatite. / Longitudinal count and binary data are very common, which often can be analyzed by Poisson and Bernoulli distributions, respectively, members of the exponential family. Two of the main limitations to model this data are: (1) the occurrence of overdispersion, i.e., the phenomenon whereby variability in the data is not adequately captured by the model, and (2) the accommodation of data hierarchies owing to, for example, repeatedly measuring the outcome on the same subject. One way of accommodating overdispersion is by using the negative-binomial and beta-binomial distributions, in other words, by the inclusion of a random, gamma-distributed eect when considering count data and a random, beta-distributed eect when considering binary data, both introduced by multiplication. To accommodate the correlation between measurements made in the same individual one can include normal random eects in the linear predictor. These situations can occur separately or simultaneously. Molenberghs et al. (2010) proposed models that simultaneously generalizes the generalized linear mixed models Poisson-normal and Bernoulli-normal, incorporating the overdispersion. These models were formulated and tted to the data using maximum likelihood estimation. However, these models lend themselves naturally to a Bayesian approach as well. In this paper, we present Bayesian hierarchical models for longitudinal count and binary data in the presence of overdispersion. A hierarchical Bayesian analysis is based in the Monte Carlo Markov Chain methods (MCMC) and the software WinBUGS is used for the computational implementation. The methodology for count data is used to analyse a dataset from a clinical trial in epileptic patients and the methodology for binary data is used to analyse a dataset from a clinical trial in toenail infection named onychomycosis.
167

Do Childhood Excess Weight and Family Food Insecurity Share Common Risk Factors in the Local Environment? An Examination Using a Quebec Birth Cohort

Carter, Megan Ann January 2013 (has links)
Background: Childhood excess weight and family food insecurity are food-system related public health problems that exist in Canada. Since both relate to issues of food accessibility and availability, which have elements of “place”, they may share common risk factors in the local environment that are amenable to intervention. In this area of research, the literature derives mostly from a US context, and there is a dearth of high quality evidence, specifically from longitudinal studies. Objectives: The main objectives of this thesis were to examine the adjusted associations between the place factors: material deprivation, social deprivation, social cohesion, disorder, and living location, with change in child BMI Z-score and with change in family food insecurity status in a Canadian cohort of children. Methods: The Québec Longitudinal Study of Child Development was used to meet the main objectives of this thesis. Response data from six collection cycles (4 – 10 years of age) were used in three main analyses. The first analysis examined change in child BMI Z-score as a function of the place factors using mixed models regression. The second analysis examined change in child BMI Z-score as a function of place factors using group-based trajectory modeling. The third and final analysis examined change in family food insecurity status as a function of the place factors using generalized estimating equations. Results: Social deprivation, social cohesion and disorder were strongly and positively associated with family food insecurity, increasing the odds by 45-76%. These place factors, on the other hand, were not consistently associated with child weight status. Material deprivation was not important for either outcome, except for a slight positive association in the mixed models analysis of child weight status. Living location was not important in explaining family food insecurity. On the other hand, it was associated with child weight status in both analyses, but the nature of the relationship is still unclear. Conclusions: Results do not suggest that addressing similar place factors may alleviate both child excess weight and family food insecurity. More high quality longitudinal and experimental studies are needed to clarify relationships between the local environment and child weight status and family food insecurity.
168

Estimation non-paramétrique de la densité de variables aléatoires cachées / Nonparametric estimation of the density of hidden random variables.

Dion, Charlotte 24 June 2016 (has links)
Cette thèse comporte plusieurs procédures d'estimation non-paramétrique de densité de probabilité.Dans chaque cas les variables d'intérêt ne sont pas observées directement, ce qui est une difficulté majeure.La première partie traite un modèle linéaire mixte où des observations répétées sont disponibles.La deuxième partie s'intéresse aux modèles d'équations différentielles stochastiques à effets aléatoires. Plusieurs trajectoires sont observées en temps continu sur un intervalle de temps commun.La troisième partie se place dans un contexte de bruit multiplicatif.Les différentes parties de cette thèse sont reliées par un contexte commun de problème inverse et par une problématique commune: l'estimation de la densité d'une variable cachée. Dans les deux premières parties la densité d'un ou plusieurs effets aléatoires est estimée. Dans la troisième partie il s'agit de reconstruire la densité de la variable d'origine à partir d'observations bruitées.Différentes méthodes d'estimation globale sont utilisées pour construire des estimateurs performants: estimateurs à noyau, estimateurs par projection ou estimateurs construits par déconvolution.La sélection de paramètres mène à des estimateurs adaptatifs et les risques quadratiques intégrés sont majorés grâce à une inégalité de concentration de Talagrand. Une étude sur simulations de chaque estimateur illustre leurs performances. Un jeu de données neuronales est étudié grâce aux procédures mises en place pour les équations différentielles stochastiques. / This thesis contains several nonparametric estimation procedures of a probability density function.In each case, the main difficulty lies in the fact that the variables of interest are not directly observed.The first part deals with a mixed linear model for which repeated observations are available.The second part focuses on stochastic differential equations with random effects. Many trajectories are observed continuously on the same time interval.The third part is in a full multiplicative noise framework.The parts of the thesis are connected by the same context of inverse problems and by a common problematic: the estimation of the density function of a hidden variable.In the first two parts the density of one or two random effects is estimated. In the third part the goal is to rebuild the density of the original variable from the noisy observations.Different global methods are used and lead to well competitive estimators: kernel estimators, projection estimators or estimators built from deconvolution.Parameter selection gives adaptive estimators and the integrated risks are bounded using a Talagrand concentration inequality.A simulation study for each proposed estimator highlights their performances.A neuronal dataset is investigated with the new procedures for stochastic differential equations developed in this work.
169

Modelos para análise de dados discretos longitudinais com superdispersão / Models for analysis of longitudinal discrete data in the presence of overdispersion

Rizzato, Fernanda Bührer 08 February 2012 (has links)
Dados longitudinais na forma de contagens e na forma binária são muito comuns, os quais, frequentemente, podem ser analisados por distribuições de Poisson e de Bernoulli, respectivamente, pertencentes à família exponencial. Duas das principais limitações para modelar esse tipo de dados são: (1) a ocorrência de superdispersão, ou seja, quando a variabilidade dos dados não é adequadamente descrita pelos modelos, que muitas vezes apresentam uma relação pré-estabelecida entre a média e a variância, e (2) a correlação existente entre medidas realizadas repetidas vezes na mesma unidade experimental. Uma forma de acomodar a superdispersão é pela utilização das distribuições binomial negativa e beta binomial, ou seja, pela inclusão de um efeito aleatório com distribuição gama quando se considera dados provenientes de contagens e um efeito aleatório com distribuição beta quando se considera dados binários, ambos introduzidos de forma multiplicativa. Para acomodar a correlação entre as medidas realizadas no mesmo indivíduo podem-se incluir efeitos aleat órios com distribuição normal no preditor linear. Esses situações podem ocorrer separada ou simultaneamente. Molenberghs et al. (2010) propuseram modelos que generalizam os modelos lineares generalizados mistos Poisson-normal e Bernoulli-normal, incorporando aos mesmos a superdispersão. Esses modelos foram formulados e ajustados aos dados, usando-se o método da máxima verossimilhança. Entretanto, para um modelo de efeitos aleatórios, é natural pensar em uma abordagem Bayesiana. Neste trabalho, são apresentados modelos Bayesianos hierárquicos para dados longitudinais, na forma de contagens e binários que apresentam superdispersão. A análise Bayesiana hierárquica é baseada no método de Monte Carlo com Cadeias de Markov (MCMC) e para implementação computacional utilizou-se o software WinBUGS. A metodologia para dados na forma de contagens é usada para a análise de dados de um ensaio clínico em pacientes epilépticos e a metodologia para dados binários é usada para a análise de dados de um ensaio clínico para tratamento de dermatite. / Longitudinal count and binary data are very common, which often can be analyzed by Poisson and Bernoulli distributions, respectively, members of the exponential family. Two of the main limitations to model this data are: (1) the occurrence of overdispersion, i.e., the phenomenon whereby variability in the data is not adequately captured by the model, and (2) the accommodation of data hierarchies owing to, for example, repeatedly measuring the outcome on the same subject. One way of accommodating overdispersion is by using the negative-binomial and beta-binomial distributions, in other words, by the inclusion of a random, gamma-distributed eect when considering count data and a random, beta-distributed eect when considering binary data, both introduced by multiplication. To accommodate the correlation between measurements made in the same individual one can include normal random eects in the linear predictor. These situations can occur separately or simultaneously. Molenberghs et al. (2010) proposed models that simultaneously generalizes the generalized linear mixed models Poisson-normal and Bernoulli-normal, incorporating the overdispersion. These models were formulated and tted to the data using maximum likelihood estimation. However, these models lend themselves naturally to a Bayesian approach as well. In this paper, we present Bayesian hierarchical models for longitudinal count and binary data in the presence of overdispersion. A hierarchical Bayesian analysis is based in the Monte Carlo Markov Chain methods (MCMC) and the software WinBUGS is used for the computational implementation. The methodology for count data is used to analyse a dataset from a clinical trial in epileptic patients and the methodology for binary data is used to analyse a dataset from a clinical trial in toenail infection named onychomycosis.
170

Inférence dans les modèles à changement de pente aléatoire : application au déclin cognitif pré-démence / Inference for random changepoint models : application to pre-dementia cognitive decline

Segalas, Corentin 03 December 2019 (has links)
Le but de ce travail a été de proposer des méthodes d'inférence pour décrire l'histoire naturelle de la phase pré-diagnostic de la démence. Durant celle-ci, qui dure une quinzaine d'années, les trajectoires de déclin cognitif sont non linéaires et hétérogènes entre les sujets. Pour ces raisons, nous avons choisi un modèle à changement de pente aléatoire pour les décrire. Une première partie de ce travail a consisté à proposer une procédure de test pour l'existence d'un changement de pente aléatoire. En effet, dans certaines sous-populations, le déclin cognitif semble lisse et la question de l'existence même d'un changement de pente se pose. Cette question présente un défi méthodologique en raison de la non-identifiabilité de certains paramètres sous l'hypothèse nulle rendant les tests standards inutiles. Nous avons proposé un supremum score test pour répondre à cette question. Une seconde partie du travail concernait l'ordre temporel du temps de changement entre plusieurs marqueurs. La démence est une maladie multidimensionnelle et plusieurs dimensions de la cognition sont affectées. Des schémas hypothétiques existent pour décrire l'histoire naturelle de la démence mais n'ont pas été éprouvés sur données réelles. Comparer le temps de changement de différents marqueurs mesurant différentes fonctions cognitives permet d'éclairer ces hypothèses. Dans cet esprit, nous proposons un modèle bivarié à changement de pente aléatoire permettant de comparer les temps de changement de deux marqueurs, potentiellement non gaussiens. Les méthodes proposées ont été évaluées sur simulations et appliquées sur des données issues de deux cohortes françaises. Enfin, nous discutons les limites de ces deux modèles qui se concentrent sur une accélération tardive du déclin cognitif précédant le diagnostic de démence et nous proposons un modèle alternatif qui estime plutôt une date de décrochage entre cas et non-cas. / The aim of this work was to propose inferential methods to describe natural history of the pre-diagnosis phase of dementia. During this phase, which can last around fifteen years, the cognitive decline trajectories are nonlinear and heterogeneous between subjects. Because heterogeneity and nonlinearity, we chose a random changepoint mixed model to describe these trajectories. A first part of this work was to propose a testing procedure to assess the existence of a random changepoint. Indeed, in some subpopulations, the cognitive decline seems smooth and the question of the existence of a changepoint itself araises. This question is methodologically challenging because of identifiability issues on some parameters under the null hypothesis that makes standard tests useless. We proposed a supremum score test to answer this question. A second part of this work was the comparison of the temporal order of different markers changepoint. Dementia is a multidimensional disease where different dimensions of the cognition are affected. Hypothetic cascade models exist for describing this natural history but have not been evaluated on real data. Comparing change over time of different markers measuring different cognitive functions gives precious insight on this hypothesis. In this spirit, we propose a bivariate random changepoint model allowing proper comparison of the time of change of two cognitive markers, potentially non Gaussian. The proposed methodologies were evaluated on simulation studies and applied on real data from two French cohorts. Finally, we discussed the limitations of the two models we used that focused on the late acceleration of the cognitive decline before dementia diagnosis and we proposed an alternative model that estimates the time of differentiation between cases and non-cases.

Page generated in 0.0559 seconds