Spelling suggestions: "subject:"factories""
91 |
Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes / Multiple imputation using principal component methods : A new methodology to deal with missing valuesAudigier, Vincent 25 November 2015 (has links)
Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev / This thesis proposes new multiple imputation methods that are based on principal component methods, which were initially used for exploratory analysis and visualisation of continuous, categorical and mixed multidimensional data. The study of principal component methods for imputation, never previously attempted, offers the possibility to deal with many types and sizes of data. This is because the number of estimated parameters is limited due to dimensionality reduction.First, we describe a single imputation method based on factor analysis of mixed data. We study its properties and focus on its ability to handle complex relationships between variables, as well as infrequent categories. Its high prediction quality is highlighted with respect to the state-of-the-art single imputation method based on random forests.Next, a multiple imputation method for continuous data using principal component analysis (PCA) is presented. This is based on a Bayesian treatment of the PCA model. Unlike standard methods based on Gaussian models, it can still be used when the number of variables is larger than the number of individuals and when correlations between variables are strong.Finally, a multiple imputation method for categorical data using multiple correspondence analysis (MCA) is proposed. The variability of prediction of missing values is introduced via a non-parametric bootstrap approach. This helps to tackle the combinatorial issues which arise from the large number of categories and variables. We show that multiple imputation using MCA outperforms the best current methods.
|
92 |
Genetic and ecophysiological dissection of tolerance to drought and heat stress in bread wheat : from environmental characterization to QTL detection / Dissection génétique et écophysiologique de la tolérance au stress hydrique et thermique chez le blé tendre : de la caractérisation de l’environnement à la détection de QTLBouffier, Bruno 16 December 2014 (has links)
L’étude des rendements en blé a mis en évidence une stagnation apparue dans les années 1990, notamment en France, et principalement lié aux stress hydrique et thermique. Dans ce contexte, améliorer la tolérance du blé européen à ces stress est de première importance. Cette étude avait pour but d’étudier le déterminisme génétique de la tolérance à ces stress chez le blé. Pour ce faire, trois populations de blé tendre du CIMMYT combinant des caractères d’adaptation à ces stress ont été cultivées en conditions irriguée, sèche et stress thermique irriguée plusieurs années. Des caractères physiologiques et agronomiques ont été mesurés sur un réseau de 15 essais. Une méthodologie de caractérisation environnementale a été développée et a permis l’identification de six scenarii de stress au sein du réseau. Une covariable environnementale représentative de chacun a été extraite. L’utilisation des modèles de régression factorielles a permis la décomposition de l’interaction génotype x environnement ainsi que la mise en évidence d’une sensibilité différentielle au stress dans le germplasm. Une recherche de QTL multi-environnementale a conduit à la détection de régions génomiques contrôlant les caractères physiologiques et agronomiques ainsi que leurs interactions avec l’environnement. De la caractérisation environnementale à la détection de QTL, cette étude a abouti au développement d’un outil pour les sélectionneurs permettant l’évaluation du potentiel des génotypes face à une gamme d’environnement, mais aussi à l’identification de régions génomiques impliquées dans le contrôle de la tolérance aux stress hydrique et thermique chez le blé tendre. Ceci pourrait améliorer la tolérance à ces stress au sein du germplasm européen. / A stagnation of wheat yield was reported in France and other countries worldwide since the 1990’s, which incriminated mainly drought and heat stress. Improving the European wheat tolerance to them is of first importance. This study aimed to investigate the genetic determinism of the tolerance to such stresses. Three CIMMYT bread wheat populations combining complementary heat and drought adaptive habits were grown in Northern Mexico under irrigated, drought and heat-irrigated treatments from 2011 to 2013. The trial network comprised 15 trials and both physiological and agronomic traits were scored. First, an environmental characterization methodology was developed and resulted in the identification of six main environmental scenarios in the network. A representative environmental covariate was extracted from each of them. Then, a factorial regression model leaded to the dissection of the genotype-by-environment interaction and highlighted differential stress sensitivity of the germplasm. Finally, a multi-environmental QTL detection resulted in the discovery of genomic regions involved in the control of both physiological and agronomic traits and the study of their sensitivity to the environment. From the environmental characterization to the QTL detection, this study resulted in the development of a tool for breeders which may enable the evaluation of the potential of any genotypes in front of a range of environment, but also the identification of genomic regions involved in the control of the tolerance to drought and heat stress in bread wheat. This may help in improving the tolerance of the European bread wheat germplasm to drought and heat stress.
|
93 |
Exploring variabilities through factor analysis in automatic acoustic language recognition / Exploration par l'analyse factorielle des variabilités de la reconnaissance acoustique automatique de la langue / Erforschung durch Faktor-Analysis der Variabilitäten der automatischen akustischen Sprachen-ErkennungVerdet, Florian 05 September 2011 (has links)
La problématique traitée par la Reconnaissance de la Langue (LR) porte sur la définition découverte de la langue contenue dans un segment de parole. Cette thèse se base sur des paramètres acoustiques de courte durée, utilisés dans une approche d’adaptation de mélanges de Gaussiennes (GMM-UBM). Le problème majeur de nombreuses applications du vaste domaine de la re- problème connaissance de formes consiste en la variabilité des données observées. Dans le contexte de la Reconnaissance de la Langue (LR), cette variabilité nuisible est due à des causes diverses, notamment les caractéristiques du locuteur, l’évolution de la parole et de la voix, ainsi que les canaux d’acquisition et de transmission. Dans le contexte de la reconnaissance du locuteur, l’impact de la variabilité solution peut sensiblement être réduit par la technique d’Analyse Factorielle (Joint Factor Analysis, JFA). Dans ce travail, nous introduisons ce paradigme à la Reconnaissance de la Langue. Le succès de la JFA repose sur plusieurs hypothèses. La première est que l’information observée est décomposable en une partie universelle, une partie dépendante de la langue et une partie de variabilité, qui elle est indépendante de la langue. La deuxième hypothèse, plus technique, est que la variabilité nuisible se situe dans un sous-espace de faible dimension, qui est défini de manière globale.Dans ce travail, nous analysons le comportement de la JFA dans le contexte d’un dispositif de LR du type GMM-UBM. Nous introduisons et analysons également sa combinaison avec des Machines à Vecteurs Support (SVM). Les premières publications sur la JFA regroupaient toute information qui est amélioration nuisible à la tâche (donc ladite variabilité) dans un seul composant. Celui-ci est supposé suivre une distribution Gaussienne. Cette approche permet de traiter les différentes sortes de variabilités d’une manière unique. En pratique, nous observons que cette hypothèse n’est pas toujours vérifiée. Nous avons, par exemple, le cas où les données peuvent être groupées de manière logique en deux sous-parties clairement distinctes, notamment en données de sources téléphoniques et d’émissions radio. Dans ce cas-ci, nos recherches détaillées montrent un certain avantage à traiter les deux types de données par deux systèmes spécifiques et d’élire comme score de sortie celui du système qui correspond à la catégorie source du segment testé. Afin de sélectionner le score de l’un des systèmes, nous avons besoin d’un analyses détecteur de canal source. Nous proposons ici différents nouveaux designs pour engendrées de tels détecteurs automatiques. Dans ce cadre, nous montrons que les facteurs de variabilité (du sous-espace) de la JFA peuvent être utilisés avec succès pour la détection de la source. Ceci ouvre la perspective intéressante de subdiviser les5données en catégories de canal source qui sont établies de manière automatique. En plus de pouvoir s’adapter à des nouvelles conditions de source, cette propriété permettrait de pouvoir travailler avec des données d’entraînement qui ne sont pas accompagnées d’étiquettes sur le canal de source. L’approche JFA permet une réduction de la mesure de coûts allant jusqu’à généraux 72% relatives, comparé au système GMM-UBM de base. En utilisant des systèmes spécifiques à la source, suivis d’un sélecteur de scores, nous obtenons une amélioration relative de 81%. / Language Recognition is the problem of discovering the language of a spoken definitionutterance. This thesis achieves this goal by using short term acoustic information within a GMM-UBM approach.The main problem of many pattern recognition applications is the variability of problemthe observed data. In the context of Language Recognition (LR), this troublesomevariability is due to the speaker characteristics, speech evolution, acquisition and transmission channels.In the context of Speaker Recognition, the variability problem is solved by solutionthe Joint Factor Analysis (JFA) technique. Here, we introduce this paradigm toLanguage Recognition. The success of JFA relies on several assumptions: The globalJFA assumption is that the observed information can be decomposed into a universalglobal part, a language-dependent part and the language-independent variabilitypart. The second, more technical assumption consists in the unwanted variability part to be thought to live in a low-dimensional, globally defined subspace. In this work, we analyze how JFA behaves in the context of a GMM-UBM LR framework. We also introduce and analyze its combination with Support Vector Machines(SVMs).The first JFA publications put all unwanted information (hence the variability) improvemen tinto one and the same component, which is thought to follow a Gaussian distribution.This handles diverse kinds of variability in a unique manner. But in practice,we observe that this hypothesis is not always verified. We have for example thecase, where the data can be divided into two clearly separate subsets, namely datafrom telephony and from broadcast sources. In this case, our detailed investigations show that there is some benefit of handling the two kinds of data with two separatesystems and then to elect the output score of the system, which corresponds to the source of the testing utterance.For selecting the score of one or the other system, we need a channel source related analyses detector. We propose here different novel designs for such automatic detectors.In this framework, we show that JFA’s variability factors (of the subspace) can beused with success for detecting the source. This opens the interesting perspectiveof partitioning the data into automatically determined channel source categories,avoiding the need of source-labeled training data, which is not always available.The JFA approach results in up to 72% relative cost reduction, compared to the overall resultsGMM-UBM baseline system. Using source specific systems followed by a scoreselector, we achieve 81% relative improvement.
|
Page generated in 0.0652 seconds