Spelling suggestions: "subject:"critères dde sélection"" "subject:"critères dee sélection""
1 |
Etude génétique et physiologique de l'architecture déterminée chez le lupin blanc d'hiver. Conséquences agronomiques et en sélectionJulier, Bernadette 21 January 1994 (has links) (PDF)
Comme chez de nombreux protéagineux, l'architecture déterminée a semblé une voie prometteuse pour réduire le développement végétatif et améliorer le rendement et la stabilité du rendement du lupin blanc d'hiver (Lupinus albus L.). Une étude à la fois génétique et physiologique de ce type architecturale et de ses conséquences sur le développement et la mise en place du rendement a donc été entreprise. L'hérédité du caractère d'architecture déterminée est monogénique récessive, ce qui permet une utilisation simple en sélection. Le développement végétatif est réduit car tous les bourgeons passent à l'état floral précocément dans le cycle. Les ramifications portent chacune moins de feuilles que chez les indéterminés, et le nombre de niveaux végétatifs est réduit. La distribution des feuilles sur les ramifications suit un profil caractéristique en forme de cloche. La structure des ramifications a pu être modélisée. Il existe une grande variabilité génétique pour l'architecture, bien que la relation positive entre tardiveté de floraison et développement végétatif soit forte. L'interception de la lumière par le couvert en fonction du temps est similaire chez les déterminés et les indéterminés. Cependant, les déterminés atteignent une interception maximale moins importante en raison de leur développement végétatif restreint. La proportion de lumière qui parvient jusqu'aux feuilles de la tige principale est accrue. Le rendement des génotypes déterminés semble compétitif avec celui des génotypes indéterminés. La production de matière sèche est plus faible mais l'indice de récolte est supérieur. La date de maturité est sensiblement avancée, surtout sous des climats frais et humides, et la stabilité du rendement est plus grande. Ces caractéristiques sont liées à la réduction du développement végétatif, et à une compétition entre développement végétatif et développement reproducteur plus faible que celle observée chez les indéterminés. Le rendement est produit essentiellement sur la tige principale et le premier niveau de ramifications, et ces sites sont moins sujets à des aléas climatiques que les niveaux supérieurs. La variabilité génétique pour les composantes du rendement est large. On met en évidence des relations entre certains caractères d'architecture et les potentialités de rendement. Un développement végétatif trop restreint aussi bien qu'un développement excessif nuisent au rendement. Les caractères de développement des ramifications (nombre de feuilles et nombre de niveaux végétatifs) sont des critères de sélection pertinents chez les lupins déterminés.
|
2 |
Sélection de variables pour la classification non supervisée en grande dimensionMeynet, Caroline 09 November 2012 (has links) (PDF)
Il existe des situations de modélisation statistique pour lesquelles le problème classique de classification non supervisée (c'est-à-dire sans information a priori sur la nature ou le nombre de classes à constituer) se double d'un problème d'identification des variables réellement pertinentes pour déterminer la classification. Cette problématique est d'autant plus essentielle que les données dites de grande dimension, comportant bien plus de variables que d'observations, se multiplient ces dernières années : données d'expression de gènes, classification de courbes... Nous proposons une procédure de sélection de variables pour la classification non supervisée adaptée aux problèmes de grande dimension. Nous envisageons une approche par modèles de mélange gaussien, ce qui nous permet de reformuler le problème de sélection des variables et du choix du nombre de classes en un problème global de sélection de modèle. Nous exploitons les propriétés de sélection de variables de la régularisation l1 pour construire efficacement, à partir des données, une collection de modèles qui reste de taille raisonnable même en grande dimension. Nous nous démarquons des procédures classiques de sélection de variables par régularisation l1 en ce qui concerne l'estimation des paramètres : dans chaque modèle, au lieu de considérer l'estimateur Lasso, nous calculons l'estimateur du maximum de vraisemblance. Ensuite, nous sélectionnons l'un des ces estimateurs du maximum de vraisemblance par un critère pénalisé non asymptotique basé sur l'heuristique de pente introduite par Birgé et Massart. D'un point de vue théorique, nous établissons un théorème de sélection de modèle pour l'estimation d'une densité par maximum de vraisemblance pour une collection aléatoire de modèles. Nous l'appliquons dans notre contexte pour trouver une forme de pénalité minimale pour notre critère pénalisé. D'un point de vue pratique, des simulations sont effectuées pour valider notre procédure, en particulier dans le cadre de la classification non supervisée de courbes. L'idée clé de notre procédure est de n'utiliser la régularisation l1 que pour constituer une collection restreinte de modèles et non pas aussi pour estimer les paramètres des modèles. Cette étape d'estimation est réalisée par maximum de vraisemblance. Cette procédure hybride nous est inspirée par une étude théorique menée dans une première partie dans laquelle nous établissons des inégalités oracle l1 pour le Lasso dans les cadres de régression gaussienne et de mélange de régressions gaussiennes, qui se démarquent des inégalités oracle l0 traditionnellement établies par leur absence totale d'hypothèse.
|
3 |
Sélection de variables pour la classification non supervisée en grande dimension / Variable selection in model-based clustering for high-dimensional dataMeynet, Caroline 09 November 2012 (has links)
Il existe des situations de modélisation statistique pour lesquelles le problème classique de classification non supervisée (c'est-à-dire sans information a priori sur la nature ou le nombre de classes à constituer) se double d'un problème d'identification des variables réellement pertinentes pour déterminer la classification. Cette problématique est d'autant plus essentielle que les données dites de grande dimension, comportant bien plus de variables que d'observations, se multiplient ces dernières années : données d'expression de gènes, classification de courbes... Nous proposons une procédure de sélection de variables pour la classification non supervisée adaptée aux problèmes de grande dimension. Nous envisageons une approche par modèles de mélange gaussien, ce qui nous permet de reformuler le problème de sélection des variables et du choix du nombre de classes en un problème global de sélection de modèle. Nous exploitons les propriétés de sélection de variables de la régularisation l1 pour construire efficacement, à partir des données, une collection de modèles qui reste de taille raisonnable même en grande dimension. Nous nous démarquons des procédures classiques de sélection de variables par régularisation l1 en ce qui concerne l'estimation des paramètres : dans chaque modèle, au lieu de considérer l'estimateur Lasso, nous calculons l'estimateur du maximum de vraisemblance. Ensuite, nous sélectionnons l'un des ces estimateurs du maximum de vraisemblance par un critère pénalisé non asymptotique basé sur l'heuristique de pente introduite par Birgé et Massart. D'un point de vue théorique, nous établissons un théorème de sélection de modèle pour l'estimation d'une densité par maximum de vraisemblance pour une collection aléatoire de modèles. Nous l'appliquons dans notre contexte pour trouver une forme de pénalité minimale pour notre critère pénalisé. D'un point de vue pratique, des simulations sont effectuées pour valider notre procédure, en particulier dans le cadre de la classification non supervisée de courbes. L'idée clé de notre procédure est de n'utiliser la régularisation l1 que pour constituer une collection restreinte de modèles et non pas aussi pour estimer les paramètres des modèles. Cette étape d'estimation est réalisée par maximum de vraisemblance. Cette procédure hybride nous est inspirée par une étude théorique menée dans une première partie dans laquelle nous établissons des inégalités oracle l1 pour le Lasso dans les cadres de régression gaussienne et de mélange de régressions gaussiennes, qui se démarquent des inégalités oracle l0 traditionnellement établies par leur absence totale d'hypothèse. / This thesis deals with variable selection for clustering. This problem has become all the more challenging since the recent increase in high-dimensional data where the number of variables can largely exceeds the number of observations (DNA analysis, functional data clustering...). We propose a variable selection procedure for clustering suited to high-dimensional contexts. We consider clustering based on finite Gaussian mixture models in order to recast both the variable selection and the choice of the number of clusters into a global model selection problem. We use the variable selection property of l1-regularization to build a data-driven model collection in a efficient way. Our procedure differs from classical procedures using l1-regularization as regards the estimation of the mixture parameters: in each model of the collection, rather than considering the Lasso estimator, we calculate the maximum likelihood estimator. Then, we select one of these maximum likelihood estimators by a non-asymptotic penalized criterion. From a theoretical viewpoint, we establish a model selection theorem for maximum likelihood estimators in a density estimation framework with a random model collection. We apply it in our context to determine a convenient penalty shape for our criterion. From a practical viewpoint, we carry out simulations to validate our procedure, for instance in the functional data clustering framework. The basic idea of our procedure, which consists in variable selection by l1-regularization but estimation by maximum likelihood estimators, comes from theoretical results we establish in the first part of this thesis: we provide l1-oracle inequalities for the Lasso in the regression framework, which are valid with no assumption at all contrary to the usual l0-oracle inequalities in the literature, thus suggesting a gap between l1-regularization and l0-regularization.
|
Page generated in 0.109 seconds