• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 577
  • 287
  • 61
  • 4
  • 1
  • Tagged with
  • 884
  • 443
  • 155
  • 95
  • 94
  • 92
  • 85
  • 82
  • 79
  • 79
  • 78
  • 76
  • 72
  • 72
  • 62
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
251

Sélection stratégique et vieillissement cognitif : rôle du changement stratégique intra-item

Ardiale, Éléonore 13 September 2011 (has links)
Les travaux en psychologie ont mis en évidence que les jeunes et âgés utilisent différentes stratégies pour accomplir des tâches cognitives. La question qui se pose alors est comment nous choisissons une stratégie parmi plusieurs stratégies disponibles. Afin de mieux comprendre la sélection stratégique, l’objectif de cette thèse était d’étudier le phénomène de changement stratégique intra-item et son évolution au cours du vieillissement, d’une part, et de mettre en évidence les mécanismes impliqués lors du choix d’une stratégie, d’autre part. Nos données montrent que différentes variables, intrinsèques et extrinsèques aux problèmes, influencent la capacité de changement stratégique intra-item au cours du vieillissement. Les jeunes et les âgés interrompent une stratégie en cours d’exécution et choisissent une stratégie différente que celle précédemment exécutée. Les participants changeaient plus fréquemment de stratégies afin de choisir la meilleure stratégie, et ce d’autant plus que la stratégie était facile à exécuter. Les âgés avaient de plus difficultés que les jeunes à changer de stratégies et par conséquent, ils choisissaient moins fréquemment la meilleure stratégie. Nous montrons aussi que la sélection stratégique est associée à une augmentation de l’activité cérébrale dans des régions préfrontales bien connues pour être le siège des fonctions exécutives. Enfin, nous discutons en quoi ces résultats ont d’importantes implications concernant, les modèles théoriques de la sélection stratégique, et concernant le vieillissement cognitif. / Psychology research has shown that young and older adults used different strategies to accomplish a cognitive task. Thus, the issue of how we choose a strategy among several available strategies is raised. In order to further understand strategy selection, the goal of this thesis was to investigate the within-item strategy switching and its evolution with age, on one hand, and to highlight mechanisms involved in the selection strategy, on other hand. Our data show that different variables, intrinsic and extrinsic to the problems, affect the ability of switching strategies within item during aging. Young and older adults interrupt a mid-execution strategy and choose a different strategy than previously executed. Participants switched strategies more frequently to choose the best strategy, and especially when the strategy was easy to execute. Older adults had more difficulties than young adults to switch strategies and therefore, they chose less frequently the best strategy. We also show that the strategy selection is associated with increased brain activities in prefrontal regions, well known to be the seat of executive functions. Finally, we discuss how these results have important implications for theoretical models of strategy selection, and for cognitive aging.
252

Applicabilité à domicile d'une batterie d'évaluation mesurant les résultats de la réadaptation gériatrique

Auger, Claudine January 2005 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
253

Genetic analysis of hybrid value for silage maize in multiparental designs : QTL detection and genomic selection / Analyse génétique de la valeur hybride chez le maïs fourrage dans des dispositifs multiparentaux : détection de QTL et sélection génomique

Giraud, Héloïse 22 January 2016 (has links)
La sélection génomique offre de nouvelles perspectives en amélioration des plantes pour la sélection de caractères complexes. Le travail proposé porte sur l’évaluation de son intérêt dans le cadre d’un programme de sélection réciproque pour la valeur d’hybrides entre deux groupes génétiques de maïs complémentaires. Il s’appuie sur un dispositif expérimental original constitué de 900 hybrides produits dans un plan factoriel entre deux dispositifs multiparentaux connectés. L’objectif de la sélection est d’améliorer le rendement ensilage des hybrides tout en améliorant leur digestibilité. Une réflexion sur les modèles permettant de prédire la valeur hybride sera conduite et testée sur les données expérimentales et par simulations. Ce travail, conduit en collaboration avec sept sociétés de sélection (au sein de PROMAÏS) devrait permettre d’améliorer les dispositifs de sélection classiques et de produire des hybrides d’intérêt agronomique. Il s’inscrit dans le cadre plus général de l’amélioration pour la valeur en croisement commune à de nombreuses espèces végétales allogames et à certaines espèces animales. / Genomic selection opens new prospects in plant breeding for the selection of complex traits. The proposed study aims to evaluate its efficiency in the context of a reciprocal selection schemes for the hybrid value between two complementary maize groups. The work will rely on an original experimental design including 900 hybrids produced from a factorial between two multiparental connected designs. The selection objective is to increase the hybrids silage yield as well as their digestibility. Several models for the hybrid value prediction will be proposed and tested on the experimental data and by simulations. This study, carried out in close connection with seven plant breeding companies (members of PROMAÏS) will contribute to the improvement of breeding designs and will produce new interesting hybrids. It falls within the general context of the selection for hybrid value which is common to numerous plant allogamous species and animal species.
254

Prédiction assistée par marqueurs de la performance hybride dans un schéma de sélection réciproque : simulations et évaluation expérimentale pour le maïs ensilage / Marker-assisted prediction of hybrid performance in a reciprocal breeding design : simulations and experimental evaluation for silage maize

Seye, Adama Innocent 21 March 2019 (has links)
Le maïs (Zea mays L.) est la plante la plus cultivée au monde. Pour valoriser le fort effet d’hétérosis pour les caractères liés à la biomasse, la diversité génétique du maïs est structurée en groupes hétérotiques et les variétés cultivées sont majoritairement des hybrides F1 entre lignées de groupes complémentaires. La valeur hybride se décompose comme la somme de l’Aptitude Générale à la Combinaison (AGC) de chacune des lignées parentales et de l’Aptitude Spécifique à la Combinaison (ASC) du couple. En Europe du Nord, le maïs est souvent utilisé en ensilage destiné à l'alimentation animale. L’objectif de sélection est d’améliorer la productivité et d'assurer une bonne digestibilité du maïs ensilage. Les objectifs de cette thèse étaient : (i) d’estimer l’importance de l’AGC et de l’ASC dans la variance génétique hybride pour les caractères de qualité de l’ensilage, (ii) d’identifier les locus (QTL) impliqués dans ces caractères et d’étudier leur colocalisation avec des QTL de productivité, (iii) d’évaluer l’intérêt de la sélection génomique pour la prédiction des performances hybrides et (iv) de comparer l’efficacité de deux dispositifs de calibration des prédictions basés sur un factoriel ou l’utilisation classique de testeurs du groupe complémentaire. Dans le cadre du projet SAM-MCR, 6 familles biparentales connectées ont été créés dans les groupes « corné » et « denté » à partir de 4 lignées fondatrices. Dans une première phase, 822 lignées cornées et 802 dentées ont été génotypées pour 20k SNP et croisées selon un factoriel incomplet pour produire 951 hybrides, phénotypés pour des caractères de qualité et de productivité (étudiés par H. Giraud pendant sa thèse). L’analyse des caractères de qualité a montré une prédominance de l’AGC par rapport à l’ASC ainsi qu’une corrélation négative entre les caractères de qualité et le rendement. De nombreux QTLs multi-alléliques ont été détectés, la plupart spécifiques d’un groupe et dont certains colocalisent avec des QTL de rendement. Par validation croisée, la qualité de prédictions basées sur les QTL détectés s’est avérée plus faible que celle obtenue par prédiction génomique. La prise en compte de l’ASC n‘a pas permis d’améliorer sensiblement la qualité de prédictions des modèles. Dans une seconde phase, 90 lignées ont été choisies par groupe : 30 sélectionnées sur la base de leurs prédictions génomiques pour la productivité et la valeur énergétique et 60 choisies aléatoirement parmi les 6 familles. Ces lignées ont été croisées selon un factoriel incomplet pour produire 360 nouveaux hybrides : 120 issus des lignées sélectionnées et 240 issus des lignées choisies au hasard. Les 90 lignées de chaque groupe ont aussi été croisées à deux lignées fondatrices du groupe complémentaire (testeurs). Les hybrides issus des lignées sélectionnées se sont avérés plus productifs mais de moins bonne qualité. Nous avons confirmé la bonne qualité des prédictions génomiques obtenus dans le factoriel initial sur les nouveaux hybrides évalués dans d’autres environnements et après sélection et observé une bonne corrélation entre les AGC estimées dans le factoriel et dans le dispositif testeurs. Des dispositifs factoriels et testeurs ont été simulés en faisant varier la part d’ASC, le nombre d’hybrides et la contribution de chaque lignée dans le jeu de calibration. A moyens expérimentaux égaux, le dispositif factoriel s’est avéré plus efficace en termes de capacité prédictive et de gain génétique cumulé que le dispositif testeur (jusqu’à +50%) pour un caractère présentant de l’ASC et équivalent pour un caractère purement additif. Les résultats de cette thèse ouvrent de nouvelles perspectives pour revisiter les schémas de sélection hybrides en remplaçant l’évaluation des lignées candidates, classiquement faite sur testeur, par l’évaluation directe d’hybrides issus d’un factoriel incomplet. La mise en œuvre de tels dispositifs nécessitera de réorganiser la logistique des programmes de sélection. / Maize (Zea mays L.) is the most cultivated crop in the world. To exploit the strong heterosis for traits related to biomass, the genetic diversity of maize is structured into heterotic groups and cultivated varieties are mainly F1 hybrids obtained by crossing lines from complementary groups. The hybrid value can be decomposed as the sum of the General Combining Ability (GCA) of each parental line and the Specific Combining Ability (ASC) of the cross. In northern Europe, maize is often used as silage for animal feed and the breeding objective is to improve productivity while ensuring a good energetic value and digestibility of the silage. The objectives of this thesis were: (i) to estimate the importance of GCA and SCA in hybrid genetic variance for silage quality traits, (ii) to identify loci (QTL) involved in these traits and to study their colocalization with QTL for productivity traits, (iii) to evaluate the interest of genomic selection for the prediction of hybrid performances and (iv) to compare the prediction accuracies of two calibration designs either based on a factorial or on the conventional use of testers from the complementary group. As part of the SAM-MCR project, 6 biparental connected families were created in the "flint" and "dent" groups from 4 founder lines. In a first phase, 822 flint and 802 dent lines were genotyped for 20k SNPs and crossed according to an incomplete factorial to produce 951 hybrids which were phenotyped for quality traits and for productivity traits (studied by H. Giraud during her phD). Quality trait analysis showed a predominance of GCA over SCA and a negative correlation between digestibility traits and silage yield. Several multi-allelic QTLs were detected, most of them being specific to one group. Several colocalizations were found with yield QTL. Using cross-validation, we observed that the predictive ability of models based on detected QTLs was lower than that obtained by genomic predictions. Considering the SCA did not improve model predictive abilities for most of the traits. In a second phase, 90 lines were chosen per group: 30 were selected based on their genomic predictions for productivity and the energetic value and 60 were randomly sampled from the 6 families. These lines were crossed according to an incomplete factorial to produce 360 new hybrids: 120 from selected lines and 240 from randomly chosen lines. The 90 lines of each group were also crossed to two lines of the complementary group (testers). Hybrids from the selected lines were more productive but had a lower silage quality. We confirmed the good accuracy of the genomic predictions obtained in the initial factorial on the new hybrids evaluated in other environments and after selection. We also observed good correlations between GCA estimated in the factorial and in the testcross design. Different factorial and testcross designs were simulated by varying the proportion of dominance/SCA, the number of hybrids and the contribution of each line to the calibration set. Considering the same number of hybrids in the calibration set, the factorial was more efficient in terms of predictive ability and cumulative genetic gain (up to + 50%) than the testcross design for traits showing SCA and was similar for purely additive traits. The results of this thesis open new perspectives to revisit hybrid breeding schemes by replacing the evaluation of candidate lines, classically made on testcross, by the direct evaluation of hybrids resulting from an incomplete factorial. The implementation of such designs will require reorganizing the logistics of selection programs.
255

Influence du traitement thermomécanique sur la microstructure et les propriétés mécaniques de l’alliage Ti6246 / Impact of thermomechanical process on the microstructure and mechanical properties on Ti6246 alloy

Le Corre, Sébastien 15 February 2016 (has links)
Les propriétés d’emploi des pièces matricées en alliage de titane sont fortement dépendantes des conditions de matriçage (déformation, température de déformation, etc.) ainsi que des conditions de traitement thermique. Nos objectifs furent de caractériser la microstructure et la texture de l’alliage Ti6246 pour comprendre l’influence des paramètres du procédé sur le développement de la microstructure et les conséquences sur l’anisotropie des propriétés mécaniques.En particulier, nous nous sommes intéressés à l’évolution de la texture des grains β; ainsi qu’à la précipitation de la phase α; en fonction du taux de déformation. Des observations EBSD ont permis d’étudier les conditions de germination croissance de la phase α; au niveau des joints de grains β/β et les conditions de sélection des variants d’orientation de la phase αWI observées sur des échantillons fortement déformés. Des observations MEB couplées à un algorithme d'analyse d'image spécialement développé ont permis de déterminer l’influence des paramètres du cycle thermomécaniques sur les caractéristiques microstructurales de la phase αp (fraction de phase, taille…).Les propriétés mécaniques ont été caractérisées à partir d’essai de traction pour déterminer l’influence de l’anisotropie microstructurale induite par la mise en forme. L’observation des surfaces de rupture a mis en évidence le rôle des liserés αGB sur l’amorçage et la propagation des fissures.Les cartographies d’orientation ont montré des variations de propriétés élastiques à l’échelle des grains β; en relation avec la précipitation de la phase α. Il a ainsi été possible de relier les augmentations du bruit ultrasonore rétrodiffusé avec les évolutions de texture et les sélections de variant induites par le forgeage dans le domaine β. / Mechanical properties of closed die forging titanium alloys are very sensitive to variations of processing parameters (forging amount, forging temperature, etc.). The claims of this study were to characterize the microstructure and texture of Ti6246 alloys in order to understand the process parameters' impact on microstructure and their consequences on mechanical properties’ anisotropy.We investigate the impact of the forging amount on the β texture and α phase nucleation. The study of α nucleation and growth at β/β grains boundaries and variant selection in αWI phase conditions is carried out by EBSD measurements. SEM observations associate to an image analysis algorithm specially conceived give a good description of the thermo-mechanical processing parameters’ effects on the αp morphology (fraction, size …).Thanks to tensile testing, mechanical properties have been measured in order to evaluate the effects of microstructure anisotropy induced by forging. αGB-layers at β-grain boundaries dominate fracture toughness (cracks nucleation and cracks propagation) as observed on crack path profiles.Variations of elastic properties at β grains scale linked to α phase precipitation have been revealed by crystallographic orientation maps. Therefore the increasing of backscattered ultrasound noise can be linked to the texture evolution and the variant selections induced by β-forging.
256

Identification et suivi par spectrométrie de masse de composés impliqués dans la défense des feuilles de vigne caractérisées pour leur niveau de résistance au mildiou / Identification and monitoring by mass spectrometry of compounds involved in the defense of grapevine leaves characterized by their resistance level to downy-mildew

Becker, Loïc 17 June 2014 (has links)
Le mildiou de la vigne, causé par le pathogène Plasmopara viticola, est une maladie cryptogamique pouvant causer de sérieux dégâts sur les récoltes. Pour éviter ces pertes, il est nécessaire de recourir à des produits phytosanitaires. Outre leur coût financier, les questions sur la santé des viticulteurs et des populations vivant à proximité des vignobles, ainsi que la protection de l’environnement ne peuvent être ignorées. Cependant, toutes les variétés de vigne ne présentent pas la même sensibilité au pathogène. En effet, bien qu’elles soient moins appréciées pour leurs qualités organoleptiques, les variétés américaines sont résistantes à cette maladie. Les combiner par croisement variétal avec des espèces européennes peut constituer une alternative viable aux traitements antifongiques. Cependant, pour piloter effacement ces problèmes de sélection variétal, il est nécessaire de mieux appréhender la relation « hôte-pathogène ». C’est dans ce but que l’analyse par spectrométrie de masse a été employée sous différents aspects / Downy mildew, caused by the Plasmopara viticola pathogen, is a fungal disease which can induce serious harvest damages. To avoid these losses, it is necessary to use phytosanitary treatments. In addition to their financial cost, winegrower’s health issues and the environment protection cannot be ignored. However, all grapevine varieties do not present the same sensitivity to the pathogen. Indeed, despite of poor organoleptic qualities, American varieties are resistant to this disease. Combining them with European species by varietal crossing may be a viable alternative to these treatments. However, to lead efficiently these cross breeding programs, it is necessary to know more about the relationship "host-pathogen". In this context, analysis by mass spectrometry has been used under different aspects
257

Assessment of photos in albums based on aesthetics and context / Évaluation de photos dans des albums basée sur l'esthétique et le contexte

Kuzovkin, Dmitry 21 June 2019 (has links)
Le processus de sélection de photos dans des albums peut être considérablement amélioré à l’aide d’un critère d’évaluation automatique des qualités d’une photo. Cependant, les méthodes existantes abordent ce problème de manière indépendante, c’est à dire en évaluant chaque image séparément des autres images d'un album. Dans cette thèse, nous explorons la modélisation du contexte d’une photo via une approche de clustering de collections de photos et la possibilité d'appliquer l’information de contexte à l'évaluation d’une photo. Nous avons effectué des études subjectives permettant d’étudier la manière dont les utilisateurs regroupent et sélectionnent des photos dans un album. Ces études ont permis une estimation du niveau de l’accord entre les différents utilisateurs. Nous avons aussi étudié la manière dont le contexte influence leurs décisions. Après avoir étudié la nature des décisions des utilisateurs, nous proposons une approche informatique pour modéliser leur comportement. Tout d'abord, nous introduisons une méthode de clustering hiérarchique, qui permet de regrouper des photos similaires selon une structure de similarité à plusieurs niveaux, basée sur des descripteurs visuels. Ensuite, les informations de contexte de la photo sont utilisées pour adapter le score de la photo pré-calculé indépendamment, en utilisant les données basées sur des statistiques et une approche d'apprentissage automatique. De plus, comme la majorité des méthodes récentes d'évaluation de la photo sont basées sur des réseaux de neurones convolutionnels, nous avons exploré et visualisé les caractéristiques esthétiques apprises par ces méthodes. / An automatic photo assessment can significantly aid the process of photo selection within photo collections. However, existing computational methods approach this problem in an independent manner, by evaluating each image apart from other images in a photo album. In this thesis, we explore the modeling of photo context via a clustering approach for photo collections and the possibility of applying such context information in photo assessment. To better understand user actions within photo albums, we conduct experimental user studies, where we study how users cluster and select photos in photo collections. We estimate the level of agreement between users and investigate how the context, defined by similar photos in corresponding clusters, influences their decisions. After studying the nature of user decisions, we propose a computational approach to model user behavior. First, we introduce a hierarchical clustering method, which allows to group similar photos according to a multi-level similarity structure, based on visual descriptors. Then, the photo context information is extracted from the obtained cluster data and used to adapt a pre-computed independent photo score, using the statistics-based data and a machine learning approach. In addition, as the majority of recent methods for photo assessment are based on convolutional neural networks, we explore and visualize the aesthetic characteristics learned by such methods.
258

Scoring pour le risque de crédit : variable réponse polytomique, sélection de variables, réduction de la dimension, applications / Scoring for credit risk : polytomous response variable, variable selection, dimension reduction, applications

Vital, Clément 11 July 2016 (has links)
Le but de cette thèse était d'explorer la thématique du scoring dans le cadre de son utilisation dans le monde bancaire, et plus particulièrement pour contrôler le risque de crédit. En effet, la diversification et la globalisation des activités bancaires dans la deuxième moitié du XXe siècle ont conduit à l'instauration d'un certain nombre de régulations, afin de pouvoir s'assurer que les établissements bancaires disposent de capitaux nécessaires à couvrir le risque qu'ils prennent. Cette régulation impose ainsi la modélisation de certains indicateurs de risque, dont la probabilité de défaut, qui est pour un prêt en particulier la probabilité que le client se retrouve dans l'impossibilité de rembourser la somme qu'il doit. La modélisation de cet indicateur passe par la définition d'une variable d'intérêt appelée critère de risque, dénotant les "bons payeurs" et les "mauvais payeurs". Retranscrit dans un cadre statistique plus formel, cela signifie que nous cherchons à modéliser une variable à valeurs dans {0,1} par un ensemble de variables explicatives. Cette problématique est en pratique traitée comme une question de scoring. Le scoring consiste en la définition de fonction, appelées fonctions de score, qui retransmettent l'information contenue dans l'ensemble des variables explicatives dans une note de score réelle. L'objectif d'une telle fonction sera de donner sur les individus le même ordonnancement que la probabilité a posteriori du modèle, de manière à ce que les individus ayant une forte probabilité d'être "bons" aient une note élevée, et inversement que les individus ayant une forte probabilité d'être "mauvais" (et donc un risque fort pour la banque) aient une note faible. Des critères de performance tels que la courbe ROC et l'AUC ont été définis, permettant de quantifier à quel point l'ordonnancement produit par la fonction de score est pertinent. La méthode de référence pour obtenir des fonctions de score est la régression logistique, que nous présentons ici. Une problématique majeure dans le scoring pour le risque de crédit est celle de la sélection de variables. En effet, les banques disposent de larges bases de données recensant toutes les informations dont elles disposent sur leurs clients, aussi bien sociodémographiques que comportementales, et toutes ne permettent pas d'expliquer le critère de risque. Afin d'aborder ce sujet, nous avons choisi de considérer la technique du Lasso, reposant sur l'application d'une contrainte sur les coefficients, de manière à fixer les valeurs des coefficients les moins significatifs à zéro. Nous avons envisagé cette méthode dans le cadre des régressions linéaires et logistiques, ainsi qu'une extension appelée Group Lasso, permettant de considérer les variables explicatives par groupes. Nous avons ensuite considéré le cas où la variable réponse n'est plus binaire, mais polytomique, c'est-à-dire avec plusieurs niveaux de réponse possibles. La première étape a été de présenter une définition du scoring équivalente à celle présentée précédemment dans le cas binaire. Nous avons ensuite présenté différentes méthodes de régression adaptées à ce nouveau cas d'étude : une généralisation de la régression logistique binaire, des méthodes semi-paramétriques, ainsi qu'une application à la régression logistique polytomique du principe du Lasso. Enfin, le dernier chapitre est consacré à l'application de certaines des méthodes évoquées dans le manuscrit sur des jeux de données réelles, permettant de les confronter aux besoins réels de l'entreprise. / The objective of this thesis was to explore the subject of scoring in the banking world, and more precisely to study how to control credit risk. The diversification and globalization of the banking business in the second half of the twentieth century led to introduce regulations, which require banks to make reserves to cover the risk they take. These regulations also dictate that they should model different risk indicators, among which the probability of default. This indicator represents the probability for a client to find himself in the incapacity to pay back his debt. In order to predict this probability, one should define a risk criterion, that allows to distinguish the "bad clients" from the "good clients". In a more formal statistical approach, that means we want to model a binary variable by an ensemble of explanatory variables. This problem is usually treated as a scoring problem. It consists in the definition of functions, called scoring functions, which interpret the information contained in the explanatory variables and transform it into a real-value score note. The goal of such a function is to induce the same order on the observations than the a posteriori probability, so that the observations that have a high probability to be "good" have a high score, and those that have a high probability to be "bad" (and thus a high risk for the bank) have a low score. Performance criteria such as the ROC curve and the AUC allow us to quantify the quality of the order given by the scoring function. The reference method to obtain such scoring functions is the logistic regression, which we present here. A major subject in credit scoring is the variable selection. The banks have access to large databases, which gather information on the profile of their clients and their past behavior. However, those variables may not all be discriminating regarding the risk criterion. In order to select the variables, we proposed to use the Lasso method, based on the restriction of the coefficients of the model, so that the less significative coefficients will be fixed to zero. We applied the Lasso method on linear regression and logistic regression. We also considered an extension of the Lasso method called Group Lasso on logistic regression, which allows us to select groups of variables rather than individual variables. Then, we considered the case in which the response variable is not binary, but polytomous, that is to say with more than two response levels. The first step in this new context was to extend the scoring problem as we knew in the binary case to the polytomous case. We then presented some models adapted to this case: an extension of the binary logistic regression, semi-parametric methods, and an application of the Lasso method on the polytomous logistic regression. Finally, the last chapter deals with some application studies, in which the methods presented in this manuscript are applied to real data from the bank, to see how they meet the needs of the real world.
259

Arbres de décision et forêts aléatoires pour variables groupées / Decisions trees and random forests for grouped variables

Poterie, Audrey 18 October 2018 (has links)
Dans de nombreux problèmes en apprentissage supervisé, les entrées ont une structure de groupes connue et/ou clairement identifiable. Dans ce contexte, l'élaboration d'une règle de prédiction utilisant les groupes plutôt que les variables individuelles peut être plus pertinente tant au niveau des performances prédictives que de l'interprétation. L'objectif de la thèse est de développer des méthodes par arbres adaptées aux variables groupées. Nous proposons deux approches qui utilisent la structure groupée des variables pour construire des arbres de décisions. La première méthode permet de construire des arbres binaires en classification. Une coupure est définie par le choix d'un groupe et d'une combinaison linéaire des variables du dit groupe. La seconde approche, qui peut être utilisée en régression et en classification, construit un arbre non-binaire dans lequel chaque coupure est un arbre binaire. Ces deux approches construisent un arbre maximal qui est ensuite élagué. Nous proposons pour cela deux stratégies d'élagage dont une est une généralisation du minimal cost-complexity pruning. Les arbres de décision étant instables, nous introduisons une méthode de forêts aléatoires pour variables groupées. Outre l'aspect prédiction, ces méthodes peuvent aussi être utilisées pour faire de la sélection de groupes grâce à l'introduction d'indices d'importance des groupes. Ce travail est complété par une partie indépendante dans laquelle nous nous plaçons dans un cadre d'apprentissage non supervisé. Nous introduisons un nouvel algorithme de clustering. Sous des hypothèses classiques, nous obtenons des vitesses de convergence pour le risque de clustering de l'algorithme proposé. / In many problems in supervised learning, inputs have a known and/or obvious group structure. In this context, elaborating a prediction rule that takes into account the group structure can be more relevant than using an approach based only on the individual variables for both prediction accuracy and interpretation. The goal of this thesis is to develop some tree-based methods adapted to grouped variables. Here, we propose two new tree-based approaches which use the group structure to build decision trees. The first approach allows to build binary decision trees for classification problems. A split of a node is defined according to the choice of both a splitting group and a linear combination of the inputs belonging to the splitting group. The second method, which can be used for prediction problems in both regression and classification, builds a non-binary tree in which each split is a binary tree. These two approaches build a maximal tree which is next pruned. To this end, we propose two pruning strategies, one of which is a generalization of the minimal cost-complexity pruning algorithm. Since decisions trees are known to be unstable, we introduce a method of random forests that deals with groups of inputs. In addition to the prediction purpose, these new methods can be also use to perform group variable selection thanks to the introduction of some measures of group importance, This thesis work is supplemented by an independent part in which we consider the unsupervised framework. We introduce a new clustering algorithm. Under some classical regularity and sparsity assumptions, we obtain the rate of convergence of the clustering risk for the proposed alqorithm.
260

Heritability Estimation in High-dimensional Mixed Models : Theory and Applications. / Estimation de l'héritabilité dans les modèles mixtes en grande dimension : théorie et applications.

Bonnet, Anna 05 December 2016 (has links)
Nous nous intéressons à desméthodes statistiques pour estimer l'héritabilitéd'un caractère biologique, qui correspond à lapart des variations de ce caractère qui peut êtreattribuée à des facteurs génétiques. Nousproposons dans un premier temps d'étudierl'héritabilité de traits biologiques continus àl'aide de modèles linéaires mixtes parcimonieuxen grande dimension. Nous avons recherché lespropriétés théoriques de l'estimateur du maximumde vraisemblance de l'héritabilité : nousavons montré que cet estimateur était consistantet vérifiait un théorème central limite avec unevariance asymptotique que nous avons calculéeexplicitement. Ce résultat, appuyé par des simulationsnumériques sur des échantillons finis,nous a permis de constater que la variance denotre estimateur était très fortement influencéepar le ratio entre le nombre d'observations et lataille des effets génétiques. Plus précisément,quand le nombre d’observations est faiblecomparé à la taille des effets génétiques (ce quiest très souvent le cas dans les étudesgénétiques), la variance de l’estimateur était trèsgrande. Ce constat a motivé le développementd'une méthode de sélection de variables afin dene garder que les variants génétiques les plusimpliqués dans les variations phénotypiques etd’améliorer la précision des estimations del’héritabilité.La dernière partie de cette thèse est consacrée àl'estimation d'héritabilité de données binaires,dans le but d'étudier la part de facteursgénétiques impliqués dans des maladies complexes.Nous proposons d'étudier les propriétésthéoriques de la méthode développée par Golanet al. (2014) pour des données de cas-contrôleset très efficace en pratique. Nous montronsnotamment la consistance de l’estimateur del’héritabilité proposé par Golan et al. (2014). / We study statistical methods toestimate the heritability of a biological trait,which is the proportion of variations of thistrait that can be explained by genetic factors.First, we propose to study the heritability ofquantitative traits using high-dimensionalsparse linear mixed models. We investigate thetheoretical properties of the maximumlikelihood estimator for the heritability and weshow that it is a consistent estimator and that itsatisfies a central limit theorem with a closedformexpression for the asymptotic variance.This result, supported by an extendednumerical study, shows that the variance of ourestimator is strongly affected by the ratiobetween the number of observations and thesize of the random genetic effects. Moreprecisely, when the number of observations issmall compared to the size of the geneticeffects (which is often the case in geneticstudies), the variance of our estimator is verylarge. This motivated the development of avariable selection method in order to capturethe genetic variants which are involved themost in the phenotypic variations and providemore accurate heritability estimations. Wepropose then a variable selection methodadapted to high dimensional settings and weshow that, depending on the number of geneticvariants actually involved in the phenotypicvariations, called causal variants, it was a goodidea to include or not a variable selection stepbefore estimating heritability.The last part of this thesis is dedicated toheritability estimation for binary data, in orderto study the proportion of genetic factorsinvolved in complex diseases. We propose tostudy the theoretical properties of the methoddeveloped by Golan et al. (2014) for casecontroldata, which is very efficient in practice.Our main result is the proof of the consistencyof their heritability estimator.

Page generated in 0.0931 seconds