• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 13
  • 5
  • Tagged with
  • 16
  • 16
  • 6
  • 6
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Conservation, écotourisme et bien-être : perspectives théoriques et empiriques

Yergeau, Marie-Eve January 2017 (has links)
La conservation environnementale et la réduction de la pauvreté dans les pays en développement sont deux objectifs prioritaires reconnus par la communauté internationale. Cependant, la nature de la relation entre ces enjeux demeure l'objet de débats. En effet, alors que certains considèrent ces objectifs comme étant conflictuels, d'autres soutiennent qu'ils ne seront atteints que simultanément. Cette thèse vise à améliorer la compréhension de la relation entre conservation environnementale et bien-être ainsi que des mécanismes qui modèrent cette relation. Plus précisément, les analyses réalisées se concentrent sur l'étude des relations entre la mise en place de zones protégées, le développement du secteur de l'écotourisme et le bien-être des ménages au Népal. Dans le premier chapitre, nous explorons les liens existant entre les variables qui seront d'intérêt tout au long de la thèse. Ainsi, nous mesurons la nature et la force de la relation entre (1) les zones protégées et le bien-être, (2) l'écotourisme et le bien-être et (3) l'interaction entre les zones protégées et l'écotourisme, et le bien-être. Nous utilisons la méthode de la régression PLS, qui est appropriée considérant la connaissance théorique limitée sur la relation entre conservation et bien-être, ainsi que la corrélation forte entre certaines variables explicatives. Les résultats indiquent que la mise en place de zones protégées, le développement de l'écotourisme et le bien-être sont positivement liés. De plus, l'écotourisme semble constituer un mécanisme qui modère la relation entre la conservation et le bien-être. Ces résultats exploratoires justifient la pertinence de préciser davantage la structure des relations entre les variables, ce que nous effectuons dans les chapitres suivants. Dans le deuxième chapitre, nous développons un modèle théorique sur la relation entre conservation environnementale et bien-être. Dans la littérature, les analyses théoriques concluent généralement sur l'existence d'une relation négative entre la conservation et le bien-être, alors que les applications indiquent que les zones protégées peuvent améliorer le bien-être local et réduire la pauvreté. La plupart des modèles théoriques s'appuient sur l'hypothèse que la terre protégée demeure inutilisée, ce qui ne semble toutefois pas être vérifié empiriquement. Puisqu'en plus, dans le chapitre 1, nous observons que l'interaction entre la conservation et l'écotourisme affecte le bien-être, nous intégrons dans notre modèle théorique un secteur productif qui se développe avec les efforts de conservation. Les résultats indiquent que, lorsque la conservation est combinée au développement d'un secteur alternatif, elle peut générer une hausse du bien-être, ce qui est cohérent avec les applications publiées. Nous validons cette conclusion théorique à l'aide de différentes méthodes économétriques. Les données utilisées dans les chapitres 1 et 2 ont toutefois certaines limites. En effet, elles ne permettent pas de distinguer les ménages résidant à l'intérieur d'une zone protégée, ainsi que ceux impliqués dans le secteur de l'écotourisme. Des variables mesurées au niveau du district doivent donc être utilisées pour capter l'effet de l'écotourisme et de la conservation. De plus, les ménages localisés en région éloignée sont peu représentés dans l'échantillon. Ainsi, dans le troisième chapitre, nous présentons un rapport méthodologique et statistique de l'enquête sur les ménages, que nous avons réalisée au Népal en 2013. L'objectif de l'enquête est de collecter l'information nécessaire pour mesurer l'impact du développement de l'écotourisme et de la conservation environnementale sur le bien-être à partir de données représentatives et désagrégées au niveau du ménage, pour ainsi préciser l'analyse. Nous détaillons dans ce chapitre la méthodologie d'enquête et présentons les résultats descriptifs obtenus. Enfin, dans le quatrième chapitre, nous utilisons les données collectées pour mesurer l'impact de l'écotourisme et des restrictions environnementales sur le bien-être des ménages dans les zones protégées du Népal. Nous développons un modèle hiérarchique linéaire à deux niveaux, afin de tenir compte de la structure hiérarchique et clustérisée de la base de données. Nous montrons que de s'impliquer dans une occupation directement liée à l'écotourisme, en tant que travailleur autonome, augmente les dépenses de consommation du ménage. De plus, cette implication produit une externalité positive sur le bien-être des ménages localisés à proximité. Ce chapitre est complémentaire aux précédents puisque les résultats obtenus permettent de conclure sur les liens de causalité entre le développement de l'écotourisme, les restrictions environnementales et le bien-être, et ainsi de formuler des recommandations de politiques environnementales et de développement. Aussi, nous concluons notamment que le développement d'entreprises écotouristiques locales devrait être encouragé, et que la consolidation de l'offre touristique autour d'une stratégie de développement local est susceptible d'augmenter les retombées pour l'ensemble de la communauté.
2

Approches PLS linéaires et non linéaires pour la modélisation de multi-tableaux. Théorie et applications

Vivien, Myrtille 03 December 2002 (has links) (PDF)
Ce travail concerne les analyses multi-tableaux de données et plus particulièrement la régression. Présentées sous forme d'un recueil, nous exposons un grand nombre de méthodes peu connues pour la majorité, pour l'analyse des multi-tableaux.<br /><br />Notre travail se compose de trois parties. La première partie, contenant sept chapitres, expose les méthodes de modélisation linéaires. Elles sont classées par type d'analyse (conjointe ou régression) et par domaine d'application (cube ou multi-tableaux). Nous en introduisons plusieurs nouvelles de type PLS, basées sur l'optimisation d'un critère sous contraintes par étape, pour analyser simultanément un (ACIMO) ou plusieurs (ACIMOG1,2, 3) ensembles de tableaux, pour modéliser un ensemble de tableaux par un autre (ACIMO-PLS, ACIMOG-PLS1,2 3, REMUB) et appliquons l'ACIMO à l'intrastructure de STATIS pour en améliorer les trajectoires. De plus, nous proposons une généralisation de la méthode STATIS au cas de deux ensembles de tableaux (DO-ACT), aussi basée sur l'optimisation d'un critère sous contraintes. <br /><br />Un chapitre est consacré à ce qui touche la pratique de ces méthodes, dans lequel nous abordons la question du choix de blocs explicatifs importants dans les modèles de régression multi-tableaux, qui n'a encore jamais été abordée. Nous proposons plusieurs critères pour répondre à cela.<br /><br />La seconde partie, moins importante en taille, concerne la modélisation non-linéaire en régression multi-tableaux. Après une revue des méthodes de régression PLS non-linéaire pour deux tableaux, nous introduisons deux méthodes (SARMUB1 et 2) pour la régression non-linéaire des multi-tableaux, basées sur la recherche de transformations splines des prédicteurs optimales. Enfin, nos méthodes, programmées en S-Plus, ayant pour but principal d'être appliquées, nous proposons dans la troisième partie les résultats de plusieurs applications dans divers domaines, tels que la chimiométrie, l'analyse sensorielle, l'écologie ...
3

RÉGRESSION PLS ET DONNÉES CENSURÉES

Bastien, Philippe 18 March 2008 (has links) (PDF)
Les modèles de régression dans le cadre des données censurées supposent comme pour tous modèles de régression que l'on ait plus d'observations que de descripteurs et des descripteurs pas trop corrélés entre eux. Ces hypothèses ne sont pas souvent vérifiées dans la pratique et les approches classiques deviennent caduques. C'est le cas par exemple en pharmacogénomique lorsque l'on cherche à prédire la probabilité de survie de patients à partir de profiles, ou signatures transcriptomiques, construits à partir de l'expression de milliers de gènes. L'objectif de cette thèse est d'apporter une solution à ce problème en utilisant les principes de la régression PLS. Le modèle PLS-Cox qui est proposé est issu d'une généralisation de la régression PLS à tous modèles de régression. Il fournit une alternative régularisée aux modèles de survie en grande dimension (p>>n). L'utilisation d'une reparamétrisation de type « Kernel » des algorithmes PLS a permis en outre de développer des solutions à la fois très rapides et particulièrement utiles en très grande dimension, mais aussi adaptées pour l'analyse de structures non-linéaires des données. Une autre solution à ce problème, rapide et simple à mettre en œuvre, a été développée à partir des résidus de la déviance. Une alternative à PLS-NIPALS a été proposée pour la gestion des valeurs manquantes en introduisant le concept d'imputation multiple en régression PLS simple et généralisée. Finalement, on s'est intéressé à la recherche de modèles plus parcimonieux en proposant une approche de type « Thresholding PLS » qui opère implicitement par sélection des variables.
4

Statut de la faillite en théorie financière : approches théoriques et validations empiriques dans le contexte français

Ben Jabeur, Sami 27 May 2011 (has links) (PDF)
Dans la conjoncture économique actuelle un nombre croissant de firmes se trouvent confrontées à des difficultés économiques et financières qui peuvent, dans certains cas, conduire à la faillite. En principe, les difficultés ne surviennent pas brutalement, en effet, avant qu'une entreprise soit déclarée en faillite, elle est confrontée à des difficultés financières de gravité croissante : défaut de paiement d'une dette, insolvabilité temporaire, pénurie de liquidité, etc. L'identification des causes de la défaillance n'est pas évidente, puisqu'on ne saurait énumérer de manière limitative les facteurs qui la provoquent. Les causes sont multiples et leur cumul compromet d'autant plus la survie de l'entreprise. L'importance de ce phénomène et son impact sur l'ensemble de l'économie justifie le besoin de le comprendre, l'expliquer en analysant les causes et les origines. L'objectif de notre étude est de classer les entreprises en difficulté selon leur degré de viabilité et de comprendre les causes de la dégradation de leur situation. Nous effectuerons une comparaison entre trois modèles (Analyse discriminante linéaire, le modèle Logit et la régression PLS) ce qui nous permettra à partir des taux de bon classement obtenus, de choisir le meilleur modèle tout en précisant l'origine et les causes de ces défaillances.
5

Apprentissage dans les espaces de grande dimension : Application à la caractérisation de tumeurs noires de la peau à partir d'images

Tenenhaus, Arthur 08 December 2006 (has links) (PDF)
L'objectif de la thèse est de définir les bases conceptuelles permettant de développer des méthodes efficaces et adaptées à la classification dans les espaces de grande dimension. Dans ce contexte, les méthodes à noyau s'avèrent particulièrement adaptées. En effet, au-delà de leurs propriétés de régularisation - régularisation de type Tikhonov (Régression Ridge, Support Vector Machines, ... ) ou réduction de dimension (Partial Least Squares, Régression sur Composantes Principales,...) – elles offrent des avantages algorithmiques majeurs lorsque la dimension des données est supérieure au nombre d'observations. Ces méthodes ont fait l'objet d'une étude approfondie à la fois du point de vue théorique et appliqué dans les deux premiers chapitres de la thèse.<br /><br />Les deux chapitres suivants proposent de nouvelles méthodes, découlant de cette étude. Elles se fondent sur des principes de réduction de dimension supervisée en se focalisant principalement sur la régression PLS, particulièrement bien adaptée à la gestion de données de grande dimension. Il s'agissait de concevoir des algorithmes de classification s'appuyant sur les principes algorithmiques de la régression PLS. Nous avons proposé, la Kernel Logistic PLS, modèle de classification nonlinéaire et binaire basé à la fois sur la construction de variables latentes et sur des transformations du type Empirical Kernel Map. Nous avons étendu la KL-PLS au cas où la variable à prédire est polytomique donnant naissance à la Kernel Multinomial Logistic PLS regression.<br />Enfin dans les deux derniers chapitres, nous avons appliqué ces méthodes à de nombreux domaines, notamment en analyse d'images. Nous avons ainsi contribué au développement d'une application en vraie grandeur dans le domaine médical en élaborant un outil d'aide au diagnostic de tumeurs noires de la peau à partir d'images.
6

Statut de la faillite en théorie financière : approches théoriques et validations empiriques dans le contexte français / Status of the bankruptcy of financial theory : theoretical and empirical validation in French context

Ben Jabeur, Sami 27 May 2011 (has links)
Dans la conjoncture économique actuelle un nombre croissant de firmes se trouvent confrontées à des difficultés économiques et financières qui peuvent, dans certains cas, conduire à la faillite. En principe, les difficultés ne surviennent pas brutalement, en effet, avant qu’une entreprise soit déclarée en faillite, elle est confrontée à des difficultés financières de gravité croissante : défaut de paiement d’une dette, insolvabilité temporaire, pénurie de liquidité, etc. L’identification des causes de la défaillance n’est pas évidente, puisqu’on ne saurait énumérer de manière limitative les facteurs qui la provoquent. Les causes sont multiples et leur cumul compromet d’autant plus la survie de l’entreprise. L’importance de ce phénomène et son impact sur l’ensemble de l’économie justifie le besoin de le comprendre, l’expliquer en analysant les causes et les origines. L’objectif de notre étude est de classer les entreprises en difficulté selon leur degré de viabilité et de comprendre les causes de la dégradation de leur situation. Nous effectuerons une comparaison entre trois modèles (Analyse discriminante linéaire, le modèle Logit et la régression PLS) ce qui nous permettra à partir des taux de bon classement obtenus, de choisir le meilleur modèle tout en précisant l’origine et les causes de ces défaillances. / In actual economic situation an increasing number of firms are facing economic and financial difficulties which can, in certain cases, drive to failure. In principle, difficulties do not happen suddenly, in effect, before a firm is declared bankrupt, it is confronted to financial difficulties of growing seriousness: default in payment of a debt, temporary insolvency, scarceness of liquidity, etc. Identifying the causes of the failure is not obvious, since one can not exhaustively enumerate the factors that cause it. The causes are multiple and overlapping compromise even more the company's survival. The importance of this phenomenon and its impact on the overall economy justifies the need to understand, explain it by analyzing the causes and origins The aim of our study is to classify firms in trouble according to their degree of viability and to understand the causes of the deterioration of their situation. We will do a comparison between three models (linear differential Analysis, the model Logit and decline PLS) what will allow us from the rates of good classification acquired, to choose the best model while specifying origin and reasons of these faults.
7

Modèles de prédiction pour l'évaluation génomique des bovins laitiers français : application aux races Holstein et Montbéliarde / Prediction models for the genomic evaluation of French dairy cattle : application to the Holstein and Montbéliarde breeds

Colombani, Carine 16 October 2012 (has links)
L'évolution rapide des techniques de séquençage et de génotypage soulèvent de nouveaux défis dans le développement des méthodes de sélection pour les animaux d’élevage. Par comparaison de séquences, il est à présent possible d'identifier des sites polymorphes dans chaque espèce afin de baliser le génome par des marqueurs moléculaires appelés SNP (Single Nucleotide Polymorphism). Les méthodes de sélection des animaux à partir de cette information moléculaire nécessitent une représentation complète des effets génétiques. Meuwissen et al. (2001) ont introduit le concept de sélection génomique en proposant de prédire simultanément tous les effets des régions marquées puis de construire un index "génomique" en sommant les effets de chaque région. Le challenge dans l’évaluation génomique est de disposer de la meilleure méthode de prédiction afin d’obtenir des valeurs génétiques précises pour une sélection efficace des animaux candidats. L’objectif général de cette thèse est d'explorer et d’évaluer de nouvelles approches génomiques capables de prédire des dizaines de milliers d'effets génétiques, sur la base des phénotypes de centaines d'individus. Elle s’inscrit dans le cadre du projet ANR AMASGEN dont le but est d’étendre la sélection assistée par marqueurs, utilisée jusqu’à lors chez les bovins laitiers français, et de développer une méthode de prédiction performante. Pour cela, un panel varié de méthodes est exploré en estimant leurs capacités prédictives. Les méthodes de régression PLS (Partial Least Squares) et sparse PLS, ainsi que des approches bayésiennes (LASSO bayésien et BayesCπ) sont comparées à deux méthodes usuelles en amélioration génétique : le BLUP basé sur l’information pedigree et le BLUP génomique basé sur l’information des SNP. Ces méthodologies fournissent des modèles de prédiction efficaces même lorsque le nombre d’observations est très inférieur au nombre de variables. Elles reposent sur la théorie des modèles linéaires mixtes gaussiens ou les méthodes de sélection de variables, en résumant l’information massive des SNP par la construction de nouvelles variables. Les données étudiées dans le cadre de ce travail proviennent de deux races de bovins laitiers français (1 172 taureaux de race Montbéliarde et 3 940 taureaux de race Holstein) génotypés sur environ 40 000 marqueurs SNP polymorphes. Toutes les méthodes génomiques testées ici produisent des évaluations plus précises que la méthode basée sur la seule information pedigree. On observe un léger avantage prédictif des méthodes bayésiennes sur certains caractères mais elles sont cependant trop exigeantes en temps de calcul pour être appliquées en routine dans un schéma de sélection génomique. L’avantage des méthodes de sélection de variables est de pouvoir faire face au nombre toujours plus important de données SNP. De plus, elles sont capables de mettre en évidence des ensembles réduits de marqueurs, identifiés sur la base de leurs effets estimés, c’est-à-dire ayant un impact important sur les caractères étudiés. Il serait donc possible de développer une méthode de prédiction des valeurs génomiques sur la base de QTL détectés par ces approches. / The rapid evolution in sequencing and genotyping raises new challenges in the development of methods of selection for livestock. By sequence comparison, it is now possible to identify polymorphic regions in each species to mark the genome with molecular markers called SNPs (Single Nucleotide Polymorphism). Methods of selection of animals from genomic information require the representation of the molecular genetic effects. Meuwissen et al. (2001) introduced the concept of genomic selection by predicting simultaneously all the effects of the markers. Then a genomic index is built summing the effects of each region. The challenge in genomic evaluation is to find the best prediction method to obtain accurate genetic values of candidates. The overall objective of this thesis is to explore and evaluate new genomic approaches to predict tens of thousands of genetic effects, based on the phenotypes of hundreds of individuals. It is part of the ANR project AMASGEN whose aim is to extend the marker-assisted selection, used in French dairy cattle, and to develop an accurate method of prediction. A panel of methods is explored by estimating their predictive abilities. The PLS (Partial Least Squares) and sparse PLS regressions and Bayesian approaches (Bayesian LASSO and BayesCπ) are compared with two current methods in genetic improvement: the BLUP based on pedigree information and the genomic BLUP based on SNP markers. These methodologies are effective even when the number of observations is smaller than the number of variables. They are based on the theory of Gaussian linear mixed models or methods of variable selection, summarizing the massive information of SNP by new variables. The datasets come from two French dairy cattle breeds (1172 Montbéliarde bulls and 3940 Holstein bulls) genotyped with 40 000 polymorphic SNPs. All genomic methods give more accurate estimates than the method based on pedigree information only. There is a slight predictive advantage of Bayesian methods on some traits but they are still too demanding in computation time to be applied routinely in a genomic selection scheme. The advantage of variable selection methods is to cope with the increasing number of SNP data. In addition, they are able to extract reduced sets of markers based of their estimated effects, that is to say, with a significant impact on the trait studied. It would be possible to develop a method to predict genomic values on the basis of QTL detected by these approaches.
8

Modélisation de données cliniques de grande dimension : application aux pathologies respiratoires / High-Dimensional Clinical Data Modeling : Application To Respiratory Diseases

Marin, Grégory 26 June 2014 (has links)
Cette thèse est consacrée à l'application et au développement de méthodes biostatistiques originales pour des applications médicales et cliniques concernant plus particulièrement les pathologies respiratoires. Il s'agit ainsi d'un travail de recherche transversale, visant à la modélisation de données hétérogènes, colinéaires et de grande dimension pour des applications cliniques. Un état de l'art traitant du diagnostic de l'asthme et de hyperactivité bronchique a tout d'abord été dressé, avant de proposer une première application statistique, prenant la forme de modèles de régressions multiples. Ce type de modèle étant particulièrement sensible à la dimension et la colinéarité des données, les chapitres suivants proposent plusieurs améliorations, après avoir explicité en détail l'enjeu et les méthodes actuelles d'analyse de données de grande dimension. Un premier modèle de classification hiérarchique non supervisé a été mis au point et appliqué au cas de la quantification du piégeage aérique. Un algorithme de régression Partial Least Square a également été mis en œuvre, prédisant une ou plusieurs variables Y à partir d'un set de variables X hétérogènes et colinéaires, ce qui a permis de mettre en évidence l'impact de l'âge sur les petites voies aériennes, tout en considérant de nombreux autres paramètres. Enfin, un algorithme d'analyse fractale a été créé, en vue de quantifier en une seule valeur la complexité spatiale et géométrique d'images de scanners thoraciques, cela constituant un innovant outil d'aide au diagnostic radiologique. / This thesis outlines new statistic methods devoted to clinical and medical applications, dealing more precisely with respiratory diseases. Our goal was to model and analyze high-dimensional clinical data, often heterogeneous, and collinear. A clinical state of the art of asthma diagnosis and bronchial hyperreactivity was first stated, before proposing a first statistical application, which took the shape of multiple regression models. This type of models is particularly tricky when treating high-dimensional collinear data, which is why the other chapters are an enhancement of this first model. Firstly, a non-supervised hierarchical classification was carried out and applied to air trapping quantification. A Partial Least Square regression model was also executed, allowing prediction of one or more variables from a set of X variables, which allowed us to highlight the impact of age on small airway impairment. Finally, a fractal analysis was performed, in order to quantify the geometrical and spatial complexity of a CT scan image into a single value. This kind a prospective methodology, where the statistics are directly involved in the clinical work, represents a brand new tool which can help medical diagnosis.
9

Prédire l'âge de personnes à partir de photos du visage : une étude fondée sur la caractérisation et l'analyse de signes du vieillissement

Nkengne, Alex A. 13 June 2008 (has links) (PDF)
L'âge a de tout temps constitué un attribut identitaire important. Nous avons développé au fil de l'évolution une aptitude innée à classer les individus en fonction de leur âge. Cette classification s'appuie en grande partie sur le visage et sur les transformations anatomiques qu'il subit au cours du temps. De plus en plus de traitements cosmétiques, dermatologiques et d'interventions chirurgicales s'attaquant à un signe ou un groupe de signes spécifiques du vieillissement sont mis en oeuvre pour annuler, ou tout au moins masquer partiellement l'effet du temps sur le visage. On peut dès lors s'interroger sur l'influence de chacun des signes sur notre capacité à prédire l'âge d'un individu en observant son visage. Afin de construire un algorithme capable de déterminer l'âge d'individus à partir de leurs photos, nous nous sommes intéressés aux signes du vieillissement et à leur impact sur l'âge apparent. Dans un premier temps, nous avons déterminé et analysé les transformations anatomiques qui altèrent le visage à partir de l'âge adulte (au-delà de 20 ans). Puis nous avons étudié les signes sur lequel on se base pour prédire l'âge d'une personne. Enfin, nous avons construit et validé un modèle prédictif de l'âge en s'appuyant sur les observations précédentes. Transformations anatomiques du visage avec l'âge : La prévalence d'un certain nombre de signes de vieillissement (rides, tâches brunes, forme du visage...) a été mesurée sur un panel représentatif de femmes volontaires âgées de 20 à 74 ans. Ces données ont permis d'établir la cinétique d'apparition de ces signes. Appréciation subjective de l'âge: Il s'agissait de déterminer les signes sur lesquels un observateur s'appuie lorsqu'il évalue l'âge d'un sujet. Pour ce faire, nous avons demandé à un panel constitué de 48 observateurs d'attribuer un âge aux volontaires sur lesquelles nous avions précédemment mesuré les signes du vieillissement. Nous avons confirmé avec ce groupe d'observateurs que la perception de l'âge est liée au sexe et à l'âge de l'observateur. De plus, à l'aide d'une régression PLS (Partial Least Square régression), nous avons établi des relations entre les signes du vieillissement et l'âge observé et démontré que selon que l'on soit jeune ou âgé, un homme ou une femme, on n'exploite pas les mêmes signes de vieillissement pour prédire l'âge.Modèle de prédiction : Enfin, nous avons proposé un modèle s'appuyant sur la régression PLS pour prédire automatiquement l'âge à partir des photos du visage. Ce modèle présente la particularité d'associer, dans une approche unifiée, les signes relatifs à la couleur, à la forme et à la texture du visage, à l'âge des sujets. A l'instar des Modèles Actifs D'apparence (AAM), le modèle construit vise à réduire fortement l'information portée par l'ensemble des pixels du visage. Toutefois, ce dernier est supervisé : Il est donc très approprié dans notre contexte puisque que l'on peut mettre en oeuvre une procédure d'apprentissage pilotée par le but. Les performances sont de fait comparables à celles des humains.
10

Amélioration et développement de méthodes de sélection du nombre de composantes et de prédicteurs significatifs pour une régression PLS et certaines de ses extensions à l'aide du bootstrap / lmprovement and development of selection methods for both the number of components and significant predictors for a PLS regression and some extensions with bootstrap techniques

Magnanensi, Jérémy 18 December 2015 (has links)
La régression Partial Least Squares (PLS), de part ses caractéristiques, est devenue une méthodologie statistique de choix pour le traitement de jeux de données issus d’études génomiques. La fiabilité de la régression PLS et de certaines de ses extensions repose, entre autres, sur une détermination robuste d’un hyperparamètre, le nombre de composantes. Une telle détermination reste un objectif important à ce jour, aucun critère existant ne pouvant être considéré comme globalement satisfaisant. Nous avons ainsi élaboré un nouveau critère de choix pour la sélection du nombre de composantes PLS basé sur la technique du bootstrap et caractérisé notamment par une forte stabilité. Nous avons ensuite pu l’adapter et l’utiliser à des fins de développement et d’amélioration de procédés de sélection de prédicteurs significatifs, ouvrant ainsi la voie à une identification rendue plus fiable et robuste des probe sets impliqués dans la caractéristique étudiée d’une pathologie. / The Partial Least Squares (PLS) regression, through its properties, has become a versatile statistic methodology for the analysis of genomic datasets.The reliability of the PLS regression and some of its extensions relies on a robust determination of a tuning parameter, the number of components. Such a determination is still a major aim since no existing criterion could be considered as a global benchmark one in the state-of-art literature. We developed a new bootstrap based stopping criterion in PLS components construction that guarantee a high level of stability. We then adapted and used it to develop and improve variable selection processes, allowing a more reliable and robust determination of significant probe sets related to the studied feature of a pathology.

Page generated in 0.4682 seconds