Global ETD Search

91	Modèles additifs parcimonieux Avalos, Marta 21 December 2004 (has links) (PDF) De nombreux algorithmes d'estimation fonctionnelle existent pour l'apprentissage statistique supervisé. Cependant, ils ont pour la plupart été développés dans le but de fournir des estimateurs précis, sans considérer l'interprétabilité de la solution. Les modèles additifs permettent d'expliquer les prédictions simplement, en ne faisant intervenir qu'une variable explicative à la fois, mais ils sont difficiles à mettre en ouvre. Cette thèse est consacrée au développement d'un algorithme d'estimation des modèles additifs. D'une part, leur utilisation y est simplifiée, car le réglage de la complexité est en grande partie intégré dans la phase d'estimation des paramètres. D'autre part, l'interprétabilité est favorisée par une tendance à éliminer automatiquement les variables les moins pertinentes. Des stratégies d'accélération des calculs sont également proposées. Une approximation du nombre effectif de paramètres permet l'utilisation de critères analytiques de sélection de modèle. Sa validité est testée par des simulations et sur des données réelles. [INFO:INFO_OH] Computer Science/Other Apprentissage statistique supervisé sélection de modèles régression non paramétrique lasso réglage automatique de la complexité modèles interprétables sélection de variables modélisation flexible
92	Développement d'approches de chémogénomique pour la prédiction des interactions protéine - ligand Hoffmann, Brice 16 December 2011 (has links) (PDF) Cette thèse porte sur le développement de méthodes bioinformatiques permettant la prédiction des interactions protéine - ligand. L'approche employée est d'utiliser le partage entre protéines, des informations connues, à la fois sur les protéines et sur les ligands, afin d'améliorer la prédiction de ces interactions. Les méthodes proposées appartiennent aux méthodes dites de chémogénomique. La première contribution de cette thèse est le développement d'une méthode d'apprentissage statistique pour la prédiction des interactions protéines - ligands par famille. Elle est illustrée dans le cas des GPCRs. Cette méthode comprend la proposition de noyaux pour les protéines qui permettent de prendre en compte la similarité globale des GPCRs par l'utilisation de la hiérarchie issue de l'alignement des séquences de cette famille, et la similarité locale au niveau des sites de fixation des ligands de ces GPCRs grâce à l'utilisation des structures 3D connues des membres de cette famille. Pour cela un jeu de données a été créé afin d'évaluer la capacité de cette méthode à prédire correctement les interactions connues. La deuxième contribution est le développement d'une mesure de similarité entre deux sites de fixation de ligands provenant de deux protéines différentes représentés par des nuages d'atomes en 3D. Cette mesure implique la superposition des poches par rotation et la translation, avec pour but la recherche du meilleur alignement possible en maximisant le regroupement d'atomes ayant des propriétés similaires dans des régions proches de l'espace. Les performances de cette méthodes ont été mesurées à l'aide d'un premier jeu de donnés provenant de la littérature et de deux autres qui ont été créé à cet effet. L'ensemble des résultats de cette thèse montre que les approches de chémogénomique présentent de meilleures performances de prédiction que les approches classique par protéine. chémogénomique bioinformatique criblage virtuel apprentissage statistique SVM noyaux mesure de similarité structure 3D interactions protéines ligands
93	Caracterisation des suspensions par des methodes optiques. modelisation par reseaux de neurones Bongono, Julien 03 September 2010 (has links) (PDF) La sédimentation des suspensions aqueuses de particules minérales microniques, polydisperses et concentrées a été analysée à l'aide du Turbiscan MA 2000 fondé sur la diffusion multiple de la lumière, en vue d'établir la procédure qui permet de déceler la présence d'une morphologie fractale, puis de déduire les règles de comportements des suspensions fractales par la modélisation avec les réseaux de neurones. Le domaine des interactions interparticulaires physicochimiques (0 à 10% volumique en solide) a été privilégié.La méthodologie de détermination de la structure multifractale des agglomérats et de la suspension a été proposée. La modification structurale des agglomérats qui est à l'origine de comportements non linéaires des suspensions et qui dépend des propriétés cohésives des particules primaires, est interprétée par la variation de la mobilité électrophorétique des particules en suspension. Une approche d'estimation de ces modifications structurales par les réseaux de neurones, à travers la dimension fractale, a été présentée. Les limites du modèle à assimiler ces comportements particuliers ont été expliquées comme résultant du faible nombre d'exemples et de la grande variabilité des mesures aux faibles fractions volumiques en solide. [SPI:OTHER] Engineering Sciences/Other Dimension fractale Diamètre des particules Suspensions Agglomérats Particules cohésives Sédimentation Diffusion multiple de la lumière Réseau de neurones Apprentissage statistique Modélisation non linéaire
94	Contributions à l'apprentissage automatique pour l'analyse d'images cérébrales anatomiques Cuingnet, Rémi 29 March 2011 (has links) (PDF) L'analyse automatique de différences anatomiques en neuroimagerie a de nombreuses applications pour la compréhension et l'aide au diagnostic de pathologies neurologiques. Récemment, il y a eu un intérêt croissant pour les méthodes de classification telles que les machines à vecteurs supports pour dépasser les limites des méthodes univariées traditionnelles. Cette thèse a pour thème l'apprentissage automatique pour l'analyse de populations et la classification de patients en neuroimagerie. Nous avons tout d'abord comparé les performances de différentes stratégies de classification, dans le cadre de la maladie d'Alzheimer à partir d'images IRM anatomiques de 509 sujets de la base de données ADNI. Ces différentes stratégies prennent insuffisamment en compte la distribution spatiale des \textit{features}. C'est pourquoi nous proposons un cadre original de régularisation spatiale et anatomique des machines à vecteurs supports pour des données de neuroimagerie volumiques ou surfaciques, dans le formalisme de la régularisation laplacienne. Cette méthode a été appliquée à deux problématiques cliniques: la maladie d'Alzheimer et les accidents vasculaires cérébraux. L'évaluation montre que la méthode permet d'obtenir des résultats cohérents anatomiquement et donc plus facilement interprétables, tout en maintenant des taux de classification élevés. [PHYS] Physics Apprentissage statistique Machines à vecteurs supports (SVM) Maladie d'Alzheimer Accidents vasculaires cérébraux Régularisation spatiale Régularisation laplacienne Anatomie computationnelle Diagnostic assisté par ordinateur
95	Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie Mordelet, Fantine 15 December 2010 (has links) (PDF) La biologie est un domaine scientifique qui reste encore très incomplet au sens où la somme de connaissances qu'il nous reste à découvrir est non négligeable. Il est fréquent que les techniques de laboratoire traditionnelles soient inadaptées à la complexité du problème traité. Une raison possible à cela est que leur mise en œuvre requiert souvent beaucoup de temps et/ou de moyens financiers. Par ailleurs, certaines d'entre elles produisent des résultats peu fiables ou à trop faible débit. C'est pourquoi ces techniques peinent parfois à apporter des réponses aux nombreuses questions biologiques non résolues. En parallèle, l'évolution des biotechnologies a permis de produire massivement des données biologiques. Les expériences biologiques à haut débit permettent à présent de caractériser des cellules à l'échelle du génome et sont porteuses d'espoir pour la compréhension de phénomènes biologiques complexes. Ces deux faits combinés ont induit un besoin croissant de mathématiciens et de statisticiens en biologie. La tâche des bioinformaticiens est non seulement d'analyzer efficacement les masses de données produites par les expériences à haut débit et d'en extraire une information fiable mais aussi d'élaborer des modèles de systèmes biologiques menant à des prédictions utiles. L'inférence de réseaux de régulation et la recherche de gènes de maladie sont deux exemples parmi d'autres, de problèmes où une expertise bioinformatique peut s'avérer nécessaire. L'inférence de réseaux de régulation consiste à identifier les relations de régulation transcriptionnelle entre des gènes régulateurs appelés facteurs de transcription et des gènes cibles. Par ailleurs, la recherche de gènes de maladie consiste à déterminer les gènes dont les mutations mènent au développement d'une maladie génétiquement transmise. Dans les deux cas, les biologistes sont confrontés à des listes de milliers de gènes à tester. Le défi du bioinformaticien est donc de produire une liste de priorité où les interactions ou gènes candidats sont rangés par ordre de pertinence au problème traité, en vue d'une validation expérimentale. Les deux problèmes mentionnés plus haut partagent une caractéristique commune : ce sont tous les deux des problèmes de priorisation pour lesquels un petit nombre d'exemples positifs est disponible (des interactions connues ou gènes de maladie déjà identifiés) mais pour lesquels on ne dispose pas de données négatives. En effet, les bases de données biologiques ne reportent que rarement les paires de gènes non interactives. De même, il est difficile voire impossible de déterminer à coup sûr qu'un gène n'est pas impliqué dans le développement d'une maladie. Par ailleurs, des nombreux exemples indéterminés existent qui sont par exemple des gènes dont on ne sait pas si ils interagissent avec un facteur de transcription ou encore des gènes dont on ne sait pas s'ils sont causaux pour une maladie. Le problème de l'apprentissage à partir d'exemples positifs et indéterminés (PU learning en anglais) a été étudié en soi dans le domaine de l'apprentissage automatique (machine learning). L'objet de cette thèse est l'étude de méthodes de PU learning et leur application à des problèmes biologiques. Le premier chapitre présente le bagging SVM, un nouvel algorithme de PU learning et évalue ses performances et propriétés sur un jeu de données standard. L'idée principale de cet algorithme est d'exploiter au moyen d'une procédure voisine du bagging, une caractéristique intrinsèque d'un problème de PU learning qui est que l'ensemble des exemples indéterminés contient des positifs cachés. Le bagging SVM atteint des performances comparables à l'état de l'art tout en faisant preuve de bonnes propriétés en termes de rapidité et d'échelle par rapport au nombre d'exemples. Le deuxième chapitre est consacré à SIRENE, une nouvelle méthode supervisée pour l'inférence de réseaux de régulation. SIRENE est un algorithme conceptuellement simple qui donne de bons résultats en comparaison à des méthodes existantes pour l'inférence de réseaux. Enfin, le troisième chapitre décrit ProDiGe, un algorithme pour la priorisation de gènes de maladie à partir d'exemples positifs et indéterminés. Cet algorithme, issu du bagging SVM, peut gérer la recherche de gènes de maladies à l'échelle du génome et permet d'intégrer plusieurs sources de données. Sa capacité à retrouver correctement des gènes de maladie a été démontrée sur un jeu de données réel. apprentissage statistique exemples positifs et indéterminés réseaux biologiques gènes de maladies
96	Pénalités hiérarchiques pour l'ntégration de connaissances dans les modèles statistiques Szafranski, Marie 21 November 2008 (has links) (PDF) L'apprentissage statistique vise à prédire, mais aussi analyser ou interpréter un phénomène. Dans cette thèse, nous proposons de guider le processus d'apprentissage en intégrant une connaissance relative à la façon dont les caractéristiques d'un problème sont organisées. Cette connaissance est représentée par une structure arborescente à deux niveaux, ce qui permet de constituer des groupes distincts de caractéristiques. Nous faisons également l'hypothèse que peu de (groupes de) caractéristiques interviennent pour discriminer les observations. L'objectif est donc de faire émerger les groupes de caractéristiques pertinents, mais également les caractéristiques significatives associées à ces groupes. Pour cela, nous utilisons une formulation variationnelle de type pénalisation adaptative. Nous montrons que cette formulation conduit à minimiser un problème régularisé par une norme mixte. La mise en relation de ces deux approches offre deux points de vues pour étudier les propriétés de convexité et de parcimonie de cette méthode. Ces travaux ont été menés dans le cadre d'espaces de fonctions paramétriques et non paramétriques. L'intérêt de cette méthode est illustré sur des problèmes d'interfaces cerveaux-machines. [INFO:INFO_OH] Computer Science/Other [MATH] Mathematics Apprentissage statistique supervisé parcimonie régularisation lasso normes mixtes Séparateurs à Vaste Marge (SVM) apprentissage de noyaux
97	Contribution à l'apprentissage statistique à base de modèles génératifs pour données complexes. Jacques, Julien 28 November 2012 (has links) (PDF) Ce mémoire synthétise les activités de recherche que j'ai menées de 2005 à 2012, sur la thématique de l'apprentissage statistique des données complexes, abordée par le biais de modèles probabilistes paramétriques génératifs. Plusieurs types de données complexes sont considérées. Les données issues de populations différentes ont été abordées en proposant des modèles de lien paramétriques entre populations, permettant d'adapter les modèles statistiques d'une population vers l'autre, en évitant une lourde collecte de nouvelles données. Les données de rang, définissant un classement d'objets selon un ordre de préférence, les données ordinales, qui sont des données qualitatives ayant des modalités ordonnées, et les données fonctionnelles, où l'observation statistique consiste en une ou plusieurs courbes, ont également été étudies. Pour ces trois types de données, des modèles génératifs probabilistes ont été définis et utilisés en classification automatique de données multivariées. Enfin les données de grande dimension, que l'on rencontre lorsque le nombre de variables du problème dépasse celui des observations, ont été étudiées dans un cadre de régression. Deux approches, fruits de deux thèses de doctorat que je co-encadre, sont proposés: l'une utilisant des algorithmes d'optimisation combinatoire pour explorer de façon efficace l'espace des variables, et l'autre définissant un modèle de régression regroupant ensemble les variables ayant un effet similaire. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory apprentissage statistique apprentissage adaptatif modèles génératifs données de rang données ordinales données fonctionnelles grande dimension classification automatique
98	Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique Grouin, Cyril 26 June 2013 (has links) (PDF) Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc.). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc.) et numériques (âges, dates, codes postaux, etc.). Deux approches ont été utilisées pour anonymiser les documents, l'une dite " symbolique ", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques. Anonymisation comptes rendus médicaux guide d'annotation méthodes symboliques apprentissage statistique traitement automatique des langues
99	Rééchantillonnage et Sélection de modèles Arlot, Sylvain 13 December 2007 (has links) (PDF) Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique. <br /><br />La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.<br /><br />Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau. [MATH] Mathematics statistique non-paramétrique apprentissage statistique rééchantillonnage non-asymptotique validation croisée V-fold bootstrap sélection de modèles pénalisation régression non-paramétrique adaptation hétéroscédastique régions de confiance tests multiples
100	De l'identification de structure de réseaux bayésiens à la reconnaissance de formes à partir d'informations complètes ou incomplètes. Francois, Olivier 28 November 2006 (has links) (PDF) Durant ces travaux de thèse, une comparaison empirique de différentes<br />techniques d'apprentissage de structure de réseaux bayésiens a été<br />effectuée, car même s'il peut en exister très ponctuellement, il<br />n'existe pas de comparaisons plus globales de ces algorithmes.<br />De multiples phases de tests nous ont permis d'identifier quelles<br />méthodes souffraient de difficultés d'initialisation et nous avons<br />proposé une technique pour les résoudre.<br />Nous avons ensuite adapté différentes méthodes d'apprentissage de<br />structure aux bases de données incomplètes et avons notamment<br />introduit une technique pour apprendre efficacement une structure arborescente.<br />Cette méthode est ensuite adaptée à la problématique plus spécifique<br />de la classification et permet d'apprendre efficacement et en toute<br />généralité un classifieur de Bayes Naïf augmenté.<br />Un formalisme original permettant de générer des bases de données<br />incomplètes ayant des données manquantes vérifiant les hypothèses MCAR<br />ou MAR est également introduit.<br />De nombreuses bases synthétiques ou réelles ont alors été utilisées<br />pour tester ces méthodes d'apprentissage de structure à partir de<br />bases incomplètes. [INFO:INFO_OH] Computer Science/Other [SPI:OTHER] Engineering Sciences/Other Réseaux Bayésiens Apprentissage Statistique Raisonnement Probabiliste Classification Aide à la Décision

Search results