Dans le domaine de la biologie moléculaire, les technologies d'analyse d'expression génique comme les biopuces suscitent un intérêt très grand. Une des applications de ces technologies est le diagnostic et la classification de différents types de tumeurs. Une des particularités des données issues des biopuces est qu'elles sont décrites par un très grand nombre d'attributs (gènes) alors que peu d'échantillons analysés sont disponibles. Cela empêche la compréhension des données et réduit de manière considérable la performance des algorithmes de classification. Dans cette thèse, nous proposons des méthodes innovantes pour réduire la taille initiale des données et pour sélectionner des ensembles de gènes pertinents pour une classification supervisée. Nous proposons tout d'abord une méthode de pré-traitement des données et de réduction de dimension basée sur la logique floue. Le problème de la sélection d'attributs est ensuite traité par deux types d'approche. Dans la première, nous proposons une méthode enveloppe qui grâce à une double exploration génétique sélectionne un ensemble de gènes pertinents pour un classifieur SVM. Dans la deuxième, nous proposons une méthode intégrée où les informations fournies par un classifieur linéaire (ADL) guident le processus de recherche vers un sous-ensemble de petite taille et performant pour la classification. Les différentes expérimentations que nous avons menées montrent de très bonnes performances, surtout pour la méthode intégrée.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00451112 |
Date | 13 November 2008 |
Creators | Bonilla Huerta, Edmundo |
Publisher | Université d'Angers |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds