Global ETD Search

11	Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticale / Spatial learning of multimodal correlations in a cortically inspired way Lefort, Mathieu 04 July 2012 (has links) Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiauxqui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architectureconnexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes.L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles : les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissagede certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques. / This thesis focuses on unifying multiple modal data flows that may be provided by sensors of an agent. This unification, inspired by psychological experiments like the ventriloquist effect, is based on detecting correlations which are defined as temporally recurrent spatial patterns that appear in the input flows. Learning of the input flow correlations space consists on sampling this space and generalizing theselearned samples. This thesis proposed some functional paradigms for multimodal data processing, leading to the connectionist, generic, modular and cortically inspired architecture SOMMA (Self-Organizing Maps for Multimodal Association). In this model, each modal stimulus is processed in a cortical map. Interconnectionof these maps provides an unifying multimodal data processing. Sampling and generalization of correlations are based on the constrained self-organization of each map. The model is characterised by a gradual emergence of these functional properties : monomodal properties lead to the emergence of multimodal ones and learning of correlations in each map precedes self-organization of these maps.Furthermore, the use of a connectionist architecture and of on-line and unsupervised learning provides plasticity and robustness properties to the data processing in SOMMA. Classical artificial intelligence models usually miss such properties. Multimodalité Réseau de neurones Auto-organisation Apprentissage continu et non supervisé
12	Semi-supervised clustering in graphs / Partitionnement semi-supervisé dans les graphes Chatel, David 07 December 2017 (has links) Le partitionnement consiste à rechercher une partition d'éléments, de sorte que les éléments d'un même cluster soient plus similaires que les éléments de différents clusters. Les données proviennent de différentes sources et prennent des formes différentes. L'un des défis consiste à concevoir un système capable de tirer parti des différentes sources de données. Certaines contraintes peuvent être connues sur les données. On peut savoir qu'un objet est d'un certain type ou que deux objets partagent le même type ou sont de types différents. On peut également savoir qu'à l'échelle globale, les différents types d'objets apparaissent avec une fréquence connue. Dans cette thèse, nous nous concentrons sur le partitionnement avec trois types de contraintes: les contraintes d'étiquettes, les contraintes de paires et les contraintes de lois de puissance. Une contrainte d'étiquette spécifie dans quel cluster appartient un objet. Les contraintes par paire spécifient que les paires d'objets doivent ou ne doivent pas partager le même cluster. Enfin, la contrainte de loi de puissance est une contrainte globale qui spécifie que la distribution des tailles de cluster est soumise à une loi de puissance. Nous voulons montrer que l'introduction de la semi-supervision aux algorithmes de clustering peut modifier et améliorer les solutions retournées par des algorithmes de clustering non supervisés. Nous contribuons à cette question en proposant des algorithmes pour chaque type de contraintes. Nos expériences sur les ensembles de données UCI et les jeux de données en langage naturel montrent la bonne performance de nos algorithmes et donnent des indications pour des travaux futurs prometteurs. / Clustering is the task of finding a partition of items, such that items in the same cluster are more similar than items in different clusters. One challenge consists in designing a system capable of taking benefit of the different sources of data. Among the different forms a piece of data can take, the description of an object can take the form of a feature vector: a list of attributes that takes a value. Objects can also be described by a graph which captures the relationships objects have with each others. In addition to this, some constraints can be known about the data. It can be known that an object is of a certain type or that two objects share the same type or are of different types. It can also be known that on a global scale, the different types of objects appear with a known frequency. In this thesis, we focus on clustering with three different types of constraints: label constraints, pairwise constraints and power-law constraint. A label constraint specifies in which cluster an object belong. Pairwise constraints specify that pairs of object should or should not share the same cluster. Finally, the power-law constraint is a cluster-level constraint that specifies that the distribution of cluster sizes are subject to a power-law. We want to show that introducing semi-supervision to clustering algorithms can alter and improve the solutions returned by unsupervised clustering algorithms. We contribute to this question by proposing algorithms for each type of constraints. Our experiments on UCI data sets and natural language processing data sets show the good performance of our algorithms and give hints towards promising future works. Semi-Supervisé Contraintes de paires Contraintes de loi de puissance Contraintes de label 005.741
13	Concepts et algorithmes pour la découverte des structures formelles des langues Déjean, Hervé 18 December 1998 (has links) (PDF) Que peut-on apprendre sur la structure d'une langue à partir d'un texte écrit dans cette langue, et ceci sans connaissance particulière sur celle-ci et avec l'aide (disons l'utilisation) d'un ordinateur? <br /><br />Voilà la question à laquelle nous avons essayé de répondre. Cette réponse peut être vue comme une continuation des travaux en analyse distributionnelle développée par Zellig Harris. <br /><br />L'objectif de ce travail est donc de découvrir les structures formelles d'une langue en étudiant ces régularités formelles contenues dans un corpus<br /><br />Notre méthode de découverte se base sur une simple conception formelle de la langue: un objet linéaire dans lequel les frontières (de début et de fin) des différentes structures sont indiquées par des éléments caractéristiques. Les structures ainsi identifiées sont le syntagme simple (non récursif), et la proposition, structures à la fois multilingues et formelles. Ces indicateurs de frontières correspondent à des morphèmes (libres ou liés) pour le syntagme, et à des morphèmes ou des syntagmes pour la proposition.<br /><br />À partir de ces structures théoriques, nous construisons la liste de toutes les catégories qu'un élément (morphème ou mot) peut prendre. Une fois ces structures et catégories recensées, nous construisons des contextes spécifiques à chaque catégorie afin de catégoriser les éléments du texte. Nous obtenons donc un mécanisme permettant d'assigner à un élément plusieurs catégories si cet élément apparaît dans différents contextes. Ces contextes sont construits à l'aide des éléments prototypiques de marqueurs de frontières de structures, identifiables grâce à leur position par rapport à la segmentation physique du texte (en particulier les ponctuations).<br /><br />Les résultats obtenus permettent la catégorisation des mots du corpus, ainsi qu'une segmentation partielle en syntagmes. La méthode a été appliquée à une dizaine de langues comme le français, l'allemand, le turc, le vietnamien et le swahili. Apprentissage non supervisé langues naturelles distributionalisme catégorisation (linguistique) multilinguisme
14	Active Learning : an unbiased approach / L’apprentissage actif : une approche non biaisée Ribeiro de Mello, Carlos Eduardo 04 June 2013 (has links) L'apprentissage actif apparaît comme un problème important dans différents contextes de l'apprentissage supervisé pour lesquels obtenir des données est une tâche aisée mais les étiqueter est coûteux. En règle générale, c’est une stratégie de requête, une heuristique gloutonne basée sur un critère de sélection qui recherche les données non étiquetées potentiellement les plus intéressantes pour former ainsi un ensemble d'apprentissage. Une stratégie de requête est donc une procédure d'échantillonnage biaisée puisqu'elle favorise systématiquement certaines observations s'écartant ainsi des modèles d'échantillonnages indépendants et identiquement distribués. L'hypothèse principale de cette thèse s'inscrit dans la réduction du biais introduit par le critère de sélection. La proposition générale consiste à réduire le biais en sélectionnant le sous-ensemble minimal d'apprentissage pour lequel l'estimation de la loi de probabilité est aussi proche que possible de la loi sous-jacente prenant en compte l’intégralité des observations. Pour ce faire, une nouvelle stratégie générale de requête pour l'apprentissage actif a été mise au point utilisant la théorie de l'Information. Les performances de la stratégie de requête proposée ont été évaluées sur des données réelles et simulées. Les résultats obtenus confirment l'hypothèse sur le biais et montrent que l'approche envisagée améliore l'état de l'art sur différents jeux de données. / Active Learning arises as an important issue in several supervised learning scenarios where obtaining data is cheap, but labeling is costly. In general, this consists in a query strategy, a greedy heuristic based on some selection criterion, which searches for the potentially most informative observations to be labeled in order to form a training set. A query strategy is therefore a biased sampling procedure since it systematically favors some observations by generating biased training sets, instead of making independent and identically distributed draws. The main hypothesis of this thesis lies in the reduction of the bias inherited from the selection criterion. The general proposal consists in reducing the bias by selecting the minimal training set from which the estimated probability distribution is as close as possible to the underlying distribution of overall observations. For that, a novel general active learning query strategy has been developed using an Information-Theoretic framework. Several experiments have been performed in order to evaluate the performance of the proposed strategy. The obtained results confirm the hypothesis about the bias, showing that the proposal outperforms the baselines in different datasets. Apprentissage actif Apprentissage supervisé Échantillonnage Active learning Supervised learning Sampling
15	Conception d’alliages par optimisation combinatoire multiobjectifs : thermodynamique prédictive, fouille de données, algorithmes génétiques et analyse décisionnelle / Designing new alloys through multiobjective combinatorial optimisation : computational thermodynamics, data mining, genetic algorithms and decision analysis Menou, Edern 19 October 2016 (has links) Ce travail a pour objet le développement d’un système combinant un algorithme génétique d’optimisation multiobjectifs avec des outils de thermodynamique prédictive de type calphad (calcul des diagrammes de phases) et de fouille de données permettant l’estimation des propriétés thermochimiques et thermomécaniques d’alliages multicomposants. L’intégration de ces techniques permet l’optimisation quasi-autonome de la composition d’alliages complexes vis-à-vis de plusieurs critères antagonistes telles les résistances mécaniques et chimiques, la stabilité microstructurelle à haute température et le coût. La méthode est complétée d’une technique d’analyse décisionnelle multicritères pour assister la sélection d’alliages. L’approche est illustrée par l’optimisation de la chimie de deux familles d’alliages multicomposants. Le premier cas d’étude porte sur les superalliages à base de nickel polycristallins corroyés renforcés par précipitation de la phase 0 destinés à la fabrication de disques de turbines dans l’aéronautique ou de tuyauteries de centrales thermiques. L’optimisation résulte en la conception d’alliages moins onéreux et prédits plus résistants que l’Inconel 740H et le Haynes 282, deux superalliages de dernière génération. Le second cas d’étude concerne les alliages dits « à forte entropie » dont la métallurgie singulière est emblématique des problèmes combinatoires. À l’issue de l’optimisation, quelques alliages à forte entropie ont été sélectionnés et fabriqués ; leur caractérisation expérimentale préliminaire met en évidence des propriétés attrayantes tel un ratio dureté sur masse volumique inédit. / The present work revolves around the development of an integrated system combining a multi-objective genetic algorithm with calphad-type computational thermodynamics (calculations of phase diagrams) and data mining techniques enabling the estimation of thermochemical and thermomechanical properties of multicomponent alloys. This integration allows the quasiautonomous chemistry optimisation of complex alloys against antagonistic criteria such as mechanical and chemical resistance, high-temperature microstructural stability, and cost. Further alloy selection capability is provided by a multi-criteria decision analysis technique. The proposed design methodology is illustrated on two multicomponent alloy families. The first case study relates to the design of wrought, polycrystalline 0-hardened nickel-base superalloys intended for aerospace turbine disks or tubing applications in the energy industry. The optimisation leads to the discovery of novel superalloys featuring lower costs and higher predicted strength than Inconel 740H and Haynes 282, two state-of-the-art superalloys. The second case study concerns the so-called “high-entropy alloys” whose singular metallurgy embodies typical combinatorial issues. Following the optimisation, several high-entropy alloys are produced; preliminary experimental characterisation highlights attractive properties such as an unprecedented hardness to density ratio. Thermo-Calc Apprentissage supervisé Thermo-Calc Supervised learning
16	Reconnaissance visuelle robuste par réseaux de neurones dans des scénarios d'exploration robotique. Détecte-moi si tu peux ! / Robust visual recognition by neural networks in robotic exploration scenarios. Detect me if you can! Guerry, Joris 20 November 2017 (has links) L'objectif principal ce travail de thèse est la reconnaissance visuelle pour un robot mobile dans des conditions difficiles. En particulier nous nous intéressons aux réseaux de neurones qui présentent aujourd'hui les meilleures performances en vision par ordinateur. Nous avons étudié le principe de sélection de méthodes pour la classification d'images 2D en utilisant un réseau de neurones sélecteur pour choisir le meilleur classifieur disponible étant donnée la situation observée. Cette stratégie fonctionne lorsque les données peuvent être facilement partitionnées vis-à-vis des classifieurs disponibles, ce qui est le cas quand des modalités complémentaires sont utilisées. Nous avons donc utilisé des données RGB-D (2.5D) en particulier appliquées à la détection de personnes. Nous proposons une combinaison de réseaux de neurones détecteurs indépendants propres à chaque modalité (couleur & carte de profondeur) basés sur une même architecture (le Faster RCNN). Nous partageons des résultats intermédiaires des détecteurs pour leur permettre de se compléter et d'améliorer la performance globale en situation difficile (perte de luminosité ou bruit d'acquisition de la carte de profondeur). Nous établissons un nouvel état de l'art dans le domaine et proposons un jeu de données plus complexe et plus riche à la communauté (ONERA.ROOM). Enfin, nous avons fait usage de l'information 3D contenue dans les images RGB-D au travers d'une méthode multi-vue. Nous avons défini une stratégie de génération de vues virtuelles 2D cohérentes avec la structure 3D. Pour une tâche de segmentation sémantique, cette approche permet d'augmenter artificiellement les données d'entraînement pour chaque image RGB-D et d'accumuler différentes prédictions lors du test. Nous obtenons de nouveaux résultats de référence sur les jeux de données SUNRGBD et NYUDv2. Ces travaux de thèse nous ont permis d'aborder de façon originale des données robotiques 2D, 2.5D et 3D avec des réseaux de neurones. Que ce soit pour la classification, la détection et la segmentation sémantique, nous avons non seulement validé nos approches sur des jeux de données difficiles, mais également amené l'état de l'art à un nouveau niveau de performance. / The main objective of this thesis is visual recognition for a mobile robot in difficult conditions. We are particularly interested in neural networks which present today the best performances in computer vision. We studied the concept of method selection for the classification of 2D images by using a neural network selector to choose the best available classifier given the observed situation. This strategy works when data can be easily partitioned with respect to available classifiers, which is the case when complementary modalities are used. We have therefore used RGB-D data (2.5D) in particular applied to people detection. We propose a combination of independent neural network detectors specific to each modality (color & depth map) based on the same architecture (Faster RCNN). We share intermediate results of the detectors to allow them to complement and improve overall performance in difficult situations (luminosity loss or acquisition noise of the depth map). We are establishing new state of the art scores in the field and propose a more complex and richer data set to the community (ONERA.ROOM). Finally, we made use of the 3D information contained in the RGB-D images through a multi-view method. We have defined a strategy for generating 2D virtual views that are consistent with the 3D structure. For a semantic segmentation task, this approach artificially increases the training data for each RGB-D image and accumulates different predictions during the test. We obtain new reference results on the SUNRGBD and NYUDv2 datasets. All these works allowed us to handle in an original way 2D, 2.5D and 3D robotic data with neural networks. Whether for classification, detection and semantic segmentation, we not only validated our approaches on difficult data sets, but also brought the state of the art to a new level of performance. Classification Réseaux de neurones Apprentissage profond Rgbd Segmentation Apprentissage supervisé
17	Contributions à l'estimation de modèles probabilistes discriminants: apprentissage semi-supervisé et sélection de caractéristiques Sokolovska, Nataliya 25 February 2010 (has links) (PDF) Dans cette thèse nous étudions l'estimation de modèles probabilistes discriminants, surtout des aspects d'apprentissage semi-supervisé et de sélection de caractéristiques. Le but de l'apprentissage semi-supervisé est d'améliorer l'efficacité de l'apprentissage supervisé en utilisant des données non étiquetées. Cet objectif est difficile à atteindre dans les cas des modèles discriminants. Les modèles probabilistes discriminants permettent de manipuler des représentations linguistiques riches, sous la forme de vecteurs de caractéristiques de très grande taille. Travailler en grande dimension pose des problèmes, en particulier computationnels, qui sont exacerbés dans le cadre de modèles de séquences tels que les champs aléatoires conditionnels (CRF). Sélectionner automatiquement les caractéristiques pertinentes s'avère alors intéressant et donne lieu à des modèles plus compacts et plus faciles à utiliser. Notre contribution est double. Nous introduisons une méthode originale et simple pour intégrer des données non étiquetées dans une fonction objectif semi-supervisé. Nous démontrons alors que l'estimateur semi-supervisé correspondant est asymptotiquement optimal. Le cas de la régression logistique est illustré par des résultats d'expériences. Nous proposons un algorithme d'estimation pour les CRF qui réalise une sélection de caractéristiques, par le truchement d'une pénalisation $L_1$. Nous présentons également les résultats d'expériences menées sur des tâches de traitement des langues, en analysant les performances en généralisation et les caractéristiques sélectionnées. Nous proposons finalement diverses pistes pour améliorer l'efficacité computationelle de cette technique. [INFO] Computer Science apprentissage statistique modèles discriminants champs aléatoires conditionnels traitement automatique des langues
18	Ensemble multi-label learning in supervised and semi-supervised settings / Apprentissage multi-label ensembliste dans le context supervisé et semi-supervisé Gharroudi, Ouadie 21 December 2017 (has links) L'apprentissage multi-label est un problème d'apprentissage supervisé où chaque instance peut être associée à plusieurs labels cibles simultanément. Il est omniprésent dans l'apprentissage automatique et apparaÃ®t naturellement dans de nombreuses applications du monde réel telles que la classification de documents, l'étiquetage automatique de musique et l'annotation d'images. Nous discutons d'abord pourquoi les algorithmes multi-label de l'etat-de-l'art utilisant un comité de modèle souffrent de certains inconvénients pratiques. Nous proposons ensuite une nouvelle stratégie pour construire et agréger les modèles ensemblistes multi-label basés sur k-labels. Nous analysons ensuite en profondeur l'effet de l'étape d'agrégation au sein des approches ensemblistes multi-label et étudions comment cette agrégation influece les performances de prédictive du modèle enfocntion de la nature de fonction cout à optimiser. Nous abordons ensuite le problème spécifique de la selection de variables dans le contexte multi-label en se basant sur le paradigme ensembliste. Trois méthodes de sélection de caractéristiques multi-label basées sur le paradigme des forêts aléatoires sont proposées. Ces méthodes diffèrent dans la façon dont elles considèrent la dépendance entre les labels dans le processus de sélection des varibales. Enfin, nous étendons les problèmes de classification et de sélection de variables au cadre d'apprentissage semi-supervisé. Nous proposons une nouvelle approche de sélection de variables multi-label semi-supervisée basée sur le paradigme de l'ensemble. Le modèle proposé associe des principes issues de la co-training en conjonction avec une métrique interne d'évaluation d'importnance des varaibles basée sur les out-of-bag. Testés de manière satisfaisante sur plusieurs données de référence, les approches développées dans cette thèse sont prometteuses pour une variété d'ap-plications dans l'apprentissage multi-label supervisé et semi-supervisé. Testés de manière satisfaisante sur plusieurs jeux de données de référence, les approches développées dans cette thèse affichent des résultats prometteurs pour une variété domaine d'applications de l'apprentissage multi-label supervisé et semi-supervisé / Multi-label learning is a specific supervised learning problem where each instance can be associated with multiple target labels simultaneously. Multi-label learning is ubiquitous in machine learning and arises naturally in many real-world applications such as document classification, automatic music tagging and image annotation. In this thesis, we formulate the multi-label learning as an ensemble learning problem in order to provide satisfactory solutions for both the multi-label classification and the feature selection tasks, while being consistent with respect to any type of objective loss function. We first discuss why the state-of-the art single multi-label algorithms using an effective committee of multi-label models suffer from certain practical drawbacks. We then propose a novel strategy to build and aggregate k-labelsets based committee in the context of ensemble multi-label classification. We then analyze the effect of the aggregation step within ensemble multi-label approaches in depth and investigate how this aggregation impacts the prediction performances with respect to the objective multi-label loss metric. We then address the specific problem of identifying relevant subsets of features - among potentially irrelevant and redundant features - in the multi-label context based on the ensemble paradigm. Three wrapper multi-label feature selection methods based on the Random Forest paradigm are proposed. These methods differ in the way they consider label dependence within the feature selection process. Finally, we extend the multi-label classification and feature selection problems to the semi-supervised setting and consider the situation where only few labelled instances are available. We propose a new semi-supervised multi-label feature selection approach based on the ensemble paradigm. The proposed model combines ideas from co-training and multi-label k-labelsets committee construction in tandem with an inner out-of-bag label feature importance evaluation. Satisfactorily tested on several benchmark data, the approaches developed in this thesis show promise for a variety of applications in supervised and semi-supervised multi-label learning Classification multi-label Apprentissage supervisé Apprentissage semi-supervisé Multi-label classification Ensemble models Semi-supervised learning Feature selection 004
19	Sur quelques problèmes d'apprentissage supervisé et non supervisé Laloë, Thomas 27 November 2009 (has links) (PDF) L'objectif de cette Thèse est d'apporter une contribution au problème de l'apprentissage statistique, notamment en développant des méthodes pour prendre en compte des données fonctionnelles. Dans la première partie, nous développons une approche de type plus proches voisins pour la régression fonctionnelle. Dans la deuxième, nous étudions les propriétés de la méthode de quantification dans des espaces de dimension infinie. Nous appliquons ensuite cette méthode pour réaliser une étude comportementale de bancs d'anchois. Enfin, la dernière partie est dédiée au problème de l'estimation des ensembles de niveaux de la fonction de régression dans un cadre multivarié. [MATH] Mathematics Apprentissage statistique Apprentissage supervisé Apprentissage non supervisé Données fonctionnelles Classification Régression Quantification Plus proches voisins Estimateurs à noyaux Ensembles de niveaux
20	Outil d'aide au diagnostic du cancer à partir d'extraction d'informations issues de bases de données et d'analyses par biopuces Hedjazi, Lyamine 08 December 2011 (has links) (PDF) Le cancer est l'une des causes les plus fréquentes de décès dans le monde. Actuellement, le cancer du sein est le plus répandu dans les cancers féminins. Malgré les avancées significatives faites ces dernières décennies en vue d'améliorer la gestion du cancer, des outils plus précis sont toujours nécessaires pour aider les oncologues à choisir le traitement nécessaire à des fins de guérison ou de prévention de récidive tout en réduisant les effets néfastes des ces traitements ainsi que leurs coûts élevés. Ce travail porte sur l'utilisation de techniques d'apprentissage automatique pour développer de tels outils de gestion du cancer du sein. Les facteurs cliniques, tels que l'âge du patient et les variables histo-pathologiques, constituent encore la base quotidienne de prise de décision pour la gestion du cancer du sein. Cependant, avec l'émergence de la technologie à haut débit, le profil d'expression génique suscite un intérêt croissant pour construire des outils plus précis de prédiction du cancer du sein. Néanmoins, plusieurs challenges doivent être relevés pour le développement de tels outils, principalement: (1) la dimensionnalité des données issues de la technologie des puces, (2) le faible rapport signal sur bruit dans la mesure de biopuces, (3) l'incertitude d'appartenance des patients aux différents groupes du cancer, et (4) l'hétérogénéité des données présentes habituellement dans les bases de données cliniques. Dans ce travail, nous proposons quelques approches pour surmonter de manière appropriée de tels challenges. Une première approche aborde le problème de haute dimensionnalité des données en utilisant les capacités d'apprentissage dit normé ℓ1 pour la conception d'un algorithme de sélection de variables intégré à la méthode SVM (machines à vecteurs supports), algorithme basé sur une technique de gradient. Une deuxième approche permet de gérer simultanément tous les problèmes, en particulier l'intégration de plusieurs sources de données (cliniques, pu ces à ADN, ...) pour construire des outils prédictifs plus précis. Pour cela, un principe unifié est proposé pour surmonter le problème de l'hétérogénéité des données. Pour tenir compte de l'incertitude d'appartenance et augmenter l'interprétabilité du modèle, ce principe est proposé dans le cadre de la logique floue. Par ailleurs, afin d'atténuer le problème du bruit de niveau élevé, une approche symbolique est proposée suggérant l'utilisation de la représentation par intervalle pour modéliser les mesures bruitées. Nous avons conçu en particulier, basée sur ce principe, une approche floue supervisée de pondération de variables. Le processus de pondération repose essentiellement sur la définition d'une marge d'appartenance pour chaque échantillon. Il optimise une fonction objective basée sur la marge d'appartenance afin d'éviter la recherche combinatoire. Une extension de cette approche au cas non supervisé est effectuée pour développer un algorithme de regroupement automatique basé sur la pondération des règles floues. L'efficacité de toutes les approches a été évaluée par des études expérimentales extensives, et comparée avec des méthodes bien connues de l'état de l'art. Enfin, un dernier travail est consacré à des applications des approches proposées dans le domaine du cancer du sein. En particulier, des modèles prédictifs et pronostiques ont été extraits à partir des données de puces à ADN et/ou des données cliniques, et leurs performances comparées avec celles d'approches génétiques et cliniques existantes. [INFO:INFO_AU] Informatique/Automatique

Search results