Global ETD Search

1	Forêt aléatoire pour l'apprentissage multi-vues basé sur la dissimilarité : Application à la Radiomique / Random forest for dissimilarity based multi-view learning : application to radiomics Cao, Hongliu 02 December 2019 (has links) Les travaux de cette thèse ont été initiés par des problèmes d’apprentissage de données radiomiques. La Radiomique est une discipline médicale qui vise l’analyse à grande échelle de données issues d’imageries médicales traditionnelles, pour aider au diagnostic et au traitement des cancers. L’hypothèse principale de cette discipline est qu’en extrayant une grande quantité d’informations des images, on peut caractériser de bien meilleure façon que l’œil humain les spécificités de cette pathologie. Pour y parvenir, les données radiomiques sont généralement constituées de plusieurs types d’images et/ou de plusieurs types de caractéristiques (images, cliniques, génomiques). Cette thèse aborde ce problème sous l’angle de l’apprentissage automatique et a pour objectif de proposer une solution générique, adaptée à tous problèmes d’apprentissage du même type. Nous identifions ainsi en Radiomique deux problématiques d’apprentissage: (i) l’apprentissage de données en grande dimension et avec peu d’instances (high dimension, low sample size, a.k.a.HDLSS) et (ii) l’apprentissage multi-vues. Les solutions proposées dans ce manuscrit exploitent des représentations de dissimilarités obtenues à l’aide des Forêts Aléatoires. L’utilisation d’une représentation par dissimilarité permet de contourner les difficultés inhérentes à l’apprentissage en grande dimension et facilite l’analyse conjointe des descriptions multiples (les vues). Les contributions de cette thèse portent sur l’utilisation de la mesure de dissimilarité embarquée dans les méthodes de Forêts Aléatoires pour l’apprentissage multi-vue de données HDLSS. En particulier, nous présentons trois résultats: (i) la démonstration et l’analyse de l’efficacité de cette mesure pour l’apprentissage multi-vue de données HDLSS; (ii) une nouvelle méthode pour mesurer les dissimilarités à partir de Forêts Aléatoires, plus adaptée à ce type de problème d’apprentissage; et (iii) une nouvelle façon d’exploiter l’hétérogénèité des vues, à l’aide d’un mécanisme de combinaison dynamique. Ces résultats ont été obtenus sur des données radiomiques mais aussi sur des problèmes multi-vue classiques. / The work of this thesis was initiated by a Radiomic learning problem. Radiomics is a medical discipline that aims at the large-scale analysis of data from traditional medical imaging to assist in the diagnosis and treatment of cancer. The main hypothesis of this discipline is that by extracting a large amount of information from the images, we can characterize the specificities of this pathology in a much better way than the human eye. To achieve this, Radiomics data are generally based on several types of images and/or several types of features (from images, clinical, genomic). This thesis approaches this problem from the perspective of Machine Learning (ML) and aims to propose a generic solution, adapted to any similar learning problem. To do this, we identify two types of ML problems behind Radiomics: (i) learning from high dimension, low sample size (HDLSS) and (ii) multiview learning. The solutions proposed in this manuscript exploit dissimilarity representations obtained using the Random Forest method. The use of dissimilarity representations makes it possible to overcome the well-known difficulties of learning high dimensional data, and to facilitate the joint analysis of the multiple descriptions, i.e. the views.The contributions of this thesis focus on the use of the dissimilarity easurement embedded in the Random Forest method for HDLSS multi-view learning. In particular, we present three main results: (i) the demonstration and analysis of the effectiveness of this measure for HDLSS multi-view learning; (ii) a new method for measuring dissimilarities from Random Forests, better adapted to this type of learning problem; and (iii) a new way to exploit the heterogeneity of views, using a dynamic combination mechanism. These results have been obtained on radiomic data but also on classical multi-view learning problems. Espace de dissimilarité Forêt aléatoire Apprentissage multi-vue Dimension élevée Taille réduite de l'échantillon Apprentissage de dissimilarité Sélection dynamique Dissimilarity space Random forest Multi-view learning High dimension Low sample size Dissimilarity learning Dynamic selection 006.3
2	L'analyse multidimensionnelle des données de dissimilarité Drouet D'Aubigny, Gérard 27 January 1989 (has links) (PDF) Trois objectifs sont poursuivis. Nous définissons d'abord un cadre algébrique suffisamment général pour unifier les deux classes de méthodes d'analyse des données de dissimilarite connues. Le langage de la géométrie affine nous permet de montrer les correspondances entre les présentations française et anglo-américaine des méthodes tautologiques et d'enrichir la méthodologie par l'apport de méthodes issues de la tradition factorialiste et la proposition d'outils d'aide à l'interprétation des résultats. Les relations de dualité mises en évidence permettent de rendre compte des liens et différences entre ces méthodes et les techniques d'ajustement de modelés de description euclidienne des données de dissimilarite, dites de codage multidimensionnel. De plus une interprétation en terme de régression ridge du problème ainsi qu'une analogie aux méthodes d'étude des réseaux électriques sont exploites. En deuxième lieu, nous étudions en détail l'introduction de contraintes. Tout d'abord les contraintes de configuration est replace dans le cadre du formalisme statistique d'analyse multivariée des courbes de croissance, et les méthodes sont affinées en conséquence. Le recourt au formalisme tensoriel permet de plus des solutions plus simples, des interprétations plus classiques des méthodes et la proposition d'évaluation de la qualité des solutions. Enfin nous proposons une méthodologie d'analyse des données de dissimilarite structurées, issue de plans d'expérience coordonnées principales constante additive codage multidimensionnel contraintes contrastes analyse de la diversité coordonnées discriminantes
3	Identification du profil des utilisateurs d'un hypermédia encyclopédique à l'aide de classifieurs basés sur des dissimilarités : création d'un composant d'un système expert pour Hypergéo Abou Latif, Firas 08 July 2011 (has links) (PDF) L'objectif de cette thèse est d'identifier le profil d'utilisateur d'un hypermédia afin de l'adapter. Ceprofil est déterminé en utilisant des algorithmes d'apprentissage supervisé comme le SVM.Le modèle d'utilisateur est l'un des composants essentiels des hypermédias adaptatifs. Une des façons de caractériser ce modèle est d'associer l'utilisateur à un profil. Le Web Usage Mining (WUM)identifie ce profil à l'aide des traces de navigation. Toutefois, ces techniques ne fonctionnent généralement que sur de gros volumes de données. Dans le cadre de volumes de données réduits, nous proposons d'utiliser la structure et le contenu de l'hypermédia. Pour cela, nous avons utilisé des algorithmes d'apprentissage à noyau pour lesquels nous avons défini l'élément clé qu'est la mesure de similarité entre traces basée sur une " distance " entre documents du site. Notre approche a été validée à l'aide de données synthétiques puis à l'aide de données issues des traces des utilisateurs du site Hypergéo (site webencyclopédique spécialisé dans la géographie). Nos résultats ont été comparés à ceux obtenus à l'aide d'une des techniques du WUM (l'algorithme des motifs caractéristiques). Finalement, nos propositions pour identifier les profils a posteriori ont permis de mettre en évidence cinq profils. En appliquant une" distance sémantique " entre documents, les utilisateurs d'Hypergéo ont été classés correctement selon leurs centres d'intérêt. [INFO] Computer Science [INFO] Informatique Fouille de données d'usage du Web Algorithmes de projection Distance et dissimilarité Hypermédia adaptatif
4	Extraction de données symboliques et cartes topologiques: application aux données ayant une structure complexe El Golli, Aïcha 01 June 2004 (has links) (PDF) Un des objectifs de lanalyse de données symboliques est de permettre une meilleure modélisation des variations et des imprécisions des données réelles. Ces données expriment en effet, un niveau de connaissance plus élevé, la modélisation doit donc offrir un formalisme plus riche que dans le cadre de lanalyse de données classiques. Un ensemble dopérateurs de généralisation symbolique existent et permettent une synthèse et représentation des données par le formalisme des assertions, formalisme défini en analyse de données symboliques. Cette généralisation étant supervisée, est souvent sensible aux observations aberrantes. Lorsque les données que lon souhaite généraliser sont hétérogènes, certaines assertions incluent des observations virtuelles. Face à ce nouveau formalisme et donc cette extension dordre sémantique que lanalyse de données symbolique a apporté, une nouvelle approche de traitement et dinterprétation simpose. Notre objectif au cours de ce travail est daméliorer tout dabord cette généralisation et de proposer ensuite une méthode de traitement de ces données. Les contributions originales de cette thèse portent sur de nouvelles approches de représentation et de classification des données à structure complexe. Nous proposons donc une décomposition permettant daméliorer la généralisation tout en offrant le formalisme symbolique. Cette décomposition est basée sur un algorithme divisif de classification. Nous avons aussi proposé une méthode de généralisation symbolique non supervisée basée sur l'algorithme des cartes topologiques de Kohonen. L'avantage de cette méthode est de réduire les données d'une manière non supervisée et de modéliser les groupes homogènes obtenus par des données symboliques. Notre seconde contribution porte sur lélaboration dune méthode de classification traitant les données à structure complexe. Cette méthode est une adaptation de la version batch de lalgorithme des cartes topologiques de Kohonen aux tableaux de dissimilarités. En effet, seule la définition dune mesure de dissimilarité adéquate, est nécessaire pour le bon déroulement de la méthode. ANALYSE DE DONNÉES GÉNÉRALISATION CLASSIFICATION NON SUPERVISÉE ALGORITHME DIVISIF CARTES TOPOLOGIQUES DE KOHONEN DISSIMILARITÉ
5	Abstraction et comparaison de traces d'exécution pour l'analyse d'applications multimédias embarquées / Abstraction and comparison of execution traces for analysis of embedded multimedia applications Kamdem Kengne, Christiane 05 December 2014 (has links) Le projet SoC-Trace a pour objectif le développement d'un ensemble de méthodes et d'outils basés sur les traces d'éxécution d'applications embarquées multicoeur afin de répondre aux besoins croissants d'observabilité et de 'débogabilité' requis par l'industrie. Le projet vise en particulier le développement de nouvelles méthodes d'analyse, s'appuyant sur différentes techniques d'analyse de données telles que l'analyse probabiliste, la fouille de données, et l'agrégation de données. Elles devraient permettre l'identification automatique d'anomalies,l'analyse des corrélations et dépendances complexes entre plusieurs composants d'une application embarquées ainsi que la maîtrise du volume important des traces qui peut désormais dépasser le GigaOctet. L'objectif de la thèse est de fournir une représentation de haut niveau des informations contenues dans les traces, basée sur la sémantique. Il s'agira dans un premier temps de développer un outil efficace de comparaison entre traces;de définir une distance démantique adaptée aux traces, puis dans un second temps d'analyser et d'interpréter les résultats des comparaisons de traces en se basant sur la distance définie. / The SoC-Trace project aims to develop a set of methods and tools based on execution traces of multicore embedded applications to meet the growing needs of observability and 'débogability' required by the industry. The project aims in particular the development of new analytical methods, based on different data analysis techniques such as probabilistic analysis, data mining, and data aggregation. They should allow the automatic identification of anomalies, the analysis of complex correlations and dependencies between different components of an embedded application and control of the volume traces that can now exceed the gigabyte. The aim of the thesis is to provide a high-level representation of information in the trace based semantics. It will initially develop an effective tool for comparing traces, to define a semantic distance for execution traces, then a second time to analyze and interpret the results of comparisons of traces based on the defined distance. Techniques d’optimisation Détection d’anomalies Fouille de séquences Traces exécution Mesures de dissimilarité Applications multimedia Optimisation Anomalies detection Sequence mining Execution traces Dissimilarity measures Multimedia applications 004
6	Dispositif de discrimination entre des micro-organismes et leur environnement pour une détection précoce / Device to discriminate between micro-organisms and their environment for early detection Bouthillon, Marine 29 January 2016 (has links) Cette thèse consiste en la conception d'un système d'acquisition et d'un algorithme de traitement d'image. Le but de ce travail est la détection de contaminants dans un contexte de contrôle qualité, particulièrement dans l'industrie pharmaceutique. Les contaminants sont des colonies de micro-organismes se développant sur membrane micro-poreuse. Nous avons choisi d'utiliser la mesure tridimensionnelle de surface pour réaliser l'acquisition des données, ce qui n'a jamais été fait pour des données micro-biologiques. Notre apport a de plus consisté à remplacer l'éclairage laser généralement utilisé par un dispositif à LED permettant de réduire le bruit dans les données. Cela permet de diminuer la durée d'incubation des tests de 14 jours à moins de 5. Concernant l'algorithme, nous avons analysé les données de hauteur en combinant une méthode de détection de données aberrantes et un séparateur à vaste marge. La difficulté de la détection réside dans la variété des signaux correspondant aux colonies, et également dans la présence d'artefacts semblables aux colonies. Nous sommes capables de détecter correctement la présence ou l'absence de contaminants dans 98% des cas. / An acquisition system and its algorithm are designed. Their purpose is contaminants detection as quality control in pharmaceutical industry. Contaminants are colonies of micro-organisms growing on micro-porous membrane. We use 3D surface measurement, which has never been done in a microbiological context. In addition, our contribution is to use an LED based lighting instead of a laser. It leads to an important noise reduction. It allows to decrease micro-organisms incubation period from 14 days in current method to 5 days or less. The height map from the system are processed with an outlier detection method combined to a support vector machine. Colonies show varying and various signals, and artifacts are present in the data. Nevertheless, we have been able to detect with success the presence or absence of contaminants with a rate of 98%. Détection de contaminants Microbiologie Mesure 3D Triangulation à LED Mesure de dissimilarité Classification Apprentissage Contaminants detection Microbiology 3D measurement LED based triangulation Dissimilarity measure Segmentation Machine learning 006.6 621.36
7	Identification du profil des utilisateurs d’un hypermédia encyclopédique à l’aide de classifieurs basés sur des dissimilarités : création d’un composant d’un système expert pour Hypergéo / Identification of hypermedia encyclopedic user's profile using classifiers based on dissimilarities : creating a component of an expert system for Hypergeo Abou Latif, Firas 08 July 2011 (has links) L’objectif de cette thèse est d’identifier le profil d’utilisateur d’un hypermédia afin de l’adapter. Ceprofil est déterminé en utilisant des algorithmes d’apprentissage supervisé comme le SVM.Le modèle d’utilisateur est l’un des composants essentiels des hypermédias adaptatifs. Une des façons de caractériser ce modèle est d’associer l’utilisateur à un profil. Le Web Usage Mining (WUM)identifie ce profil à l’aide des traces de navigation. Toutefois, ces techniques ne fonctionnent généralement que sur de gros volumes de données. Dans le cadre de volumes de données réduits, nous proposons d’utiliser la structure et le contenu de l’hypermédia. Pour cela, nous avons utilisé des algorithmes d’apprentissage à noyau pour lesquels nous avons défini l’élément clé qu’est la mesure de similarité entre traces basée sur une « distance » entre documents du site. Notre approche a été validée à l’aide de données synthétiques puis à l’aide de données issues des traces des utilisateurs du site Hypergéo (site webencyclopédique spécialisé dans la géographie). Nos résultats ont été comparés à ceux obtenus à l’aide d’une des techniques du WUM (l’algorithme des motifs caractéristiques). Finalement, nos propositions pour identifier les profils a posteriori ont permis de mettre en évidence cinq profils. En appliquant une« distance sémantique » entre documents, les utilisateurs d’Hypergéo ont été classés correctement selon leurs centres d’intérêt. / This thesis is devoted to identify the profile of hypermedia user, then to adapt it according to user’s profile. This profile is found by using supervised learning algorithm like SVM. The user model is one of the essential components of adaptive hypermedia. One way to characterize this model is to associate a user to a profile. Web Usage Mining (WUM) identifies this profile from traces. However, these techniques usually operate on large mass of data. In the case when not enough data are available, we propose to use the structure and the content of the hypermedia. Hence, we used supervised kernel learning algorithms for which we have defined the measure of similarity between traces based on a “distance” between documents of the site. Our approach was validated using synthetic data and then using real data from the traces of Hypergéo users, Hypergéo is an encyclopedic website specialized in geography. Our results were compared with those obtained using a techniques of WUM(the algorithm of characteristic patterns). Finally, our proposals to identify the profiles a posteriori led usto highlight five profiles. Hypergéo users are classified according to their interests when the “semantic distance” between documents is applied. Fouille de données d’usage du Web Algorithmes de projection Distance et dissimilarité Hypermédia adaptatif Web usage mining Supervised and unsupervised learning Visualization Dimensionality reduction Distance and dissimilarity Adaptive hypermedia.
8	Impact d'amendements calco-magnésiens sur la diversité des macroinvertébrés de sols forestiers et sur certains processus fonctionnels associés. Cas du massif vosgien (nord-est, France) / Effects of liming on macroinvertebrates diversity in forest soils and some associated functional processes in the Vosges Mountains (North-eastern, France) Auclerc, Apolline 12 June 2012 (has links) Le recours à des épandages d'amendements calco-magnésiens dans les forêts acidifiées peut représenter une alternative intéressante pour corriger l'acidification des sols et la perte d'éléments nutritifs engendrés par des décennies de dépôts atmosphériques acides. Dans ce contexte, les objectifs de cette thèse sont d'évaluer les effets d'amendements calco-magnésiens sur (i) la diversité taxonomique et la structure des communautés des macroinvertébrés de sol forestier et sur (ii) deux processus fonctionnels associés notamment à l'activité des vers de terre, tels que la structuration du sol et l'évolution des humus. Au cours de nos travaux, trois sites localisés dans les Vosges (nord-est, France) ont été étudiés : deux massifs forestiers (sur grès et granite) en moyenne montagne, ayant fait l'objet d'amendements aériens en 2003 et la forêt domaniale de Humont située dans les collines sous-vosgiennes, où des amendements en 1991 et 2008 ont été réalisés. Les résultats montrent que 4 ans après amendement sur les bassins versants en moyenne montagne, l'abondance totale de la communauté de macrofaune a diminué, alors que les richesses spécifiques sont similaires. Cependant, la composition des communautés diffère avec moins de 50 % d'espèces communes aux sites amendés et témoins. Une diminution de l'abondance des prédateurs a également été observée alors que la plupart des détritivores ont été favorisés par l'amendement. Les études in vitro montrent également son effet positif sur les activités de structuration du sol par les vers de terre (production de turricules et construction de galeries). En forêt de Humont, les amendements ont eu un effet majeur à moyen terme (4 ans) et à long terme (20 ans) sur la population d'Aporrectodea velox, espèce endémique des Vosges. De part sa biomasse importante, cette augmentation de densité favorise l'amélioration des caractéristiques physico-chimiques du sol forestier tels que la structuration des sols et la morphologie des humus. / The use of liming (Ca-Mg) on acidified forest can be interesting to counteract soil acidification and loss of nutrients caused by decades of acid atmospheric deposition. In this context, the aims of this work were to assess liming effect on (i) taxonomical diversity and community structure of soil macro-invertebrates and on (ii) two associated functional processes related to earthworms: soil structuration and humus evolution. The PhD project was realised in three sites from the Vosges mountains (North-eastern, France): two forest mountain catchments (one lying on sandstone and the other on granite) limed in 2003 and the public hill forest of Humont at a lower altitude limed in 1991 and 2008. Results showed that 4 years after liming in mountain forest, the total abundance of macro-invertebrates decreased, while the species richness were similar. However, the community structure strongly differed, and less than 50% of the species were common to limed and control sites. Moreover, 43 species appeared to be indicators of liming. Predator taxa abundance decreased whereas the detritivorous were favoured by lime addition. The in vitro experiments showed a positive effect of liming on soil structuration by earthworm activities (cast production and burrowing activities). In the Humont forest, liming at medium-term (4 years) and long term (20 years) have an important effect on the Aporrectodea velox population, an endemic vosgian species. Related to its high biomass, this increase strongly improved soil physicochemical parameters such as soil structure and humus morphology. Macroinvertébrés Acidification Amendement calco-magnésien Diversité Dissimilarité des communautés Espèces rares Réseaux trophiques Bioindicateur Biostructures Processus fonctionnels Services écosystémiques Macroinvertebrates Acidification Liming Diversity Community Dissimilarity Rare species Food webs Bioindicator Biostructures Functional process Ecosystem services 631.42
9	Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits / Textual data similarities for learning short opinion texts and retrieving products Trouvilliez, Benoît 13 May 2013 (has links) Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits à partir de l'énonciation de critères au sein d'une conversation écrite mettant en jeu un humain et un programme agent. La première partie a pour objectif la production d'informations statistiques structurées extraites des réponses aux questions. Les idées exprimées dans les réponses sont identifiées, organisées selon une taxonomie et quantifiées. La seconde partie vise à transcrire les critères de recherche de produits en requêtes compréhensibles par un système de gestion de bases de données. Les critères étudiés vont de critères relativement simples comme la matière du produit jusqu'à des critères plus complexes comme le prix ou la couleur. Les deux parties se rejoignent sur la problématique d'établissement de similarités entre données textuelles par des techniques de TAL. Les principales difficultés à surmonter sont liées aux caractéristiques des textes, rédigés en langage naturel, courts, et comportant fréquemment des fautes d'orthographe ou des négations. L'établissement de similarités sémantiques entre mots (synonymie, antonymie, etc) et l'établissement de relations syntaxiques entre syntagmes (conjonction, opposition, etc) sont également des problématiques abordées. Nous étudions également dans cette thèse des méthodes de regroupements et de classification automatique de textes afin d'analyser les réponses aux questionnaires de satisfaction. / This Ph.D. thesis is about the establishment of textual data similarities in the client relation domain. Two subjects are mainly considered : - the automatic analysis of short messages in response of satisfaction surveys ; - the search of products given same criteria expressed in natural language by a human through a conversation with a program. The first subject concerns the statistical informations from the surveys answers. The ideas recognized in the answers are identified, organized according to a taxonomy and quantified. The second subject concerns the transcription of some criteria over products into queries to be interpreted by a database management system. The number of criteria under consideration is wide, from simplest criteria like material or brand, until most complex criteria like color or price. The two subjects meet on the problem of establishing textual data similarities thanks to NLP techniques. The main difficulties come from the fact that the texts to be processed, written in natural language, are short ones and with lots of spell checking errors and negations. Establishment of semantic similarities between words (synonymy, antonymy, ...) and syntactic relations between syntagms (conjunction, opposition, ...) are other issues considered in our work. We also study in this Ph. D. thesis automatic clustering and classification methods in order to analyse answers to satisfaction surveys. Traitement automatique des langues Représentation de textes Correction orthographique Modèle colorimétrique Analyse syntaxique Analyse lexicale Analyse morphologique Apprentissage artificiel Similarité Dissimilarité Recherche de produits Recherche de couleurs \textit{Synset}
10	Hypergraphe de Voisinage Spatiocolorimétrique. Application en traitement d'images : Détection de<br />contours et du bruit. Rital, Soufiane 05 July 2004 (has links) (PDF) Dans ce document, nous nous intéressons à la modélisation de l'image par le biais de la théorie des hypergraphes. Notre contribution est essentiellement axée sur la détermination des propriétés issues de<br />cette théorie et sur l'analyse de leur adéquation avec des problématiques de l'image et particulièrement la détection de contours et la suppression de bruit.<br /><br />Dans un premier temps, nous étudions la représentation par hypergraphes de voisinage spatiocolorimétrique de l'image. Trois représentations sont présentées incorporant des propriétés globales, locales, des mesures de similarité et des mesures de dissimilarité.<br /><br />Ensuite, on utilise les propriétés des hypergraphes engendrées par la représentation afin de définir des modèles structurels de bruit et de contour. Ceci nous permet ainsi de déduire des algorithmes de suppression de bruit et d'extraction de contours sur des images<br />à niveaux de gris et couleur. Les performances des approches proposées sont comparées aux solutions classiquement utilisées.<br />Enfin, la représentation par hypergraphe de voisinage<br />spatiocolorimétrique s'est avérée efficace pour<br />le traitement des images bas niveaux. [INFO:INFO_OH] Computer Science/Other Graphe hypergraphe combinatoire <br />détection de contours détection de bruit espace couleur système<br />de voisinage modélisation d'image mesure de similarité mesure<br />de dissimilarité

Search results