Global ETD Search

91	Fouille de graphes pour la découverte de contrastes entre classes : application à l'estimation de la toxicité des molécules Poezevara, Guillaume 23 November 2011 (has links) (PDF) Cette thèse porte sur la fouille de graphes et propose un ensemble de méthodes pour la découverte de contrastes entre classes et leurs contributions à des problématiques de prédictions de propriétés (éco)toxicologiques de composés chimiques. Nous présentons un nouveau type de motifs, les motifs émergents de graphes - les conjonctions de graphes dont la présence est liée à la classification donnée en entrée - afin de cibler l'information caractérisant les différentes lasses. Notre méthode repose sur un changement de description des graphes permettant de revenir à un contexte de fouille de données tabulaires. L'étendue des contraintes utilisées en fouille de données tabulaires peut ainsi être exploitée, telle que la contrainte d'émergence. Nous montrons également qu'il est possible d'étendre aux motifs de graphes les représentations condensées de motifs sur la contrainte d'émergence. Cette méthode synthétise les motifs de graphes et facilite leur exploration et leur usages. Le fil conducteur de ce travail est celui de l'évaluation de propriétés (éco)toxicologiques de molécules par l'usage de modèles in silico, conformément à la norme européenne REACH. Dans ce contexte, les méthodes de fouille de graphes proposées permettent d'extraire des toxicophores (i.e. des fragments de molécules qui peuvent influencer le comportement toxique des molécules) à partir des exemples d'une chimiothèque. Une série expérimentale montre l'apparition de nouvelles structures lorsque le niveau de toxicité des molécules augmente. Ces travaux contribuent à l'acquisition de nouvelles connaissances sur les mécanismes de toxicité des molécules venant compléter les connaissances expertes humaines. Exploration de données représentation de graphes chimie-informatique apprentissage automatique toxicologie écotoxicologie
92	Représentation et gestion des connaissances dans un processus d'Extraction de Connaissances à partir de Données multi-points de vue Zemmouri, El Moukhtar 14 December 2013 (has links) (PDF) Les systèmes d'information des entreprises actuelles sont de plus en plus " submergés " par des données de tous types : structurées (bases de données, entrepôts de données), semi-structurées (documents XML, fichiers log) et non structurées (textes et multimédia). Ceci a créé de nouveaux défis pour les entreprises et pour la communauté scientifique, parmi lesquels comment comprendre et analyser de telles masses de données afin d'en extraire des connaissances. Par ailleurs, dans une organisation, un projet d'Extraction de Connaissances à partir de Données (ECD) est le plus souvent mené par plusieurs experts (experts de domaine, experts d'ECD, experts de données...), chacun ayant ses préférences, son domaine de compétence, ses objectifs et sa propre vision des données et des méthodes de l'ECD. C'est ce que nous qualifions de processus d'ECD multi-vues (ou processus multi-points de vue). Notre objectif dans cette thèse est de faciliter la tâche de l'analyste d'ECD et d'améliorer la coordination et la compréhensibilité entre les différents acteurs d'une analyse multi-vues, ainsi que la réutilisation du processus d'ECD en termes de points de vue. Aussi, nous proposons une définition qui rend explicite la notion de point de vue en ECD et qui tient compte des connaissances de domaine (domaine analysé et domaine de l'analyste) et du contexte d'analyse. A partir de cette définition, nous proposons le développement d'un ensemble de modèles sémantiques, structurés dans un Modèle Conceptuel, permettant la représentation et la gestion des connaissances mises en œuvre lors d'une analyse multi-vues. Notre approche repose sur une caractérisation multi-critères du point de vue en ECD. Une caractérisation qui vise d'abord à capturer les objectifs et le contexte d'analyse de l'expert, puis orienter l'exécution du processus d'ECD, et par la suite garder, sous forme d'annotations, la trace du raisonnement effectué pendant un travail multi-experts. Ces annotations sont partagées, comparées et réutilisées à l'aide d'un ensemble de relations sémantiques entre points de vue. Processus d'ECD Points de vue Représentation de Connaissances Ontologies Web sémantique CRISP-DM
93	Systèmes de compréhension et de traduction de la parole : vers une approche unifiée dans le cadre de la portabilité multilingue des systèmes de dialogue Jabaian, Bassam 04 December 2012 (has links) (PDF) La généralisation de l'usage des systèmes de dialogue homme-machine accroît la nécessité du développement rapide des différents composants de ces systèmes. Les systèmes de dialogue peuvent être conçus pour différents domaines d'application et dans des langues différentes. La nécessité d'une production rapide pour de nouvelles langues reste un problème ouvert et crucial auquel il est nécessaire d'apporter des solutions efficaces.Nos travaux s'intéressent particulièrement au module de compréhension de la parole et proposent des approches pour la portabilité rapide peu coûteuse de ce module.Les méthodes statistiques ont montré de bonnes performances pour concevoir les modules de compréhension de la parole pour l'étiquetage sémantique de tours de dialogue.Cependant ces méthodes nécessitent de larges corpus pour être apprises. La collecte de ces corpus est aussi coûteuse en temps et en expertise humaine.Dans cette thèse, nous proposons plusieurs approches pour porter un système de compréhension d'une langue vers une autre en utilisant les techniques de la traduction automatique. Les premiers travaux consistent à appliquer la traduction automatique à plusieurs niveaux du processus de portabilité du système de compréhension afin de réduire le coût lié à production de nouvelles données d'apprentissage. Les résultats expérimentaux montrent que l'utilisation de la traduction automatique permet d'obtenir des systèmes performant avec un minimum de contribution humaine.Cette thèse traite donc à la fois de la traduction automatique et de la compréhension de la parole. Nous avons effectué une comparaison approfondie entre les méthodes utilisées pour chacune des tâches et nous avons proposé un décodage conjoint basé sur une méthode discriminante qui à la fois traduit une phrase et lui attribue ses étiquettes sémantiques. Ce décodage est obtenu par une approche à base de graphe qui permet de composer un graphe de traduction avec un graphe de compréhension. Cette représentation peut être généralisée pour permettre des transmissions d'informations riches entre les composants du système de dialogue Compréhension de la parole Traduction automatique Dialogue homme-machine Portabilité multilingue Décodage conjoint
94	Une Approche Hybride de Simulation-Optimisation Basée sur la fouille de Données pour les problèmes d'ordonnancement Shahzad, Atif 16 March 2011 (has links) (PDF) Une approche hybride basée sur la fouille de données pour découvrir de nouvelles règles de priorité pour le problème l'ordonnancement job-shop est présentée. Cette approche est basée sur la recherche de connaissances supposées être intégrés dans les solutions efficaces fournies par un module d'optimisation préalablement mis en oeuvre et utilisant la recherche tabou. L'objectif est de découvrir les principes directeurs de l'ordonnancement à l'aide de la fouille de données et donc d'obtenir un ensemble de règles capables d'obtenir des solutions efficaces pour un problème d'ordonnancement. Une structure basée sur fouille de données est présentée et mise en œuvre pour un problème de job shop avec comme objectifs le retard maximum et le retard moyen. Les résultats obtenus sont très prometteurs. Simulation Optimisation Ordonnancement Règles de priorité Fouille de données Recherche tabou Job shop
95	Efficient end-to-end monitoring for fault management in distributed systems Feng, Dawei 27 March 2014 (has links) (PDF) In this dissertation, we present our work on fault management in distributed systems, with motivating application roots in monitoring fault and abrupt change of large computing systems like the grid and the cloud. Instead of building a complete a priori knowledge of the software and hardware infrastructures as in conventional detection or diagnosis methods, we propose to use appropriate techniques to perform end-to-end monitoring for such large scale systems, leaving the inaccessible details of involved components in a black box.For the fault monitoring of a distributed system, we first model this probe-based application as a static collaborative prediction (CP) task, and experimentally demonstrate the effectiveness of CP methods by using the max margin matrix factorization method. We further introduce active learning to the CP framework and exhibit its critical advantage in dealing with highly imbalanced data, which is specially useful for identifying the minority fault class.Further we extend the static fault monitoring to the sequential case by proposing the sequential matrix factorization (SMF) method. SMF takes a sequence of partially observed matrices as input, and produces predictions with information both from the current and history time windows. Active learning is also employed to SMF, such that the highly imbalanced data can be coped with properly. In addition to the sequential methods, a smoothing action taken on the estimation sequence has shown to be a practically useful trick for enhancing sequential prediction performance.Since the stationary assumption employed in the static and sequential fault monitoring becomes unrealistic in the presence of abrupt changes, we propose a semi-supervised online change detection (SSOCD) framework to detect intended changes in time series data. In this way, the static model of the system can be recomputed once an abrupt change is detected. In SSOCD, an unsupervised offline method is proposed to analyze a sample data series. The change points thus detected are used to train a supervised online model, which gives online decision about whether there is a change presented in the arriving data sequence. State-of-the-art change detection methods are employed to demonstrate the usefulness of the framework.All presented work is verified on real-world datasets. Specifically, the fault monitoring experiments are conducted on a dataset collected from the Biomed grid infrastructure within the European Grid Initiative, and the abrupt change detection framework is verified on a dataset concerning the performance change of an online site with large amount of traffic. Fault management Collaborative prediction End-to-end monitoring Sequential matrix factorization Sequential change detection Semi-supervised change detection
96	Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d'entités nommées Girault, Thomas 18 June 2010 (has links) (PDF) Certaines applications du traitement automatique des langues sont amenées à traiter des flux de données textuelles caractérisés par l'emploi d'un vocabulaire en perpétuelle évolution, que ce soit au niveau de la création des mots que des sens de ceux existant déjà. En partant de ce constat, nous avons mis au point un algorithme incrémental pour construire automatiquement et faire évoluer une base lexicale qui répertorie des unités lexicales non étiquetées sémantiquement observées dans des flux. Cette base lexicale est représentée par un treillis de Galois qui organise des concepts formels (assimilés à des unités de sens) sur des niveaux de granularité allant du très spécifique au très général. Cette représentation est complétée par une modélisation vectorielle visualisable qui tient compte des aspects continus du sens et de la proximité sémantique entre concepts. Ce modèle est alors exploité pour propager l'étiquetage manuel d'un petit nombre d'entités nommées (EN : unités lexicales qui se référent habituellement à des personnes, des lieux, des organisations...) à d'autres EN non étiquetées observées dans un flux pendant la construction incrémentale du treillis. Les concepts de ce treillis sont enrichis avec les étiquettes d'EN observées dans un corpus d'apprentissage. Ces concepts et leurs étiquettes attachées sont respectivement employés pour l'annotation non supervisée et la classification supervisée des EN d'un corpus de test. apprentissage artificiel incrémental flux de données textuelles bases lexicales évolutives treillis de Galois désambiguïsation d'entités nommées
97	Apprentissage de Représentations Visuelles Profondes Goh, Hanlin 12 July 2013 (has links) (PDF) Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important. apprentissage profond classification d'images représentations visuelles hierarchiques
98	Novel Instances and Applications of Shared Knowledge in Computer Vision and Machine Learning Systems Synakowski, Stuart R. January 2021 (has links) No description available. Artificial Intelligence Computer Engineering Computer Science
99	Fouille de Sous-graphes Basée sur la Topologie et la Connaissance du Domaine: Application sur les Structures 3D de Protéines Dhifli, Wajdi 11 December 2013 (has links) (PDF) Cette thèse est à l'intersection de deux domaines de recherche en plein expansion, à savoir la fouille de données et la bio-informatique. Avec l'émergence des bases de graphes au cours des dernières années, de nombreux efforts ont été consacrés à la fouille des sous-graphes fréquents. Mais le nombre de sous-graphes fréquents découverts est exponentiel, cela est due principalement à la nature combinatoire des graphes. Beaucoup de sous-graphes fréquents ne sont pas pertinents parce qu'ils sont redondants ou tout simplement inutiles pour l'utilisateur. En outre, leur nombre élevé peut nuire ou même rendre parfois irréalisable toute utilisation ultérieure. La redondance dans les sous-graphes fréquents est principalement due à la similarité structurelle et / ou sémantique, puisque la plupart des sous-graphes découverts diffèrent légèrement dans leur structures et peuvent exprimer des significations similaires ou même identiques. Dans cette thèse, nous proposons deux approches de sélection des sous-graphes représentatifs parmi les fréquents a n d'éliminer la redondance. Chacune des approches proposées s'intéresse à un type spécifique de redondance. La première approche s'adresse à la redondance sémantique où la similarité entre les sous-graphes est mesurée en fonction de la similarité entre les étiquettes de leurs nœuds, en utilisant les connaissances de domaine. La deuxième approche s'adresse à la redondance structurelle où les sous-graphes sont représentés par des descripteurs topologiques définis par l'utilisateur, et la similarité entre les sous-graphes est mesurée en fonction de la distance entre leurs descriptions topologiques respectives. Les principales données d'application de cette thèse sont les structures 3D des protéines. Ce choix repose sur des raisons biologiques et informatiques. D'un point de vue biologique, les protéines jouent un rôle crucial dans presque tous les processus biologiques. Ils sont responsables d'une variété de fonctions physiologiques. D'un point de vue informatique, nous sommes intéressés à la fouille de données complexes. Les protéines sont un exemple parfait de ces données car elles sont faites de structures complexes composées d'acides aminés interconnectés qui sont eux-mêmes composées d'atomes interconnectés. Des grandes quantités de structures protéiques sont actuellement disponibles dans les bases de données en ligne. Les structures 3D des protéines peuvent être transformées en graphes où les acides aminés représentent les nœuds du graphe et leurs connexions représentent les arêtes. Cela permet d'utiliser des techniques de fouille de graphes pour les étudier. L'importance biologique des protéines et leur complexité ont fait d'elles des données d'application appropriées pour cette thèse. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning Sélection de motifs fouille de motifs sous-graphe fréquent sous-graphe représentant non-substitué graphe représentant topologique structure de protéine
100	Réduction de dimension en apprentissage supervisé. Application à l'étude de l'activité cérébrale Vezard, Laurent 13 December 2013 (has links) (PDF) L'objectif de ce travail est de développer une méthode capable de déterminer automatiquement l'état de vigilance chez l'humain. Les applications envisageables sont multiples. Une telle méthode permettrait par exemple de détecter automatiquement toute modification de l'état de vigilance chez des personnes qui doivent rester dans un état de vigilance élevée (par exemple, les pilotes ou les personnels médicaux). Dans ce travail, les signaux électroencéphalographiques (EEG) de 58 sujets dans deux états de vigilance distincts (état de vigilance haut et bas) ont été recueillis à l'aide d'un casque à 58 électrodes posant ainsi un problème de classification binaire. Afin d'envisager une utilisation de ces travaux sur une application du monde réel, il est nécessaire de construire une méthode de prédiction qui ne nécessite qu'un faible nombre de capteurs (électrodes) afin de limiter le temps de pose du casque à électrodes ainsi que son coût. Au cours de ces travaux de thèse, plusieurs approches ont été développées. Une première approche propose d'utiliser un pré-traitement des signaux EEG basé sur l'utilisation d'une décomposition en ondelettes discrète des signaux EEG afin d'extraire les contributions de chaque fréquence dans le signal. Une régression linéaire est alors effectuée sur les contributions de certaines de ces fréquences et la pente de cette régression est conservée. Un algorithme génétique est utilisé afin d'optimiser le choix des fréquences sur lesquelles la régression est réalisée. De plus, cet algorithme génétique permet la sélection d'une unique électrode. Une seconde approche est basée sur l'utilisation du Common Spatial Pattern (CSP). Cette méthode permet de définir des combinaisons linéaires des variables initiales afin d'obtenir des signaux synthétiques utiles pour la tâche de classification. Dans ce travail, un algorithme génétique ainsi que des méthodes de recherche séquentielle ont été proposés afin de sélectionner un sous groupes d'électrodes à conserver lors du calcul du CSP. Enfin, un algorithme de CSP parcimonieux basé sur l'utilisation des travaux existant sur l'analyse en composantes principales parcimonieuse a été développé. Les résultats de chacune des approches seront détaillés et comparés. Ces travaux ont aboutit sur l'obtention d'un modèle permettant de prédire de manière rapide et fiable l'état de vigilance d'un nouvel individu. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications EEG Vigilance algorithme génétique Common Spatial Pattern CSP parcimonieux VCN décomposition en ondelettes discrète

Search results