Spelling suggestions: "subject:"apprentissage automatique"" "subject:"dapprentissage automatique""
101 |
Contribution au développement de l’apprentissage profond dans les systèmes distribués / Contribution to the development of deep learning in distributed systemsHardy, Corentin 08 April 2019 (has links)
L'apprentissage profond permet de développer un nombre de services de plus en plus important. Il nécessite cependant de grandes bases de données d'apprentissage et beaucoup de puissance de calcul. Afin de réduire les coûts de cet apprentissage profond, nous proposons la mise en œuvre d'un apprentissage collaboratif. Les futures utilisateurs des services permis par l'apprentissage profond peuvent ainsi participer à celui-ci en mettant à disposition leurs machines ainsi que leurs données sans déplacer ces dernières sur le cloud. Nous proposons différentes méthodes afin d'apprendre des réseaux de neurones profonds dans ce contexte de système distribué. / Deep learning enables the development of a growing number of services. However, it requires large training databases and a lot of computing power. In order to reduce the costs of this deep learning, we propose a distributed computing setup to enable collaborative learning. Future users can participate with their devices and their data without moving private data in datacenters. We propose methods to train deep neural network in this distibuted system context.
|
102 |
Sur l'utilisation active de la diversité dans la construction d'ensembles de classifieurs. Application à la détection de fumées nocives sur site industrielGacquer, David 05 December 2008 (has links) (PDF)
L'influence de la diversité lors de la construction d'ensembles de classifieurs a soulevé de nombreuses discussions au sein de la communauté de l'Apprentissage Automatique ces dernières années. <br> Une manière particulière de construire un ensemble de classifieurs consiste à sélectionner individuellement les membres de l'ensemble à partir d'un pool de classifieurs en se basant sur des critères prédéfinis. <br> La littérature fait référence à cette méthode sous le terme de paradigme Surproduction et Sélection, également appelé élagage d'ensemble de classifieurs.<br> <br> Les travaux présentés dans cette thèse ont pour objectif d'étudier le compromis entre la précision et la diversité existant dans les ensembles de classifieurs. Nous apportons également certains éléments de réponse sur le comportement insaisissable de la diversité lorsqu'elle est utilisée de manière explicite lors de la construction d'un ensemble de classifieurs.<br> <br> Nous commençons par étudier différents algorithmes d'apprentissage de la littérature. Nous présentons également les algorithmes ensemblistes les plus fréquemment utilisés. Nous définissons ensuite le concept de diversité dans les ensembles de classifieurs ainsi que les différentes méthodes permettant de l'utiliser directement lors de la création de l'ensemble.<br> <br> Nous proposons un algorithme génétique permettant de construire un ensemble de classifieurs en contrôlant le compromis entre précision et diversité lors de la sélection des membres de l'ensemble. Nous comparons notre algorithme avec différentes heuristiques de sélection proposées dans la littérature pour construire un ensemble de classifieurs selon le paradigme Surproduction et Sélection.<br> <br> Les différentes conclusions que nous tirons des résultats obtenus pour différents jeux de données de l'UCI Repository nous conduisent à la proposition de conditions spécifiques pour lesquelles l'utilisation de la diversité peut amener à une amélioration des performances de l'ensemble de classifieurs. Nous montrons également que l'efficacité de l'approche Surproduction et Sélection repose en grande partie sur la stabilité inhérente au problème posé.<br> <br> Nous appliquons finalement nos travaux de recherche au développement d'un système de classification supervisée pour le contrôle de la pollution atmosphérique survenant sur des sites industriels. Ce système est basé sur l'analyse par traitement d'image de scènes à risque enregistrées à l'aide de caméras. Son principal objectif principal est de détecter les rejets de fumées dangereux émis par des usines sidérurgiques et pétro-chimiques.
|
103 |
Apprentissage automatique et compréhension dans le cadre d'un dialogue homme-machine téléphonique à initiative mixteServan, Christophe 10 December 2008 (has links) (PDF)
Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d'avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s'agit, d'abord, de trouver la meilleure hypothèse de reconnaissance puis d'appliquer un processus de compréhension. L'approche proposée dans cette thèse est de conserver l'espace de recherche probabiliste tout au long du processus de compréhension en l'enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d'évaluation MEDIA. Nous montrons l'intérêt de notre approche par rapport à l'approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d'erreurs sur les mots (WER). Cependant nous montrons qu'une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu'une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d'évaluation que lors de la campagne MEDIA. Il s'agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d'évaluation. L'étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d'une part, le taux d'erreur d'interprétation et, d'autre part, le taux d'erreur mots de la reconnaissance de la parole, la taille du corpus d'apprentissage, ainsi que l'ajout de connaissance a priori aux modèles de compréhension. Une analyse d'erreurs montre l'intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d'utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s'appliquant sur la présence d'éléments déclencheurs (mots ou concepts) en fonction de l'historique. On présente les méthodes à base de d'apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d'apprentissage. En modifiant la taille du corpus d'apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l'apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l'apprentissage des modèles de langages conceptuels à partir de laquelle les scores d'évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l'apprentissage et la taille de corpus afin de valider le guide d'annotations. En effet, il semble, dans notre cas de l'évaluation MEDIA, qu'il ait fallu sensiblement le même nombre d'exemple pour, d'une part, valider l'annotation sémantique et, d'autre part, obtenir un modèle stochastique " de qualité " appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d'apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l'ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d'un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d'appel. La problématique de cette tâche est le manque de données d'apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l'intérêt d'intégrer une tâche de classification d'appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d'apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d'obtenir des taux de classification d'appels encourageants sur le corpus de test, alors que le WER est assez élevé. L'application des méthodes développées lors de la campagne MEDIA nous permet d'améliorer la robustesse du processus de routage d'appels.
|
104 |
Génération de phrases multilingues par apprentissage automatique de modèles de phrasesCharton, Eric 12 November 2010 (has links) (PDF)
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d'attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d'exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l'implémentation d'un système de GAT en plusieurs langues et améliore les capacités d'adaptations d'un système de génération à un domaine sémantique particulier. La production, d'après un corpus d'apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l'extraction d'information et de la classification. Nous décrivons le système d'étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d'information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l'intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d'investigations prometteuses sur la nature du processus de formation de phrases
|
105 |
INFÉRENCE DE CONNAISSANCES SÉMANTIQUES, APPLICATION AUX IMAGES SATELLITAIRESBordes, Jean-Baptiste 03 April 2009 (has links) (PDF)
Une méthode probabiliste pour annoter des images satellites avec des concepts sémantiques est présentée. Cette méthode part de caractéristiques de bas-niveau quantifiées dans l'image et utilise une phase d'apprentissage à partir des concepts fournis par l'utilisateur avec un lot d'images exemples. La contribution principale est la définition d'un formalisme pour la mise en relation d'un réseau sémantique hiérarchique avec un modèle stochastique. Les liens sémantiques de synonymie, méronymie, hyponymie sont mis en correspondance avec différents types de modélisations inspirées des méthodes utilisées en fouille de données textuelles. Les niveaux de structuration et de généralité des différents concepts utilisés sont pris en compte pour l'annotation et la modélisation de la base de données. Une méthode de sélection de modèle permet de déduire le réseau sémantique correspondant à la modélisation optimale de la base de données. Cette approche exploite ainsi la puissance de description des réseaux sémantique tout en conservant la flexibilité des approches statistiques par apprentissage. La méthode a été évaluée sur des bases de données SPOT5 et Quickbird.
|
106 |
Une méthode d'analyse discriminante pour des concepts imprécisLoutchmia, Dominique 25 September 1998 (has links) (PDF)
Les travaux de cette thèse se situent dans le cadre de la discrimination conceptuelle. Notre objectif est de caractériser des classes d'objets imprécis et structurés, à partir de concepts imprécis. Le modèle de représentation des données utilise un formalisme objet pour décrire les relations de dépendance entre les attributs et modélise l'imprécision à l'aide de termes linguistiques organisés en structure de treillis. Dans un premier temps, nous avons défini des fonctions de reconnaissances floues permettant de mesurer l'appartenance graduelle d'une observation à un concept. Ces fonctions sont construites à partir de métriques qui prennent en compte les différents aspects du modèle. Ensuite, à partir des notions de complétude et de consistance, nous avons élaboré des critères évaluant la qualité de discrimination d'un concept au contour imprécis. L'utilisation de quantificateurs et modificateurs linguistiques permet de préciser cette qualité de discrimination en tenant compte des erreurs de classement. Enfin, nous avons développé des méthodes d'acquisition de concepts imprécis à partir d'exemples et de contre-exemples. Ces méthodes déterminent un recouvrement des exemples à partir de descriptions reconnaissant au plus, un nombre fixe de contre-exemples. Nos méthodes de discrimination s'appuient, pour déterminer efficacement des concepts, sur les opérateurs de généralisation et sur la structure de treillis des descriptions discriminantes. Afin d'améliorer la qualité et la fiabilité des résultats, une procédure de sélection des attributs les plus discriminants a été proposée. Implantées dans un système d'apprentissage, ces différentes méthodes sont appliquées à plusieurs expérimentations.
|
107 |
Analyse discursive pour le repérage automatique de segments obsolescents dans des documents encyclopédiques.Laignelet, Marion 25 September 2009 (has links) (PDF)
La question de la mise à jour des documents se pose dans de nombreux do- maines. Elle est centrale dans le domaine de l'édition encyclopédique : les ouvrages publiés doivent être continuellement vérifiés afin de ne pas mettre en avant des informations fausses ou altérées par le temps. Dans ce travail, nous proposons la mise en œuvre d'un prototype d'aide à la mise à jour : l'objectif visé est le repérage automatique de zones textuelles dans lesquelles l'information est potentiellement obsolescente. Pour y répondre, nous proposons la prise en compte d'indices linguistiques et discursifs variés et faisant appel à des niveaux d'analyses différents. L'obsolescence étant un phénomène non linguistique pour lequel il n'existe pas d'outil rhétorique dédié, notre hypothèse est qu'il faut considérer les indices linguistiques et discursifs en termes de complémentarité, de combinaisons. Sur un corpus annoté manuellement par des experts, nous projetons un repérage automatique d'un grand nombre d'indices linguistiques, discursifs et structurels. Un système d'apprentissage automatique est ensuite mis en place afin de faire émerger les configurations d'indices pertinentes dans les segments obsolescents caractérisés par les experts. Notre double finalité est remplie : nous proposons une description fine de l'ob- solescence dans notre corpus de textes encyclopédiques ainsi qu'un prototype logi- ciel d'aide à la mise à jour des textes. Une double évaluation a été menée : par validation croisée sur le corpus d'apprentissage et par les experts sur un corpus de test. Les résultats sont encourageants. Ils nous amènent à faire évoluer la définition du segment d'obsolescence, sur la base des « découvertes » émergeant des corpus et dans l'interaction avec les besoins des experts concernant l'aide à la mise à jour. Ils montrent également les limites des annotations automatiques des indices linguistiques et discursifs. Enfin, la reproductibilité de notre système doit être évaluée ainsi que la pertinence et la réutilisabilité du modèle de représentation des données présenté.
|
108 |
Contributions to Bayesian Network Learning/Contributions à l'apprentissage des réseaux bayesiensAuvray, Vincent 19 September 2007 (has links)
No description available.
|
109 |
Transformations d'Arbres XML avec des Modèles Probabilistes pour l'AnnotationJousse, Florent 31 October 2007 (has links) (PDF)
Cette thèse traite de l'apprentissage supervisé de transformations d'arbres XML. Le langage XML permet de décrire des données sous forme d'arbres dont la structure est définie par un schéma. Il est par conséquent devenu le standard en termes d'échanges de données, que ce soit sur le Web ou entre plusieurs applications. Toutefois, les documents XML peuvent avoir des structures très variables. La grande variété de ces structures nécessite alors d'être capable de transformer de tels arbres. Nous proposons d'effectuer de telles transformations d'arbres XML en annotant les arbres d'entrée, c'est-à-dire en associant un label à chacun de ses noeuds, la sémantique associée aux labels permettant de transformer l'arbre.<br />Afin d'apprendre à effectuer ces transformations, nous adaptons donc dans un premier temps au cas des arbres XML le modèle des champs aléatoires conditionnels ou Conditional Random Fields (CRF). Les CRFs sont un modèle graphique non dirigé conditionnel pour l'annotation : ils modélisent la probabilité conditionnelle d'une annotation sachant une observation. Ils ont, jusqu'à présent, été essentiellement utilisés dans le cadre de tâches d'annotation de séquences, à la fois dans le domaine de l'extraction d'informations ou en traitement automatiques des langues naturelles. Notre adaptation des CRFs au cas de l'annotation d'arbres XML porte à la fois sur le modèle de dépendances et sur les algorithmes d'inférence exacte (recherche de la meilleure annotation) et d'apprentissage.<br />De plus, nous proposons deux méthodes d'amélioration de la complexité de ces algorithmes afin de permettre l'utilisation des champs aléatoires conditionnels dans le cadre d'applications à grande échelle. Ces méthodes s'appuient toutes deux sur l'utilisation des connaissances du domaine. La première consiste en l'intégration de contraintes sur l'annotation. Celles-ci viennent restreindre l'espace des annotations possibles d'un arbre en interdisant des configurations de labels. La seconde technique d'amélioration de la complexité que nous proposons consiste en l'approximation d'un CRF par la composition de plusieurs CRFs de complexité moindre, définis sur des sous-parties de l'alphabet des labels.<br />Ces travaux ont été validés par diverses expériences sur des données artificielles et réelles, montrant ainsi non seulement la qualité des transformations effectuées à l'aide de nos méthodes, mais aussi leur intérêt dans des tâches réelles. Ces bons résultats nous ont conduit à réaliser une application de génération automatique de flux RSS à partir de pages Web. Celle-ci permet à son utilisateur d'apprendre un générateur de flux RSS en annotant une ou plusieurs pages d'un site Web. Ce générateur consiste en un CRF qui annote les pages Web de ce site de façon à transformer l'arbre XHTML en un arbre XML au format RSS. Il permet alors de créer automatiquement des flux RSS pour toute autre page du même site. Cette application est disponible à l'adresse suivante : http://r2s2.futurs.inria.fr/
|
110 |
Vers un système d'aide à la décision pour la conception en génie logiciel : une approche basée sur les connaissancesBouslama, Rana 10 1900 (has links) (PDF)
Les métriques logicielles jouent un rôle très important dans la prédiction de la qualité. Elles aident les gestionnaires dans la prise de décisions afin de budgétiser, contrôler, estimer le coût et analyser les risques d'un produit au cours de son développement. Dans ce travail, nous proposons une approche basée sur les connaissances pour analyser et estimer des facteurs de qualité dans des systèmes à objets. Pour concrétiser notre approche, nous avons construit un prototype regroupant les fonctionnalités de deux logiciels. Nous avons utilisé le logiciel Weka pour faire l'apprentissage automatique de connaissances et ainsi construire des modèles prédictifs. Ensuite, nous avons traduit ces modèles en un système à base de règle JRules, pour la prédiction et la prise de décision. Ces deux fonctions principales sont offertes pour deux types d'utilisateur : un débutant et un expert dans le domaine de la conception en génie logiciel. Le rôle principal de l'expert est de valider un tel modèle prédictif. Nous avons expérimenté notre prototype sur des bases de données qui représentent des mesures de métriques récoltées sur des logiciels fonctionnels. Les résultats obtenus dans le cadre de différentes expériences permettent de prédire et d'estimer certains facteurs de qualité tels que la maintenabilité, la réutilisabilité et la prédisposition aux fautes.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : Qualité du logiciel, apprentissage automatique, base de connaissances, modèles prédictifs, système à base de règles, prise de décision.
|
Page generated in 0.1039 seconds