Spelling suggestions: "subject:"apprentissage automatique"" "subject:"dapprentissage automatique""
231 |
Décision et Cognition en Biomédecine : modèles et IntégrationRialle, Vincent 01 July 1994 (has links) (PDF)
La thématique centrale de ce mémoire concerne l'Intelligence Artificielle appliquée au diagnostic Médical (IAM). Son orientation repose sur des concepts d'apprentissage automatique de décisions plus que de connaissances pré-définies et figées, d'adaptation à de nouvelles situations plus que de comportements répétitifs et stéréotypés. Au goulot d'étranglement que constitue la construction d'une base de connaissances déclaratives, les systèmes préconisés opposent une utilisation intensive des bases de cas, véritables prolongements sur support informatique de la mémoire à long terme du médecin, et conduisent à l'émergence de capacités classificatoires automatisées au moyen d'algorithmes appropriés.<br />L'entreprise consistant à programmer une machine afin qu'elle produise des raisonnements habituellement attendus d'un spécialiste met au premier plan quelques difficiles questions relatives au pourquoi et au comment de tels systèmes. Le constat sinon d'échec du moins d'immenses difficultés de mise en œuvre des systèmes à bases de connaissances déclaratives, ouvrent la porte à un retour en force de l'expérience et de la mémoire cumulée de l'activité décisionnelle du praticien au cours des mois et des années de pratique. Dans cette optique, l'expérience emmagasinée sous forme de bases de cas dans la mémoire de l'ordinateur prend le pas sur la connaissance figée et laborieusement élaborée dans une base de connaissances pour la construction d'un système d'IAM. Des systèmes hybrides — permettant d'associer des connaissances déclarées par le spécialiste et des connaissances apprises automatiquement — constituent en quelque sorte un idéal que l'on s'efforce d'atteindre, notamment dans notre projet ESPRIT-III : MIX.<br />L'introduction de ce mémoire tente de préciser ce passage de la représentation à l'émergence de connaissances qui consacre en quelque sorte l'immersion de l'IAM dans les sciences de la cognition (et qui correspond en gros à mon parcours de chercheur depuis une douzaine d'années). Divers aspects de la problématique générale de la construction de classifieurs y sont abordés et une présentation succincte des diverses approches de l'émergence est proposée (connexionnisme, algorithmique génétique, induction...) et illustrée par le projet COGNIMED.<br />Autour et parfois en marge de cette problématique centrale, s'ordonnent un certain nombre de travaux que j'ai pu conduire ces dernières années dans les domaines de la psychiatrie-psychologie, de l'analyse textuelle et de la "philosophie de l'esprit". Ces travaux sont également évoqués.<br /><br />Le mémoire est structuré en quatre parties principales et une annexe :<br />- Une partie introductive présentant de manière synthétique la thématique générale de recherche ainsi qu'un bref état de l'art du domaine dans lequel se placent mes travaux. La présentation des problèmes et des orientations de ce domaine sera appuyée par une bibliographie propre à l'introduction.<br />- La première partie est consacrée à la description des recherches qui ont été effectuées depuis une dizaine d'années. Outre la description des thèmes de recherche, cette partie inclut la présentation de quelques articles et résumés de travaux.<br />- La deuxième partie donne une liste complète et structurée des publications, communications, posters, etc.<br />- La troisième partie, orientée vers le futur, est consacrée aux projets imminents et aux perspectives de recherche et de développement à moyen terme.<br />- L'annexe présente l'activité d'encadrement d'étudiants de troisième cycle, directement liée aux activités d'enseignement et de recherche.
|
232 |
Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturellesStroppa, Nicolas 04 November 2005 (has links) (PDF)
Le panorama du Traitement Automatique des Langues est dominé par deux familles d'approches~: dans la première, la connaissance linguistique s'exprime sous forme de règles (grammaticales pour le traitement syntaxique, d'inférence pour le traitement sémantique, etc.), et de représentations sur lesquelles ces règles opèrent. La deuxième repose sur l'hypothèse d'un modèle probabiliste sous-jacent aux données, modèle dont les paramètres s'infèrent à partir de corpus de données linguistiques annotées. Ces deux familles de méthodes, bien qu'efficaces pour nombre d'applications, présentent de sérieuses limitations. Pour la première, il s'agit de la difficulté et du coût de construction des bases de connaissances de haute qualité~: les experts sont rares et la connaissance accumulée sur un domaine $X$ ne se transporte pas toujours simplement sur un autre domaine $Y$. Les méthodes probabilistes, quant à elles, ne traitent pas naturellement les objets fortement structurés, ne prévoient pas d'inclusion de connaissances linguistiques explicites, et surtout, reposent lourdement sur le choix a priori d'un certain modèle, puisqu'utilisant principalement des techniques de statistiques paramétriques.<br /><br />Dans le cadre d'un apprentissage automatique de données linguistiques, des modèles inférentiels alternatifs ont alors été proposés qui remettent en cause le principe d'abstraction opéré par les règles ou les modèles probabilistes. Selon cette conception, la connaissance linguistique reste implicitement représentée dans le corpus accumulé. Dans le domaine de l'Apprentissage Automatique, les méthodes suivant les même principes sont regroupées sous l'appellation d'apprentissage \og{}paresseux\fg{}. Ces méthodes reposent généralement sur le biais d'apprentissage suivant~: si un objet $Y$ est \og{}proche\fg{} d'un objet $X$, alors son analyse $f(Y)$ est un bon candidat pour $f(X)$. Alors que l'hypothèse invoquée se justifie pour les applications usuellement traitées en Apprentissage Automatique, la nature structurée et l'organisation paradigmatique des données linguistiques suggèrent une approche légèrement différente. Pour rendre compte de cette particularité, nous étudions un modèle reposant sur la notion de \og{}proportion analogique\fg{}. Dans ce modèle, l'analyse $f(T)$ d'un nouvel objet $T$ s'opère par identification d'une proportion analogique avec des objets $X$, $Y$ et $Z$ déjà connus. L'hypothèse analogique postule ainsi que si \lana{X}{Y}{Z}{T}, alors \lana{$f(X)$}{$f(Y)$}{$f(Z)$}{$f(T)$}. Pour inférer $f(T)$ à partir des $f(X)$, $f(Y)$, $f(Z)$ déjà connus, on résout l'\og{}équation analogique\fg{} d'inconnue $I$~: \lana{$f(X)$}{$f(Y)$}{$f(Z)$}{$I$}.<br /><br /><br />Nous présentons, dans la première partie de ce travail, une étude de ce modèle de proportion analogique au regard d'un cadre plus général que nous qualifierons d'\og{}apprentissage par analogie\fg{}. Ce cadre s'instancie dans un certain nombre de contextes~: dans le domaine des sciences cognitives, il s'agit de raisonnement par analogie, faculté essentielle au c\oe{}ur de nombreux processus cognitifs~; dans le cadre de la linguistique traditionnelle, il fournit un support à un certain nombre de mécanismes tels que la création analogique, l'opposition ou la commutation~; dans le contexte de l'apprentissage automatique, il correspond à l'ensemble des méthodes d'apprentissage paresseux. Cette mise en perspective offre un éclairage sur la nature du modèle et les mécanismes sous-jacents.<br /><br />La deuxième partie de notre travail propose un cadre algébrique unifié, définissant la notion de proportion analogique. Partant d'un modèle de proportion analogique entre chaînes de symboles, éléments d'un monoïde libre, nous présentons une extension au cas plus général des semigroupes. Cette généralisation conduit directement à une définition valide pour tous les ensembles dérivant de la structure de semigroupe, permettant ainsi la modélisation des proportions analogiques entre représentations courantes d'entités linguistiques telles que chaînes de symboles, arbres, structures de traits et langages finis. Des algorithmes adaptés au traitement des proportions analogiques entre de tels objets structurés sont présentés. Nous proposons également quelques directions pour enrichir le modèle, et permettre ainsi son utilisation dans des cas plus complexes.<br /><br /><br />Le modèle inférentiel étudié, motivé par des besoins en Traitement Automatique des Langues, est ensuite explicitement interprété comme une méthode d'Apprentissage Automatique. Cette formalisation a permis de mettre en évidence plusieurs de ses éléments caractéristiques. Une particularité notable du modèle réside dans sa capacité à traiter des objets structurés, aussi bien en entrée qu'en sortie, alors que la tâche classique de classification suppose en général un espace de sortie constitué d'un ensemble fini de classes. Nous montrons ensuite comment exprimer le biais d'apprentissage de la méthode à l'aide de l'introduction de la notion d'extension analogique. Enfin, nous concluons par la présentation de résultats expérimentaux issus de l'application de notre modèle à plusieurs tâches de Traitement Automatique des Langues~: transcription orthographique/phonétique, analyse flexionnelle et analyse dérivationnelle.
|
233 |
Apprentissage de vote de majorité pour la classification supervisée et l'adaptation de domaine : approches PAC-Bayésiennes et combinaison de similaritésMorvant, Emilie 18 September 2013 (has links) (PDF)
De nos jours, avec l'expansion d'Internet, l'abondance et la diversité des données accessibles qui en résulte, de nombreuses applications requièrent l'utilisation de méthodes d'apprentissage automatique supervisé capables de prendre en considération différentes sources d'informations. Par exemple, pour des applications relevant de l'indexation sémantique de documents multimédia, il s'agit de pouvoir efficacement tirer bénéfice d'informations liées à la couleur, au texte, à la texture ou au son des documents à traiter. La plupart des méthodes existantes proposent de combiner ces informations multimodales, soit en fusionnant directement les descriptions, soit en combinant des similarités ou des classifieurs, avec pour objectif de construire un modèle de classification automatique plus fiable pour la tâche visée. Ces aspects multimodaux induisent généralement deux types de difficultés. D'une part, il faut être capable d'utiliser au mieux toute l'information a priori disponible sur les objets à combiner. D'autre part, les données sur lesquelles le modèle doit être appliqué ne suivent nécessairement pas la même distribution de probabilité que les données utilisées lors de la phase d'apprentissage. Dans ce contexte, il faut être à même d'adapter le modèle à de nouvelles données, ce qui relève de l'adaptation de domaine. Dans cette thèse, nous proposons plusieurs contributions fondées théoriquement et répondant à ces problématiques. Une première série de contributions s'intéresse à l'apprentissage de votes de majorité pondérés sur un ensemble de votants dans le cadre de la classification supervisée. Ces contributions s'inscrivent dans le contexte de la théorie PAC-Bayésienne permettant d'étudier les capacités en généralisation de tels votes de majorité en supposant un a priori sur la pertinence des votants. Notre première contribution vise à étendre un algorithme récent, MinCq, minimisant une borne sur l'erreur du vote de majorité en classification binaire. Cette extension permet de prendre en compte une connaissance a priori sur les performances des votants à combiner sous la forme d'une distribution alignée. Nous illustrons son intérêt dans une optique de combinaison de classifieurs de type plus proches voisins, puis dans une perspective de fusion de classifieurs pour l'indexation sémantique de documents multimédia. Nous proposons ensuite une contribution théorique pour des problèmes de classification multiclasse. Cette approche repose sur une analyse PAC-Bayésienne originale en considérant la norme opérateur de la matrice de confusion comme mesure de risque. Notre seconde série de contributions concerne la problématique de l'adaptation de domaine. Dans cette situation, nous présentons notre troisième apport visant à combiner des similarités permettant d'inférer un espace de représentation de manière à rapprocher les distributions des données d'apprentissage et des données à traiter. Cette contribution se base sur la théorie des fonctions de similarités (epsilon,gamma,tau)-bonnes et se justifie par la minimisation d'une borne classique en adaptation de domaine. Pour notre quatrième et dernière contribution, nous proposons la première analyse PAC-Bayésienne appropriée à l'adaptation de domaine. Cette analyse se base sur une mesure consistante de divergence entre distributions permettant de dériver une borne en généralisation pour l'apprentissage de votes de majorité en classification binaire. Elle nous permet également de proposer un algorithme adapté aux classifieurs linéaires capable de minimiser cette borne de manière directe.
|
234 |
Modélisation de fautes et diagnostic pour les circuits mixtes/RF nanométriquesHuang, Ke 16 November 2011 (has links) (PDF)
Le diagnostic de fautes est essentiel pour atteindre l'objectif de temps avant mise sur le marché (time to market) des premiers prototypes de circuits intégrés. Une autre application du diagnostic est dans l'environnement de production. Les informations du diagnostic sont très utiles pour les concepteurs de circuits afin d'améliorer la conception et ainsi augmenter le rendement de production. Dans le cas où le circuit est une partie d'un système d'importance critique pour la sûreté (e.g. automobile, aérospatial), il est important que les fabricants s'engagent à identifier la source d'une défaillance dans le cas d'un retour client pour ensuite améliorer l'environnement de production afin d'éviter la récurrence d'un tel défaut et donc améliorer la sûreté. Dans le cadre de cette thèse, nous avons développé une méthodologie de modélisation et de diagnostic de fautes pour les circuits analogiques/mixtes. Une nouvelle approche basée sur l'apprentissage automatique a été proposée afin de considérer les fautes catastrophiques et paramétriques en même temps dans le diagnostic. Ensuite, nous avons focalisé sur le diagnostic de défauts spot qui sont considérés comme le mécanisme de défauts principal de circuits intégrés. Enfin, la méthodologie du diagnostic proposée a été validée par les données de circuits défectueux fournies par NXP Semiconductors - Netherlands. Mots clés: Diagnostic de fautes, modélisation de fautes, test analogique, analyse de défauts, apprentissage automatique
|
235 |
Réseaux de cliques neuralesGripon, Vincent 20 July 2011 (has links) (PDF)
Nous proposons et développons un modèle original de mémoires associatives s'appuyant sur des réseaux de neurones codés. Les mémoires associatives sont des dispositifs capables d'apprendre des messages binaires puis de les reproduire à partir de fractions de leurs contenus. L'état de l'art est le réseau proposé par Hopfield, dont la diversité de mémorisation - le nombre de messages qu'il peut n mémoriser - est inférieure à 2 log(n) où n est le nombre de neurones dans le réseau. Notre travail a consisté à tirer parti des techniques de codage et de déco- dage correcteur d'erreur, plus précisément celle des codes distribués, afin d'ac- croître considérablement les performances des mémoires associatives. Pour ce faire, nous avons introduit des codes originaux dont les mots de code sont portés par des cliques neurales. Nous montrons que, combinées à des codes locaux par- cimonieux, ces cliques neurales offrent une diversité d'apprentissage qui évolue comme le carré du nombre de neurones. Les gains observés viennent de l'utilisation de la parcimonie à plusieurs é- chelles : d'une part les messages appris sont de longueur bien inférieure à n, d'autre part ils n'utilisent qu'une partie du matériel disponible, que ce soit au niveau des neurones ou de leurs connexions. L'apprentissage est donc localisé, au contraire des réseaux de Hopfield. De plus, ces mémoires bénéficient d'une efficacité - rapport du nombre de bits appris au nombre de bits utilisés - presque maximale. Elles se présentent donc comme une alternative intéressante aux mé- moires indexées classiques. Au delà de l'aspect quantitatif, le modèle que nous proposons offre une plau- sibilité biologique fortement accrue par rapport au modèle de Hopfield. Les con- cepts de cliques neurales, de winner take all, ou encore de synchronisation tem- porelle que ce modèle exploite rejoignent les observations récentes rapportées par la littérature neurobiologique. Par ailleurs, elles pourraient ouvrir la voie à la conception de machines cognitives capables de croiser des informations pour en produire de nouvelles car les cliques neurales sont recouvrantes, par leurs som- mets ou par leurs arêtes.
|
236 |
Mining Intentional Process ModelsKhodabandelou, Ghazaleh 13 June 2014 (has links) (PDF)
Jusqu'à présent, les techniques de fouille de processus ont modélisé les processus en termes des séquences de tâches qui se produisent lors de l'exécution d'un processus. Cependant, les recherches en modélisation du processus et de guidance ont montrée que de nombreux problèmes, tels que le manque de flexibilité ou d'adaptation, sont résolus plus efficacement lorsque les intentions sont explicitement spécifiées. Cette thèse présente une nouvelle approche de fouille de processus, appelée Map Miner méthode (MMM). Cette méthode est conçue pour automatiser la construction d'un modèle de processus intentionnel à partir des traces d'activités des utilisateurs. MMM utilise les modèles de Markov cachés pour modéliser la relation entre les activités des utilisateurs et leurs stratégies (i.e., les différentes façons d'atteindre des intentions). La méthode comprend également deux algorithmes spécifiquement développés pour déterminer les intentions des utilisateurs et construire le modèle de processus intentionnel de la Carte. MMM peut construire le modèle de processus de la Carte avec différents niveaux de précision (pseudo-Carte et le modèle du processus de la carte) par rapport au formalisme du métamodèle de Map. L'ensemble de la méthode proposée a été appliqué et validé sur des ensembles de données pratiques, dans une expérience à grande échelle, sur les traces d'événements des développeurs de Eclipse UDC.
|
237 |
Meta-learning : strategies, implementations, and evaluations for algorithm selection /Köpf, Christian Rudolf. January 1900 (has links)
Thesis (doctorat) -- Universität Ulm, 2005. / Includes bibliographical references (p. 227-248).
|
238 |
Characterizing the neurocognitive mechanisms of arithmetic / Caractérisation des mécanismes neurocognitifs de l'arithmétiquePinheiro Chagas Munhos De Sa Moreira, Pedro 29 November 2017 (has links)
L'arithmétique est une des inventions majeures de l'humanité, mais il nous manque encore une compréhension globale de la façon dont le cerveau calcule les additions et soustractions. J'ai utilisé une nouvelle méthode comportementale basée sur un suivi de trajectoire capable de disséquer la succession des étapes de traitement impliquées dans les calculs arithmétiques. Les résultats sont compatibles avec un modèle de déplacement pas à pas sur une ligne numérique mentale, en commençant par l'opérande le plus grand et en ajoutant ou soustrayant de manière incrémentielle l'opérande le plus petit. Ensuite, j'ai analysé les signaux électrophysiologiques enregistrés à partir du cortex humain pendant que les sujets résolvaient des additions. L'activité globale dans le sillon intrapariétal augmentait au fur et à mesure que les opérandes grossissaient, prouvant son implication dans le calcul et la prise de décision. Étonnamment, les sites dans le gyrus temporal inférieur postérieur ont montré que l’activation initiale diminuait en fonction de la taille du problème, suggérant un engagement dans l'identification précoce de la difficulté de calcul. Enfin, j'ai enregistré des signaux de magnétoencéphalographie pendant que les sujets vérifiaient les additions et soustractions. En appliquant des techniques d'apprentissage automatique, j'ai étudié l'évolution temporelle des codes de représentation des opérandes et fourni une première image complète d'une cascade d'étapes de traitement en cours sous-jacentes au calcul arithmétique. Ainsi, cette dissertation fournit-elle plusieurs contributions sur la façon dont les concepts mathématiques élémentaires sont mis en œuvre dans le cerveau. / Arithmetic is one of the most important cultural inventions of humanity, however we still lack a comprehensive understanding of how the brain computes additions and subtractions. In the first study, I used a novel behavioral method based on trajectory tracking capable of dissecting the succession of processing stages involved in arithmetic computations. Results supported a model whereby single-digit arithmetic is computed by a stepwise displacement on a spatially organized mental number line, starting with the larger operand and incrementally adding or subtracting the smaller operand. In a second study, I analyzed electrophysiological signals recorded from the human cortex while subjects solved addition problems. I found that the overall activity in the intraparietal sulcus increased as the operands got larger, providing evidence for its involvement in arithmetic computation and decision-making. Surprisingly, sites within the posterior inferior temporal gyrus showed an initial burst of activity that decreased as a function of problem-size, suggesting an engagement in the early identification of the calculation difficulty. Lastly, I recorded magnetoencephalography signals while subjects verified additions and subtractions. By applying machine learning techniques, I investigated the temporal evolution of the representational codes of the operands and provided a first comprehensive picture of a cascade of unfolding processing stages underlying arithmetic calculation. Overall, this dissertation provides several contributions to our knowledge about how elementary mathematical concepts are implemented in the brain.
|
239 |
Traitements formels et sémantiques des échanges et des documents textuels liés à des activités collaboratives / Formal and semantic processing of textual exchanges and documents related to collaborative activitiesKalitvianski, Ruslan 20 March 2018 (has links)
Cette thèse s’inscrit dans la problématique de l’extraction de sens à partir de textes et flux textuels, produits dans notre cas lors de processus collaboratifs. Plus précisément, nous nous intéressons aux courriels de travail et aux documents textuels objets de collaboration, avec une première application aux documents éducatifs. La motivation de cet intérêt est d’aider les utilisateurs à accéder plus rapidement aux informations utiles ; nous cherchons donc à les repérer dans les textes. Ainsi, nous nous intéressons aux tâches dans les courriels, et aux fragments de documents éducatifs qui concernent les thèmes de leurs intérêts. Deux corpus, un de courriels et un de documents éducatifs, principalement en français, ont été constitués. Cela était indispensable, car il n’y a pratiquement pas de travaux antérieurs sur ce type de données en français.Notre première contribution théorique est une modélisation générique de la structure de ces données. Nous l’utilisons pour spécifier le traitement formel des documents, prérequis au traitement sémantique. Nous démontrons la difficulté du problème de segmentation, normalisation et structuration de documents en différents formats source, et présentons l’outil SEGNORM, première contribution logicielle de cette thèse. SEGNORM segmente et normalise les documents (en texte brut ou balisé), récursivement et en unités de taille paramétrable. Dans le cas des courriels, il segmente les messages contenant des messages cités en messages individuels, en conservant l’information du chaînage entre les fragments entremêlés. Il analyse également les métadonnées des messages pour reconstruire les fils de discussions, et retrouve dans les citations les messages dont on ne possède pas le fichier source.Nous abordons ensuite le traitement sémantique de ces documents. Nous proposons une modélisation (ontologique) de la notion de tâche, puis décrivons l’annotation d’un corpus de plusieurs centaines de messages issus du contexte professionnel de VISEO et du GETALP. Nous présentons alors la deuxième contribution logicielle de cette thèse, un outil de repérage de tâches et d’extraction de leurs attributs (contraintes temporelles, assignataires, etc.). Cet outil, basé sur une combinaison d’une approche experte et d’apprentissage automatique, est évalué selon des critères classiques de précision, rappel et F-mesure, ainsi que selon la qualité d’usage.Enfin, nous présentons nos travaux sur la plate-forme MACAU-CHAMILO, troisième contribution logicielle, qui aide à l’apprentissage par (1) structuration de documents pédagogiques selon deux ontologies (forme et contenu), (2) accès multilingue à du contenu initialement monolingue. Il s’agit donc de nouveau de structuration selon les deux axes, forme et sens.(1) L’ontologie des formes permet d’annoter les fragments des documents par des concepts comme théorème, preuve, exemple, par des niveaux de difficulté et d’abstraction, et par des relations comme élaboration_de, illustration_de. L’ontologie de domaine modélise les objets formels de l’informatique, et plus précisément les notions de complexité calculatoire. Cela permet de suggérer aux utilisateurs des fragments utiles pour la compréhension de notions d’informatique perçues comme abstraites ou difficiles.(2) L’aspect relatif à l’accès multilingue a été motivé par le constat que nos universités accueillent un grand nombre d’étudiants étrangers, qui ont souvent du mal à comprendre nos cours à cause de la barrière linguistique. Nous avons proposé une approche pour multilingualiser du contenu pédagogique avec l’aide d’étudiants étrangers, par post-édition en ligne de pré-traductions automatiques, puis, si besoin, amélioration incrémentale de ces post-éditions. (Nos expériences ont montré que des versions multilingues de documents peuvent être produites rapidement et sans coût.) Ce travail a abouti à un corpus de plus de 500 pages standard (250 mots/page) de contenu pédagogique post-édité vers le chinois. / This thesis is part of the problematics of the extraction of meaning from texts and textual flows, produced in our case during collaborative processes. More specifically, we are interested in work-related emails and collaborative textual documents, with a first application to educational documents. The motivation for this interest is to help users gain access to useful information more quickly; we hence seek to locate them in the texts. Thus, we are interested in the tasks referred to in the emails, and to the fragments of educational documents which concern the themes of their interests. Two corpora, one of e-mails and one of educational documents, mainly in French, have been created. This was essential because there is virtually no previous work on this type of data in French.Our first theoretical contribution is a generic modeling of the structure of these data. We use it to specify the formal processing of documents, a prerequisite for semantic processing. We demonstrate the difficulty of the problem of segmentation, standardization and structuring of documents in different source formats, and present the SEGNORM tool, the first software contribution of this thesis. SEGNORM segments and normalizes documents (in plain or tagged text), recursively and in units of configurable size. In the case of emails, it segments the messages containing quotations of messages into individual messages, thereby keeping the information about the chaining between the intertwined fragments. It also analyzes the metadata of the messages to reconstruct the threads of discussions, and retrieves in the quotations the messages of which one does not have the source file.We then discuss the semantic processing of these documents. We propose an (ontological) modeling of the notion of task, then describe the annotation of a corpus of several hundred messages originating from the professional context of VISEO and GETALP. We then present the second software contribution of this thesis: the tool for locating tasks and extracting their attributes (temporal constraints, assignees, etc.). This tool, based on a combination of an expert approach and machine learning, is evaluated according to classic criteria of accuracy, recall and F-measure, as well as according to the quality of use.Finally, we present our work on the MACAU-CHAMILO platform, third software contribution, which helps learning by (1) structuring of educational documents according to two ontologies (form and content), (2) multilingual access to content initially monolingual. This is therefore again about structuring along the two axes, form and meaning.(1) The ontology of forms makes it possible to annotate the fragments of documents by concepts such as theorem, proof, example, by levels of difficulty and abstraction, and by relations such as elaboration_of, illustration_of… The domain ontology models the formal objects of informatics, and more precisely the notions of computational complexity. This makes it possible to suggest to the users fragments useful for understanding notions of informatics perceived as abstract or difficult.(2) The aspect related to multilingual access has been motivated by the observation that our universities welcome a large number of foreign students, who often have difficulty understanding our courses because of the language barrier. We proposed an approach to multilingualize educational content with the help of foreign students, by online post-editing of automatic pre-translations, and, if necessary, incremental improvement of these post-editions. (Our experiments have shown that multilingual versions of documents can be produced quickly and without cost.) This work resulted in a corpus of more than 500 standard pages (250 words/page) of post-edited educational content into Chinese.
|
240 |
Modélisation probabiliste de classifieurs d’ensemble pour des problèmes à deux classes / Probabilistic modeling of ensemble classifiers for two classes problemsDong, Yuan 08 July 2013 (has links)
L'objectif de cette thèse est d'améliorer ou de préserver les performances d'un système décisionnel quand l’environnement peut impacter certains attributs de l'espace de représentation à un instant donné ou en fonction de la position géographique de l’observation. S'inspirant des méthodes d'ensemble, notre approche a consisté à prendre les décisions dans des sous-espaces de représentation résultant de projections de l'espace initial, espérant ainsi travailler dans des sous-espaces non impactés. La décision finale est alors prise par fusion des décisions individuelles. Dans ce contexte, trois méthodes de classification (one-class SVM, Kernel PCA et Kernel ECA) ont été testées en segmentation d'images texturées qui constitue un support applicatif parfaitement adéquat en raison des ruptures de modèle de texture aux frontières entre deux régions. Ensuite, nous avons proposé une nouvelle règle de fusion reposant sur un test du rapport de vraisemblance pour un ensemble de classifieurs indépendants. Par rapport au vote majoritaire, cette règle de fusion a montré de meilleures performances face à l'altération de l'espace de représentation. Enfin, nous avons établi un modèle conjoint pour l’ensemble des variables décisionnelles de Bernoulli corrélées associées aux décisions des classifieurs individuels. Cette modélisation doit permettre de lier les performances des classifieurs individuels à la performance de la règle de décision globale et d’étudier et de maîtriser l'impact des changements de l'espace initial sur la performance globale / The objective of this thesis is to improve or maintain the performance of a decision-making system when the environment can impact some attributes of the feature space at a given time or depending on the geographical location of the observation. Inspired by ensemble methods, our approach has been to make decisions in representation sub-spaces resulting of projections of the initial space, expecting that most of the subspaces are not impacted. The final decision is then made by fusing the individual decisions. In this context, three classification methods (one-class SVM, Kernel PCA and Kernel ECA) were tested on a textured images segmentation problem which is a perfectly adequate application support because of texture pattern changes at the border between two regions. Then, we proposed a new fusion rule based on a likelihood ratio test for a set of independent classifiers. Compared to the majority vote, this fusion rule showed better performance against the alteration of the performance space. Finally, we modeled the decision system using a joint model for all decisions based on the assumption that decisions of individual classifiers follow a correlated Bernoulli law. This model is intended to link the performance of individual classifiers to the performance of the overall decision rule and to investigate and control the impact of changes in the original space on the overall performance
|
Page generated in 0.1455 seconds