De nombreuses méthodes et techniques d’intelligence artificielle pour l’extraction d'information, la reconnaissance des formes et l’exploration de données sont utilisées pour extraire des résumés automatiquement. En particulier, de nouveaux modèles d'apprentissage automatique semi supervisé avec ajout de connaissance ontologique permettent de choisir des phrases d’un corpus en fonction de leur contenu d'information. Le corpus est considéré comme un ensemble de phrases sur lequel des méthodes d'optimisation sont appliquées pour identifier les attributs les plus importants. Ceux-ci formeront l’ensemble d’entrainement, à partir duquel un algorithme d’apprentissage pourra abduire une fonction de classification capable de discriminer les phrases de nouveaux corpus en fonction de leur contenu d’information. Actuellement, même si les résultats sont intéressants, l’efficacité des modèles basés sur cette approche est encore faible notamment en ce qui concerne le pouvoir discriminant des fonctions de classification. Dans cette thèse, un nouveau modèle basé sur l’apprentissage automatique est proposé et dont l’efficacité est améliorée par un ajout de connaissance ontologique à l’ensemble d’entrainement. L’originalité de ce modèle est décrite à travers trois articles de revues. Le premier article a pour but de montrer comment des techniques linéaires peuvent être appliquées de manière originale pour optimiser un espace de travail dans le contexte du résumé extractif. Le deuxième article explique comment insérer de la connaissance ontologique pour améliorer considérablement la performance des fonctions de classification. Cette insertion se fait par l’ajout, à l'ensemble d’entraînement, de chaines lexicales extraites de bases de connaissances ontologiques. Le troisième article décrit VENCE , le nouveau modèle d’apprentissage automatique permettant d’extraire les phrases les plus porteuses d’information en vue de produire des résumés. Une évaluation des performances de VENCE a été réalisée en comparant les résultats obtenus avec ceux produits par des logiciels actuels commerciaux et publics, ainsi que ceux publiés dans des articles scientifiques très récents. L’utilisation des métriques habituelles de rappel, précision et F_measure ainsi que l’outil ROUGE a permis de constater la supériorité de VENCE. Ce modèle pourrait être profitable pour d’autres contextes d’extraction d’information comme pour définir des modèles d’analyse de sentiments. / Several methods and techniques of artificial intelligence for information extraction, pattern recognition and data mining are used for extraction of summaries. More particularly, new machine learning models with the introduction of ontological knowledge allow the extraction of the sentences containing the greatest amount of information from a corpus. This corpus is considered as a set of sentences on which different optimization methods are applied to identify the most important attributes. They will provide a training set from which a machine learning algorithm will can abduce a classification function able to discriminate the sentences of new corpus according their information content. Currently, even though the results are interesting, the effectiveness of models based on this approach is still low, especially in the discriminating power of classification functions. In this thesis, a new model based on this approach is proposed and its effectiveness is improved by inserting ontological knowledge to the training set. The originality of this model is described through three papers. The first paper aims to show how linear techniques could be applied in an original way to optimize workspace in the context of extractive summary. The second article explains how to insert ontological knowledge to significantly improve the performance of classification functions. This introduction is performed by inserting lexical chains of ontological knowledge based in the training set. The third article describes VENCE , the new machine learning model to extract sentences with the most information content in order to produce summaries. An assessment of the VENCE performance is achieved comparing the results with those produced by current commercial and public software as well as those published in very recent scientific articles. The use of usual metrics recall, precision and F_measure and the ROUGE toolkit showed the superiority of VENCE. This model could benefit other contexts of information extraction as for instance to define models for sentiment analysis.
Identifer | oai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/26076 |
Date | 23 April 2018 |
Creators | Motta, Jesus Antonio |
Contributors | Tourigny, Nicole, Capus, Laurence |
Source Sets | Université Laval |
Language | French |
Detected Language | French |
Type | thèse de doctorat, COAR1_1::Texte::Thèse::Thèse de doctorat |
Format | 1 ressource en ligne (xxiv, 230 pages), application/pdf |
Rights | http://purl.org/coar/access_right/c_abf2 |
Page generated in 0.0027 seconds