Spelling suggestions: "subject:"maximal marginal relevance"" "subject:"maximal marginal elevance""
1 |
Exploration d'approches statistiques pour le résumé automatique de texteBoudin, Florian 05 December 2008 (has links) (PDF)
Un résumé est un texte reformulé dans un espace plus réduit. Il doit exprimer avec un minimum de mots le contenu essentiel d'un document. Son but est d'aider le lecteur à repérer les informations qui peuvent l'intéresser sans pour autant devoir lire le document en entier. Mais pourquoi avons-nous tant besoin de résumés? Simplement parce que nous ne disposons pas d'assez de temps et d'énergie pour tout lire. La masse d'information textuelle sous forme électronique ne cesse d'augmenter, que ce soit sur Internet ou dans les réseaux des entreprises. Ce volume croissant de textes disponibles rend difficile l'accès à l'information désirée sans l'aide d'outils spécifiques. Produire un résumé est une tâche très complexe car elle nécessite des connaissances linguistiques ainsi que des connaissances du monde qui restent très difficiles à incorporer dans un système automatique. Dans cette thèse de doctorat, nous explorons la problématique du résumé automatique par le biais de trois méthodes statistiques permettant chacune la production de résumés répondant à une tâche différente.<br /><br />Nous proposons une première approche pour la production de résumé dans le domaine spécialisé de la Chimie Organique. Un prototype nommé YACHS a été déve- loppé pour démontrer la viabilité de notre approche. Ce système est composé de deux modules, le premier applique un pré-traitement linguistique particulier afin de tenir compte de la spécificité des documents de Chimie Organique tandis que le second sélectionne et assemble les phrases à partir de critères statistiques dont certains sont spécifiques au domaine. Nous proposons ensuite une approche répondant à la problématique du résumé automatique multi-documents orienté par une thématique. Nous détaillons les adaptations apportées au système de résumé générique Cortex ainsi que les résultats observés sur les données des campagnes d'évaluation DUC. Les résultats obtenus par la soumission du LIA lors des participations aux campagnes d'évaluations DUC 2006 et DUC 2007 sont discutés. Nous proposons finalement deux méthodes pour la génération de résumés mis-à-jour. La première approche dite de maximisation- minimisation a été évaluée par une participation à la tâche pilote de DUC 2007. La seconde méthode est inspirée de Maximal Marginal Relevance (MMR), elle a été évaluée par plusieurs soumissions lors de la campagne TAC 2008.
|
2 |
Résumé automatique de parole pour un accès efficace aux bases de données audioFavre, Benoit 19 March 2007 (has links) (PDF)
L'avènement du numérique permet de stocker de grandes quantités de parole à moindre coût. Malgré les récentes avancées en recherche documentaire audio, il reste difficile d'exploiter les documents à cause du temps nécessaire pour les écouter. Nous tentons d'atténuer cet inconvénient en produisant un résumé automatique parlé à partir des informations les plus importantes. Pour y parvenir, une méthode de résumé par extraction est appliquée au contenu parlé, transcrit et structuré automatiquement. La transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au LIA. Nous complétons cette chaîne de structuration par une segmentation en phrases et une détection des entités nommées, deux caractéristiques importantes pour le résumé par extraction. La méthode de résumé proposée prend en compte les contraintes imposées par des données audio et par des interactions avec l'utilisateur. De plus, cette méthode intègre une projection dans un espace pseudo-sémantique des phrases. Les différents modules mis en place aboutissent à un démonstrateur complet facilitant l'étude des interactions avec l'utilisateur. En l'absence de données d'évaluation sur la parole, la méthode de résumé est évaluée sur le texte lors de la campagne DUC 2006. Nous simulons l'impact d'un contenu parlé en dégradant artificiellement les données de cette même campagne. Enfin, l'ensemble de la chaîne de traitement est mise en œuvre au sein d'un démonstrateur facilitant l'accès aux émissions radiophoniques de la campagne ESTER. Nous proposons, dans le cadre de ce démonstrateur, une frise chronologique interactive complémentaire au résumé parlé.
|
Page generated in 0.0549 seconds