1 |
Extraction automatique de filtres dans le cadre de la production automatique de résumésTout, Mazen January 2001 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
2 |
Résumé automatique de texte arabeDouzidia, Fouad Soufiane January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
3 |
Résumé automatique de textes juridiquesFarzindar, Atefeh January 2004 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
4 |
Résumé automatique des commentaires de consommateursFeiguina, Olga January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
5 |
Génération automatique de résumés par analyse sélectiveSaggion, Horacio January 2000 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
6 |
Indexation aléatoire et similarité inter-phrases appliquées au résumé automatique / Random indexing and inter-sentences similarity applied to automatic summarizationVu, Hai Hieu 29 January 2016 (has links)
Face à la masse grandissante des données textuelles présentes sur le Web, le résumé automatique d'une collection de documents traitant d'un sujet particulier est devenu un champ de recherche important du Traitement Automatique des Langues. Les expérimentations décrites dans cette thèse s'inscrivent dans cette perspective. L'évaluation de la similarité sémantique entre phrases est l'élément central des travaux réalisés. Notre approche repose sur la similarité distributionnelle et une vectorisation des termes qui utilise l'encyclopédie Wikipédia comme corpus de référence. Sur la base de cette représentation, nous avons proposé, évalué et comparé plusieurs mesures de similarité textuelle ; les données de tests utilisées sont celles du défi SemEval 2014 pour la langue anglaise et des ressources que nous avons construites pour la langue française. Les bonnes performances des mesures proposées nous ont amenés à les utiliser dans une tâche de résumé multi-documents, qui met en oeuvre un algorithme de type PageRank. Le système a été évalué sur les données de DUC 2007 pour l'anglais et le corpus RPM2 pour le français. Les résultats obtenus par cette approche simple, robuste et basée sur une ressource aisément disponible dans de nombreuses langues, se sont avérés très encourageants / With the growing mass of textual data on the Web, automatic summarization of topic-oriented collections of documents has become an important research field of Natural Language Processing. The experiments described in this thesis were framed within this context. Evaluating the semantic similarity between sentences is central to our work and we based our approach on distributional similarity and vector representation of terms, with Wikipedia as a reference corpus. We proposed several similarity measures which were evaluated and compared on different data sets: the SemEval 2014 challenge corpus for the English language and own built datasets for French. The good performance showed by our measures led us to use them in a multi-document summary task, which implements a pagerank-type algorithm. The system was evaluated on the DUC 2007 datasets for English and RPM2 corpus for French. This simple approach, based on a resource readily available in many languages, proved efficient, robust and the encouraging outcomes open up real prospects of improvement.
|
7 |
Applications exploratoires des modèles de spins au traitement automatique de la langue / Exploratory applications of spin models in Natural Language ProcessingFernández Sabido, Silvia Fidelina 22 May 2009 (has links)
Dans cette thèse nous avons exploré la capacité des modèles magnétiques de la physique statistique à extraire l'information essentielle contenue dans les textes. Les documents ont été représentés comme des ensembles d'unités en interaction magnétique, l'intensité de telles interactions a été mesurée et utilisée pour calculer de quantités qui sont des indices de l'importance de l'information portée. Nous proposons deux nouvelles méthodes. Premièrement, nous avons étudié un modèle de spins qui nous a permis d'introduire l'énergie textuelle d'un document. Cette quantité a été utilisée comme indicatrice de pertinence et appliquée à une vaste palette de tâches telles que le résumé automatique, la recherche d'information, la classification de documents et la segmentation thématique. Par ailleurs, et de façon encore exploratoire, nous proposons un deuxième algorithme qui définie un couplage grammatical pour conserver les termes importants et produire des contractions. De cette façon, la compression d'une phrase est l'état fondamental de la chaîne de termes. Comme cette compression n'est pas forcement bonne, il a été intéressant de produire des variantes en permettant des fluctuations thermiques. Nous avons fait des simulations Métropolis Monte-Carlo avec le but de trouver l'état fondamental de ce système qui est analogue au verre de spin. / In this thesis we explored the ability of magnetic models of statistical physics to extract the essential information contained in texts. Documents are represented as sets of interacting magnetic units, the intensity of such interactions are measured and they are used to calculate quantities that are evidence of the importance of information scope. We propose two new methods. Firstly, we studied a spin model which allowed us to introduce the textual energy. This quantity was used as an indicator of information relevance. Several adaptations were necessary to adapt the energy calculation to a wide range of tasks such as summarisation, information retrieval, document classification and thematic segmentation. Furthermore, and even exploratory, we propose a second algorithm that defines a grammatical coupling between types of terms to retain the important terms and produce contractions. In this way, the compression of a sentence is the ground state of the chain of terms. As this compression is not necessarily good, it was interesting produce variants by thermal fluctuations. We have done simulations Metropolis Monte-Carlo with the aim of finding the ground state of this system that is analogous to spin glass.
|
8 |
Étude empirique des commentaires et application des techniques de résumé par extraction pour la redocumentationHaouari, Dorsaf 08 1900 (has links)
La documentation des programmes aide les développeurs à mieux comprendre le code source pendant les tâches de maintenance. Toutefois, la documentation n’est pas toujours disponible ou elle peut être de mauvaise qualité. Le recours à la redocumentation s’avère ainsi nécessaire.
Dans ce contexte, nous proposons de faire la redocumentation en générant des commentaires par application de techniques de résumé par extraction.
Pour mener à bien cette tâche, nous avons commencé par faire une étude empirique pour étudier les aspects quantitatifs et qualitatifs des commentaires. En particulier, nous nous sommes intéressés à l’étude de la distribution des commentaires par rapport aux différents types d’instructions et à la fréquence de documentation de chaque type. Aussi, nous avons proposé une taxonomie de commentaires pour classer les commentaires selon leur contenu et leur qualité.
Suite aux résultats de l’étude empirique, nous avons décidé de résumer les classes Java par extraction des commentaires des méthodes/constructeurs. Nous avons défini plusieurs heuristiques pour déterminer les commentaires les plus pertinents à l’extraction. Ensuite, nous avons appliqué ces heuristiques sur les classes Java de trois projets pour en générer les résumés. Enfin, nous avons comparé les résumés produits (les commentaires produits) à des résumés références (les commentaires originaux) en utilisant la métrique ROUGE. / Programs documentation is very useful to programmers during maintenance tasks, especially for program comprehension. However, the documentation is not always available or it may be badly written. In such cases, redocumentation becomes so necessary.
In this work, we propose a redocumentation technique that consists in generating comments by using extraction summary techniques.
For this purpose, we conducted an empirical study to analyze the quantitave and qualitative aspects of comments. Particularly, we were interested in studying comment distribution over different types of construct and studying the frequency of documentation for each construct type. We propose a comment taxonomy to classify them according to their content and quality.
Given the results of the empirical study, we decided to summarize Java classes by extracting the comments of methods and constructors. We defined several heuristics in order to determine the most relevant comments to be extracted. After that, we applied these heuristics to Java classes from three projects in order to generate summaries. Finally, we compared the generated summaries (generated comments) to the reference ones (original comments) by using the metric ROUGE.
|
9 |
Contributions en faveur d'une meilleure personnalisation de la recherche d'informations - Applications à la tâche questions-réponses, à la recherche de documents audio et à l'accessibilité pour des personnes dyslexiquesBellot, Patrice 04 December 2008 (has links) (PDF)
Dans un article récent sur les enjeux de la recherche d'informations, Belkin (2008) rappelle que la question de la personnalisation est annoncée comme majeure depuis une vingtaine d'années mais que la plupart des tentatives vers une étude systématique ont échoué. S'il n'est pas question de prétendre que les évaluations TREC Interactive puis TREC Hard et TREC ciQA, pour ne mentionner qu'elles, n'ont abouti à rien dans ce domaine, force est de constater que l'utilisateur n'intervient que très peu dans les systèmes de recherche de l'Internet et qu'aussi bien des paradigmes d'évaluation que des stratégies efficaces restent encore à trouver. <br /><br />Dans les différents chapitres qui constituent ce mémoire d'Habilitation, nous présentons trois directions vers une personnalisation de la recherche d'informations. La première correspond à une analyse du besoin en information d'un utilisateur qui permet de distinguer recherche documentaire et recherche de réponses précises sachant que celles-ci peuvent être des informations factuelles, des définitions ou des explications. Cette distinction correspond à celle entre Recherche d'informations (RI) et questions-réponses (QR) mais, pour être utilisables, les systèmes correspondants devront être fusionnés. En outre, il sera utile d'inciter l'utilisateur à changer ses habitudes pour laisser de côté les requêtes mots-clés et (re)venir à des requêtes en langue naturelle. Les solutions logicielles que nous avons développées ont été évaluées dans le cadre des campagnes TREC, CLEF et EQUER.<br /><br />La seconde direction que nous avons suivie est celle de l'aide à la navigation dans de grandes bases documentaires mélangeant fichiers audio et textes. Elle consiste à définir une interface homme-machine permettant un survol chronologique, par l'exploitation de méthodes de reconnaissance de la parole, d'indexation sémantique (LSI), de segmentation thématique et de résumé automatique (campagne d'évaluation DUC), des documents de la collection. Les techniques d'indexation en jeu n'exploitent pas la totalité des traits propres à l'audio (prosodie, hésitations...) et cela fera l'objet de travaux futurs. L'objectif étant de parvenir à des systèmes multimodaux dans lesquels les documents audio ne sont pas \textit{noyés} parmi des documents texte plus nombreux et plus verbeux.<br /><br />La troisième direction consiste à prendre en compte la capacité de lecture et d'écriture d'un utilisateur dans le calcul du score de pertinence d'un document vis à vis d'une requête. Les avancées les plus récentes de la technique et de l'imagerie médicale nous offrent des modélisations plausibles de nos fonctionnements cognitifs dont nous pouvons nous inspirer afin de simuler l'humain dans des domaines tels que le langage et la pensée. Nous nous sommes plus particulièrement intéressé aux modèles cognitifs de la lecture et à la tentative de les exploiter afin de définir des systèmes de recherche d'informations capables d'estimer l'effort nécessaire à la compréhension d'un document et d'être suffisamment robustes pour accepter des requêtes mal orthographiées. Les modèles de recherche d'informations usuels permettent d'ordonner des documents en fonction de la quantité d'informations qu'ils véhiculent vis à vis de ce que l'utilisateur a exprimé dans sa requête tout en tenant compte, dans le meilleur des cas, du taux de nouveautés apportées par rapport à d'autres documents déjà connus. Il s'agit d'une vision purement informationnelle de la pertinence posant l'hypothèse que plus le nombre d'informations nouvelles est grand, plus le document est susceptible d'intéresser l'utilisateur. Cela s'avère exact dans une certaine mesure mais ne tient pas compte du fait que les besoins sont différents suivant le niveau d'expertise de l'utilisateur : une personne novice dans un domaine sera certainement plus intéressée par un document de vulgarisation que par une étude approfondie, au vocabulaire et à la structure complexes. Cela est vrai à plus forte raison pour des personnes ayant des difficultés élevées de lecture tels les dylsexiques. Il s'agit alors de définir de nouvelles mesures prenant en compte cet aspect tout en offrant la possibilité de présenter d'abord les documents les plus "simples", les plus "lisibles".<br /><br />La problématique de la personnalisation et de la prise en compte de l'utilisateur en recherche d'informations renvoie naturellement à celle, bien plus large, des fondements du traitement automatique des langues, au croisement de la linguistique et de l'informatique, toutes deux rejointes par la psycholinguistique et la psychologie cognitive pour l'étude des comportements individuels, les neurosciences pour l'étude des racines physiologiques du langage mais aussi par la sémiologie pour des analyses globales des usages et des significations. Ce croisement pluridisciplinaire est un enjeu majeur des années à venir si l'on veut aller au-delà, pour paraphraser K. Sparck-Jones, de la seule étude permettant d'espérer (et encore ne s'agit-il que d'un espoir sans même être convaincu de la significativité des gains) grappiller quelques points de précision en recherche ad-hoc.<br /><br />Il va de soi que les recherches présentées correspondent à un travail d'équipe. Elles sont ainsi l'\oe uvre des activités conduites au LIA depuis septembre 2000, et notamment, en respectant l'ordre chronologique, celles de Laurent Gillard, Benoît Favre et Laurianne Sitbon dont j'ai co-encadrées les thèses de Doctorat avec Marc El-Bèze (Université d'Avignon et des Pays de Vaucluse), Jean-François Bonastre (Université d'Avignon et des Pays de Vaucluse) et Philippe Blache (CNRS et Université Aix-Marseille).
|
10 |
FILTRAGE SEMANTIQUE DE TEXTES<br />PROBLEMES, CONCEPTION ET REALISATION <br />D'UNE PLATE-FORME INFORMATIQUEMinel, Jean-Luc 31 January 2002 (has links) (PDF)
L'expérience du résumé automatique m'a amené à élargir le champ de mes recherches en visant non plus de simples résumés automatiques non ciblés, mais des systèmes automatiques de filtrage sémantique d'informations, adaptés aux besoins spécifiques d'une tâche d'identification. Divers travaux menés parallèlement dans l'équipe LALIC depuis plusieurs années ont en effet permis d'identifier une même problématique qui relève du filtrage sémantique dans des textes. <br />Ce filtrage sémantique se fonde sur la méthode d'exploration contextuelle. Il s'effectue en exploitant des connaissances purement textuelles, indépendantes d'un domaine particulier, ce qui signifie que nous ne cherchons pas à construire des ontologies. Ces connaissances s'expriment sous forme de marqueurs linguistiques discursifs explicites d'une notion sémantique et sont organisées pour des tâches précises. L'exploitation de ces connaissances a pour finalité d'attribuer une ou plusieurs valeurs sémantiques à une unité textuelle. Il devient ainsi possible de produire un extrait textuel en « filtrant » les unités textuelles étiquetées selon le point de vue adopté. En d'autres termes, le filtrage sémantique est un moyen pour fouiller un texte selon le point de vue d'un utilisateur.<br />Ma recherche s'est déployée selon deux axes :<br />• La construction d'un système d'expression de l'exploration contextuelle ;<br />• La conception d'une plate-forme d'ingénierie linguistique, FilText, plate-forme dans laquelle s'inscrivent les concepts et méthodes définis.<br />Je présenterai l'architecture conceptuelle de la plate-forme FilText ainsi que les possibilités offertes par ContextO, instance logicielle de Filtext.<br />Enfin, je montrerais en quoi la problématique du filtrage sémantique d'informations s'étend à d'autres disciplines des sciences humaines dans lesquelles la recherche d'informations dans des textes constitue une activité essentielle des chercheurs.
|
Page generated in 0.0627 seconds