Spelling suggestions: "subject:"egmentation mathématique"" "subject:"asegmentation mathématique""
1 |
Résumé automatique de textes juridiquesFarzindar, Atefeh January 2004 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
2 |
Segmentation thématique de texte linéaire et non-supervisée :<br>Détection active et passive des frontières thématiques en FrançaisLabadié, Alexandre 09 December 2008 (has links) (PDF)
Ce travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spéci?quement de l'application de ce dernier à la segmentation thématique de texte. L'originalité de cette thèse consiste à intégrer dans une méthode non-supervisée de segmentation thématique de texte de l'information syntaxique, sémantique et stylistique. Ce travail propose une approche linéaire de la segmentation thématique s'appuyant sur une représentation vectorielle issue de l'analyse morpho-syntaxique et sémantique de la phrase. Cette représentation est ensuite utilisée pour calculer des distances entre segments thématiques potentiels en intégrant de l'information stylistique. Ce travail a donné lieu au développement d'une application qui permet de tester les di?érents paramètre de notre modèle, mais qui propose également d'autres approches testées dans ce travail. Notre modèle a été évaluer de deux manières di?érentes, une évaluation automatique sur la base de textes annotés et une évaluation manuelle. Notre évaluation manuelle a donné lieu à la dé?nition d'un protocole d'évaluation s'appuyant sur des critères précis. Dans les deux cas, les résultats de notre évaluation ont été au niveau, voir même au dessus, des performances des algorithmes les plus populaires de la littérature.
|
3 |
Semantic structuring of video collections fromspeech : segmentation and hyperlinking / Structuration sémantique des collections vidéos à partir du discours : segmentation et création d'hyperliensŞimon, Anca-Roxana 02 December 2015 (has links)
Au cours des dernières années, de nouveaux challenges ont émergé avec la transformation très significative du paysage audiovisuel due à l'émergence de la télévision sur Internet. La décision de ce qui est regardé et dans quel ordre n'appartient en effet plus à la chaîne TV concernée mais à l'utilisateur. De nouveaux moyens facilitant l'accès précis et rapide à l'information souhaitée au sein des quantités toujours croissantes de contenus audiovisuels doivent donc être proposés aux utilisateurs : par exemple, pour repérer un événement spécifique, un fragment d'émission contenant une certaine personnalité ou abordant un sujet particulier, voire pour naviguer successivement entre tous les segments de vidéos abordant ce sujet. Ces fonctionnalités nouvelles et variées impliquent le développement de méthodes novatrices de structuration et d'exploitation des contenus audiovisuels, sujet abordé dans cette thèse. Nous proposons d'une part des techniques automatiques de structuration thématique des données audiovisuelles permettant de révéler l'organisation interne de chaque programme. Nous étudions également les implications de la structure produite sur diverses tâches telles que la création d'hyperliens entre vidéos (afin de permettre une navigation entre fragments d'émissions thématiquement proches) ou la création de résumés automatiques. L'ensemble des travaux menés est effectué sur les transcriptions automatiques de la parole prononcée dans les émissions, afin d'obtenir des solutions génériques, non dédiées à un type de programme particulier. / New challenges emerged in the past years as the audiovisual landscape significantly transformed with the emergence of Internet-based TV. The decision of what to watch and in what order no longer belongs to the TV station but the user. New solutions must be offered to users in order to facilitate precise and quick access to the desired information contained in the ever increasing amounts of audiovisual content: for example, to identify a specific event, a TV show fragment containing a certain public person or addressing a particular topic, or to browse sequentially across all segments of videos addressing this topic. These new and varied features imply the development of innovative methods for structuring and exploiting the audiovisual content, which represent the focus of this thesis. We offer automatic topic structuring techniques of audiovisual data to reveal the internal organization of each program. We also study the implications of the structure produced on various tasks such as creating hyperlinks between videos (to allow navigation between TV show fragments that are thematically related) or creating automatic summaries. All the work is carried out on automatic transcripts of the speech pronounced in TV shows, to achieve generic solutions, not dedicated to a particular kind of show.
|
4 |
Structuration automatique de flux télévisuelsGuinaudeau, Camille 07 December 2011 (has links) (PDF)
L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées.
|
5 |
Vers la conception de documents composites : extraction et organisation de l'information pertinenteLamprier, Sylvain 05 December 2008 (has links) (PDF)
Au cours de ces dernières années, le domaine de la recherche d'information s'est élargi à la mise en place d'applications ne visant plus uniquement à aider l'utilisateur dans sa tâche de localisation des documents pertinents, mais cherchant à lui construire une réponse synthétique permettant de satisfaire ses besoins en information. Dans ce contexte, cette thèse se concentre sur la production d'une entité, appelée document composite, représentant un aperçu des différents types d'information que l'utilisateur pourra trouver, en rapport avec sa requête, dans le corpus interrogé. Après s'être interrogés sur le mode d'extraction et de sélection des fragments de texte à faire figurer dans ce document composite, l'étude réalisée nous a finalement conduits à la mise en place d'un algorithme multi-objectifs, de recherche du sous-ensemble de segments thématiques maximisant conjointement un critère de proximité à la requête et un critère de représentativité des thématiques abordées par les documents considérés. Outre la conception du document composite qui est l'objectif central de cette thèse, les contributions réalisées concernent le découpage des documents et son évaluation, les mesures de pertinence et de similarité des textes, l'impact que peut avoir l'individualisation des thématiques en recherche d'information, le mode d'évaluation des systèmes utilisant un clustering des résultats et enfin, la prise en considération de la requête dans les processus de clustering.
|
6 |
Structuration automatique de documents audio / Automatic structuring of audio documentsBouchekif, Abdesselam 03 November 2016 (has links)
La structuration en thèmes est un domaine de recherche très prisé dans le traitement automatique du langage naturel car elle est le point de départ de plusieurs applications comme la recherche d’information, le résumé automatique et la modélisation des thèmes. Dans cette thèse, nous avons proposé un système de structuration automatique des journaux d’informations. Notre système contient deux modules : segmentation thématique et titrage. La segmentation thématique consiste à effectuer un pavage de l’émission en segments thématiquement homogènes. Ces derniers, sont généralement identifiés par des étiquettes anonymes, c’est alors le rôle du module de titrage d’affecter un titre à chaque segment.Ces travaux ont permis plusieurs contributions originales tel que l’exploitation conjointe de la distribution des mots et des locuteurs (cohésion de la parole) ainsi que l’utilisation des relations sémantiques de type diachronique. Après l’étape de segmentation, nous proposons d’apparier chaque segment avec les articles de presse du même jour. Le titre associé au segment est celui de l’article le plus proche thématiquement. Finalement, nous avons proposé deux nouvelles métriques d’évaluation, l’une pour la segmentation thématique et l’autre pour le titrage. Les expériences sont menées sur trois corpus caractérisés par leur richesse et leur diversité. Ils sont constitués de 168 journaux télévisés issus de 10 chaînes françaises transcrits automatiquement. / The topic structuring is an area that has attracted much attention in the Natural Language Processing community. Indeed, topic structuring is considered as the starting point of several applications such as information retrieval, summarization and topic modeling.In this thesis, we proposed a generic topic structuring system i.e. that has the ability to deal with any TV Broadcast News.Our system contains two steps: topic segmentation and title assignment. Topic segmentation consists in splitting the document into thematically homogeneous fragments. The latter are generally identified by anonymous labels and the last step has to assign a title to each segment.Several original contributions are proposed like the use of a joint exploitation of the distribution of speakers and words (speech cohesion) and also the use of diachronic semantic relations. After the topic segmentation step, the generated segments are assigned a title corresponding to an article collected from Google News during the same day. Finally, we proposed the evaluation of two new metrics, the first is dedicated to the topic segmentation and the second to title assignment.The experiments are carried out on three corpora. They consisted of 168 TV Broadcast News from 10 French channels automatically transcribed. Our corpus is characterized by his richness and diversity.
|
7 |
Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes. Méthode basée sur l'identification automatique des chaînes de référenceLongo, Laurence 12 December 2013 (has links) (PDF)
Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d'un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence - séquence d'expressions référentielles se rapportant à la même entité du discours (e.g. Paul...il...cet homme) - ont fait l'objet d'une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d'introduction, de maintien et de changement thématique). Ainsi, à partir d'une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes, éditoriaux, roman), nous avons développé un module d'identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence.
|
8 |
Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes : méthode basée sur l'identification automatique des chaînes de référence / Toward "intelligent" search engines : an automatic topic detection tool : method based on automatic reference chains identificationLongo, Laurence 12 December 2013 (has links)
Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d’un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence – séquence d’expressions référentielles se rapportant à la même entité du discours (e.g. Paul…il…cet homme) – ont fait l’objet d’une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d’introduction, de maintien et de changement thématique). Ainsi, à partir d’une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes,éditoriaux, roman), nous avons développé un module d’identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence. / This thesis in the field of Natural Language Processing aims at optimizing documents classification in search engines. This work focuses on the development of a tool that automatically detects documents topics (ATDS-fr). Using poor knowledge, the hybrid method combines statistical techniques for topic segmentation and linguistic methods that identify cohesive markers. Among them, reference chains - sequences of referential expressions referring to the same entity (e.g. Paul ... he ... this man) - have been given special attention as they are important topic markers (i.e. they are markers of topic introduction, maintenance and change). Thus, from a study of reference chains extracted from a corpus composed of various textual genres (newspapers, public reports, European laws, editorials and novel) we developed RefGen, an automatic reference chains identification module, which was evaluated according to current coreference metrics.
|
Page generated in 0.1089 seconds