Global ETD Search

141	UNE DESCRIPTION LINGUISTIQUE DU CREOLE GUADELOUPEEN DANS LA PERSPECTIVE DE LA GENERATION AUTOMATIQUE D'ENONCES. Delumeau, Fabrice 14 February 2006 (has links) (PDF) Le but de cette thèse est de proposer une description du créole guadeloupéen dans la perspective de la génération automatique d'énoncés en créole, à partir du français contemporain. En ce qui concerne les domaines phonologique et morphophonologique, les régularités observées se traduisent par des règles (qui rendent compte de ce qu'il convient de nommer la « créolisation synchronique »). En ce qui concerne le domaine syntaxique, l'accent est mis sur les différences entre le français et le créole, et une description formalisée des principales constructions du créole guadeloupéen est présentée. Créole guadeloupéen Description du créole de Guadeloupe Génération automatique d'énoncés Syntaxe Formelle Grammaire d'Arbres Polychromes (GAP) Linguistique Traitement Automatique des Langues Analyse Syntaxique Phonologie Morphophonologie
142	Médiatiser l'annotation pour une herméneutique numérique : AnT&CoW, un collecticiel pour une coopération via l'annotation de documents numériques Lortal, Gaëlle 24 November 2006 (has links) (PDF) Suite au projet CNRS PI-TCAN Mediapro, centré sur les activités coopératives en conception mécanique, le projet Mediannote, dans lequel s'inscrivent nos travaux, se concentre sur l'annotation dans ces activités. Dans un contexte où les échanges médiatisés s'accroissent, le document numérique devient central. Pour soutenir les échanges et la construction d'une interprétation collective autour de ce document, nous proposons d'instrumenter l'annotation - définie comme un fragment de discours à propos d'un texte, un support à l'argumentation -. Nous proposons donc de concevoir un collecticiel pour annoter collectivement des documents numériques et ainsi soutenir l'herméneutique numérique.<br />L'annotation comme support au travail coopératif est envisagée à la fois comme un objet qui relève de l'étiquette et du commentaire et comme une activité qui relève de la communication, de l'indexation et de l'élaboration de discours. La conception de notre collecticiel se fonde sur un modèle d'activité d'annotation qui souligne la dimension interactionnelle et coopérative de l'annotation. Cette démarche guidée par les modèles est enrichie par l'utilisation de corpus qui permet de conserver l'utilisateur final au centre de nos préoccupations. Nous présentons une maquette du collecticiel, AnT&CoW, utilisant des outils de TAL pour le soutien de l'utilisateur à différents niveaux : soutien à la construction de classification et aide à l'indexation. Une première évaluation de cette maquette est également présentée. [INFO:INFO_OH] Computer Science/Other Collecticiel Document numérique Herméneutique Ingénierie des Connaissances Annotation Traitement Automatique des Langues Ressources Termino-Ontologiques Thésaurus
143	Segmentation automatique de parole en phones. Correction d'étiquetage par l'introduction de mesures de confiance Nefti, Samir 16 December 2004 (has links) (PDF) Un système de synthèse de parole par concaténation d'unités acoustiques utilise un dictionnaire de ces unités, construit à partir d'un corpus de parole mono-locuteur segmentée en éléments acoustiques, généralement phonétiques. Pour atteindre une qualité de parole synthétique suffisante, ce dictionnaire doit être richement fourni, et par conséquent nécessite un corpus de plusieurs heures de parole.<br />La segmentation manuelle d'un tel corpus de parole est fastidieuse, d'où l'intérêt de la segmentation automatique. À condition de disposer des transcriptions phonétiques réelles des énoncés, les méthodes automatiques produisent une segmentation de qualité approximativement équivalente à celle d'une segmentation manuelle. Cependant, la transcription manuelle du contenu phonétique du corpus de parole est également fastidieuse.<br />Cette étude concerne la segmentation automatique de parole en phones qui utilise des transcriptions phonétiques automatiquement produites à partir du texte. Elle porte sur la détection et la correction des erreurs d'étiquetage phonétique que contiennent généralement ces transcriptions phonétiques automatiques. Les résultats obtenus dans cette étude sont significativement positifs. Traitement automatique de la parole synthèse automatique de la parole segmentation (Linguistique) tests d'hypothèses (Statistique) reconnaissance automatique de la parole phonétique
144	Mesures de similarité distributionnelle asymétrique pour la détection de l'implication textuelle par généralité Pais, Sebastião 06 December 2013 (has links) (PDF) Textual Entailment vise à capturer les principaux besoins d'inférence sémantique dans les applications de Traitement du Langage Naturel. Depuis 2005, dans la Textual Entailment reconnaissance tâche (RTE), les systèmes sont appelés à juger automatiquement si le sens d'une portion de texte, le texte - T, implique le sens d'un autre texte, l'hypothèse - H. Cette thèse nous nous intéressons au cas particulier de l'implication, l'implication de généralité. Pour nous, il ya différents types d'implication, nous introduisons le paradigme de l'implication textuelle en généralité, qui peut être définie comme l'implication d'une peine spécifique pour une phrase plus générale, dans ce contexte, le texte T implication Hypothèse H, car H est plus générale que T.Nous proposons des méthodes sans surveillance indépendante de la langue de reconnaissance de l'implication textuelle par la généralité, pour cela, nous présentons une mesure asymétrique informatif appelée Asymmetric simplifié InfoSimba, que nous combinons avec différentes mesures d'association asymétriques à reconnaître le cas spécifique de l'implication textuelle par la généralité.Cette thèse, nous introduisons un nouveau concept d'implication, les implications de généralité, en conséquence, le nouveau concept d'implications de la reconnaissance par la généralité, une nouvelle orientation de la recherche en Traitement du Langage Naturel. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Implication Textuelle Mesure Asymétrique Informatif Asymétrique Mesure Association
145	JSreal : un réalisateur de texte pour la programmation web Daoust, Nicolas 09 1900 (has links) La génération automatique de texte en langage naturel est une branche de l’intelligence artificielle qui étudie le développement de systèmes produisant des textes pour différentes applications, par exemple la description textuelle de jeux de données massifs ou l’automatisation de rédactions textuelles routinières. Un projet de génération de texte comporte plusieurs grandes étapes : la détermination du contenu à exprimer, son organisation en structures comme des paragraphes et des phrases et la production de chaînes de caractères pour un lecteur humain ; c’est la réalisation, à laquelle ce mémoire s’attaque. Le web est une plateforme en constante croissance dont le contenu, de plus en plus dynamique, se prête souvent bien à l’automatisation par un réalisateur. Toutefois, les réalisateurs existants ne sont pas conçus en fonction du web et leur utilisation requiert beaucoup de connaissances, compliquant leur emploi. Le présent mémoire de maîtrise présente JSreal, un réalisateur conçu spécifiquement pour le web et facile d’apprentissage et d’utilisation. JSreal permet de construire une variété d’expressions et de phrases en français, qui respectent les règles de grammaire et de syntaxe, d’y ajouter des balises HTML et de les intégrer facilement aux pages web. / Natural language generation, a part of artificial intelligence, studies the development of systems that produce text for different applications, for example the textual description of massive datasets or the automation of routine text redaction. Text generation projects consist of multiple steps : determining the content to be expressed, organising it in logical structures such as sentences and paragraphs, and producing human-readable character strings, a step usually called realisation, which this thesis takes on. The web is constantly growing and its contents, getting progressively more dynamic, are well-suited to automation by a realiser. However, existing realisers are not designed with the web in mind and their operation requires much knowledge, complicating their use. This master’s thesis presents JSreal, a realiser designed specifically for the web and easy to learn and use. JSreal allows its user to build a variety of French expressions and sentences, to add HTML tags to them and to easily integrate them into web pages. / Site web associé au mémoire: http://daou.st/JSreal Génération automatique de texte Réalisation de texte Natural language processing Natural language generation Text realisation
146	Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question Foucault, Nicolas 16 December 2013 (has links) (PDF) Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évaluer son apport. Nous développons et étudions une méthode basée sur une approche de Recherche d'Information pour la sélection de documents en QR. Celle-ci s'appuie sur un modèle de langue et un modèle de classification binaire de texte en catégorie pertinent ou non pertinent d'un point de vue QR. Cette méthode permet de filtrer les documents sélectionnés pour l'extraction de réponses par un système QR. Nous présentons la méthode et ses modèles, et la testons dans le cadre QR à l'aide de RITEL. L'évaluation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menée soit sur des documents complets, soit sur des segments de documents. L'hypothèse suivie est que le contenu informationnel des segments est plus cohérent et facilite l'extraction de réponses. Dans le premier cas, les gains obtenus sont faibles comparés aux résultats de référence (sans filtrage). Dans le second cas, les gains sont plus élevés et confortent l'hypothèse, sans pour autant être significatifs. Une étude approfondie des liens existant entre les performances de RITEL et les paramètres de filtrage complète ces évaluations. Le système de segmentation créé pour travailler sur des segments est détaillé et évalué. Son évaluation nous sert à mesurer l'impact de la variabilité naturelle des pages web (en taille et en contenu) sur la tâche QR, en lien avec l'hypothèse précédente. En général, les résultats expérimentaux obtenus suggèrent que notre méthode aide un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à mener pour rendre ces résultats significatifs, et notamment en utilisant des corpus de questions plus importants. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Traitement automatique des langues Questions-Réponses Recherche d'information RITEL Quaero Séléction de documents Modèle de langue Classification de pages web Segmentation de pages web Apprentissage automatique
147	Analyse syntaxique automatique de l'oral : étude des disfluences Bove, Rémi 25 November 2008 (has links) (PDF) Le but de cette thèse est d'étudier de façon détaillée l'impact des disfluences en français parlé (répétitions, auto-corrections, amorces, etc.) sur l'analyse syntaxique automatique de l'oral et de propose un modèle théorique permettant de les intégrer dans cette analyse. Notre axe de recherche se fonde sur l'hypothèse selon laquelle une analyse détaillée des énoncés oraux (principalement en termes morphosyntaxiques) peut permettre un traitement efficace pour ce type de données, et s'avère incontournable dans une optique de développement d'applications génériques dans le domaine des technologies de la parole. Dans le cadre de ce travail, nous proposons à la fois une étude linguistique détaillée et une stratégie d'analyse syntaxique automatique partielle des disfluences (en syntagmes minimaux non récursifs ou "chunks"). Le corpus final obtenu est ainsi segmenté en chunks non-disfluents d'une part, à côté des chunks disfluents d'autre part après prise en compte des régularités observées dans notre corpus. Les résultats de l'analyse automatique sont finalement évalués de façon quantitative sur le corpus permettant ainsi de valider le modèle théorique de façon empirique. Traitement Automatique des Langues Analyse syntaxique automatique disfluences oral français parlé étiquetage automatique grammaire de chunking linguistique de corpus
148	Contribution des basses fréquences à l'alignement sous-phrastique multilingue : une approche différentielle Lardilleux, Adrien 14 September 2010 (has links) (PDF) L'objectif de cette thèse est de montrer que, contrairement aux idées reçues, les mots de basses fréquences peuvent être mis à profit de façon efficace en traitement automatique des langues. Nous les mettons à contribution en alignement sous-phrastique, tâche qui constitue la première étape de la plupart des systèmes de traduction automatique fondée sur les données (traduction probabiliste ou par l'exemple). Nous montrons que les mots rares peuvent servir de fondement même dans la conception d'une méthode d'alignement sous-phrastique multilingue, à l'aide de techniques différentielles proches de celles utilisées en traduction automatique par l'exemple. Cette méthode est réellement multilingue, en ce sens qu'elle permet le traitement simultané d'un nombre quelconque de langues. Elle est de surcroît très simple, anytime, et permet un passage à l'échelle naturel. Nous comparons notre implémentation, Anymalign, à deux ténors statistiques du domaine sur des tâches bilingues. Bien qu'à l'heure actuelle ses résultats sont en moyenne légèrement en retrait par rapport à l'état de l'art en traduction automatique probabiliste par segments, nous montrons que la qualité propre des lexiques produits par notre méthode est en fait supérieure à celle de l'état de l'art. traitement automatique des langues hapax multilinguisme traduction automatique alignement événements rares
149	Étude des phénomènes itératifs en langue : Inscription discursive et Calcul aspectuo-temporel, vers un traitement automatisé Lebranchu, Julien 15 December 2011 (has links) (PDF) Cette thèse s'inscrit dans le domaine du traitement automatique des langues, et concerne l'étude des phénomènes itératifs en langue. Il s'agit notamment de rendre compte de la sémantique de procès exprimant une répétition (d'événements ou d'états) au sein d'un même texte, tant du point de vue de l'aspect que du temps. Nous avons mené nos travaux dans le cadre d'un travail d'équipe pluridisciplinaire couvrant des orientations linguistiques, logiques et informatiques. Ces travaux reposent sur une double appréhension commune d'un énoncé itératif : une entité événementielle en quelque sorte générique qui est présentée comme répétée dans le temps, d'une part ; l'itération proprement dite, conçue comme ensemble des occurrences du modèle, d'autre part. Nous nous focalisons pour notre part sur deux facettes : l'inscription discursive, en nous reposant sur une modélisation objet de la construction du sens des itérations (Mathet, 2007) ; et le calcul aspectuo-temporel au travers de la Sémantique de la temporalité (SdT) (Gosselin, 2011). Nous menons en premier lieu une étude de corpus, sur des articles de journaux et des œuvres littéraires, qui vise à caractériser l'inscription discursive des phénomènes itératifs. Nous exposons sur cette base leurs propriétés discursives dans la perspective de circonscrire automatiquement les itérations, c'est-à-dire repérer la borne initiale et finale du segment textuel correspondant. Nous établissons également un modèle d'annotation pour cette automatisation permettant in fine d'instancier les itérations au sein du modèle objet. Dans un second temps, nous abordons les phénomènes itératifs sous l'angle du calcul aspectuo-temporel. Fondé sur les travaux de Laurent Gosselin sur le calcul aspectuel des procès semelfactifs, nous étudions les ajustements nécessaires pour l'appliquer aux procès itératifs, en intégrant la notion de double visée aspectuelle issue de la SdT, dans la perspective de l'automatisation du calcul. Enﬁn, nous complétons ces deux aspects de notre travail par l'intégration de nos résultats au sein de TimeML, un formalisme XML de structuration des connaissances temporelles. Traitement Automatique des Langues sémantique temporelle temps et aspect itérations en langue inscription discursive
150	Indexation de textes médicaux par extraction de concepts, et ses utilisations Pouliquen, Bruno 07 June 2002 (has links) (PDF) Nous nous intéressons à l'accès à l'information médicale. Nous avons utilisé un lexique de flexions, dérivations et synonymes de mots spécifiquement créé pour le domaine médical, issu de la base de connaissances "Aide au Diagnostic Médical". Nous avons exploité les mots composés et les associations de mots de ce lexique pour optimiser l'indexation d'une phrase en mots de référence. Nous avons créé un outil d'indexation permettant de reconnaître un concept d'un thésaurus médical dans une phrase en langage naturel. Nous avons ainsi pu indexer des documents médicaux par un ensemble de concepts, ensuite nous avons démontré l'utilité d'une telle indexation en développant un système de recherche d'information et divers outils: extraction de mots-clés, similarité de documents et synthèse automatique de documents. Cette indexation diminue considérablement la complexité de la représentation des connaissances contenues dans les documents en langage naturel. Les résultats des évaluations montrent que cette indexation conserve néanmoins la majeure partie de l'information sémantique. Indexation Médecine Système de recherche d'information Lexique Thésaurus Web

Search results