• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 101
  • 19
  • 5
  • 1
  • 1
  • 1
  • Tagged with
  • 130
  • 64
  • 56
  • 53
  • 41
  • 37
  • 30
  • 28
  • 28
  • 22
  • 21
  • 19
  • 19
  • 18
  • 18
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Intégration de ressources lexicales riches dans un analyseur syntaxique probabiliste / Integration of lexical resources in a probabilistic parser

Sigogne, Anthony 03 December 2012 (has links)
Cette thèse porte sur l'intégration de ressources lexicales et syntaxiques du français dans deux tâches fondamentales du Traitement Automatique des Langues [TAL] que sont l'étiquetage morpho-syntaxique probabiliste et l'analyse syntaxique probabiliste. Dans ce mémoire, nous utilisons des données lexicales et syntaxiques créées par des processus automatiques ou par des linguistes afin de donner une réponse à deux problématiques que nous décrivons succinctement ci-dessous : la dispersion des données et la segmentation automatique des textes. Grâce à des algorithmes d'analyse syntaxique de plus en plus évolués, les performances actuelles des analyseurs sont de plus en plus élevées, et ce pour de nombreuses langues dont le français. Cependant, il existe plusieurs problèmes inhérents aux formalismes mathématiques permettant de modéliser statistiquement cette tâche (grammaire, modèles discriminants,...). La dispersion des données est l'un de ces problèmes, et est causée principalement par la faible taille des corpus annotés disponibles pour la langue. La dispersion représente la difficulté d'estimer la probabilité de phénomènes syntaxiques apparaissant dans les textes à analyser mais qui sont rares ou absents du corpus ayant servi à l'apprentissage des analyseurs. De plus, il est prouvé que la dispersion est en partie un problème lexical, car plus la flexion d'une langue est importante, moins les phénomènes lexicaux sont représentés dans les corpus annotés. Notre première problématique repose donc sur l'atténuation de l'effet négatif de la dispersion lexicale des données sur les performances des analyseurs. Dans cette optique, nous nous sommes intéressé à une méthode appelée regroupement lexical, et qui consiste à regrouper les mots du corpus et des textes en classes. Ces classes réduisent le nombre de mots inconnus et donc le nombre de phénomènes syntaxiques rares ou inconnus, liés au lexique, des textes à analyser. Notre objectif est donc de proposer des regroupements lexicaux à partir d'informations tirées des lexiques syntaxiques du français, et d'observer leur impact sur les performances d'analyseurs syntaxiques. Par ailleurs, la plupart des évaluations concernant l'étiquetage morpho-syntaxique probabiliste et l'analyse syntaxique probabiliste ont été réalisées avec une segmentation parfaite du texte, car identique à celle du corpus évalué. Or, dans les cas réels d'application, la segmentation d'un texte est très rarement disponible et les segmenteurs automatiques actuels sont loin de proposer une segmentation de bonne qualité, et ce, à cause de la présence de nombreuses unités multi-mots (mots composés, entités nommées,...). Dans ce mémoire, nous nous focalisons sur les unités multi-mots dites continues qui forment des unités lexicales auxquelles on peut associer une étiquette morpho-syntaxique, et que nous appelons mots composés. Par exemple, cordon bleu est un nom composé, et tout à fait un adverbe composé. Nous pouvons assimiler la tâche de repérage des mots composés à celle de la segmentation du texte. Notre deuxième problématique portera donc sur la segmentation automatique des textes français et son impact sur les performances des processus automatiques. Pour ce faire, nous nous sommes penché sur une approche consistant à coupler, dans un même modèle probabiliste, la reconnaissance des mots composés et une autre tâche automatique. Dans notre cas, il peut s'agir de l'analyse syntaxique ou de l'étiquetage morpho-syntaxique. La reconnaissance des mots composés est donc réalisée au sein du processus probabiliste et non plus dans une phase préalable. Notre objectif est donc de proposer des stratégies innovantes permettant d'intégrer des ressources de mots composés dans deux processus probabilistes combinant l'étiquetage ou l'analyse à la segmentation du texte / This thesis focuses on the integration of lexical and syntactic resources of French in two fundamental tasks of Natural Language Processing [NLP], that are probabilistic part-of-speech tagging and probabilistic parsing. In the case of French, there are a lot of lexical and syntactic data created by automatic processes or by linguists. In addition, a number of experiments have shown interest to use such resources in processes such as tagging or parsing, since they can significantly improve system performances. In this paper, we use these resources to give an answer to two problems that we describe briefly below : data sparseness and automatic segmentation of texts. Through more and more sophisticated parsing algorithms, parsing accuracy is becoming higher for many languages including French. However, there are several problems inherent in mathematical formalisms that statistically model the task (grammar, discriminant models,...). Data sparseness is one of those problems, and is mainly caused by the small size of annotated corpora available for the language. Data sparseness is the difficulty of estimating the probability of syntactic phenomena, appearing in the texts to be analyzed, that are rare or absent from the corpus used for learning parsers. Moreover, it is proved that spars ness is partly a lexical problem, because the richer the morphology of a language is, the sparser the lexicons built from a Treebank will be for that language. Our first problem is therefore based on mitigating the negative impact of lexical data sparseness on parsing performance. To this end, we were interested in a method called word clustering that consists in grouping words of corpus and texts into clusters. These clusters reduce the number of unknown words, and therefore the number of rare or unknown syntactic phenomena, related to the lexicon, in texts to be analyzed. Our goal is to propose word clustering methods based on syntactic information from French lexicons, and observe their impact on parsers accuracy. Furthermore, most evaluations about probabilistic tagging and parsing were performed with a perfect segmentation of the text, as identical to the evaluated corpus. But in real cases of application, the segmentation of a text is rarely available and automatic segmentation tools fall short of proposing a high quality segmentation, because of the presence of many multi-word units (compound words, named entities,...). In this paper, we focus on continuous multi-word units, called compound words, that form lexical units which we can associate a part-of-speech tag. We may see the task of searching compound words as text segmentation. Our second issue will therefore focus on automatic segmentation of French texts and its impact on the performance of automatic processes. In order to do this, we focused on an approach of coupling, in a unique probabilistic model, the recognition of compound words and another task. In our case, it may be parsing or tagging. Recognition of compound words is performed within the probabilistic process rather than in a preliminary phase. Our goal is to propose innovative strategies for integrating resources of compound words in both processes combining probabilistic tagging, or parsing, and text segmentation
12

Intégration de ressources lexicales riches dans un analyseur syntaxique probabiliste

Sigogne, Anthony 03 December 2012 (has links) (PDF)
Cette thèse porte sur l'intégration de ressources lexicales et syntaxiques du français dans deux tâches fondamentales du Traitement Automatique des Langues [TAL] que sont l'étiquetage morpho-syntaxique probabiliste et l'analyse syntaxique probabiliste. Dans ce mémoire, nous utilisons des données lexicales et syntaxiques créées par des processus automatiques ou par des linguistes afin de donner une réponse à deux problématiques que nous décrivons succinctement ci-dessous : la dispersion des données et la segmentation automatique des textes. Grâce à des algorithmes d'analyse syntaxique de plus en plus évolués, les performances actuelles des analyseurs sont de plus en plus élevées, et ce pour de nombreuses langues dont le français. Cependant, il existe plusieurs problèmes inhérents aux formalismes mathématiques permettant de modéliser statistiquement cette tâche (grammaire, modèles discriminants,...). La dispersion des données est l'un de ces problèmes, et est causée principalement par la faible taille des corpus annotés disponibles pour la langue. La dispersion représente la difficulté d'estimer la probabilité de phénomènes syntaxiques apparaissant dans les textes à analyser mais qui sont rares ou absents du corpus ayant servi à l'apprentissage des analyseurs. De plus, il est prouvé que la dispersion est en partie un problème lexical, car plus la flexion d'une langue est importante, moins les phénomènes lexicaux sont représentés dans les corpus annotés. Notre première problématique repose donc sur l'atténuation de l'effet négatif de la dispersion lexicale des données sur les performances des analyseurs. Dans cette optique, nous nous sommes intéressé à une méthode appelée regroupement lexical, et qui consiste à regrouper les mots du corpus et des textes en classes. Ces classes réduisent le nombre de mots inconnus et donc le nombre de phénomènes syntaxiques rares ou inconnus, liés au lexique, des textes à analyser. Notre objectif est donc de proposer des regroupements lexicaux à partir d'informations tirées des lexiques syntaxiques du français, et d'observer leur impact sur les performances d'analyseurs syntaxiques. Par ailleurs, la plupart des évaluations concernant l'étiquetage morpho-syntaxique probabiliste et l'analyse syntaxique probabiliste ont été réalisées avec une segmentation parfaite du texte, car identique à celle du corpus évalué. Or, dans les cas réels d'application, la segmentation d'un texte est très rarement disponible et les segmenteurs automatiques actuels sont loin de proposer une segmentation de bonne qualité, et ce, à cause de la présence de nombreuses unités multi-mots (mots composés, entités nommées,...). Dans ce mémoire, nous nous focalisons sur les unités multi-mots dites continues qui forment des unités lexicales auxquelles on peut associer une étiquette morpho-syntaxique, et que nous appelons mots composés. Par exemple, cordon bleu est un nom composé, et tout à fait un adverbe composé. Nous pouvons assimiler la tâche de repérage des mots composés à celle de la segmentation du texte. Notre deuxième problématique portera donc sur la segmentation automatique des textes français et son impact sur les performances des processus automatiques. Pour ce faire, nous nous sommes penché sur une approche consistant à coupler, dans un même modèle probabiliste, la reconnaissance des mots composés et une autre tâche automatique. Dans notre cas, il peut s'agir de l'analyse syntaxique ou de l'étiquetage morpho-syntaxique. La reconnaissance des mots composés est donc réalisée au sein du processus probabiliste et non plus dans une phase préalable. Notre objectif est donc de proposer des stratégies innovantes permettant d'intégrer des ressources de mots composés dans deux processus probabilistes combinant l'étiquetage ou l'analyse à la segmentation du texte
13

Facteurs influençant la levée des ambiguïtés syntaxiques

Colonna, Saveria 28 September 2001 (has links) (PDF)
Cette thèse a pour objectif de répondre à deux questions fondamentales sur la compréhension du langage :<br />Quelle stratégie adopte le lecteur lorsqu'il rencontre une ambiguïté ?<br />Quelles sont les informations utilisées pour résoudre une ambiguïté syntaxique ?<br />Les modèles actuels de la compréhension de phrases ne permettent pas de rendre compte de l'ensemble des données inter-langues observées dans le cas de l'attachement d'une Proposition Relative (PR) ambiguë. Une série d'expériences a donc été réalisée afin de déterminer les facteurs responsables de l'attachement d'une PR. Nous avons utilisé la technique d'enregistrement des mouvements oculaires afin d'appréhender le décours temporel des opérations qui ont lieu pendant la lecture. Nous avons observé que la longueur des constituants influence la préférence d'attachement d'une PR (Expériences 1-4). Pour rendre compte de ces résultats, nous faisons l'hypothèse que certains attachements peuvent être laissés en suspens (sous-spécifiés) en attendant que l'information désambiguïsatrice soit disponible. À partir de cette hypothèse, nous avons implémenté un modèle qui nous permet de simuler nos résultats et de faire de nouvelles hypothèses quant aux facteurs susceptibles d'influencer la préférence d'attachement d'une PR. Ces prédictions ont été vérifiées dans l'Expérience 5. L'idée qu'en cas d'ambiguïté syntaxique, la décision syntaxique peut être reportée est développée dans la théorie Construal (Frazier et Clifton, 1996). Cependant, contrairement à notre modèle qui prédit que tous les constituants peuvent recevoir une description sous-spécifiée, la Construal propose que seules les relations non primaires reçoivent une analyse sous-spécifiée, les relations primaires recevant immédiatement une analyse syntaxique unique et spécifiée. Les Expériences 6-11 révèlent que la distinction entre relations primaires et non primaires proposée par la Construal n'est pas pertinente et nous permettent de conclure en faveur de notre modèle.
14

Elaboration d'un composant syntaxique à base de grammaires d'arbres adjoints pour le vietnamien

Le-Hong, Phuong 22 October 2010 (has links) (PDF)
Cette thèse s'inscrit dans le domaine du traitement automatique des langues naturelles et plus spécifiquement dans celui du traitement du vietnamien. Le travail présenté dans la thèse porte sur la construction d'outils et de ressources linguistiques pour les tâches fondamentales de traitement automatique du vietnamien, notamment la construction d'une grammaire à large couverture et un analyseur syntaxique pour cette langue. Nous développons une chaîne modulaire de prétraitements pour le vietnamien dont le rôle est d'appliquer à des corpus bruts une cascade de traitements de surface. Il s'agit d'un segmenteur en phrases, d'un segmenteur en unités lexicales, d'un reconnaisseur de mots redoublés et d'un étiqueteur morpho-syntaxique. Préalables nécessaires à une possible analyse, ces traitements peuvent également servir à préparer d'autres tâches. La modélisation de la grammaire vietnamienne est effectuée en utilisant le formalisme des grammaires d'arbres adjoints lexicalisées (Lexicalized Tree Adjoining Grammars ou LTAG). Nous développons un système qui extrait automatiquement une grammaire LTAG à partir d'un corpus arboré du vietnamien. Les arbres élémentaires de la grammaire forment les structures syntaxiques de la langue vietnamienne. Nous adaptons et enrichissons un analyseur syntaxique du français pour construire un analyseur syntaxique profond pour le vietnamien. Nous présentons les fondements théoriques des différents modules et systèmes, leurs évaluations quantitatives. Nos systèmes atteignent des performances prometteuses dans les tâches du traitement automatique du vietnamien à l'heure actuelle.
15

SemTAG : une plate-forme pour le calcul sémantique à partir de Grammaires d'Arbres Adjoints

Parmentier, Yannick 06 April 2007 (has links) (PDF)
Dans cette thèse, nous proposons une architecture logicielle (SemTAG) permettant de réaliser un calcul sémantique pour grammaires d'Arbres Adjoints. Plus précisément, cette architecture fournit un environnement permettant de construire une représentation sémantique sous-spécifiée (Predicate Logic Unplugged (Bos, 1995)) à partir d'une grammaire et d'un énoncé.<br /><br />Afin de faciliter la gestion de grammaires de taille réelle, la plate-forme SemTAG intègre un compilateur de métagrammaires. Le rôle de ce compilateur est de produire semi-automatiquement une grammaire à partir d'une description factorisée. Cette description correspond à (a)~une hiérarchie de fragments d'arbres et (b)~des combinaisons de ces fragments au moyen d'un langage de contrôle. De plus, chaque arbre ainsi produit peut être équipé d'une interface syntaxe / sémantique à la (Gardent et Kallmeyer, 2003).<br /><br />La construction sémantique est réalisée à partir du résultat de l'analyse syntaxique. Cette analyse est fournie par un analyseur syntaxique tabulaire généré automatiquement à partir de la grammaire d'entrée au moyen du système DyALog (De La Clergerie, 2005). Cet analyseur produit une forêt de dérivation, qui encode toutes les dérivations, et à partir desquelles les unifications des indexes sémantiques sont extraites.<br /><br />Cette plate-forme a été évaluée en termes de couverture sémantique sur la test-suite TSNLP.
16

Formules booléennes quantifiées : transformations formelles et calculs parallèles

Da Mota, Benoit 03 December 2010 (has links) (PDF)
De nombreux problèmes d'intelligence artificielle et de vérification formelle se ramènent à un test de validité d'une formule booléenne quantifiée (QBF). Mais, pour effectuer ce test les solveurs QBF actuels ont besoin d'une formule sous une forme syntaxique restrictive, comme la forme normale conjonctive ou la forme normale de négation. L'objectif de notre travail est donc de s'affranchir de ces contraintes syntaxiques fortes de manière à utiliser le langage des QBF dans toute son expressivité et nous traitons ce sujet de manière formelle et calculatoire. Notre première contribution est un ensemble d'équivalences et d'algorithmes qui permettent de traiter un motif particulier, les résultats intermédiaires. Ce motif apporte une alternative efficace en espace et en temps de résolution, à la suppression naïve des biimplications et des ou-exclusifs lors de la mise sous forme prénexe. Il offre également de nouvelles possibilités de transformations dans différents fragments du langage QBF. Notre deuxième contribution est d'ordre calculatoire et a pour but d'exploiter la puissance des architectures de calcul parallèles afin de traiter des QBF sans restriction syntaxique. Nous élaborons donc une architecture innovante pour la parallélisation du problème de validité des QBF. Son originalité réside dans son architecture dite de « parallélisation syntaxique » par opposition aux architectures de parallélisation basée sur la sémantique des quantificateurs.
17

Projection d'un analyseur grammatical via alignement bilingue de mots

Khairallah, Ziad January 2005 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
18

Dépendances à distance en français contemporain. : Etude sur corpus "C'est ce qu'on pense qui devrait être fait" / Long distance dependencies in contemporary French. : Corpus based analysis "C'est ce qu'on pense qui devrait être fait"

Berard, Lolita 26 November 2012 (has links)
Notre étude porte sur les séquences « QU- Construction_Verbale_1 que Construction_Verbale_2 » (cf. sous-titre), dans lesquelles on considère traditionnellement que la dépendance entre l'élément QU- et le V2 enchâssé se fait à longue distance. Cette construction a fait l'objet de nombreux travaux et tous concluent que des contraintes en règlent les emplois. Mais ces travaux s'appuient soit sur l'intuition des auteurs ou des locuteurs, soit sur de langues autres que le français.Dans un premier temps, notre étude, basée sur 229 occurrences relevées dans 3M de mots d?oral et 9M de mots d'écrit, cherche à vérifier les hypothèses formulées dans ces travaux (corpus-based). Certaines se révèlent justes : l'élément QU- est toujours sujet, objet ou ajout de V2, le V1 est un verbe fréquent, sémantiquement simple et de valeur modale. En revanche, il n'existe pas de formule prototypique et les V1 n'excluent pas les verbes factifs.Dans un second temps, nous examinons les propriétés syntaxiques, lexicales et pragmatiques de la CV1, jusque là peu étudiée (corpus-driven). Celle-ci se présente sous la forme « sujet pronominal + verbe », ce qui pourrait conforter l'hypothèse de contraintes liées à la performance. Mais la constance de la forme CV1, son sens modal et sa relation avec la CV2 (difficilement pronominalisable), nous invite à considérer que l'ensemble « CV1 que CV2 » est irréductible à un enchâssement et forme un « complexe verbal », une chaîne de verbes comparable à celle des séquences « CV1 CV2_infinitif ». La représentation par bulle proposée par Kahane (2000) rend compte de façon particulièrement naturelle du fait que l'élément QU- est un dépendant local du complexe verbal. / My dissertation focuses on sequences "WH- Verb_Construction1 that Verb_Construction2" (see caption) in which it is traditionally admitted that dependency between the WH- and the embedded VC2 is done at long-distance. This construction has been the subject of numerous studies and all of them conclude that constraints regulate its employment. But these studies are based on either the authors' or speakers' intuition, or on other languages than French.My study is based on 229 utterances extracted from 3M words of spoken French and 9M words of written French. I aim first to confirm the assumptions made in these works (corpus-based). Some are correct: WH- is always a V2 subject, complement or circonstant, V1 is a frequent verb, which is semantically simple and has a modal value. However, there is no prototypique formula and V1 don't exclude factive verbs.In a second step, I examine the syntactic, lexical and pragmatic characteristics of VC1 (corpus-driven). Little research has been done on this topic to date. VC1 occurs as "pronominal subject + verb", which could support the hypothesis of performance constraints. But the constancy of VC1 form, its modal meaning and its relationship with the VC2 (hardly pronominalisable) lead me to consider that the whole "VC1 that VC2" is not an embedded structure but a "complex verb", which is a string of verbs similar to sequences in "VC1 infinitive_VC2". The bubble representation proposed by Kahane (2000) clearly reflects that WH- is a local dependent of the complex verb.
19

Génération automatique de questionnaires à choix multiples pédagogiques : évaluation de l'homogénéité des options / Automatic generation of educational multiple-choice questions : evaluation of option homogeneity

Pho, Van-Minh 24 September 2015 (has links)
Ces dernières années ont connu un renouveau des Environnements Informatiques pour l'Apprentissage Humain. Afin que ces environnements soient largement utilisés par les enseignants et les apprenants, ils doivent fournir des moyens pour assister les enseignants dans leur tâche de génération d'exercices. Parmi ces exercices, les Questionnaires à Choix Multiples (QCM) sont très présents. Cependant, la rédaction d'items à choix multiples évaluant correctement le niveau d'apprentissage des apprenants est une tâche complexe. Des consignes ont été développées pour rédiger manuellement des items, mais une évaluation automatique de la qualité des items constituerait un outil pratique pour les enseignants.Nous nous sommes intéressés à l'évaluation automatique de la qualité des distracteurs (mauvais choix de réponse). Pour cela, nous avons étudié les caractéristiques des distracteurs pertinents à partir de consignes de rédaction de QCM. Cette étude nous a conduits à considérer que l'homogénéité des distracteurs et de la réponse est un critère important pour valider les distracteurs. L'homogénéité est d'ordre syntaxique et sémantique. Nous avons validé la définition de l'homogénéité par une analyse de corpus de QCM, et nous avons proposé des méthodes de reconnaissance automatique de l'homogénéité syntaxique et sémantique à partir de cette analyse.Nous nous sommes ensuite focalisé sur l'homogénéité sémantique des distracteurs. Pour l'estimer automatiquement, nous avons proposé un modèle d'ordonnancement par apprentissage, combinant différentes mesures d'homogénéité sémantique. L'évaluation du modèle a montré que notre méthode est plus efficace que les travaux existants pour estimer l'homogénéité sémantique des distracteurs. / Recent years have seen a revival of Intelligent Tutoring Systems. In order to make these systems widely usable by teachers and learners, they have to provide means to assist teachers in their task of exercise generation. Among these exercises, multiple-choice tests are very common. However, writing Multiple-Choice Questions (MCQ) that correctly assess a learner's level is a complex task. Guidelines were developed to manually write MCQs, but an automatic evaluation of MCQ quality would be a useful tool for teachers.We are interested in automatic evaluation of distractor (wrong answer choice) quality. To do this, we studied characteristics of relevant distractors from multiple-choice test writing guidelines. This study led us to assume that homogeneity between distractors and answer is an important criterion to validate distractors. Homogeneity is both syntactic and semantic. We validated the definition of homogeneity by a MCQ corpus analysis, and we proposed methods for automatic recognition of syntactic and semantic homogeneity based on this analysis.Then, we focused our work on distractor semantic homogeneity. To automatically estimate it, we proposed a ranking model by machine learning, combining different semantic homogeneity measures. The evaluation of the model showed that our method is more efficient than existing work to estimate distractor semantic homogeneity
20

La scalarité de l'intégration syntaxique : étude syntaxique, sémantique et pragmatique de la proposition en "quand"

Saez, Frédérique 22 June 2011 (has links) (PDF)
Cette étude sur les propositions (clauses) introduites par "quand" s'ancre dans une démarche descriptive qui se veut à l'interface entre syntaxe, sémantique et discours. Il s'agit donc dans un premier temps de définir des critères permettant de rendre compte de la syntaxe particulièrement variable de cette structure introduite par quand. Nous nous sommes inspirée des travaux de Smessaert et al. (2005) pour la distinction entre micro- et macro-syntaxe et Berrendonner & Reichler-Béguelin (1989), Berrendonner (1990) et Béguelin (2004) pour la description macro-syntaxique. L'utilisation des ces outils de descriptions nous a permis de sortir de la dichotomie traditionnelle (hypotaxe vs parataxe) par l'intégration d'un niveau intermédiaire (exotaxe, épitaxe et endotaxe) afin d'élaborer un continuum scalaire d'intégration de la clause introduite par "quand", sur l'exemple de ce que propose Lehmann (1988). Ce continuum d'intégration présente une double orientation de l'intégration : de la coalescence au dégroupage et inversement. Ce continuum d'intégration syntaxique de la clause introduite par quand est corroboré par l'interprétation plus ou moins subjective de cette même clause. Nous souhaitons que ce travail soit à l'origine d'une étude plus vaste sur les intégrateurs temporels en français (cependant, alors, en même temps, à ce moment-là etc.) afin de vérifier la constance prévisible de certains phénomènes.

Page generated in 0.0685 seconds