Global ETD Search

1	Désambiguïsation de corpus monolingues par des approches de type Lesk Vasilescu, Florentina January 2003 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Algorithme de Lesk Dictionnaire électronique WordNet Désambiguïsation automatique Linguistique informatique
2	Les récits de voyage des XIVe et XVe siècles lemmatisés : apports lexicographiques au Dictionnaire du moyen français / Lemmatised travel stories of the 14th and 15th centuries : lexicographic contributions to the Dictionnaire du moyen français Herbert, Capucine 26 February 2016 (has links) À partir d’un corpus lemmatisé de récits de voyage des XIVe et XVe siècles directement écrits en français, nous proposons de réfléchir dans ce travail à une nouvelle méthode d’apports lexicographiques au DMF2012 (Dictionnaire du Moyen Français 2012). Dès ses débuts, le DMF a été conçu en mettant en œuvre une « lexicographie évolutive » (Robert Martin) : il s’est constitué par étapes de travail successives, chacune d’elles donnant lieu à une nouvelle version du dictionnaire, consultable en ligne. Jusqu’à la version de 2009, le DMF était composé essentiellement de lexiques que l’on pouvait consulter groupés ou séparément. Une période de synthèse de ces différents lexiques s’est engagée dans le cadre de la version du DMF2010, ouvrant la voie à une réflexion sur une nouvelle méthode de travail. Était-il encore possible de proposer beaucoup de nouvelles entrées à un dictionnaire en comptant déjà 62 371 ? Comment compléter le plus efficacement possible les articles déjà existants ? Cette thèse expose une méthode d’enrichissement du dictionnaire, de la constitution du corpus à la conception d’un travail lexicographique au format inédit, adapté au DMF2012. Une réflexion est également menée sur l’apport singulier des récits de voyage à la connaissance de la langue de la fin du Moyen Âge. Pour mener à bien cette étude, nous avons utilisé le lemmatiseur LGeRM (Lemmes Graphies et Règles Morphologiques) et son développement, « l’outil glossaire », tous deux conçus par Gilles Souvay, ingénieur-informaticien à l’ATILF (Analyse et Traitement Informatique de la Langue Française). Nous nous sommes interrogée sur leur usage afin d’adopter une démarche de recherche méthodique et efficace. / Based on a lemmatised corpus of travel stories from the 14th and 15th centuries and written in French, this study intends to look at new methods of lexicographic contributions to the DMF2012 (Dictionnaire du moyen français 2012). When it was created, the DMF was conceived with an “evolving lexicography” (Robert Martin) : it was constituted step by step, each one leading to a new version of the dictionary, available on line. Until the 2009 version, the DMF was mostly made of lexicons that could be looked up in groups or separately. A compilation of different lexicons started in the new version of the DMF2010, leading to a reflection on a new method to enrich the dictionary. Was it possible to propose many new terms to a dictionary that already had 62 371 entries ? How could the existing articles be efficiently completed ? This thesis aims at exploring a method to enrich the dictionary, from the compilation of a corpus to the creation of a lexicographic work with a new structure, adapted to the DMF2012. After that work, it is possible to determine the particular contribution of travel stories to the knowledge of the language used at the end of the Middle Ages. To carry out this study, we have used the LGeRM lemmatiser (Lemmes Graphies et Règles Morphologiques) and its expension “outil glossaire”, both developed by Gilles Souvay, a computer engineer at the ATILF (Analyse et Traitement Informatique de la Langue Française). We also had to think about a way to use these tools, leading to a methodical and efficient approach. Moyen français Lemmatisation Dictionnaire électronique Lexique Moyen Âge 447.02
3	Méthodes de segmentation et d'analyse automatique de textes thaï Kosawat, Krit 08 September 2003 (has links) (PDF) Ce travail de thèse a pour objectif de concevoir et réaliser un module informaticolinguistique apte à effectuer des analyses automatiques de textes thaï sous le système INTEX © . Basé fondamentalement sur les langues indo-européennes écrites avec l'alphabet latin, INTEX © rencontre quelques difficultés pour travailler sur une langue très différente comme le thaï. Le problème crucial est la segmentation en mots et en phrases, étant donné que le thaï n'a pas de séparateur de mot : une phrase est écrite en une séquence de lettres continues, et les séparateurs de phrase sont fréquemment ambigus. Aussi avons-nous développé et évalué deux méthodes de segmentation en mots, par expressions rationnelles et par transducteurs à nombre fini d'états, qui découpent respectivement des textes thaï en lettres et en syllabes. Nous avons également créé les dictionnaires électroniques du thaï qui servent à la fois à reconnaître les mots à partir des lettres ou des syllabes et à les étiqueter avec les codes syntaxiques et sémantiques. Deux méthodes de segmentation en phrases thaï, par la ponctuation et par mots-clés, sont également proposées et évaluées. Nous montrons enfin que, grâce à notre travail, INTEX © est capable d'analyser des documents thaï, malgré toutes les difficultés. [INFO:INFO_OH] Computer Science/Other segmentation en mots segmentation en phrases dictionnaire électronique analyse automatique de textes thaï INTEX automate transducteur expression rationnelle
4	Ressources et activités pédagogiques dans un environnement d'aide à l'apprentissage lexical du français langue seconde Selva, Thierry 29 October 1999 (has links) (PDF) La nature même du média informatique tend à privilégier l'autonomie de l'apprenant lors de l'apprentissage d'une langue étrangère. L'examen des environnements lexicaux existants montre que l'autonomie passe par l'incorporation de ressources lexicales en tant que matériaux d'apprentissage et outils d'aide. La partie centrale de ce travail a été de concevoir les ressources adaptées à cet apprentissage et la manière dont celles-ci s'articulent. L'environnement ALEXIA se compose d'un corpus de textes, d'un dictionnaire comme outil d'aide, d'un dictionnaire personnalisé et d'un module d'activités lexicales. Le corpus, constitué de textes récents comprenant plusieurs niveaux de langue, est centré sur un domaine du français courant maîtrisé par tout natif (travail, emploi, chômage). La modélisation de la base de données lexicales s'appuie sur les résultats des recherches en psycholinguistique, montrant que le lexique mental semble être composé de mots reliés entre eux par des liens de nature sémantique et contextuelle. L'interface pour visualiser ces données tient compte des problèmes d'accès lexicaux et tire parti des possibilités du support informatique pour la présentation des différentes informations nécessaires aux apprenants. Corpus et dictionnaire servent de matériaux pour la génération d'activités lexicales : à base de concordances, elles mettent en jeu les relations sémantiques du dictionnaire. Pour cela, il est nécessaire d'effectuer au préalable un étiquetage morpho-syntaxique et sémantique du corpus. Un système d'aide donne des indications pour permettre à l'apprenant de résoudre les exercices et renforce ainsi le rôle pédagogique de l'environnement. Le dictionnaire personnalisé permet d'organiser les mots sélectionnés par l'apprenant dans les textes lors de lectures. Le travail de catégorisation effectué renforce les liens du lexique mental et favorise ainsi la rétention. apprentissage lexical ALAO Français Langue Étrangère dictionnaire électronique réseaux lexicaux corpus lexique mental activités lexicales
5	Description morphosyntaxique et sémantique des adverbes figés en vue d‟un système d‟analyse automatique des textes grecs Stavroula, Voyatzi 06 March 2006 (has links) (PDF) Cette recherche a pour objectif la description systématique et formelle des adverbes figés et semi-figés du grec moderne, abrégés ici en adverbes figés (i.e. κέζα ζηα άγξηα κεζάλπρηα/à l‟aube, ην κήλα πνπ δελ έρεη ΢άββαην/la semaine des quatre jeudis). Notre intention est d‟aboutir à une description aussi exhaustive et explicite que possible en vue de l‟analyse automatique de la langue grecque. La méthodologie du lexique-grammaire (M. Gross 1975, 1990a), s‟appuyant sur les principes de la grammaire transformationnelle harisienne, nous a fourni un modèle de description de la langue naturelle adéquat. Notre étude s‟articule autour de cinq parties. Dans la première partie, nous abordons les deux notions fondamentales qui véhiculent notre recherche : les notions d‟adverbe et de figement. Dans la deuxième partie, nous étudions la composition lexicale d‟un ensemble de 4 880 formes adverbiales figées, recensées à partir des sources éditées et numériques. Nous insistons particulièrement sur les différents types de variations mises en jeu ainsi que sur les problèmes que celles-ci posent lors de la représentation formalisée des adverbes dans le dictionnaire électronique morphologique et les tables du lexique-grammaire. La troisième partie traite l‟analyse syntaxico-sémantique des adverbes figés. En premier lieu, nous distinguons les adverbes figés des compléments formellement similaires mais syntaxiquement différents. En deuxième lieu, nous entreprenons l‟analyse syntaxique des phrases simples à adverbes figés et celle à adverbes de date. La quatrième partie porte sur la classification des adverbes figés, répartis en seize classes morpho-syntaxiquement distinctes. Après avoir exposé les principes théoriques qui régissent notre opération de classification, nous présentons l‟organisation des tables du lexique-grammaire des adverbes figés grecs. Les critères classificatoires, les régularités et les particularités que les classes établies comportent ainsi que les propriétés syntaxico-sémantiques des adverbes figés font également l‟objet de cette partie. La cinquième partie est consacrée à l‟exploitation de nos données linguistiques à des fins de traitement automatique des langues naturelles (TALN). Notre intérêt est focalisé sur la reconnaissance lexicale des adverbes figés et semi-figés dans les textes grecs. Nous présentons en annexe (volume 2) des échantillons représentatifs des tables du lexique-grammaire des adverbes figés et de la grammaire locale des expressions de date. [INFO:INFO_OH] Computer Science/Other adverbe figé adverbe semi-figé adverbe de date classification des adverbes figés propriété syntaxique propriété sémantique propriété transformationnelle dictionnaire électronique morphologique grammaire locale table de lexique-grammaire automate à états finis récursifs
6	Dictionnaire électronique français-quechua des verbes pour le TAL / French-quechua electronic dictionary of verbs for NLP Duran, Maximiliano 24 March 2017 (has links) Le traitement automatique de la langue quechua (TALQ) ne dispose pas actuellement d'un dictionnaire électronique des verbes, du français-quechua. Pourtant, un projet visant la traduction automatique nécessite au préalable, entre autres, cette importante ressource.Cette thèse consiste à élaborer un dictionnaire électronique français-quechua des verbes. La réalisation d'un tel dictionnaire peut ouvrir également de nouvelles perspectives dans l'enseignement à distance, dans les domaines de l'accès multilingue aux informations, l'annotation/l'indexation des documents, la correction orthographique et pour le TAL en général. La première difficulté consiste à sélectionner un dictionnaire français comme base de travail. Parmi les nombreux dictionnaires français, il en existe très peu en format électronique, et moins encore ceux dont les sources soient en libre accès au public. Parmi ces derniers, l'ouvrage Les verbes français (LVF), contenant 25 610 sens verbaux, que Jean Dubois et Françoise Dubois-Charlier ont publié chez Larousse en 1997, est un dictionnaire particulièrement complet ; de plus il a l 'avantage d'avoir une licence « open source » et un format compatible avec la plateforme NooJ. En tenant en compte ces considérations nous avons choisi traduire ce dictionnaire en quechua.Cependant, cette tâche se heurte à un obstacle considérable : le lexique quechua de verbes simples compte moins de l 500 entrées. Comment faire correspondre 25 610 sens verbaux français avec seulement 1 500 verbes quechua ?Sommes-nous condamnés à utiliser beaucoup de polysémies? Par exemple, dans LVF il y a 27 sens verbaux du verbe « tourner » ; doit-on tous les traduire par muyuy ? Ou bien, pouvons-nous utiliser une stratégie particulière et remarquable de la langue pour répondre à ce défi : la génération de nouveaux verbes par dérivation suffixale ?Nous avons inventorié tous les suffixes du quechua qui permettent d'obtenir une forme dérivée possédant le comportement d'un verbe simple. Cet ensemble de suffixes que nous appelons SIP_DRV, contient 27 éléments. Ainsi chaque verbe quechua transitif ou intransitif donne naissance à au moins 27 verbes dérivés. Il reste cependant à formaliser les paradigmes et grammaires qui vont nous permettre d'obtenir les dérivations compatibles avec la morphosyntaxe de la langue. Cela a été réalisé avec NooJ.L'application de ces grammaires nous a permis d'obtenir 40 500 unités linguistiques conjugables (ULAV) à partir de 1 500 verbes simples quechua. Ce résultat encourageant nous permet d'envisager une solution favorable à notre projet de traduction des 25 000 sens verbaux du français en quechua.À ce stade, une nouvelle difficulté apparaît : la traduction en français de cette quantité énorme des formes verbales conjugables générées, dont sa résolution est essentielle pour notre projet de traduire une partie importante des vingt-cinq mille verbes français en quechua.Afin d'obtenir la traduction de ces ULAV, nous avons besoin d'abord de connaître la modalité d'énonciation qu'apporte chaque SIP quand il s'agglutine au radical verbal pour le transformer. Chaque suffixe peut avoir plusieurs modalités d'énonciation. Nous les avons obtenus à partir du corpus, de notre propre expérience et quelques enregistrements dans le terrain. Nous avons ainsi construit un tableau indexé contenant toutes ces modalités. Ensuite, nous utilisons des opérateurs de NooJ pour programmer les grammaires qui présentent la traduction automatique en une forme glosés de modalités d'énonciation.Finalement, nous avons développé un algorithme qui nous a permis d'obtenir la traduction réciproque du français vers le quechua de plus de 8 500 sens verbaux de niveau 3 et un certain nombre de sens verbaux de niveau 4 et 5. / The automatic processing of the Quechua language (APQL) lacks an electronic dictionary of French Quechua verbs. However, any NLP project requires this important linguistic resource.The present thesis proposes such a dictionary. The realization of such a resource couId also open new perspectives on different domains such as multilingual access to information, distance learning,inthe areas of annotation /indexing of documents, spelling correction and eventually in machine translation.The first challenge was the choice of the French dictionary which would be used as our basic reference. Among the numerous French dictionaries, there are very few which are presented in an electronic format, and even less that may be used as an open source. Among the latter, we found the dictionary Les verbes français (LVF}, of Jean Dubois and Françoise Dubois-Charlier, edited by Larousse en 1997. lt is a remarkably complete dictionary. lt contains 25 610 verbal senses and with open source license. lt is entirely compatible with the Nooj platform. That's why we have chosen this dictionary to be the one to translate into Quechua.However, this task faces a considerable obstacle: the Quechua lexicon of simple verbs contains around 1,500 entries. How to match 25,610 French verbal senses with only 1,500 Quechua verbs?Are we condemned to produce many polysemies? For example, in LVF, we have 27 verbal senses of the verb "tourner" to turn; should we translate them all by the Quechua verb muyuy to turn? Or, can we make use of a particular and remarkable Quechua strategy that may allow us to face thischallenge: the generation of new verbs by suffix derivation?As a first step, we have inventoried ail the Quechua suffixes that make possible to obtain a derived verbal form which behaves as if it was a simple verb. This set of suffixes, which we call IPS_DRV, contains 27 elements. Thus each Quechua verb, transitive or intransitive, gives rise to at least 27 derived verbs. Next, we need to formalize the paradigms and grammars that will allow us to obtain derivations compatible with the morphology of the language. This was done with the help of the NooJ platform.The application of these grammars allowed us to obtain 40,500 conjugable atomic linguistic units (CALU) out of 1,500 simple Quechua verbs. This encouraging first result allows us to hope to get a favorable solution to our project of translation of the 25,000 verbal senses of French into Quechua.At this point, a new difficulty appears: the translation into French of this enormous quantity of generated conjugable verbal forms. This work is essential if we want to obtain the translation of a large part of the twenty-five thousand French verbs into Quechua. ln order to obtain the translation of these CALUs, we first needed to know the modalities of enunciation that each IPS have and transmits to the verbal radical when it is agglutinated to it. Each suffix can have several modalities of enunciation. We have obtained an inventory of them from the corpus, our own experience and some recordings obtained in fieldwork. We constructed an indexed table containing all of these modalities.Next, we used NooJ operators to program grammars that present automatic translation into a glossed form of enunciation modalities.Finally, we developed an algorithm that allowed us to obtain the reciprocal translation from French to Quechua of more than 8,500 Verbal senses of Level 3 and a number of verbal senses of Levels 4 and 5. Dictionnaire électronique Quechua Verbes français-quechua Traitement automatique des langues Suffixes quechua NooJ Multi suffixation Dérivation verbale quechua Electronic dictionary French-quechua verbs Natural language processing Quechua suffixes Quechua verbal derivation 402
7	Description de pratiques d’enseignement visant à former les élèves à l’utilisation du dictionnaire électronique en classe de français au secondaire Singcaster, Mélissa 10 1900 (has links) Cette recherche vise à mieux comprendre comment certain·e·s enseignant·e·s de français du secondaire forment leurs élèves à utiliser le dictionnaire électronique en classe en décrivant, d’une part, les savoirs et les savoir-faire liés à son utilisation qui font l’objet d’un enseignement en classe et, d’autre part, les pratiques relatives à l’enseignement de ces savoirs et savoir-faire. Pour parvenir à nos objectifs, nous avons mené des entrevues avec huit enseignant·e·s, qui ont également noté dans un journal de bord, pendant un mois, les activités ou les interventions sollicitant l’utilisation du dictionnaire électronique qu’ils·elles ont réalisées en classe. À la lumière de notre analyse des données, nous avons tracé le portrait des pratiques d’enseignement de chaque enseignant·e, et une comparaison des similitudes et des différences entre les portraits nous a ensuite permis de relever trois profils distincts de pratiques dont le but est de former les élèves à l’utilisation du dictionnaire électronique : 1) l’enseignement spontané, axé sur quelques éléments liés à son utilisation, 2) l’enseignement planifié en début d’année et spontané ensuite, axé sur une plus grande variété d’éléments et, enfin, 3) l’enseignement planifié régulier, qui intègre lui aussi une grande variété d’éléments liés à l’utilisation du dictionnaire électronique, mais qui comprend également des savoirs qui relèvent spécifiquement de l’usage du format électronique. Il ressort de notre étude que l’intégration d’un outil comme le dictionnaire électronique dans les pratiques d’enseignement est un processus long et complexe, et que la richesse des dictionnaires mis à la disposition des enseignant·e·s n’est pas garante d’un enseignement plus riche ou plus varié. À ce titre, nous pensons qu’une formation portant sur l’utilisation du dictionnaire électronique pourrait être utile aux enseignant·e·s en exercice de même qu’aux futurs·e·s enseignant·e·s, car elle leur permettrait de se familiariser avec son utilisation à titre personnel d’abord, une étape essentielle à l’intégration du DÉ dans les pratiques d’enseignement, et à titre pédagogique ensuite. / This research aims to better understand how some French secondary school teachers train their students to use the electronic dictionary in class by determining the knowledge and skills related to its use that are the subject of classroom teaching and by describing the practices related to the teaching of these dictionary skills. To achieve our goals, we conducted interviews with eight teachers, who also noted in a diary, for a month, the activities or interventions requiring the use of the electronic dictionary that they carried out in class. In the light of our data analysis, we drew a portrait of the teaching practices of each teacher, and a comparison of the similarities and differences between the portraits then enabled us to identify three distinct profiles of practices whose goal is to train students to use the electronic dictionary: 1) spontaneous teaching, focusing on a few elements related to its use, 2) teaching planned at the start of the year and spontaneous thereafter, focusing on a greater variety of elements and, finally, 3) regular planned teaching, which also incorporates a wide variety of elements related to the use of the electronic dictionary, but which also includes knowledge that relates specifically to the use of the electronic format. Our study shows that the integration of a tool such as the electronic dictionary into teaching practices is a long and complex process, and that the wealth of dictionaries made available to teachers does not guarantee richer or better teaching. As such, we believe that training on the use of electronic dictionary could be useful for practicing teachers as well as future teachers, because it would allow them to become more familiar with its use in a personal capacity first, and then for educational purposes. dictionnaire électronique pratiques d’enseignement compétence dictionnairique didactique du français intégration des TIC en éducation electronic dictionary teaching practices dictionary skills French didactics ICT integration in education
8	Construction et interrogation de la structure informationnelle d'une base documentaire en français Jacquemin, Bernard 08 December 2003 (has links) (PDF) Cette thèse présente une méthode originale pour identifier et structurer l'information de documents et pour l'interroger. Comme les méthodes linguistiques améliorent les résultats des systèmes actuels, cette approche se base sur des analyses linguistiques et des ressources lexicales. Une analyse grammaticale de haut niveau (morphologique, syntaxique et sémantique) identifie d'abord les éléments d'information et les lie entre eux. Puisque le contexte des requêtes est faible, les textes sont analysés. Puis le contenu des ressources confère aux informations de nombreuses actualisations grâce à des transformations contextuelles : synonymie simple et complexe, dérivations avec adaptation du contexte syntaxique, adjonction de traits sémantiques... Enfin, l'interrogation des textes est testée. Une analyse morpho-syntaxique de la question en identifie les éléments d'information et choisit le type de la réponse attendue. Le fragment de texte contenant ces données constitue la réponse à la question.

Search results