• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 140
  • 15
  • 12
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 174
  • 87
  • 50
  • 47
  • 38
  • 37
  • 36
  • 35
  • 31
  • 30
  • 29
  • 29
  • 28
  • 24
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Les emprunts arabes en hausa dans l'oeuvre poétique de Nana Asma'u (1792-1864) : étude linguistique et statistique / Borrowed Arabic in Hausa in the poetic work of Nana Asma’u (1792-1864) : A linguistic and statistical study

Moutari, Mahaman Sabo 11 July 2016 (has links)
L’incursion de l’Islam en Afrique subsaharienne à partir du IXe siècle, s’est opérée via le commerce transsaharien entre les peuples d’Afrique du Nord et ceux du Sahel. Ce contact entretenu par les caravanes commerciales entre les deux peuples a engendré l’islamisation progressive de la population hausaphone. Sous l’influence de l’arabe, plusieurs vocables sont introduits dans le lexique du hausa. Cet effet islamique s’accompagne d’une révolution dans la production de la littérature arabe-ajami. Grâce à l’adaptation de l’écriture ajami, Nana Asma’u, une polyglotte de renommée écrit au 18e siècle, plusieurs œuvres poétiques dont la plupart sont en langues - hausa, fulfulde et arabe. Sur la base de ces observations, cette thèse se propose d’analyser les emprunts lexicaux arabes dans les œuvres poétiques de l’auteur, et leur intégration dans la langue hausa. Sur le plan méthodologique, notre travail de recherche s’appuie sur la combinaison de deux méthodes : linguistique et statistique ; ce qui nous a permis d’analyser tous les phénomènes afférant au métissage linguistique et culturel dans les œuvre de Nana Asma’u. Notre corpus comprend 15 œuvres poétiques que nous avons lemmatisées en préalable aux calculs statistiques à l’aide du logiciel Excel. Les principaux résultats obtenus sur les formes graphiques, montrent une fréquence d’utilisation très élevée des emprunts arabes. L’association de l’analyse linguistique et des traitements informatiques, nous a permis ainsi de confirmer, de façon formelle et impartiale, que la plupart des emprunts les plus fréquents relèvent de domaines religieux, et donc liés aux lexiques de situation. / The incursion of Islam in Sub-Saharan Africa from the 19th Century was operated through trans-Saharan commerce between the peoples of North Africa and those of the Sahel. This contact, maintained by the commercial caravans of these two peoples engendered the progressive islamisation of the Hausa-speaking populations. Under the influence of Arabic, several terms were introduced into Hausa lexicon. This Islamic effect comes with a revolution in the production of Arabic-Ajami literature. Thanks to the adaptation of Ajami writing, Nana Asma’u, a renowned polyglot, wrote several poetic works in the 18th Century, most of which are in the Hausa, Fulfulde and Arabic languages. On the basis of these observations, this thesis proposes to analyse the borrowed Arabic lexicon in the poetic works of the author, and their integration into the Hausa language. From the methodological perspective, our research work relies on a combination of two methods: linguistic and statistical; which enable us to analyse all the phenomena relating to linguistic and cultural hybridization in the works of Nana Asma’u. Our corpus is made up of poetic works that we have first of all lemmatized using statistical calculations with the help of Excel software. The principal results, obtained in the form graphs, indicate a frequency of very high usage of words borrowed from Arabic. The association of the linguistic and computer analyses enabled us to confirm, in a formal and impartial manner, that most of the frequent borrowings fall under religious domains, and as such linked to situational vocabulary.
92

Modèles et outils pour des bases lexicales "métier" multilingues et contributives de grande taille, utilisables tant en traduction automatique et automatisée que pour des services dictionnairiques variés / Methods and tools for large multilingual and contributive lexical databases, usable as well in machine (aided) translation as for various dictonary services

Zhang, Ying 28 June 2016 (has links)
Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M).Nous commençons par une étude de l'évolution des idées, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et JIBIKI-2 [Zhang, Y. et al., 2014]. Le point de départ a été le système PIVAX-1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques.Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par JIBIKI-2, dont les "liens riches", nous avons transformé PIVAX-1 en PIVAX-2, et réactivé le projet GBDLEX-UW++ commencé lors du projet ANR TRAOUIERO, en réimportant toutes les données (multilingues) supportées par PIVAX-1, et en les rendant disponibles sur un serveur ouvert.Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de PIVAX en y intégrant des volumes de "prolexèmes", comme dans PROLEXBASE [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet INNOVALANGUES. Enfin, nous avons créé un "intergiciel de lemmatisation", LEXTOH, qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CREATDICO, LEXTOH permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous IMAG/SECTRA, ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en MOSES. / Our research is in computational lexicography, and concerns not only the computer support to lexical resources useful for MT (machine translation) and MAHT (Machine Aided Human Translation), but also the linguistic architecture of lexical databases supporting these resources in an operational context (CIFRE thesis with L&M).We begin with a study of the evolution of ideas in this area, since the computerization of classical dictionaries to platforms for building up true "lexical databases" such as JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] and JIBIKI-2 [Zhang, Y. et al., 2014]. The starting point was the PIVAX-1 system [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] designed for lexical bases for heterogeneous MT systems with a lexical pivot, able to support multiple volumes in each "lexical space", be it natural or artificial (as UNL). Considering the industrial context, we focused our research on some issues, in informatics and lexicography.To scale up, and to add some new features enabled by JIBIKI-2, such as the "rich links", we have transformed PIVAX-1 into PIVAX-2, and reactivated the GBDLEX-UW++ project that started during the ANR TRAOUIERO project, by re-importing all (multilingual) data supported by PIVAX-1, and making them available on an open server.Hence a need for L&M for acronyms, we expanded the "macrostructure" of PIVAX incorporating volumes of "prolexemes" as in PROLEXBASE [Tran, M. & Maurel, D., 2006]. We also show how to extend it to meet new needs such as those of the INNOVALANGUES project. Finally, we have created a "lemmatisation middleware", LEXTOH, which allows calling several morphological analyzers or lemmatizers and then to merge and filter their results. Combined with a new dictionary creation tool, CREATDICO, LEXTOH allows to build on the fly a "mini-dictionary" corresponding to a sentence or a paragraph of a text being "post-edited" online under IMAG/SECTRA, which performs the lexical proactive support functionality foreseen in [Huynh, C.-P., 2010]. It could also be used to create parallel corpora with the aim to build MOSES-based "factored MT systems".
93

Rôle des différences interindividuelles dans la reconnaissance visuelle des mots : effets de voisinage orthographique par suppression d’une lettre et de confusabilité d’une lettre substituée / Role of interindividual differences in visual word recognition : effects of deletion orthographic neighborhood and confusability of the substituted letter

Dujardin, Emilie 05 June 2018 (has links)
L’objectif de cette thèse était d’étudier les variations possibles des processus impliqués dans la reconnaissance visuelle des mots selon les différences d’habiletés lexicales de lecteurs adultes (niveaux de lecture, orthographe et vocabulaire). Ainsi, nous avons testé l’effet de fréquence du voisinage orthographique par suppression et par substitution d’une lettre dans des tâches de décision lexicale (Exp. 1, 4), démasquage progressif (Exp. 2, 5), dénomination (Exp. 3, 6), et catégorisation de couleur (Exp. 7). Un effet inhibiteur de fréquence du voisinage orthographique par suppression (Exp. 1-3) et par substitution (Exp. 6) d’une lettre a été obtenu. Les temps de réponse étaient plus longs et les taux d’erreurs plus élevés pour les mots avec au moins un voisin orthographique plus fréquent que pour ceux sans un tel voisin, ce qui peut être expliqué en termes de compétition lexicale. De plus, la compétition lexicale du voisin par suppression d’une lettre était plus importante pour les individus ayant des habiletés lexicales hautes plutôt que basses (Exp. 1, 3), ces derniers individus témoignant de difficultés d’inhibition du compétiteur. Par ailleurs, les individus ayant des habiletés lexicales basses étaient moins rapides et moins précis que ceux ayant des habiletés lexicales hautes (Exp. 1-7). Les données de la tâche de catégorisation (Exp. 7) suggèrent des difficultés dans la mise en place de l’inhibition pour ces individus. Enfin, nous avons montré que l’effet de fréquence du voisinage orthographique était influencé par la confusabilité de la lettre substituée, ce qui différait selon les habiletés lexicales des individus (Exp. 4-6). Dans le cadre théorique de l’activation interactive et de codage spatial des lettres, les données soulignent l’importance des différences d’habiletés lexicales des lecteurs pour rendre compte des différences dans la diffusion de l’activation et de l’inhibition lexicales dans la reconnaissance visuelle des mots. / Word recognition, according to the adult readers’ lexical skill differences (reading, spelling and vocabulary levels). To do so, we tested the orthographic neighborhood frequency effect by deletion and substitution of a letter in lexical decision (Exp.1, 4), progressive demasking (Exp 2, 5), denomination (Exp. 3, 6), and color categorization tasks (Exp.7). Response times were longer and the error rates were higher for words with at least one higher frequency neighbor than for words without such a neighbor, which can be explained in terms of lexical competition. In addition, the lexical competition of the higher-frequency deletion neighbor seems more important for individuals with high lexical skills than for those with low lexical skills (Exp 1, 3), the latter showing difficulties in inhibiting the competitor. Furthermore, individuals with low lexical skills were slower and less accurate than those with high lexical skills (Exp 1-7). Data from the categorization task (Exp. 7) suggest difficulties in setting up inhibition for these individuals. Finally, we have shown that the orthographic neighborhood frequency effect was influenced by the confusability of the substituted letter, differing according to the lexical skills of the individuals (Exp 4-6). In the theoretical framework of activation-interactive and spatial coding, the data highlight the importance of readers’ differences in lexical skills for the diffusion of lexical activation and inhibition in visual word recognition.
94

Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnement

Bernier-Colborne, Gabriel 08 1900 (has links)
L’analyse des relations lexicales est une des étapes principales du travail terminologique. Cette tâche, qui consiste à établir des liens entre des termes dont les sens sont reliés, peut être facilitée par des méthodes computationnelles, notamment les techniques de la sémantique distributionnelle. En estimant la similarité sémantique des mots à partir d’un corpus, ces techniques peuvent faciliter l’analyse des relations lexicales. La qualité des résultats offerts par les méthodes distributionnelles dépend, entre autres, des nombreuses décisions qui doivent être prises lors de leur mise en œuvre, notamment le choix et le paramétrage du modèle. Ces décisions dépendent, à leur tour, de divers facteurs liés à l’objectif visé, tels que la nature des relations lexicales que l’on souhaite détecter; celles-ci peuvent comprendre des relations paradigmatiques classiques telles que la (quasi-)synonymie (p. ex. conserver -> préserver), mais aussi d’autres relations telles que la dérivation syntaxique (p. ex. conserver -> conservation). Cette thèse vise à développer un cadre méthodologique basé sur la sémantique distributionnelle pour l’analyse des relations lexicales à partir de corpus spécialisés. À cette fin, nous vérifions comment le choix, le paramétrage et l’interrogation d’un modèle distributionnel doivent tenir compte de divers facteurs liés au projet terminologique envisagé : le cadre descriptif adopté, les relations ciblées, la partie du discours des termes à décrire et la langue traitée (en l’occurrence, le français ou l’anglais). Nous montrons que deux des relations les mieux détectées par l’approche distributionnelle sont la (quasi-)synonymie et la dérivation syntaxique, mais que les modèles qui captent le mieux ces deux types de relations sont très différents. Ainsi, les relations ciblées ont une influence importante sur la façon dont on doit paramétrer le modèle pour obtenir les meilleurs résultats possibles. Un autre facteur à considérer est la partie du discours des termes à décrire. Nos résultats indiquent notamment que les relations entre verbes sont moins bien modélisées par cette approche que celles entre adjectifs ou entre noms. Le cadre descriptif adopté pour un projet terminologique est également un facteur important à considérer lors de l’application de l’approche distributionnelle. Dans ce travail, nous comparons deux cadres descriptifs, l’un étant basé sur la sémantique lexicale et l’autre, sur la sémantique des cadres. Nos résultats indiquent que les méthodes distributionnelles détectent les termes qui évoquent le même cadre sémantique moins bien que certaines relations lexicales telles que la synonymie. Nous montrons que cet écart est attribuable au fait que les termes qui évoquent des cadres sémantiques comprennent une proportion importante de verbes et aux différences importantes entre les modèles qui produisent les meilleurs résultats pour la dérivation syntaxique et les relations paradigmatiques classiques telles que la synonymie. En somme, nous évaluons deux modèles distributionnels différents, analysons systématiquement l’influence de leurs paramètres et vérifions comment cette influence varie en fonction de divers aspects du projet terminologique. Nous montrons de nombreux exemples de voisinages distributionnels, que nous explorons au moyen de graphes, et discutons les sources d’erreurs. Ce travail fournit ainsi des balises importantes pour l’application de méthodes distributionnelles dans le cadre du travail terminologique. / Identifying semantic relations is one of the main tasks involved in terminology work. This task, which aims to establish links between terms whose meanings are related, can be assisted by computational methods, including those based on distributional semantics. These methods estimate the semantic similarity of words based on corpus data, which can help terminologists identify semantic relations. The quality of the results produced by distributional methods depends on several decisions that must be made when applying them, such as choosing a model and selecting its parameters. In turn, these decisions depend on various factors related to the target application, such as the types of semantic relations one wishes to identify. These can include typical paradigmatic relations such as (near-)synonymy (e.g. preserve -> protect), but also other relations such as syntactic derivation (e.g. preserve -> preservation). This dissertation aims to further the development of a methodological framework based on distributional semantics for the identification of semantic relations using specialized corpora. To this end, we investigate how various aspects of terminology work must be accounted for when selecting a distributional semantic model and its parameters, as well as those of the method used to query the model. These aspects include the descriptive framework, the target relations, the part of speech of the terms being described, and the language (in this case, French or English). Our results show that two of the relations that distributional semantic models capture most accurately are (near-)synonymy and syntactic derivation. However, the models that produce the best results for these two relations are very different. Thus, the target relations are an important factor to consider when choosing a model and tuning it to obtain the most accurate results. Another factor that should be considered is the part of speech of the terms that are being worked on. Among other things, our results suggest that relations between verbs are not captured as accurately as those between nouns or adjectives by distributional semantic models. The descriptive framework used for a given project is also an important factor to consider. In this work, we compare two descriptive frameworks, one based on lexical semantics and another based on frame semantics. Our results show that terms that evoke the same semantic frame are not captured as accurately as certain semantic relations, such as synonymy. We show that this is due to (at least) two reasons: a high percentage of frame-evoking terms are verbs, and the models that capture syntactic derivation most accurately are very different than those that work best for typical paradigmatic relations such as synonymy. In summary, we evaluate two different distributional semantic models, we analyze the influence of their parameters, and we investigate how this influence varies with respect to various aspects of terminology work. We show many examples of distributional neighbourhoods, which we explore using graphs, and discuss sources of noise. This dissertation thus provides important guidelines for the use of distributional semantic models for terminology work.
95

Étude comparative des noms d'affect en français et en roumain / Comparative study of French and Romanian affect nouns

Codreanu, Ecaterina 08 July 2016 (has links)
Menée dans une perspective comparative, cette recherche a pour ambition une description du lexique des noms d’affect dans le but de relever des zones convergentes et des zones divergentes dans deux langues apparentées généalogiquement – le français et le roumain - selon deux axes de réflexion : l’analyse diachronique de la dynamique de l’évolution du lexique affectif roumain imprégné de mots d’origine française et l’analyse synchronique des particularités combinatoires des noms d’affect. Une telle recherche a mis en évidence des cas très intéressants, des points où les deux systèmes se rapprochent, sans pour autant coïncider totalement. Mais, malgré les petites différences morphosyntaxiques et combinatoires spécifiques attestées dans l’expression des affects, ces derniers présentent globalement une homogénéité du fonctionnement linguistique. Ce fait n’est pas seulement intéressant en termes de syntaxe comparée, mais aussi par le fait que les noms d’affect qui réalisent le même scénario cognitif ont un comportement similaire dans les deux langues confrontées. / Conducted in a comparative perspective, this research aims to describe the lexicon of affect nouns in order to underline the converging areas and diverging areas in two genealogically related languages - French and Romanian - in two lines of thought: diachronic analysis concerning the dynamics of the evolution of the Romanian emotional vocabulary permeated with words of French origin and synchronic analysis of combinatorial features of affect nouns. Such research has highlighted some very interesting cases, the points where these two systems are similar, but not completely coincide. But despite the small specific morphosyntactic and combinatorial differences evidenced in the expression of emotions, they generally bear homogeneity of linguistic functioning. This fact is not only interesting in terms of comparative syntax, but also by the fact that the affect nouns performing the same cognitive scenario have similar behavior in both languages faced.
96

Le traitement de la crise économique par les agences de presse : une comparaison France / Espagne / The processing of the economic crisis by the news agencies : a comparison France / Spain / El tratamiento de la crisis económica por las agencias de noticias : una comparación Francia / España

Moreno Calvo, Mariola 16 January 2018 (has links)
L’analyse des dépêches des agences de presse française (AFP) et espagnole (EFE) à l’aide du logiciel libre IRaMuTeQ permet de visualiser, d’une part la macrostructure qui montre une convergence entre les deux corpus, et d’autre part des microstructures qui distinguent des traitements spécifiques par les agences des deux pays, associant une classification du vocabulaire et une comparaison interprétative des structures lexicales, révèle une focalisation différente : lorsque l’AFP établit une distinction entre les aspects économiques (contexte mondial) et politiques (contexte national), l’EFE l’aborde davantage comme un problème politique en lien direct avec l’économie nationale et l’Europe. L’impact du vécu de la crise sur le discours médiatique est confirmé par une dernière analyse de la dimension chronologique qui révèle, dans les deux cas, l’impact d’un changement électoral. L’approche textométrique permet donc de reconstruire une histoire à partir des relations existantes entre textes, co-textes et contextes, c’est-à-dire entre les évènements socio-historiques, les producteurs de discours médiatiques et des structures lexicales formalisées. / The analysis of the news from the French Agency (AFP) and the Spanish (EFE) allows visualizing, on the one hand, a convergence in the macroestructure of the corpus and, on the other hand, a specific treatment of each country in the microstructure, a deeper analysis, combining a classification of vocabulary and an interpretive comparison of lexical structures, reveals a different focusing: while the AFP makes a distinction between the economic aspects (global context) and political ones (national context), the EFE takes it up more strenuously as a political issue directly related to the national economy and Europe. These results have been obtained with the help of the software IRaMuTeQ. The impact of the experience of the crisis on the media discourse is confirmed by the final analyses of the chronological dimension which reveals, in south cases, the impact of an electoral change. The use of textometric approach allows us the building of the story with the relations among the texts, the co-texts and the contexts, that is, among the socio-historical events, the producers of the media discourse and the lexical structures used.
97

Contribution à l'étude du traitement des erreurs au niveau lexico-syntaxique dans un texte écrit en français

Strube Den Lima, Vare Lucia 15 March 1990 (has links) (PDF)
Cette thèse aborde le thème du traitement des erreurs aux niveaux lexical et syntaxique dans un texte écrit en français. Nous présentons d'abord une approche générale des erreurs pouvant apparaitre dans un texte. Nous donnons les éléments de base d'un ensemble de méthodes utilisées actuellement dans le traitement d'erreurs aux niveaux lexical et syntaxique et décrivons des méthodes de correction proposées dans les principales études réalisées dans le domaine de la correction. Après une brève description de l'environnement pilaf de traitement de la langue naturelle, ou s'insère l'étude en question, nous proposons et décrivons la mise en œuvre d'un algorithme de correction d'erreurs lexicales par la phonétique applicable a un dictionnaire de grandeur réelle. Cet algorithme realise la transduction phonétique du mot a corriger, suivie de sa reconstitution graphique. Nous présentons ensuite la mise en œuvre d'un pré-prototype de vérification syntaxique et de correction des erreurs d'accord. La vérification syntaxique est réalisée par unifications de traits; la détection d'une faute d'accord est a l'origine d'une correction par génération morphologique. Une maquette de détection/correction d'erreurs au niveau lexico-syntaxique permet de démontrer la faisabilité d'un système multi-algorithmique de détection/correction d'erreurs au niveau lexico-syntaxique
98

Méthode et outils pour la création et l'évaluation automatiques de structures de bases lexicales multilingues (symétriques) à lexies et axies

Teeraparbseree, Aree 27 September 2005 (has links) (PDF)
Cette thèse aborde le problème de la structuration de bases lexicales multilingues (BDLM) en lexies et axies, à partir de ressources existantes. Ce travail est motivé par l'inadéquation des techniques existantes utilisées isolément, pour la structuration de BDLM.<br />Pour résoudre ce problème, la stratégie proposée est de composer des techniques existantes de désambiguïsation pour structurer semi-automatiquement des bases lexicales multilingues à lexies et acceptions interlingues. De plus, cette thèse propose une catégorisation des critères d'évaluation de la qualité des BDLM, ainsi que les mesures correspondantes.<br />Cette stratégie a été implémentée dans Jeminie, un système logiciel adaptable qui permet d'implémenter à la fois des méthodes de structuration de BDLM et des mesures de qualité, sous la forme de modules logiciels réutilisables.<br />Des compositions arbitraires de ces modules peuvent être définies par un lexicologue dans un langage de haut niveau d'abstraction, ce qui permet d'adapter facilement la structuration et l'évaluation de qualité en fonction des objectifs du lexicologue et des ressources disponibles sans nécessiter de connaissances en programmation.<br />L'intérêt de cette approche a été validé expérimentalement : la qualité des BDLM obtenues est meilleure par combinaison de techniques qu'avec chaque technique antérieure utilisée seule.
99

Sublim : un systeme universel de bases lexicales multilingues et Nadia : sa specialisation aux bases lexicales interlingues par acceptions

Serasset, Gilles 08 December 1994 (has links) (PDF)
Le but de cette these est de definir et developper un systeme de bases lexicales multilingues independant des applications et des theories linguistiques. Elle debute donc par une etude des dictionnaires (imprimes ou electroniques) et des outils de gestion de bases lexicales, avec, notamment, le projet ESPRIT MULTILEX, considere comme l'effort le plus avance, mais qui presente quelques faiblesses (architecture lexicale par transfert, structures linguistiques codees sous forme de structures de traits types.). La deuxieme partie de cette these est consacree a la definition de SUBLIM, un systeme de gestion de bases lexicales multilingues qui permet de specifier l'architecture lexicale (organisation des dictionnaires) et l'architecture linguistique (organisation des informations linguistiques des unites des dictionnaires), sans imposer de contraintes ni sur les types de dictionnaires choisis, ni sur les structures linguistiques utilisees. La troisieme et derniere partie de cette these presente une specialisation de ce systeme generique en un systeme dedie a la gestion de bases lexicales multilingues fondees sur les acceptions interlingues : NADIA. Cette approche generalise certaines methodes interlingues comme celle du projet de traduction multilingue ULTRA, et permet la definition de bases lexicales multilingues ne se basant pas sur une approche par connaissances.
100

Outils d'exploration de corpus et désambiguïsation lexicale automatique

AUDIBERT, Laurent 15 December 2003 (has links) (PDF)
Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous avons développé une bibliothèque C++ qui implémente un langage élaboré et expressif d'interrogation de corpus, basé sur des méta-expressions régulières. Dans une seconde partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation, basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de meilleurs résultats que les unigrammes.

Page generated in 0.0607 seconds