Spelling suggestions: "subject:"induction dde seis"" "subject:"induction dde sent""
1 |
Acquisition automatique de sens pour la désambiguïsation et la sélection lexicale en traductionApidianaki, Marianna 05 September 2008 (has links) (PDF)
Le travail présenté dans cette thèse explore la question de l'acquisition automatique de sens pour la désambiguïsation lexicale dans un cadre de traduction. Partant de l'hypothèse du besoin de conformité des inventaires sémantiques utilisés pour la désambiguïsation dans le cadre d'applications précises, la problématique du repérage des sens se situe dans un cadre bilingue et le traitement s'oriente vers la traduction. <br />Nous proposons une méthode d'acquisition de sens permettant d'établir des correspondances sémantiques de granularité variable entre les mots de deux langues en relation de traduction. L'induction de sens est effectuée par une combinaison d'informations distributionnelles et traductionnelles extraites d'un corpus bilingue parallèle. La méthode proposée étant à la fois non supervisée et entièrement fondée sur des données, elle est, par conséquent, indépendante de la langue et permet l'élaboration d'inventaires sémantiques relatifs aux domaines représentés dans les corpus traités. <br />Les résultats de cette méthode sont exploités par une méthode de désambiguïsation lexicale, qui attribue un sens à de nouvelles instances de mots ambigus en contexte, et par une méthode de sélection lexicale, qui propose leur traduction la plus adéquate. On propose finalement une évaluation pondérée des résultats de désambiguïsation et de sélection lexicale, en nous fondant sur l'inventaire construit par la méthode d'acquisition de sens.
|
2 |
Création automatique d'un dictionnaire des régimes des verbes du françaisHassert, Naïma 06 1900 (has links)
Les dictionnaires de valence sont utiles dans plusieurs tâches en traitement automatique des langues. Or, les dictionnaires de qualité de ce type sont créés au moins en partie manuellement; ils nécessitent donc beaucoup de ressources et sont difficiles à mettre à jour. De plus, plusieurs de ces ressources ne prennent pas en compte les différents sens des lemmes, qui sont pourtant importants puisque les arguments sélectionnés ont tendance à varier selon le sens du verbe. Dans ce mémoire, nous créons automatiquement un dictionnaire de valence des verbes du français qui tient compte de la polysémie. Nous extrayons 20 000 exemples de phrases pour chacun des 2 000 verbes les plus fréquents du franc¸ais. Nous obtenons ensuite les plongements lexicaux de ces verbes en contexte à l’aide d’un modèle de langue
monolingue et de deux modèles de langue multilingues. Puis, nous utilisons des algorithmes
de regroupement pour induire les différents sens de ces verbes. Enfin, nous analysons automatiquement
les phrases à l’aide de différents analyseurs syntaxiques afin de trouver leurs arguments. Nous déterminons que la combinaison du modèle de langue français CamemBERT et d’un algorithme de regroupement agglomératif offre les meilleurs résultats dans la tâche d’induction de sens (58,19% de F1 B3), et que pour l’analyse syntaxique, Stanza est
l’outil qui a les meilleures performances (83,29% de F1). En filtrant les cadres syntaxiques obtenus à l’aide d’une estimation de la vraisemblance maximale, une méthode statistique très simple qui permet de trouver les paramètres les plus vraisemblables d’un modèle de probabilité qui explique nos données, nous construisons un dictionnaire de valence qui se passe presque complètement d’intervention humaine. Notre procédé est ici utilisé pour le français, mais peut être utilisé pour n’importe quelle autre langue pour laquelle il existe suffisamment de données écrites. / Valency dictionaries are useful for many tasks in automatic language processing. However, quality dictionaries of this type are created at least in part manually; they are therefore resource-intensive and difficult to update. In addition, many of these resources do not take into account the different meanings of lemmas, which are important because the arguments
selected tend to vary according to the meaning of the verb. In this thesis, we automatically create a French verb valency dictionary that takes polysemy into account. We extract 20 000 example sentences for each of the 2 000 most frequent French verbs. We then obtain the lexical embeddings of these verbs in context using a monolingual and two multilingual language models. Then, we use clustering algorithms to induce the different meanings of these verbs. Finally, we automatically parse the sentences using different parsers to find their arguments. We determine that the combination of the French language model CamemBERT and an agglomerative clustering algorithm offers the best results in the sense induction task (58.19% of F1 B3), and that for syntactic parsing, Stanza is the tool with the best performance (83.29%
of F1). By filtering the syntactic frames obtained using maximum likelihood estimation, a very simple statistical method for finding the most likely parameters of a probability model that explains our data, we build a valency dictionary that almost completely dispenses with human intervention. Our procedure is used here for French, but can be used for any other language for which sufficient written data exists.
|
Page generated in 0.1245 seconds