Des classifications verbales associant classes de verbes avec des propriétés syntaxiques et sémantiques communes aux membres d'une classe se sont montrées utiles aussi bien dans la recherche linguistique que dans le traitement automatique des langues. Cette thèse a pour objectif de présenter des approches pour l'acquisition automatique de classes verbales pour le Français palliant ainsi partiellement le manque de ce type de ressources pour le Français. Par rapport aux classes générées, dans la plupart des approches existantes, les classes de verbes produites ne sont pas associées avec une caractérisation explicite des propriétés syntaxiques et sémantiques partagées par les membres des classes. Notre approche permet non seulement de créer des classes de verbes mais aussi d'associer ces classes avec les cadres de sous-catégorisations et les grilles thématiques partagés par les membres d'une classe. Nous utilisons deux méthodes de classification pour acquérir des classes verbales. La première est une méthode symbolique appelée \textit{Analyse Formelle de Conceptes} (FCA - Formal Concept Analysis). La deuxième exploite un algorithme de gaz neuronal croissant basé sur l'étiquetage des clusters par maximisation de vraisemblance (IGNGF - Incremental Growing Neural Gas with Feature maximisation). Pour la création des classes verbales, nous appliquons ces deux méthodes aux même ressources Françaises et Anglaises. Celle-ci sont constituées d'une part d'un lexique syntaxique pour les verbes du Français, issue de la fusion de trois ressources pour le Français existantes. D'autre part elles sont obtenues par traduction automatique en Français des classes du Verbnet anglais. Les classes verbales produites sont associées à des informations syntaxiques et sémantiques explicites sous forme de cadres de sous-catégorisations et grilles thématiques. Les classifications produites sont évaluées dans un premier temps en tant que groupements de verbes par une comparaison à une référence (proposé par \cite{SunKorhonenEtAl}). Deuxièmement, les associations aux cadres syntaxiques et aux grilles thématiques sont évaluée d'une part d'une façon intrinsèque par une comparaison à une annotation manuelle en rôles thématiques. D'autre part nous effectuons une évaluation extrinsèque en utilisant les classes verbales dans une tâche d'annotation en rôles thématiques simplifiée. Ces évaluations montrent que les classifications obtenues par les deux méthodes sont pertinentes tant par rapport aux groupement de verbes produits qu'aux associations de ces verbes avec des cadres de sous-catégorisation et des grilles thématiques. Elles présentent néanmoins des caractéristiques complémentaires. Tandis que les classes produites par FCA se sont révélées plus performantes par rapport aux associations $\langle$verbe, cadre syntaxique$\rangle$ et $\langle$verbe, grille thématique$\rangle$, les classes générées par IGNGF correspondent mieux à la classification de référence et se sont montrées plus efficaces à l'attribution de rôles thématiques.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00714737 |
Date | 13 June 2012 |
Creators | Falk, Ingrid |
Publisher | Université Nancy II |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0026 seconds