Les recherches présentées dans mon mémoire d'habilitation relèvent de la morphologie informatique et descriptive. Elles ont pour finalité première la description de la structure morphologique du lexique et sont centrées sur l'analogie et sur l'acquisition de connaissances morphologiques à partir de lexiques et de dictionnaires. Plusieurs analyseurs morphologiques ont été développés. Le premier, DéCor (dérivations pour les corpus), l'a été dans le cadre du projet MorTAL (analyseur morphologique pour le traitement automatique de la langue). Il exploite les analogies formelles pour contruire un réseau dérivationnel dans lequel il recherche les bases des mots dérivés. J'ai ensuite affiné cette méthode en utilisant des informations sémantiques contenues dans des dictionnaires de synonymes. Un deuxième analyseur a ainsi été développé pour acquérir des relations dérivationnelles à partir de quadruplets analogiques particuliers, dérivationnels dans l'une de leurs dimensions et synonymiques dans l'autre. Dans un troisième développement, j'ai proposé un nouveau paradigme d'analyse morphologique permettant de se passer totalement de découpage « morceaulogique » et j'ai redéfini la tâche d'analyse morphologique qui devient une analyse globale du lexique et non plus une analyse de mots isolés. L'analyse consiste à découvrir les différents paradigmes qui structurent le lexique et les analogies qui permettent de les interconnecter puis à caractériser les mots construits par leurs positions dans le maillage défini par ces paradigmes interconnectés. Mon deuxième axe de recherche est la morphologie extensive, pratique qui consiste à appuyer les descriptions des phénomènes sur des corpus d'exemples aussi étendus que possible. Ma contribution à cette approche a été multiple : développement de la boîte à outil Webaffix (en collaboration avec Ludovic Tanguy), publication d'articles de synthèse, illustration de la méthode par l'étude de la suffixation en -able et de la préfixation en anti-, et rédaction de Perl pour les linguistes (co-écrit avec Ludovic Tanguy), un ouvrage destiné aux linguistes qui souhaitent exploiter des données langagières et notamment construire les corpus d'exemples dont ils ont besoin. Dans la deuxième chapitre du mémoire, je présente un modèle théorique de la morphologie dérivationnelle. Ce modèle, lexématique, comporte quatre niveaux de représentation : sémantique, formel, catégoriel et lexical. Le niveau lexical supporte l'organisation morphologique du lexique. L'objectif de la morphologie est de trouver les correspondances les meilleures possibles entre ces quatre niveaux. Ces correspondances sont soumises à un système de contraintes permettant de sélectionner celles qui offrent la coïncidence optimale entre sens, positions lexicales, formes et catégories. Je présente ensuite huit catégories de paradigmes qui structurent le niveau lexical : les familles et les séries qui peuvent être flexionnelles ou dérivationnelles et morphologiques ou lexicales. Les paradigmes lexicaux sont des extensions des paradigmes morphologiques qui y incluent les supplétions. J'aborde ensuite dans le troisième chapitre du mémoire les aspects informatiques de mon travail. J'y décris les grandes lignes du nouveau paradigme d'analyse morphologique automatique que je propose. Ce paradigme associe proximité morphologique et analogie formelle pour calculer les relations dérivationnelles. Ce calcul est réalisé sans aucun découpage et sans recourir aux notions de morphème, d'affixe ou d'exposant morphologique. Selon la mesure de proximité morphologique que j'ai définie, deux mots sont d'autant plus proches qu'ils partagent un grand nombre de traits sémantiques et formels et que ces traits sont spécifiques. Cette mesure est calculée en utilisant un algorithme de marche aléatoire dans un bigraphe dont une partie des sommets représente les lexèmes et l'autre leurs propriétés. La mesure de proximité morphologique permet de calculer facilement des voisinages pour un grand nombre de mots, mais elle n'est pas suffisamment fine pour discriminer entre les mots qui sont effectivement apparentés et ceux qui ne le sont pas. Je propose donc de la compléter par la recherche de quadruplets analogiques en exploitant les voisinages morphologiques. Cette seconde technique permet de filtrer finement les voisins mais elle est coûteuse en temps de calcul. Le quatrième chapitre du mémoire est consacré à la description de la préfixation en anti-. J'y expose les principales difficultés posées par cette préfixation. La première concerne sa nature catégorielle. Anti- est-il un préfixe ou une préposition ? Cette question découle notamment de la grande variété des séquences qui apparaissent derrière anti-. L'analyse que je défends est que anti- est avant tout un préfixe, même s'il peut marginalement être utilisé comme une préposition. Je présente quelques exemples comme antitriste, anti-obèse ou antimordre qui remettent en cause plusieurs des analyses antérieures de cette préfixation. La seconde question concerne l'existence de plusieurs séries distinctes de dérivés en anti-. Je propose de les analyser au moyen de deux critères : (1) l'alternance de l'interprétation endocentrique vs exocentrique ; (2) trois modes d'interprétation, spatial, logique et adversatif. Je montre que ces deux critères ne sont pas corrélés et je présente des exemplaires pour cinq des six configurations possibles, notamment des dérivés qui ont un sens spatial exocentrique comme antisolaire et des dérivés dont l'interprétation est adversative endocentrique comme antidésherbant. La troisième question concerne les dérivés dit parasynthétiques dont je propose une analyse en termes d'emprunt de radicaux. La forme d'un dérivé pourrait en effet être créée en empruntant le radical d'un voisin morphologique lorsque cela permet une meilleure satisfaction de certaines des contraintes qui portent sur la dérivation et notamment de la contrainte de transparence catégorielle.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00449159 |
Date | 04 December 2009 |
Creators | Hathout, Nabil |
Publisher | Université Toulouse le Mirail - Toulouse II |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | habilitation ࠤiriger des recherches |
Page generated in 0.0032 seconds