Le mémoire " Modélisation différentielle du texte, de la linguistique aux algorithmes " porte sur mon positionnement épistémologique et spécialement sur l'interface entre modélisation en linguistique théorique et modélisation en informatique. Dès le départ j'ai pris l'étude des corpus et le multilinguisme comme base de travail. Les méthodes utilisées se placent dans la filiation de l'école de Prague (Jakobson, mais aussi les informaticiens) et elles ont une parenté avec d'autres recherches au Japon et dans les pays nordiques. Alors que la plupart des travaux du TAL concernent la syntaxe ou le lexique, j'ai pris le point de vue de l'analyse du discours écrit dans son intégralité et d'un point de vue relationnel, endogène, pour trouver les moyens de traiter automatiquement des textes entiers et des corpus de textes. La première dimension originale est le multilinguisme conçu comme hypothèse normale de travail, et non comme nécessité de cumul de pratiques monolingues. La seconde dimension est l'angle de vision multi échelle, qui permet d'analyser les collections et les documents avec leur mise en forme matérielle, en repérant les marques qui structurent les textes indépendamment de la langue, en posant des observations sur les grains d'analyse pertinents. Le mémoire contient de nombreux exemples d'applications, décrits en profondeur, avec les enjeux, les techniques utilisées et des illustrations des résultats obtenus.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-01073406 |
Date | 23 June 2009 |
Creators | Lucas, Nadine |
Publisher | Université de Caen |
Source Sets | CCSD theses-EN-ligne, France |
Language | fra |
Detected Language | French |
Type | habilitation ࠤiriger des recherches |
Page generated in 0.0017 seconds