Cette thèse s'inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d'extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d'analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d'évaluer l'apport d'approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d'information, déployé en milieu industriel : le système CORAIL, issu d'un projet de recherches financé par le Ministère de la Recherche et de l'Industrie.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00002847 |
Date | 11 December 2002 |
Creators | Balvet, Antonio |
Publisher | Université de Nanterre - Paris X |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0016 seconds