1 |
Approches catégoriques et non catégoriques en linguistique des corpus spécialisés, application à un système de filtrage d'informationBalvet, Antonio 11 December 2002 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d'extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d'analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d'évaluer l'apport d'approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d'information, déployé en milieu industriel : le système CORAIL, issu d'un projet de recherches financé par le Ministère de la Recherche et de l'Industrie.
|
Page generated in 0.1127 seconds