Return to search

Approches catégoriques et non catégoriques en linguistique des corpus spécialisés, application à un système de filtrage d'information

Cette thèse s'inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d'extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d'analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d'évaluer l'apport d'approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d'information, déployé en milieu industriel : le système CORAIL, issu d'un projet de recherches financé par le Ministère de la Recherche et de l'Industrie.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00002847
Date11 December 2002
CreatorsBalvet, Antonio
PublisherUniversité de Nanterre - Paris X
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0017 seconds