L'organisation de l'information sur un intranet (réseau informatique interne d’une organisation fonctionnant avec les technologies d'Internet) nécessite de nouvelles approches pour traiter la question de l'adéquation entre l’arborescence des sites et les usages linguistiques de leurs publics. Une façon de prendre en compte ces usages consiste à explorer les données textuelles représentatives d'une situation de communication spécifique. Une telle exploration est effectuée à l’aide de techniques textométriques, comme l'index hiérarchique des formes, les concordances, les segments répétés, la carte des sections d’un texte, le calcul des co-occurrences et l'analyse factorielle des correspondances. On extrait alors d’un corpus de textes de communication d’entreprise (rapports d’activité) les unités lexicales destinées à la construction d'un référentiel terminologique d’un type particulier. Afin de prendre en compte le contexte de communication on propose d’utiliser trois sortes de repères : - le référentiel d’objets propre à une organisation, - les propriétés pragmatiques des noms propres, - la collecte d’une partie du vocabulaire caractéristique du corpus utilisé comme source du référentiel terminologique, réalisée à partir d’une sélection de noms propres. Ainsi, cette collecte ne se limite pas aux seules unités terminologiques : elle comprend également des mots relevant de la langue commune et des noms propres. Les unités appartenant au vocabulaire du corpus sont choisies en fonction du type de relations sémantiques établies avec les noms propres dans les discours. Enfin, les résultats obtenus sont évalués en termes de productivité, de fiabilité et de représentativité. / Information organization on an intranet (internal network of an organization, using technologies of Internet) needs new approaches handling the question of the adequacy between the structures of intranet sites and the language use of their visitors. A way to take into account these usages is to explore textual data which are representative of a specific situation of communication. Such an exploration is carried out with textual statistics tools, like hierarchical index, concordance, repeated segment, textual map, co-occurrence and cluster analysis. This corpus-based approach allows us to extract linguistic units belonging, for example, to texts of corporate communication (annual reports). Recognition and storage of such lexical data aim at the construction of a terminological thesaurus of a peculiar type. We suggest taking into account the context of communication by using three sorts of marks : - the particular ontology of an organization such as it is evoked in discourses, - the pragmatic properties of the proper names, - a selection of proper names allows gathering a part of the characteristic vocabulary of the corpus used as source for the terminological thesaurus. This collection does not thus limit itself to the only terminological units, but also contains words of the common language and proper names. Elements belonging to the vocabulary of the corpus are selected according to the type of semantic relations established with the proper names in the texts. Finally, the results are assessed in terms of productivity, reliability and representativeness.
Identifer | oai:union.ndltd.org:theses.fr/2009PA030011 |
Date | 16 January 2009 |
Creators | Erlos, Frédéric |
Contributors | Paris 3, Salem, André |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text, Collection |
Page generated in 0.0018 seconds