Return to search

Analysis of conceptual relations found in corpora and dictionaries for terminological definition writing : an application to the field of sustainable fisheries

L’objet de notre recherche sont les relations conceptuelles exprimées dans les définitions des dictionnaires et celles exprimées dans un corpus spécialisé. Nous avons pour but d’analyser et comparer ces relations pour identifier les relations les plus communes d’un domaine spécialisé et déterminer où ces relations se trouvent plus fréquemment. Notre approche considère que ces relations se trouvent plus souvent dans les corpus et qu’on pourrait enrichir les définitions terminologiques en incorporant ces relations conceptuelles extraites des textes spécialisés.
Le domaine choisi pour cette étude est celui de la pêche durable dont nous analysons la terminologie en anglais. Les termes analysés sont extraits d’un corpus de textes de ce domaine construit pour notre étude et qui comporte des articles scientifiques et des comptes rendus d’organismes spécialisés dans le domaine de la pêche. Pour l’analyse de définitions, trois dictionnaires spécialisés en pêche ont été sélectionnés dans l’étude. L’échantillon final de termes analysés inclut 20 noms (dont 12 termes dénotent des entités et 8 termes dénotent des activités). Ces termes sont les plus spécifiques extraits du corpus avec l’extracteur TermoStat (Drouin, 2003) et définis dans au moins deux des dictionnaires choisis.
Les unités lexicales du corpus sont repérées de façon semi-automatique à l’aide de la fonctionnalité word sketch, « an automatic corpus-derived summary of a word’s grammatical and collocational behavior » (Kilgarriff et al., 2010, p. 372) dans la plateforme de gestion de corpus Sketch Engine (Kilgarriff et al., 2014). Nous travaillons avec deux types de word sketches: le word sketch conventionnel fourni par défaut par Sketch Engine et l’EcoLexicon Semantic Sketch Grammar (ESSG; León Araúz & San Martín, 2018).
Seules les unités lexicales les plus fréquentes sont sélectionnées de tous les résultats de l’interrogation du corpus. L’analyse des définitions se penche sur toutes les unités lexicales reliées directement au terme analysé. Nous utilisons des paraphrases dans les analyses pour identifier et valider les relations entre le terme analysé et chaque unité reliée. À la suite de l’identification des relations, nous compilons une liste de relations et nous faisons une comparaison entre les résultats du corpus et des définitions.
La comparaison des types de relations repérées dans chaque source montre qu’il y a plus de types de relations dans le corpus que dans les définitions pour 70 % de l’échantillon de termes. Lorsque la comparaison examine séparément des termes dénotant des entités et des activités, plus de types de relations se trouvent dans le corpus que dans les définitions pour 83 % des entités et pour 50 % des activités.
Les résultats montrent également que 54 % des types de relations repérées sont identifiés pour plus de termes dans le corpus que dans les dictionnaires. Par ailleurs, seulement 16,7 % des relations repérées sont identifiées pour plus de termes dans les dictionnaires que dans le corpus. La recherche a également identifié quels types de relations se trouvent plus souvent dans le corpus, dans le dictionnaire ou dans les deux sources pour le même terme. Ce constat a permis de classifier les types de relations dans trois groupes: les relations qui se trouvent la plupart du temps dans les dictionnaires, celles plus souvent présentes dans le corpus ou celles présentes dans les deux sources. / The object of our study are the conceptual relations expressed in dictionary definitions and those expressed in a specialized corpus. Our goal is to analyze and compare these relations to identify the most common relations of a specialized subject field and determine where these relations are more frequently found. Our approach considers that these relations are more often found in the corpus and that we could enrich terminological definitions if we include the conceptual relations extracted from specialized texts.
The subject field chosen for this study is sustainable fisheries from which we analyze the terminology in English. The terms analyzed were extracted from a corpus of texts belonging to this subject field and built for the study. The corpus includes scientific articles and reports issued by specialized organizations in the field of fisheries. For the analysis of definitions, three specialized dictionaries were selected for the study. The final sample of terms analyzed includes 20 nouns (12 terms designating entities and 8 terms designating activities). These terms are the most specific terms extracted from our corpus using the term extractor TermoStat (Drouin, 2003) and defined in at least two of the selected dictionaries.
The lexical units from the corpus were extracted semiautomatically using the function word sketch, “an automatic corpus-derived summary of a word’s grammatical and collocational behavior” (Kilgarriff et al., 2010, p. 372) in the corpus management platform Sketch Engine (Kilgarriff et al., 2014). We worked with two types of word sketches: the conventional word sketch provided by default in Sketch Engine and the Ecolexicon Semantic Sketch Grammar (ESSG; León Araúz & San Martín, 2018).
Only the most frequent lexical units were selected from all the results of the corpus interrogation. The analysis of definitions included all the related lexical units directly linked to the analyzed term. Paraphrases were used in the analysis to identify and validate the relation between the analyzed terms and the related lexical units. Once all the relations were identified, a list of relation types was compiled, and a comparison was made between results from the corpus and the dictionaries.
The comparison of the relation types found in each source shows that there are more relation types in the corpus than in the definitions for 70% of the sample. When the comparison focuses separately on entity and activity terms, more relation types were found in the corpus than in the definitions for 83% of entity terms and 50% of activity terms.
Results also show that 54% of the relation types are associated with more terms in the corpus and only 16.7% are associated with more terms in the dictionaries. Additionally, the study identified which relation types are more often found in the corpus, in the dictionaries or in both sources. These findings allowed us to classify the relation types in three scenarios: relation types mostly found in the dictionaries, those more often found in the corpus and the group of relation types which are mostly found in both sources for each term.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32355
Date07 1900
CreatorsMontalvan Ayala, Luz de Maria
ContributorsL'Homme, Marie-Claude, San Martin Pizarro, Antonio
Source SetsUniversité de Montréal
LanguageEnglish
Detected LanguageEnglish
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0031 seconds