• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 26
  • 4
  • 2
  • 1
  • Tagged with
  • 33
  • 14
  • 13
  • 12
  • 11
  • 9
  • 9
  • 9
  • 8
  • 7
  • 6
  • 6
  • 6
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Élaboration d'un corpus étalon pour l'évaluation d'extracteurs de termes

Bernier-Colborne, Gabriel 05 1900 (has links)
Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction. / We describe a methodology for constructing a gold standard for the automatic evaluation of term extractors. These programs, designed to automatically extract specialized terms from a corpus, are used in various settings, including terminology work, translation, information retrieval, indexing, etc. Thus, the evaluation of term extractors must be carried out in accordance with a specific application. One way of evaluating term extractors is to construct a corpus in which all term occurrences have been annotated. This involves establishing a protocol for term selection and term boundary identification. To our knowledge, no well-documented annotated corpus is available for the evaluation of term extractors. This contribution aims to build such a corpus and describe what issues must be dealt with in the process. The gold standard we propose is a fully annotated corpus, constructed in accordance with a specific terminological setting, namely the compilation of a specialized dictionary of automotive mechanics. This annotated corpus accounts for the wide variety of realizations of terms in context. Terms are selected in accordance with specific criteria pertaining to the terminological setting as well as formal, linguistic and conceptual properties of terms and term variations. To evaluate a term extractor, a list of all the terminological units in the corpus is extracted and compared to the output of the term extractor, using a set of metrics to assess its performance. Subsets of terminological units may also be extracted, providing a level of customization. This allows an automatic and application-driven evaluation of term extractors. Due to its reusability, it can serve not only to assess the performance of a particular extractor, but also to compare different extractors and fine-tune extraction techniques.
22

Para compreender Le Viandier: do estudo do livro medieval de receitas à elaboração de um glossário verbal culinário / Pour comprendre Le Viandier: de létude du livre médiéval de recettes à lélaboration dun glossaire verbal culinaire

Milani, Lara Borriero 28 January 2011 (has links)
Le Viandier é considerado o primeiro livro de cozinha impresso na França, por volta de 1486. Sua história é complexa e envolve vários manuscritos, com importantes diferenças entre si. Mesmo a autoria do livro, atribuída a Taillevent, é contestada, já que o primeiro manuscrito de que se tem notícia data de quando esse autor era ainda criança. Toda essa problemática se une ao contexto medieval, que, com seus ritos e preceitos, faz dessa rica fonte textual um desafio para quem deseja conhecê-la. Compreender esse texto medieval exige do leitor ferramentas que o auxiliem não somente a entrar no universo da culinária do século XV mas também a entender aspectos linguísticos próprios à obra. Para isso, partiu-se de um estudo aprofundado do Viandier, em que as técnicas e os procedimentos culinários mostraram-se essenciais para a compreensão das receitas e deram origem à elaboração de um glossário verbal culinário. Tal glossário exigiu o estudo de questões teóricas e metodológicas no campo da Terminologia e uma pesquisa detalhada em obras de referência e dicionários especializados. O primeiro resultado desse trabalho de análise foram 92 fichas terminológicas, que por sua vez constituíram a base do glossário verbal culinário aqui apresentado. / Le Viandier est considéré comme le premier livre de cuisine imprimé en France, vers 1486. Son histoire est complexe et comprend plusieurs manuscrits, qui ont des différences importantes entre eux. Même la composition du livre, attribuée à Taillevent, est contestée, puisque le premier manuscrit dont on dispose date de lenfance de cet auteur. À cette problématique sajoute le contexte médiéval, qui, avec ses rites et préceptes, fait de cette riche source textuelle un défi pour ceux qui désirent mieux la connaître. Comprendre ce texte médiéval exige du lecteur des outils lui permettant non seulement de rentrer dans lunivers de la cuisine du XVème siècle mais aussi de maîtriser certains aspects linguistiques de louvrage en question. Pour cela, on est parti dune étude approfondie du Viandier, où les techniques et les procédés culinaires se sont avérés essentiels pour la compréhension des recettes, donnant ainsi origine à lélaboration dun glossaire verbal culinaire. Ce glossaire a exigé le travail sur des questions théoriques et méthodologiques liées à la Terminologie et une recherche détaillée dans des ouvrages de référence et dictionnaires spécialisés. Le premier résultat de ce travail danalyse a été réuni en 92 fiches terminologiques, qui, à leur tour, ont constitué la base du glossaire verbal culinaire ici présenté
23

Étude d'une terminologie bilingue (français / arabe) du droit de propriété intellectuelle sur internet / A study of a bilingual terminology (French-Arabic) of the intellectual property law on the internet / دراسة اصطلاحية باللغتين الفرنسية و العربية لحقوق الملكية الفكرية على الإنترنت

Barsoum, Yasmine 27 October 2012 (has links)
Cette thèse intitulée « Étude d’une terminologie bilingue (français-arabe) du droit de la propriété intellectuelle sur internet » porte sur la terminologie juridique et traite de la problématique suivante : "Comment peut-on, à travers l’analyse et le dépouillement d'un corpus bien délimité (français et arabe), constituer une terminologie bilingue de la propriété intellectuelle sur Internet, ayant pour retombée la création d’une base de données terminologiques?". Cette base de données est exploitable par des étudiants, des enseignants, des chercheurs, des traducteurs et des organismes spécialisés dans le domaine objet d’étude.L’objectif de la thèse est donc de répondre aux besoins terminologiques d’un public bilingue intéressé au domaine du droit et en particulier à la propriété intellectuelle, en faisant une mise au point et un traitement minutieux des deux langues arabe et française dans trois secteurs d’activité à savoir le droit, l’informatique et l’internet. La confection de cette terminologie est basée sur deux approches : lexico-sémantique et conceptuelle. Cette thèse est constituée de cinq chapitres dans lesquels les processus terminologiques sont analysés minutieusement dans les deux langues du point de vue théorique et pratique. Des contributions et des recommandations sont apportées à travers cette recherche dans le domaine de la terminologie, par exemple, les tentatives visant à combler les lacunes des dictionnaires spécialisés dans les deux langues, la promotion de la langue arabe en matière de logiciels de TAL et de terminologie et le renforcement de la coopération entre les spécialistes du domaine (juristes et informaticiens) et les terminologues. / This thesis entitled “A study of a bilingual terminology (French-Arabic) of the intellectual property law on the internet” tackles the juridical terminology and handles the following research question: “How can we establish, through the analysis and mining of a well-bounded French-Arabic corpus, a bilingual terminology of the intellectual property on the internet leading to the creation of a terminological database?”. This database is usable by students, teachers, researchers, translators and specialized organizations in this field. The purpose of this thesis is therefore to meet the terminological needs of a bilingual public interested in law in general and in intellectual property in particular, by doing a deep processing of the two languages in three activity sectors: law, computer science and internet. The process of creating this terminology database is based on both lexico-semantic and conceptual approaches. This thesis consists of five chapters in which the terminological processes are deeply analyzed in both languages from the theoretical and practical points of view. Among the contributions and recommendations that are made through this research in the field of terminology are the attempts to fill the gaps in specialized dictionaries in both languages, the promotion of Arabic language as regards to Automatic Language Processing (ALP) and terminological softwares and the reinforcement of the cooperation between a field’s specialists (jurists and computer engineers) and terminologists. Keywords: bilingual terminology, terminological database, law, intellectual property, internet, copyright.
24

Analyse des marqueurs de relations conceptuelles en corpus spécialisé : recensement, évaluation et caractérisation en fonction du domaine et du genre textuel / Analysis of markers of conceptual relation in specialized corpora : identification, evaluation, and description based on domain and text genre

Lefeuvre, Luce 05 September 2017 (has links)
L’intérêt d’utiliser des marqueurs de relations conceptuelles pour élaborer des ressources terminologiques à maintes fois été souligné, car ils permettent de passer d’un triplet repéré en corpus comme « Terme1 – Marqueur – Terme2 », à un triplet interprété comme « Terme1 – Relation – Terme2 » permettant une représentation sous forme relationnelle des connaissances. Le passage d’un triplet à l’autre soulève néanmoins la question de la stabilité d’un tel lien, indépendamment de tout corpus. Dans cette thèse, nous étudions la variation du fonctionnement des candidats-marqueurs de relation en prenant en compte le domaine et le genre textuel. Pour cela, nous avons constitué la liste des marqueurs des relations d’hyperonymie, de méronymie, et de cause en français et avons analysé le fonctionnement de chacune des occurrences de ces candidats-marqueurs dans un corpus traitant de deux domaines (volcanologie et cancer du sein) et relevant de deux genres textuels (scientifique et vulgarisé). La description systématique des contextes comportant un candidat-marqueur nous a permis de mesurer la précision de chacun des candidats-marqueurs, c’est-à-dire sa capacité à indiquer la relation attendue. Les analyses menées démontrent finalement la pertinence d’intégrer ces paramètres dans la description linguistique des candidats-marqueurs de relations. / The use of markers of conceptual relation for building terminological resources has been frequently emphasized. Those markers are used in corpora to detect “Term1 – marker – Term2” triple, which are then interpreted as “Term1 - Conceptual Relation – Term2” triple allowing to represent knowledge as a relational system model. The transition from one triple to another questions the stability of this link, regardless of corpora. In this thesis, we study the variation of the “candidate-markers” of relation taking into account the domain and the text genre. To this end, we identified the French markers for the hyperonym, the meronym and the causal relation, and systematically analyzed their functioning within corpora varying according to the domain (breast cancer vs. volcanology) and the text genre (popular science vs. specialized texts). For each context containing a candidate-marker, we evaluated the capacity of the candidate-marker to really indicate the required relation. Our researches attest to the relevance of taking into account the domain and the text genre when describing the functioning of conceptual relation markers.
25

Définition d'un cadre formel de représentation des Systèmes d'Organisation de la Connaissance

Vandenbussche, Pierre-Yves 10 November 2011 (has links) (PDF)
Ce travail de thèse, réalisé au sein de l'entreprise MONDECA et du laboratoire de recherche INSERM, est né du besoin de disposer d'un serveur capable de supporter le processus éditorial de Systèmes d'Organisation de Connaissances (SOC) et soulève la problématique suivante: comment harmoniser la représentation des SOC et de leurs correspondances afin de proposer des services unifiés qui supportent l'édition, la publication et l'utilisation efficaces des connaissances de ces référentiels? Pour répondre à cette problématique, nous soutenons la thèse que l'élaboration d'un modèle de représentation commune de SOC est une solution adaptée pour (i) pallier l'hétérogénéité de ces référentiels, (ii) favoriser l'interopérabilité sémantique au sein d'un Système d'Information et (iii) proposer des services unifiés quel que soit le SOC. Nous utilisons pour cela des méthodes propres à l'Ingénierie des Connaissances couplées à celles de l'Ingénierie des modèles. Les contributions présentées se concentrent sur trois axes. Dans un premier axe, nous souhaitons obtenir une solution de modélisation de SOC la plus générique possible et qui puisse être étendue pour prendre en compte les spécificités de chacun des référentiels. Nous proposons donc un modèle extensible commun de représentation, nommé UniMoKR, construit à partir des standards, recommandations et projets existants. Notre modèle a été proposé et intégré en partie dans la future norme ISO 25964 qui porte sur la représentation des terminologies. Nous avons également soumis deux patrons de modélisation d'ontologie au portail Ontology Design Pattern. Le second axe est consacré à la proposition de services unifiés qui reposent sur cette modélisation. Parmi ces services nous distinguons l'export de tout ou partie de SOC dans un format standard d'échange ou encore des services Web de gestion de terminologies. Pour mettre ces services à disposition, nous préconisons la méthode de transformation de modèles qui utilise le langage SPARQL pour l'expression des règles de transformation. Dans un troisième axe, nous présentons l'application de notre solution testée et commercialisée pour divers projets dans différents domaines d'applications. Nous montrons ici la faisabilité de notre approche, ainsi que l'amélioration que la représentation formelle de notre modèle apporte à la qualité des informations. Ces implémentations ont permis d'effectuer une validation en condition d'utilisation.
26

Élaboration d'un corpus étalon pour l'évaluation d'extracteurs de termes

Bernier-Colborne, Gabriel 05 1900 (has links)
Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction. / We describe a methodology for constructing a gold standard for the automatic evaluation of term extractors. These programs, designed to automatically extract specialized terms from a corpus, are used in various settings, including terminology work, translation, information retrieval, indexing, etc. Thus, the evaluation of term extractors must be carried out in accordance with a specific application. One way of evaluating term extractors is to construct a corpus in which all term occurrences have been annotated. This involves establishing a protocol for term selection and term boundary identification. To our knowledge, no well-documented annotated corpus is available for the evaluation of term extractors. This contribution aims to build such a corpus and describe what issues must be dealt with in the process. The gold standard we propose is a fully annotated corpus, constructed in accordance with a specific terminological setting, namely the compilation of a specialized dictionary of automotive mechanics. This annotated corpus accounts for the wide variety of realizations of terms in context. Terms are selected in accordance with specific criteria pertaining to the terminological setting as well as formal, linguistic and conceptual properties of terms and term variations. To evaluate a term extractor, a list of all the terminological units in the corpus is extracted and compared to the output of the term extractor, using a set of metrics to assess its performance. Subsets of terminological units may also be extracted, providing a level of customization. This allows an automatic and application-driven evaluation of term extractors. Due to its reusability, it can serve not only to assess the performance of a particular extractor, but also to compare different extractors and fine-tune extraction techniques.
27

Analyse contrastive français-japonais du discours en langue de spécialité - modalité et définition phrastique

Nakao, Yukie 02 July 2010 (has links) (PDF)
La langue de spécialité (LS) représentative des sciences et des techniques est la langue employée par les spécialistes d'un domaine. Son lexique, ses syntaxes et ses sémantiques sont souvent étudiés, contrairement au discours. Nous nous intéressons aux différents niveaux de spécialisation du discours qui caractérisent les utilisateurs de la LS : spécialistes et non-initiés, reflétés par la modalité et la définition terminologique. Notre analyse se porte sur le discours médical d'un corpus comparable français et japonais, contenant deux types de discours, scientifique et vulgarisé. Une analyse de la modalité permet d'examiner les variations de la spécialisation du point de vue de l'attitude du locuteur. Nous adaptons un modèle élaboré sur le français courant à la LS et le confrontons à la langue japonaise. Nous en tirons une typologie composée de groupes locutifs qui permet de caractériser les modalités dans le corpus. La définition terminologique joue un rôle central, lorsque les utilisateurs de la LS ne partagent pas le même niveau de connaissances. Nous déterminons une nouvelle typologie à partir des définitions dictionnairiques et phrastiques. Pour chaque catégorie, nous listons des marqueurs avant de mener une analyse qualitative et quantitative. Les deux langues et les deux types de discours sont différentiés au niveau des modalités en fonction de la fréquence et le contenu de celles-ci, et au niveau des définitions selon la distribution des catégories définitoires. Cette typologie pourra être utilisée pour constituer des ressources terminologiques ou mettre à jour des ressources existantes dans le cadre de travaux de veille scientifique.
28

Criteria for the validation of specialized verb equivalents : application in bilingual terminography

Pimentel, Janine 05 1900 (has links)
Multilingual terminological resources do not always include valid equivalents of legal terms for two main reasons. Firstly, legal systems can differ from one language community to another and even from one country to another because each has its own history and traditions. As a result, the non-isomorphism between legal and linguistic systems may render the identification of equivalents a particularly challenging task. Secondly, by focusing primarily on the definition of equivalence, a notion widely discussed in translation but not in terminology, the literature does not offer solid and systematic methodologies for assigning terminological equivalents. As a result, there is a lack of criteria to guide both terminologists and translators in the search and validation of equivalent terms. This problem is even more evident in the case of predicative units, such as verbs. Although some terminologists (L‘Homme 1998; Lerat 2002; Lorente 2007) have worked on specialized verbs, terminological equivalence between units that belong to this part of speech would benefit from a thorough study. By proposing a novel methodology to assign the equivalents of specialized verbs, this research aims at defining validation criteria for this kind of predicative units, so as to contribute to a better understanding of the phenomenon of terminological equivalence as well as to the development of multilingual terminography in general, and to the development of legal terminography, in particular. The study uses a Portuguese-English comparable corpus that consists of a single genre of texts, i.e. Supreme Court judgments, from which 100 Portuguese and 100 English specialized verbs were selected. The description of the verbs is based on the theory of Frame Semantics (Fillmore 1976, 1977, 1982, 1985; Fillmore and Atkins 1992), on the FrameNet methodology (Ruppenhofer et al. 2010), as well as on the methodology for compiling specialized lexical resources, such as DiCoInfo (L‘Homme 2008), developed in the Observatoire de linguistique Sens-Texte at the Université de Montréal. The research reviews contributions that have adopted the same theoretical and methodological framework to the compilation of lexical resources and proposes adaptations to the specific objectives of the project. In contrast to the top-down approach adopted by FrameNet lexicographers, the approach described here is bottom-up, i.e. verbs are first analyzed and then grouped into frames for each language separately. Specialized verbs are said to evoke a semantic frame, a sort of conceptual scenario in which a number of mandatory elements (core Frame Elements) play specific roles (e.g. ARGUER, JUDGE, LAW), but specialized verbs are often accompanied by other optional information (non-core Frame Elements), such as the criteria and reasons used by the judge to reach a decision (statutes, codes, previous decisions). The information concerning the semantic frame that each verb evokes was encoded in an xml editor and about twenty contexts illustrating the specific way each specialized verb evokes a given frame were semantically and syntactically annotated. The labels attributed to each semantic frame (e.g. [Compliance], [Verdict]) were used to group together certain synonyms, antonyms as well as equivalent terms. The research identified 165 pairs of candidate equivalents among the 200 Portuguese and English terms that were grouped together into 76 frames. 71% of the pairs of equivalents were considered full equivalents because not only do the verbs evoke the same conceptual scenario but their actantial structures, the linguistic realizations of the actants and their syntactic patterns were similar. 29% of the pairs of equivalents did not entirely meet these criteria and were considered partial equivalents. Reasons for partial equivalence are provided along with illustrative examples. Finally, the study describes the semasiological and onomasiological entry points that JuriDiCo, the bilingual lexical resource compiled during the project, offers to future users. / Les ressources multilingues portant sur le domaine juridique n‘incluent pas toujours d‘équivalents valides pour deux raisons. D‘abord, les systèmes juridiques peuvent différer d‘une communauté linguistique à l‘autre et même d‘un pays à l‘autre, car chacun a son histoire et ses traditions. Par conséquent, le phénomène de la non-isomorphie entre les systèmes juridiques et linguistiques rend difficile la tâche d‘identification des équivalents. En deuxième lieu, en se concentrant surtout sur la définition de la notion d‘équivalence, notion largement débattue en traductologie, mais non suffisamment en terminologie, la littérature ne propose pas de méthodologies solides et systématiques pour identifier les équivalents. On assiste donc à une absence de critères pouvant guider tant les terminologues que les traducteurs dans la recherche et la validation des équivalents des termes. Ce problème est encore plus évident dans le cas d‘unités prédicatives comme les verbes. Bien que certains terminologues (L'Homme, 1998; Lorente et Bevilacqua 2000; Costa et Silva 2004) aient déjà travaillé sur les verbes spécialisés, l‘équivalence terminologique, en ce qui concerne ce type d‘unités, bénéficierait d‘une étude approfondie. En proposant une méthodologie originale pour identifier les équivalents des verbes spécialisés, cette recherche consiste donc à définir des critères de validation de ce type d‘unités prédicatives afin de mieux comprendre le phénomène de l‘équivalence et aussi améliorer les ressources terminologiques multilingues, en général, et les ressources terminologiques multilingues couvrant le domaine juridique, en particulier. Cette étude utilise un corpus comparable portugais-anglais contenant un seul genre de textes, à savoir les décisions des cours suprêmes, à partir duquel 100 verbes spécialisés ont été sélectionnés pour chaque langue. La description des verbes se base sur la théorie de la sémantique des cadres (Fillmore 1976, 1977, 1982, 1985; Fillmore and Atkins 1992), sur la méthodologie de FrameNet (Ruppenhofer et al. 2010), ainsi que sur la méthodologie développée à l‘Observatoire de linguistique Sens-Texte pour compiler des ressources lexicales spécialisées, telles que le DiCoInfo (L‘Homme 2008). La recherche examine d‘autres contributions ayant déjà utilisé ce cadre théorique et méthodologique et propose des adaptations objectives du projet. Au lieu de suivre une démarche descendante comme le font les lexicographes de FrameNet, la démarche que nous décrivons est ascendante, c‘est-à-dire, pour chaque langue séparément, les verbes sont d‘abord analysés puis regroupés par cadres sémantiques. Dans cette recherche, chacun des verbes « évoque » un cadre ou frame, une sorte de scénario conceptuel, dans lequel un certain nombre d‘acteurs obligatoires (core Frame Elements) jouent des rôles spécifiques (le rôle de juge, le rôle d‘appelant, le rôle de la loi). Mis en discours, les termes sont souvent accompagnés d‘autres renseignements optionnels (non-core Frame Elements) comme ceux des critères utilisés par le juge pour rendre une décision (des lois, des codes, d‘autres décisions antérieures). Tous les renseignements concernant les cadres sémantiques que chacun des verbes évoque ont été encodés dans un éditeur xml et une vingtaine de contextes illustrant la façon spécifique dont chacun des verbes évoque un cadre donné ont été annotés. Les étiquettes attribuées à chaque cadre sémantique (ex. [Compliance], [Verdict]) ont servi à relier certains termes synonymes, certains termes antonymes ainsi que des candidats équivalents. Parmi les 200 termes portugais et anglais regroupés en 76 cadres, 165 paires de candidats équivalents ont été identifiés. 71% des paires d‘équivalents sont des équivalents parfaits parce que les verbes évoquent le même scénario conceptuel, leurs structures actancielles sont identiques, les réalisations linguistiques de chacun des actants sont équivalentes, et les patrons syntaxiques des verbes sont similaires. 29% des paires d‘équivalents correspondent à des équivalents partiels parce qu‘ils ne remplissent pas tous ces critères. Au moyen d‘exemples, l‘étude illustre tous les cas de figure observés et termine en présentant les différentes façons dont les futurs utilisateurs peuvent consulter le JuriDiCo, la ressource lexicale qui a été compilée pendant ce projet.
29

Exploration de corpus scientifiques et techniques.

Ibekwe-Sanjuan, Fidelia 30 June 2010 (has links) (PDF)
Ce mémoire d'HDR met en perspective les recherches que nous avons conduites en Sciences de l'information et de la communication (SIC) au cours des douze dernières années. Partie d'une problématique pratique d'accès à l'information spécialisée dans le cadre de la veille scientifique et technologique, nous avons été amenée peu à peu à interroger les fondements mêmes de la discipline, ses concepts fondamentaux et les paradigmes qui la traversent. Les quatre premiers chapitres reviennent sur le chemin parcouru par les SIC depuis leurs origines (1972) jusqu'à présent. Les cinq chapitres suivants mettent en perspective les axes de recherche que nous avons développés dont l'exploration de corpus scientifiques et techniques forme le noyau. Cet axe de travail a conduit à la mise au point d'un dispositif technique d'analyse des publications permettant de générer une cartographie thématique des principales tendances observées dans le corpus. Un deuxième axe, conçu dans le prolongement du premier, porte sur l'analyse discursive des textes scientifiques pour la caractérisation des marques d'énonciation des auteurs. Cet axe de recherche trouve ses racines dans la théorie des facettes développée dans le milieu documentaire par Ranganathan en 1933. Le troisième axe porte sur une analyse du paradigme orienté-système qui domine actuellement les recherches en recherche d'information. Nous revenons sur les modalités d'évaluation des systèmes de recherche d'information et sur leur réelle l'utilité pour de vrais usagers. Un quatrième axe portant sur les usages des TIC (Technologies de l'Information et de la Communication) étudie les ressorts du concept de " bibliothèques participatives " (participatory libraries) outre-Atlantique. Les thèmes abordés dans les chapitres précédents permettent de dégager les perspectives d'avenir.
30

Méthode d'enrichissement et d'élargissement d'une ontologie à partir de corpus de spécialité multilingues / Method of ontology enrichment and population from multilingual comparable domain specific corpus

Korenchuk, Yuliya 11 July 2017 (has links)
Cette thèse propose une méthode pour alimenter une ontologie, une structure de concepts liés par des relations sémantiques, par des termes français, anglais et allemands à partir de corpus spécialisés comparables. Son apport principal est le développement des méthodes d'extraction utilisant des ressources endogènes apprises à partir de corpus et d'ontologie. Exploitant des n-grammes de caractères, elles sont disponibles et indépendantes vis-à-vis de la langue et du domaine. La première contribution porte sur l'utilisation des ressources morphologiques et morphosyntaxiques endogènes pour extraire des termes mono- et polylexicaux à partir de corpus. La deuxième contribution vise à exploiter des ressources endogènes pour identifier leurs traductions. La troisième contribution concerne la construction des familles morphologiques endogènes servant à alimenter l'ontologie. / This thesis proposes a method of enrichment and population of an ontology, a structure of concepts linked by semantic relations, by terms in French, English and German from comparable domain-specific corpora. Our main contribution is the development of extraction methods based on endogenous resources, learned from the corpus and the ontology being analyzed. Using caracter n-grams, these resources are available and independent of a particular language or domain. The first contribution concerns the use of endogenous morphological and morphosyntactic resources for mono- and polylexical terms extraction from the corpus. The second contribution aims to use endogenous resources to identify translations for these terms. The third contribution concerns the construction of endogenous morphological families designed to enrich and populate the ontology.

Page generated in 0.0948 seconds