Global ETD Search

1	Vers un traitement automatique de la néosémie : approche textuelle et statistique / Automating meaning acquisition : a textual and statistical approach Reutenauer, Coralie 20 January 2012 (has links) L'enjeu de cette thèse est l'acquisition automatique de nouveaux sens lexicaux.Nous définissons un modèle théorique sur l'émergence d'un nouveau sens pour une unité lexicale ayant déjà un sens codé. Le phénomène ciblé est la néologie sémantique, ou néosémie, définie comme une variation sémantique marquée en cours de diffusion. Nous la modélisons à partir d'indices quantitatifs articulés à des principes issus de la sémantique textuelle. Le sens codé est représentécomme un ensemble structuré de traits sémantiques. Il est modulé en discours sous l'effet de récurrences d'autres traits. La dynamique du sens est représentée à l'aide de descripteurs de granularité sémantique variable.Ensuite, nous proposons des ressources et outils adaptés, relevant de la linguistique de corpus. Les ressources sont de deux types, lexicographiques pour le sens codé et textuelles pour le sens en discours. En pratique, le Trésor de la Langue Française informatisé fournit les sens codés. Une plateforme transforme ses définitions en ensembles de traits sémantiques. Trois corpus journalistiques des années 2000 servent de ressources textuelles. Les outils mathématiques, essentiellementstatistiques, permettent de jouer sur la structure des ressources, d'extraire des unités saillantes et d'organiser l'information.Enfin, nous établissons les grandes lignes d'une procédure pour allouer de façon semi-automatique un nouveau sens. Elles sont étayées par des expériences illustratives. Le déroulement de la procédure repose sur des niveaux de description de plus en plus fins (domaines, unités lexicales puis traits sémantiques). Il s'appuie sur des jeux de contrastes multiples, permettant de nuancer l'informationsémantique. / The issue at stake is the automated meaning allocation.In a first time, a theoretical scheme is elaborated to describe meaning change for a lexical unit already defined in a lexical resource. We focus on semantic neology, considered as a significant repeted change. Our model relies on quantitative evidence and it is inspired from text semantics. The preexisting meaning is represented as a structured set of semantic features. The context modifies it dueto salient semantic featuresin texts. These dynamic change is comprehended through description strata ranging from coarse-grained to fine-grained semantic units. In a second time, we dwell on relevant resources and tools from corpus linguistics. The resources are dictionaries and text corpus. Concretely, we use the Trésor de la Langue Française informatisé as a dictionary. Its entries are automatically converted into bags of semantic features. The textual dataconsists in three recent journalistic corpus. The resources are considered are mathematic spaces and statistical tools are used to extract significant units and to structure information.In a last time, we give an outline of a process to allocate automatically a new meaning. Experiments illustrate each step. This process relies on multiple levels of description, getting finer and finer.Through this approach, it is possible to qualify the new meaning in a precise and structured way. Néologie sémantique Textométrie Néosémie Description sémantique multiniveaux Indices statistiques Traits sémantiques Acquisition automatique
2	Discours d'entreprise et organisation de l'information - Apports de la textométrie dans la construction de référentiels terminologiques adaptables au contexte Erlos, Frédéric 16 January 2009 (has links) (PDF) L'organisation de l'information sur un intranet (réseau informatique interne d'une organisation fonctionnant avec les technologies d'Internet) nécessite de nouvelles approches pour traiter la question de l'adéquation entre l'arborescence des sites et les usages linguistiques de leurs publics. Une façon de prendre en compte ces usages consiste à explorer les données textuelles représentatives d'une situation de communication spécifique. Une telle exploration est effectuée à l'aide de techniques textométriques, comme l'index hiérarchique des formes, les concordances, les segments répétés, la carte des sections d'un texte, le calcul des co-occurrences et l'analyse factorielle des correspondances. On extrait alors d'un corpus de textes de communication d'entreprise (rapports d'activité) les unités lexicales destinées à la construction d'un référentiel terminologique d'un type particulier. Afin de prendre en compte le contexte de communication on propose d'utiliser trois sortes de repères : - le référentiel d'objets propre à une organisation, - les propriétés pragmatiques des noms propres, - la collecte d'une partie du vocabulaire caractéristique du corpus utilisé comme source du référentiel terminologique, réalisée à partir d'une sélection de noms propres. Ainsi, cette collecte ne se limite pas aux seules unités terminologiques : elle comprend également des mots relevant de la langue commune et des noms propres. Les unités appartenant au vocabulaire du corpus sont choisies en fonction du type de relations sémantiques établies avec les noms propres dans les discours. Enfin, les résultats obtenus sont évalués en termes de productivité, de fiabilité et de représentativité. intranet linguistique de corpus nom propre organisation de l'information terminologie textométrie
3	Approche textométrique de l’analyse d’opinion - l’exemple de la crise entre la Chine et Google (2010) / A textometric approach to the analysis of opinions – an example of the crisis between China and Google (2010) Wu, Li-Chi 05 October 2016 (has links) À l’avènement du Web 2.0, le monde virtuel devient une communauté extrêmement complexe dans laquelle on procède plus ou moins librement à des échanges d’informations et d’avis les plus divers. L’outil de communication, en constante évolution, fait émerger la voix de l’opinion dans le monde virtuel tout en influençant le contenu et la nature mêmes des messages des utilisateurs d’Internet. L’appareil de censure du web chinois, connu sous le nom de Grande Muraille électronique, a souvent fait l’objet de sévères dénonciations. Partant de la controverse, qui a ébranlé le monde politique et commercial, nous avons étudié les comportements linguistiques des acteurs du web chinois et nous avons examiné en profondeur les diverses modalités d’usage de la langue. Sur un corpus établi à partir des sites des médias, des forums, des blogs provenant des différentes communautés sinophones, notre objectif est d’expérimenter l’approche textométrique pour aboutir à une typologie différentielle des opinions. En nous appuyant sur les ressources lexicales, nous proposons divers critères d’analyse comparative pour tenter de dégager les opinions des auteurs à partir des textes qu’ils ont produits. Nous nous intéressons en particulier aux variétés et à la diversité des formes langagières des internautes chinois dont les nouvelles manières d’écrire ne se conforment pas aux règles et aux normes de la langue standard de l’écriture éditoriale. / With the arrival of the Web 2.0, the online world has become an extremely complex community, where information and opinions are more or less freely exchanged on all sides. The communication tools, constantly evolving, bring out public opinion in the online world and simultaneously influence both the content and the nature of Internet messages. Internet censorship in China, known as the Great Firewall, has often received harsh criticism. By the example of the controversy between Google and the Chinese government that shocked the political world and the market in 2010, we study the linguistic behaviour of participants on the Chinese Internet and examine the various forms of the use of language in depth. Based on a corpus established from media websites, forums, blogs in various Chinese-speaking communities, our goal is to apply the textometric approach in order to establish a differential typology of opinions. Building on the lexical resources, we offer various benchmarking criteria to try to extract authors' opinions from the texts that they have produced. We are particularly interested in the varieties and diversities of language forms of Chinese Internet users, where new ways of writing do not comply with the rules and norms of standard language as found in editorial writing. Textométrie Analyse d’opinions Internet Chine Google Textometry Opinion analytics Internet China Google
4	Analyse textométrique des corpus parallèles francais-coréens / Textometric analysis of French-Korean parallel corpora Cho, Joon-Hyung 25 February 2010 (has links) Les équivalences traductionnelles extraites à partir d’un corpus parallèle deviendraient une ressource précieuse permettant d’étudier différents contextes traductionnels envisagés entre les deux langues distinctes. L’utilisation des textes traductionnels constitue aujourd’hui un thème essentiel en traductologie et en études contrastives des langues. Les méthodes textométriques opèrent une série de calculs statistiques portant sur les unités textuelles dans un corpus parallèle segmenté en occurrences. Elles fournissent les indices quantitatifs permettant de mettre en évidence le lien traductionnel de ces unités. En examinant des formes bilingues issues des corpus parallèles français-coréens, nous avons vérifié l’utilité de cette méthodologie appliquée aux textes traductionnels en français-coréen. Elles ont effectivement donné un résultat positif, d’une part, et un résultat négatif, d’autre part, tout au long de nos travaux. Pourtant, grâce à ces méthodes, nous avons pu étudier divers liens traductionnels entre unités textuelles du français et du coréen. La plupart de méthodes automatisées consacrées au corpus parallèle en langues hétérogènes n’ont pas produit de résultat acceptable. À ce titre, la textométrie, qui vise à l’observation quantitative des éléments lexicaux d’un corpus, serait très intéressante lorsqu’il s’agit notamment d’un corpus parallèle en langues sans parenté. / The translational equivalences extracted from a parallel corpus become a valuable resource enable to study the various translational contexts between the two distinct languages. The use of translational texts is now a principal subject in the translation studies and the contrastive studies of languages. The textometry operate a set of statistical calculations on the textual units in a parallel corpus divided into the tokens. They provide the quantitative evidence that verify the translational relation of the linguistic units. In exploring bilingual words in the French-Korean parallel corpora, we verified the usefulness of this methodology applied to the French-Korean translational texts. They produced actually a positive result, on the one hand, and a negative result, on the other hand, throughout our work. Yet, these methods made also observe the various translational relations of textual units between French and Korean. The most automated methods devoted to the parallel corpora of heterogeneous language pairs have not produced the approvable result. For the reason, the textometry, which aims to observe the lexical elements of a corpus from a statistical point of view, would be very practical method when we deal with a parallel corpus that consists of different language pairs. Corpus parallèle Textométrie Traductologie Français Coréen Parallel corpus Textometry Translation study French Korean
5	Discours d'entreprise et organisation de l'information : apports de la textométrie dans la construction de référentiels terminologiques adaptables au contexte / Corporate discourses and information organization : Contribution of the textual statistics to the construction of terminological thesaurus adaptable to the context Erlos, Frédéric 16 January 2009 (has links) L'organisation de l'information sur un intranet (réseau informatique interne d’une organisation fonctionnant avec les technologies d'Internet) nécessite de nouvelles approches pour traiter la question de l'adéquation entre l’arborescence des sites et les usages linguistiques de leurs publics. Une façon de prendre en compte ces usages consiste à explorer les données textuelles représentatives d'une situation de communication spécifique. Une telle exploration est effectuée à l’aide de techniques textométriques, comme l'index hiérarchique des formes, les concordances, les segments répétés, la carte des sections d’un texte, le calcul des co-occurrences et l'analyse factorielle des correspondances. On extrait alors d’un corpus de textes de communication d’entreprise (rapports d’activité) les unités lexicales destinées à la construction d'un référentiel terminologique d’un type particulier. Afin de prendre en compte le contexte de communication on propose d’utiliser trois sortes de repères : - le référentiel d’objets propre à une organisation, - les propriétés pragmatiques des noms propres, - la collecte d’une partie du vocabulaire caractéristique du corpus utilisé comme source du référentiel terminologique, réalisée à partir d’une sélection de noms propres. Ainsi, cette collecte ne se limite pas aux seules unités terminologiques : elle comprend également des mots relevant de la langue commune et des noms propres. Les unités appartenant au vocabulaire du corpus sont choisies en fonction du type de relations sémantiques établies avec les noms propres dans les discours. Enfin, les résultats obtenus sont évalués en termes de productivité, de fiabilité et de représentativité. / Information organization on an intranet (internal network of an organization, using technologies of Internet) needs new approaches handling the question of the adequacy between the structures of intranet sites and the language use of their visitors. A way to take into account these usages is to explore textual data which are representative of a specific situation of communication. Such an exploration is carried out with textual statistics tools, like hierarchical index, concordance, repeated segment, textual map, co-occurrence and cluster analysis. This corpus-based approach allows us to extract linguistic units belonging, for example, to texts of corporate communication (annual reports). Recognition and storage of such lexical data aim at the construction of a terminological thesaurus of a peculiar type. We suggest taking into account the context of communication by using three sorts of marks : - the particular ontology of an organization such as it is evoked in discourses, - the pragmatic properties of the proper names, - a selection of proper names allows gathering a part of the characteristic vocabulary of the corpus used as source for the terminological thesaurus. This collection does not thus limit itself to the only terminological units, but also contains words of the common language and proper names. Elements belonging to the vocabulary of the corpus are selected according to the type of semantic relations established with the proper names in the texts. Finally, the results are assessed in terms of productivity, reliability and representativeness. Intranet Organisation de l’information Linguistique de corpus Textométrie Terminologie Nom propre Intranet Information organization Corpus linguistics Textual statistics Terminology Proper name
6	L'ALTÉRITÉ AU MIROIR DU RÉCIT MODALITÉS ET DEGRÉS D'UNE APPROPRIATION DISCURSIVE Magri-Mourgues, Véronique 13 October 2006 (has links) (PDF) Ce document correspond à la synthèse de mon travail de recherche jusqu'en 2006, date de la soutenance de mon HDR. Après une explicitation de la méthodologie suivie, qui allie analyse du discours et textométrie, les procédures de fictionnalisation de l'Autre sont étudiées, au niveau macrostructural et microstructural, pour montrer comment s'élabore la construction de l'Autre. Une seconde partie est consacrée aux procédés d'intégration du discours de l'Autre, au travers de l'étude du dialogisme et de la polyphonie. Enfin, un dernier point est consacré à l'Autre de tout discours, par le biais des figures de poétisation. linguistique textuelle analyse du discours stylistique poésie récit de voyage altérité textométrie
7	Modélisation informatique de structures dynamiques de segments textuels pour l'analyse de corpus Daoust, François 10 January 2011 (has links) (PDF) L'objectif de la thèse est de proposer un modèle informatique pour représenter, construire et exploiterdes structures textuelles. Le modèle proposé s'appuie sur une représentation du texte sous la forme d'unplan lexique/occurrences augmenté de systèmes d'annotations lexicales et contextuelles, modèle dontune implantation a été réalisée dans le logiciel SATO dont on présente les fonctionnalités etl'organisation interne. La présentation d'un certain nombre de travaux rendent compte dudéveloppement et de l'utilisation du logiciel dans divers contextes.La prise en charge formelle des structures textuelles et discursives trouve un allié dans le langage debalisage XML et dans les propositions de la Text Encoding Initiative (TEI). Formellement, lesstructures construites sur les segments textuels correspondent à des graphes. Dans le contexte d'uneanalyse textuelle en élaboration, ces graphes sont multiples et partiellement déployés. La résolution deces graphes, au sens du rattachement des noeuds à des segments textuels ou à des noeuds d'autresgraphes, est un processus dynamique qui peut être soutenu par divers mécanismes informatiques. Desexemples tirés de la linguistique textuelle servent à illustrer les principes de l'annotation structurelle.Des considérations prospectives sur une implantation informatique d'un système de gestion del'annotation structurelle sont aussi exposées. Analyse de discours Modèle SATO Annotation structurelle TEI Textométrie
8	Approches textométriques de la notion de style du traducteur : Analyses d'un corpus parallèle Français-Chinois : Jean-Christophe de Romain Rolland et ses trois traductions chinoises Miao, Jun 20 April 2012 (has links) (PDF) Nous avons tenté d'explorer la notion de style du traducteur en articulant les analysestraductologiques et les méthodes de la textométrie multilingue (méthodes d'analysequantitatives textuelles appliquées à des corpus de textes alignés). Notre corpus d'étude est constitué par trois traductions chinoises d'une oeuvre littéraire française, Jean-Christophe de Romain Rolland (1904-1917), réalisées respectivement par Fu Lei (1952-1953), Han Hulin(2000) et Xu Yuanchong (2000). Après une description des difficultés inhérentes à la construction d'un corpus parallèle français-chinois, nous effectuons successivement diverses mesures textométriques sur ce corpus, dans le but de mettre en évidence des usages lexicaux et syntaxiques propres à chacun des traducteurs. La remise en contexte dans le corpus parallèle des différences statistiques des phénomènes linguistiques entre traductions et l'examen des facteurs socioculturels relatifs à chacune des époques font ressortir des indicateurs du style de chaque traducteur. La recherche détaillée de type traductologique, portant sur les particules chinoises, appuyée sur des comparaisons textométriques, fournit une série d'indices révélant des approches spécifiques à chacun des traducteurs dans son travail. Les résultats de cette enquête, menée à travers la comparaison des trois versions chinoisesentre elles, puis avec le texte original français jettent les bases d'une proposition de modèle d'analyse centré sur le style du traducteur. Nous pensons que notre travail ouvre une voie à une exploration scientifique et systématique de la notion de style du traducteur dans le cadre traductologique. Textométrie Traductologie Corpus parallèle français-chinois Style du traducteur Jean-Christophe
9	L'impact du traumatisme psychique sur la mémoire : une approche transdisciplinaire / Impact of individual and collective traumatic events on memory : a transdisciplinary appoach Dégeilh, Fanny 30 June 2016 (has links) L’objectif de cette thèse était d’étudier l’impact du traumatisme psychique sur la mémoire de façon transdisciplinaire pour mieux appréhender les liens qui associent mémoire, émotion et perception de soi. Premièrement, l’analyse textométrique des témoignages recueillis entre 1 semaine et 10 ans après les attentats du 11 septembre 2001 aux États-Unis, nous a permis de préciser les modifications du contenu des souvenirs émotionnels dans le temps. De plus, nos résultats suggèrent que le contenu des souvenirs et leur évolution temporelle sont modulés par l’intensité du ressenti émotionnel au moment de l’événement. Deuxièmement, nous avons développé et utilisé un nouvel outil de méta-analyse semi-automatique, LinkDisorder, associant analyse lexicale et neuroimagerie pour explorer les corrélats neuropsychologiques du trouble de stress post-traumatique (TSPT) chez l’adulte. Les résultats révèlent que, bien que les altérations du cortex préfrontal, de l’amygdale et de l’hippocampe, qui sous-tendent les déficits mnésiques et émotionnels soient au centre de la pathologie, les altérations du processus de récompense et du striatum pourraient expliquer l’anhédonie des patients. Troisièmement, l’approche en neuropsychologie et neuroimagerie de la perception de soi dans le TSPT pédiatrique nous a permis d’explorer les modifications cérébrales fonctionnelles associées à un stress traumatique survenant à une période essentielle au développement identitaire, l’adolescence. Notre étude suggère que le TSPT pédiatrique serait associé à des anomalies fonctionnelles précoces dans les régions impliquées dans la régulation émotionnelle et la mémoire lors du processus de référence à soi. / The main aim of this thesis was to study the impact of trauma on memory in a transdisciplinary way to better understand the relationships between memory, emotion and Self. Firstly, we used textometry to explore memories from 1 week to 10 years after the 9/11 attacks, and showed the progressive changes of the content of emotional memories over time. In addition, our results revealed that the intensity of the emotional response at the time of the event could modulate the content of memories and their change over time. Secondly, we developed and used a new method of automated meta-analysis, LinkDisorder, which combines lexical analyses and neuroimaging to explore neurocognitive correlates of adult posttraumatic stress disorder (PTSD). Our meta-analysis highlights that while PTSD is characterized by functional alterations in prefrontal, amygdala and hippocampal regions underlying memory and emotional deficits, dysfunction in reward processing and of the striatum may subtend anhedonia in patients. Thirdly, using neuropsychology and neuroimaging examinations of self-perception in pediatric PTSD, we explored brain changes occurring after a traumatic stress in adolescence, a core period of life for the development of identity. Our study suggests that pediatric PTSD is associated with early functional abnormalities in the regions involved in emotion regulation and memory during self-reference processing. Adolescence Textométrie Imagerie par résonance magnétique Développement cérébral Adolescence Textometry Magnetic resonance imaging Brain development Posttraumatic stress disorder (PTSD)
10	Les thèmes et le temps dans Le Monde diplomatique (1990-2008) / Themes and time in Le Monde diplomatique (1990-2008) Metwally, Heba 11 December 2017 (has links) La démocratisation des textes numérisés change aujourd’hui nos ambitions scientifiques. Lire les big data n’est plus un idéal auquel on aspire. Dès lors, l’interprétation des gros corpus devient un impératif et se pose en défi. Puisque les textes s’étalent naturellement dans le temps, les gros corpus prennent le plus souvent la forme des corpus chronologiques. Ceux-ci représentent ici un objet de connaissance ordonné qui approfondit notre compréhension des données sérielles et met en question la pertinence du recours à une statistique traditionnelle.Le Monde diplomatique est un mensuel sérieux et reconnu par les instances universitaires comme source de première main. En 2015, il comptait 37 éditions internationales en 20 langues. Journal français engagé à large diffusion internationale, il fait l’objet d’études universitaires nombreuses. Une analyse thématique documentée vise ici l’observation de l’évolution du discours sans complexe du mensuel dans un monde en reconstruction. Comment le MD gère-t-il l’évolution de son discours au lendemain de la chute du mur de Berlin et jusqu’à la fin de la guerre mondiale contre le terrorisme ? La fin du XXe siècle et le début du XXIe siècle est un laps de temps assez court et pourtant foisonnant.Au confluent de ce double intérêt pour les données sérielles chronologiques et l’analyse de l’évolution thématique du MD, une série textuelle chronologique regroupant plus de 5000 articles publiés entre 1990 et 2008 qui comptent plus de 11 millions d’occurrences est réduite à une maquette. Celle-ci devient un prêt-à-monter rapide qui nous assiste dans une lecture qui articule les niveaux descriptifs de la textualité pour aller au fond des moments de sens stabilisé, pour arriver au bout de la marche du temps et pour pratiquer une sémantique appropriée dans toute sa complexité. / Dealing with big data today is becoming a big challenge for scholars who are conducting corpus-based studies. As producing texts spreads normally over time, scholars are interfacing increasingly with chronological corpora. Studying time series deepens our understanding of chronological data and modifies our ideas about the appropriate statistical analysis. The Monde diplomatique is a monthly newspaper distributed worldwide. In 2015, it had 37 editions and was read in 20 languages. As a French international journal offering serious analysis on politics, economics, culture and current affairs, it is an area of interest for several university studies. We aim here to offer a documented analysis of the evolution of its discourse in the aftermath of the Fall of the Berlin Wall and till the end of the Global War on Terror (GWOT).To analyse big corpora that stretch out over time we need to adjust our practices in corpus semantics and statistical data analysis. That is what we propose by using a scale model of a chronological corpus initially composed of more than 5000 articles (ca 11 million text words). A new reduced and authentic model guarantees appropriate approach to different text levels to study meaning over time. Corpus chronologique Textométrie Analyse du discours médiatique Sémantique de thèmes Logogénétique Chronological corpus Textometry Media analysis Corpus semantics Logogenesis

Search results