Global ETD Search

91	Analyse et détection automatique de disfluences dans la parole spontanée conversationnelle / Disfluency analysis and automatic detection in conversational spontaneous speech Dutrey, Camille 16 December 2014 (has links) Extraire de l'information de données langagières est un sujet de plus en plus d'actualité compte tenude la quantité toujours croissante d'information qui doit être régulièrement traitée et analysée, etnous assistons depuis les années 90 à l'essor des recherches sur des données de parole également. Laparole pose des problèmes supplémentaires par rapport à l'écrit, notamment du fait de la présence dephénomènes propres à l'oral (hésitations, reprises, corrections) mais aussi parce que les donnéesorales sont traitées par un système de reconnaissance automatique de la parole qui génèrepotentiellement des erreurs. Ainsi, extraire de l'information de données audio implique d'extraire del'information tout en tenant compte du « bruit » intrinsèque à l'oral ou généré par le système dereconnaissance de la parole. Il ne peut donc s'agir d'une simple application de méthodes qui ont faitleurs preuves sur de l'écrit. L'utilisation de techniques adaptées au traitement des données issues del'oral et prenant en compte à la fois leurs spécificités liées au signal de parole et à la transcription –manuelle comme automatique – de ce dernier représente un thème de recherche en pleindéveloppement et qui soulève de nouveaux défis scientifiques. Ces défis sont liés à la gestion de lavariabilité dans la parole et des modes d'expressions spontanés. Par ailleurs, l'analyse robuste deconversations téléphoniques a également fait l'objet d'un certain nombre de travaux dans lacontinuité desquels s'inscrivent ces travaux de thèse.Cette thèse porte plus spécifiquement sur l'analyse des disfluences et de leur réalisation dans desdonnées conversationnelles issues des centres d'appels EDF, à partir du signal de parole et destranscriptions manuelle et automatique de ce dernier. Ce travail convoque différents domaines, del'analyse robuste de données issues de la parole à l'analyse et la gestion des aspects liés àl'expression orale. L'objectif de la thèse est de proposer des méthodes adaptées à ces données, quipermettent d'améliorer les analyses de fouille de texte réalisées sur les transcriptions (traitement desdisfluences). Pour répondre à ces problématiques, nous avons analysé finement le comportement dephénomènes caractéristiques de l'oral spontané (disfluences) dans des données oralesconversationnelles issues de centres d'appels EDF, et nous avons mis au point une méthodeautomatique pour leur détection, en utilisant des indices linguistiques, acoustico-prosodiques,discursifs et para-linguistiques.Les apports de cette thèse s'articulent donc selon trois axes de recherche. Premièrement, nousproposons une caractérisation des conversations en centres d'appels du point de vue de l'oralspontané et des phénomènes qui le caractérisent. Deuxièmement, nous avons mis au point (i) unechaîne d'enrichissement et de traitement des données orales effective sur plusieurs plans d'analyse(linguistique, prosodique, discursif, para-linguistique) ; (ii) un système de détection automatique desdisfluences d'édition adapté aux données orales conversationnelles, utilisant le signal et lestranscriptions (manuelles ou automatiques). Troisièmement, d'un point de vue « ressource », nousavons produit un corpus de transcriptions automatiques de conversations issues de centres d'appelsannoté en disfluences d'édition (méthode semi-automatique). / Extracting information from linguistic data has gain more and more attention in the last decades inrelation with the increasing amount of information that has to be processed on a daily basis in the world. Since the 90’s, this interest for information extraction has converged to the development of researches on speech data. In fact, speech data involves extra problems to those encountered on written data. In particular, due to many phenomena specific to human speech (e.g. hesitations, corrections, etc.). But also, because automatic speech recognition systems applied on speech signal potentially generates errors. Thus, extracting information from audio data requires to extract information by taking into account the "noise" inherent to audio data and output of automatic systems. Thus, extracting information from speech data cannot be as simple as a combination of methods that have proven themselves to solve the extraction information task on written data. It comes that, the use of technics dedicated for speech/audio data processing is mandatory, and epsecially technics which take into account the specificites of such data in relation with the corresponding signal and transcriptions (manual and automatic). This problem has given birth to a new area of research and raised new scientific challenges related to the management of the variability of speech and its spontaneous modes of expressions. Furthermore, robust analysis of phone conversations is subject to a large number of works this thesis is in the continuity.More specifically, this thesis focuses on edit disfluencies analysis and their realisation in conversational data from EDF call centres, using speech signal and both manual and automatic transcriptions. This work is linked to numerous domains, from robust analysis of speech data to analysis and management of aspects related to speech expression. The aim of the thesis is to propose appropriate methods to deal with speech data to improve text mining analyses of speech transcriptions (treatment of disfluencies). To address these issues, we have finely analysed the characteristic phenomena and behavior of spontaneous speech (disfluencies) in conversational data from EDF call centres and developed an automatic method for their detection using linguistic, prosodic, discursive and para-linguistic features.The contributions of this thesis are structured in three areas of research. First, we proposed a specification of call centre conversations from the prespective of the spontaneous speech and from the phenomena that specify it. Second, we developed (i) an enrichment chain and effective processings of speech data on several levels of analysis (linguistic, acoustic-prosodic, discursive and para-linguistic) ; (ii) an system which detect automaticcaly the edit disfluencies suitable for conversational data and based on the speech signal and transcriptions (manual or automatic). Third, from a "resource" point of view, we produced a corpus of automatic transcriptions of conversations taken from call centres which has been annotated in edition disfluencies (using a semi-automatic method). Traitement automatique des langues Traitement automatique de la parole Parole spontanée Oral conversationnel Disfluences Analyse robuste Centres d'appels Natural Language Processing Speech Processing Spontaneous Speech Conversational Speech Disfluency Robust Analysis Call Centre
92	Reasoning with qualitative spatial and temporal textual cases / Raisonnement qualitatif spatio-temporel à partir de cas textuels Dufour-Lussier, Valmi 07 October 2014 (has links) Cette thèse propose un modèle permettant la mise en œuvre d'un système de raisonnement à partir de cas capable d'adapter des procédures représentées sous forme de texte en langue naturelle, en réponse à des requêtes d'utilisateurs. Bien que les cas et les solutions soient sous forme textuelle, l'adaptation elle-même est d'abord appliquée à un réseau de contraintes temporelles exprimées à l'aide d'une algèbre qualitative, grâce à l'utilisation d'un opérateur de révision des croyances. Des méthodes de traitement automatique des langues sont utilisées pour acquérir les représentations algébriques des cas ainsi que pour regénérer le texte à partir du résultat de l'adaptation / This thesis proposes a practical model making it possible to implement a case-based reasoning system that adapts processes represented as natural language text in response to user queries. While the cases and the solutions are in textual form, the adaptation itself is performed on networks of temporal constraints expressed with a qualitative algebra, using a belief revision operator. Natural language processing methods are used to acquire case representations and to regenerate text based on the adaptation result Algèbre qualitative Adaptation Génération de texte Raisonnement à partir de cas Raisonnement temporel Révision des croyances Traitement automatique des langues Adaptation Belief revision Case-Based reasoning Qualitative algebra Natural language processing Temporal reasoning Text generation 006.33 006.35
93	Concept-based and relation-based corpus navigation : applications of natural language processing in digital humanities / Navigation en corpus fondée sur les concepts et les relations : applications du traitement automatique des langues aux humanités numériques Ruiz Fabo, Pablo 23 June 2017 (has links) La recherche en Sciences humaines et sociales repose souvent sur de grandes masses de données textuelles, qu'il serait impossible de lire en détail. Le Traitement automatique des langues (TAL) peut identifier des concepts et des acteurs importants mentionnés dans un corpus, ainsi que les relations entre eux. Ces informations peuvent fournir un aperçu du corpus qui peut être utile pour les experts d'un domaine et les aider à identifier les zones du corpus pertinentes pour leurs questions de recherche. Pour annoter automatiquement des corpus d'intérêt en Humanités numériques, les technologies TAL que nous avons appliquées sont, en premier lieu, le liage d'entités (plus connu sous le nom de Entity Linking), pour identifier les acteurs et concepts du corpus ; deuxièmement, les relations entre les acteurs et les concepts ont été déterminées sur la base d'une chaîne de traitements TAL, qui effectue un étiquetage des rôles sémantiques et des dépendances syntaxiques, entre autres analyses linguistiques. La partie I de la thèse décrit l'état de l'art sur ces technologies, en soulignant en même temps leur emploi en Humanités numériques. Des outils TAL génériques ont été utilisés. Comme l'efficacité des méthodes de TAL dépend du corpus d'application, des développements ont été effectués, décrits dans la partie II, afin de mieux adapter les méthodes d'analyse aux corpus dans nos études de cas. La partie II montre également une évaluation intrinsèque de la technologie développée, avec des résultats satisfaisants. Les technologies ont été appliquées à trois corpus très différents, comme décrit dans la partie III. Tout d'abord, les manuscrits de Jeremy Bentham, un corpus de philosophie politique des 18e et 19e siècles. Deuxièmement, le corpus PoliInformatics, qui contient des matériaux hétérogènes sur la crise financière américaine de 2007--2008. Enfin, le Bulletin des Négociations de la Terre (ENB dans son acronyme anglais), qui couvre des sommets internationaux sur la politique climatique depuis 1995, où des traités comme le Protocole de Kyoto ou les Accords de Paris ont été négociés. Pour chaque corpus, des interfaces de navigation ont été développées. Ces interfaces utilisateur combinent les réseaux, la recherche en texte intégral et la recherche structurée basée sur des annotations TAL. À titre d'exemple, dans l'interface pour le corpus ENB, qui couvre des négociations en politique climatique, des recherches peuvent être effectuées sur la base d'informations relationnelles identifiées dans le corpus: les acteurs de la négociation ayant discuté un sujet concret en exprimant leur soutien ou leur opposition peuvent être recherchés. Le type de la relation entre acteurs et concepts est exploité, au-delà de la simple co-occurrence entre les termes du corpus. Les interfaces ont été évaluées qualitativement avec des experts de domaine, afin d'estimer leur utilité potentielle pour la recherche dans leurs domaines respectifs. Tout d'abord, il a été vérifié si les représentations générées pour le contenu des corpus sont en accord avec les connaissances des experts du domaine, pour déceler des erreurs d'annotation. Ensuite, nous avons essayé de déterminer si les experts pourraient être en mesure d'avoir une meilleure compréhension du corpus grâce à avoir utilisé les applications, par exemple, s'ils ont trouvé de l'évidence nouvelle pour leurs questions de recherche existantes, ou s'ils ont trouvé de nouvelles questions de recherche. On a pu mettre au jour des exemples où un gain de compréhension sur le corpus est observé grâce à l'interface dédiée au Bulletin des Négociations de la Terre, ce qui constitue une bonne validation du travail effectué dans la thèse. En conclusion, les points forts et faiblesses des applications développées ont été soulignés, en indiquant de possibles pistes d'amélioration en tant que travail futur. / Social sciences and Humanities research is often based on large textual corpora, that it would be unfeasible to read in detail. Natural Language Processing (NLP) can identify important concepts and actors mentioned in a corpus, as well as the relations between them. Such information can provide an overview of the corpus useful for domain-experts, and help identify corpus areas relevant for a given research question. To automatically annotate corpora relevant for Digital Humanities (DH), the NLP technologies we applied are, first, Entity Linking, to identify corpus actors and concepts. Second, the relations between actors and concepts were determined based on an NLP pipeline which provides semantic role labeling and syntactic dependencies among other information. Part I outlines the state of the art, paying attention to how the technologies have been applied in DH.Generic NLP tools were used. As the efficacy of NLP methods depends on the corpus, some technological development was undertaken, described in Part II, in order to better adapt to the corpora in our case studies. Part II also shows an intrinsic evaluation of the technology developed, with satisfactory results. The technologies were applied to three very different corpora, as described in Part III. First, the manuscripts of Jeremy Bentham. This is a 18th-19th century corpus in political philosophy. Second, the PoliInformatics corpus, with heterogeneous materials about the American financial crisis of 2007-2008. Finally, the Earth Negotiations Bulletin (ENB), which covers international climate summits since 1995, where treaties like the Kyoto Protocol or the Paris Agreements get negotiated.For each corpus, navigation interfaces were developed. These user interfaces (UI) combine networks, full-text search and structured search based on NLP annotations. As an example, in the ENB corpus interface, which covers climate policy negotiations, searches can be performed based on relational information identified in the corpus: the negotiation actors having discussed a given issue using verbs indicating support or opposition can be searched, as well as all statements where a given actor has expressed support or opposition. Relation information is employed, beyond simple co-occurrence between corpus terms.The UIs were evaluated qualitatively with domain-experts, to assess their potential usefulness for research in the experts' domains. First, we payed attention to whether the corpus representations we created correspond to experts' knowledge of the corpus, as an indication of the sanity of the outputs we produced. Second, we tried to determine whether experts could gain new insight on the corpus by using the applications, e.g. if they found evidence unknown to them or new research ideas. Examples of insight gain were attested with the ENB interface; this constitutes a good validation of the work carried out in the thesis. Overall, the applications' strengths and weaknesses were pointed out, outlining possible improvements as future work. Liage d’entité Entity Linking Wikification Extraction de relations Extraction de propositions Visualisation de corpus Navigation en corpus Traitement automatique des langues Humanités numériques Entity Linking Wikification Relation extraction Proposition extraction Corpus visualization Corpus navigation Evaluation Natural language processing Digital humanities 410
94	WikiGames : une plateforme de jeux dédiée à la validation d’une base de connaissances produite à partir de techniques d’extraction d’information ouverte Forand, Kevin 08 1900 (has links) No description available. Base de connaissances Apprentissage automatique Jeux Natural language processing Knowledge base Machine learning Games with a purpose
95	Élaboration d'ontologies médicales pour une approche multi-agents d'aide à la décision clinique / A multi-agent framework for the development of medical ontologies in clinical decision making Shen, Ying 20 March 2015 (has links) La combinaison du traitement sémantique des connaissances (Semantic Processing of Knowledge) et de la modélisation des étapes de raisonnement (Modeling Steps of Reasoning), utilisés dans le domaine clinique, offrent des possibilités intéressantes, nécessaires aussi, pour l’élaboration des ontologies médicales, utiles à l'exercice de cette profession. Dans ce cadre, l'interrogation de banques de données médicales multiples, comme MEDLINE, PubMed… constitue un outil précieux mais insuffisant car elle ne permet pas d'acquérir des connaissances facilement utilisables lors d’une démarche clinique. En effet, l'abondance de citations inappropriées constitue du bruit et requiert un tri fastidieux, incompatible avec une pratique efficace de la médecine.Dans un processus itératif, l'objectif est de construire, de façon aussi automatisée possible, des bases de connaissances médicales réutilisables, fondées sur des ontologies et, dans cette thèse, nous développons une série d'outils d'acquisition de connaissances qui combinent des opérateurs d'analyse linguistique et de modélisation de la clinique, fondés sur une typologie des connaissances mises en œuvre, et sur une implémentation des différents modes de raisonnement employés. La connaissance ne se résume pas à des informations issues de bases de données ; elle s’organise grâce à des opérateurs cognitifs de raisonnement qui permettent de la rendre opérationnelle dans le contexte intéressant le praticien.Un système multi-agents d’aide à la décision clinique (SMAAD) permettra la coopération et l'intégration des différents modules entrant dans l'élaboration d'une ontologie médicale et les sources de données sont les banques médicales, comme MEDLINE, et des citations extraites par PubMed ; les concepts et le vocabulaire proviennent de l'Unified Medical Language System (UMLS).Concernant le champ des bases de connaissances produites, la recherche concerne l'ensemble de la démarche clinique : le diagnostic, le pronostic, le traitement, le suivi thérapeutique de différentes pathologies, dans un domaine médical donné.Différentes approches et travaux sont recensés, dans l’état de question, et divers paradigmes sont explorés : 1) l'Evidence Base Medicine (une médecine fondée sur des indices). Un indice peut se définir comme un signe lié à son mode de mise en œuvre ; 2) Le raisonnement à partir de cas (RàPC) se fonde sur l'analogie de situations cliniques déjà rencontrées ; 3) Différentes approches sémantiques permettent d'implémenter les ontologies.Sur l’ensemble, nous avons travaillé les aspects logiques liés aux opérateurs cognitifs de raisonnement utilisés et nous avons organisé la coopération et l'intégration des connaissances exploitées durant les différentes étapes du processus clinique (diagnostic, pronostic, traitement, suivi thérapeutique). Cette intégration s’appuie sur un SMAAD : système multi-agent d'aide à la décision. / The combination of semantic processing of knowledge and modelling steps of reasoning employed in the clinical field offers exciting and necessary opportunities to develop ontologies relevant to the practice of medicine. In this context, multiple medical databases such as MEDLINE, PubMed are valuable tools but not sufficient because they cannot acquire the usable knowledge easily in a clinical approach. Indeed, abundance of inappropriate quotations constitutes the noise and requires a tedious sort incompatible with the practice of medicine.In an iterative process, the objective is to build an approach as automated as possible, the reusable medical knowledge bases is founded on an ontology of the concerned fields. In this thesis, the author will develop a series of tools for knowledge acquisition combining the linguistic analysis operators and clinical modelling based on the implemented knowledge typology and an implementation of different forms of employed reasoning. Knowledge is not limited to the information from data, but also and especially on the cognitive operators of reasoning for making them operational in the context relevant to the practitioner.A multi-agent system enables the integration and cooperation of the various modules used in the development of a medical ontology.The data sources are from medical databases such as MEDLINE, the citations retrieved by PubMed, and the concepts and vocabulary from the Unified Medical Language System (UMLS).Regarding the scope of produced knowledge bases, the research concerns the entire clinical process: diagnosis, prognosis, treatment, and therapeutic monitoring of various diseases in a given medical field.It is essential to identify the different approaches and the works already done.Different paradigms will be explored: 1) Evidence Based Medicine. An index can be defined as a sign related to its mode of implementation; 2) Case-based reasoning, which based on the analogy of clinical situations already encountered; 3) The different semantic approaches which are used to implement ontologies.On the whole, we worked on logical aspects related to cognitive operators of used reasoning, and we organized the cooperation and integration of exploited knowledge during the various stages of the clinical process (diagnosis, prognosis, treatment, therapeutic monitoring). This integration is based on a SMAAD: multi-agent system for decision support. Traitement automatique des langues (TAL) Raisonnement à partir de cas (RàPC) Ontologiques médicales UMLS Télémédecine Natural Language Processing (NLP) Case-based reasoning (CBR) Medical Ontology UMLS Telemedicine 410
96	Logique linéaire et syntaxe des langues Retoré, Christian 04 January 2002 (has links) (PDF) Une bonne partie des résultats contenus dans ce travail portent sur les réseaux de démonstration de la logique linéaire ainsi que sur la sémantique des espaces cohérents. Ces résultats concernent plus particulièrement les variantes non commutatives de la logique linéaire que ce soit à la Lambek-Abrusci ou dans le calcul ordonné de l'auteur. Ils sont ensuite appliqués à la syntaxe du langage naturel, modélisée bien évidemment par les grammaires catégorielles, les TAGS, mais aussi par les grammaires minimalistes de Stabler que l'on peut aussi simuler en logique linéaire. Pour tous ces systèmes grammaticaux, le calcul de représentations sémantiques est explicité. [MATH] Mathematics logique théorie de la démonstration théorie des graphes logique linéaire linguistique traitement automatique des langues grammaires catégorielles
97	Modélisation de la communication multimodale : vers une formalisation de la pertinence Landragin, Frédéric 02 April 2003 (has links) (PDF) Notre manière de percevoir les objets qui nous entourent détermine nos choix langagiers et gestuels pour les désigner. Les gestes que nous produisons structurent notre espace visuel, les mots que nous utilisons modifient à leur tour notre manière de percevoir. Perception visuelle, langage et geste entretiennent ainsi de multiples interactions. Il s'agit bien d'une seule problématique qui doit être appréhendée globalement, premièrement pour comprendre la complexité des phénomènes de référence, deuxièmement pour en déduire une modélisation informatique exploitable dans tout système de dialogue homme-machine qui se veut un tant soit peu compréhensif.<br />Nous montrons comment tout acte de référence se produit dans un sous-ensemble d'objets, ce sous-ensemble appelé domaine de référence étant implicite et pouvant découler de multiples indices. Parmi ces indices, certains proviennent du contexte visuel et de l'énoncé émis, d'autres proviennent de l'intention, de l'attention et de la mémoire de l'utilisateur. Nous proposons une formalisation des domaines de référence en tenant compte de ces critères et en nous axant sur la notion de saillance dont nous proposons une caractérisation formelle. Il nous apparaît en effet que l'implicite se retrouve en priorité à l'aide des indices saillants. Nous montrons comment un système de dialogue peut exploiter les hypothèses obtenues en s'aidant d'un critère de pertinence. Nous posons quelques pistes pour une calculabilité de ce critère. Notre contribution s'attache ainsi à identifier l'implicite dans la communication multimodale, en termes de structurations d'objets et de formalisation de critères cognitifs. Communication multimodale spontanée perception visuelle traitement automatique des langues architecture logicielle pragmatique modélisation cognitive référence aux objets contexte saillance pertinence
98	Structuration automatique de flux télévisuels Guinaudeau, Camille 07 December 2011 (has links) (PDF) L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées. multimédia traitement automatique des langues reconnaissance automatique de la parole structuration de flux télévisuels segmentation thématique mesures de confiance relations sémantiques prosodie segmentation thématique hiérarchique
99	Description morphosyntaxique et sémantique des adverbes figés en vue d‟un système d‟analyse automatique des textes grecs Stavroula, Voyatzi 06 March 2006 (has links) (PDF) Cette recherche a pour objectif la description systématique et formelle des adverbes figés et semi-figés du grec moderne, abrégés ici en adverbes figés (i.e. κέζα ζηα άγξηα κεζάλπρηα/à l‟aube, ην κήλα πνπ δελ έρεη ΢άββαην/la semaine des quatre jeudis). Notre intention est d‟aboutir à une description aussi exhaustive et explicite que possible en vue de l‟analyse automatique de la langue grecque. La méthodologie du lexique-grammaire (M. Gross 1975, 1990a), s‟appuyant sur les principes de la grammaire transformationnelle harisienne, nous a fourni un modèle de description de la langue naturelle adéquat. Notre étude s‟articule autour de cinq parties. Dans la première partie, nous abordons les deux notions fondamentales qui véhiculent notre recherche : les notions d‟adverbe et de figement. Dans la deuxième partie, nous étudions la composition lexicale d‟un ensemble de 4 880 formes adverbiales figées, recensées à partir des sources éditées et numériques. Nous insistons particulièrement sur les différents types de variations mises en jeu ainsi que sur les problèmes que celles-ci posent lors de la représentation formalisée des adverbes dans le dictionnaire électronique morphologique et les tables du lexique-grammaire. La troisième partie traite l‟analyse syntaxico-sémantique des adverbes figés. En premier lieu, nous distinguons les adverbes figés des compléments formellement similaires mais syntaxiquement différents. En deuxième lieu, nous entreprenons l‟analyse syntaxique des phrases simples à adverbes figés et celle à adverbes de date. La quatrième partie porte sur la classification des adverbes figés, répartis en seize classes morpho-syntaxiquement distinctes. Après avoir exposé les principes théoriques qui régissent notre opération de classification, nous présentons l‟organisation des tables du lexique-grammaire des adverbes figés grecs. Les critères classificatoires, les régularités et les particularités que les classes établies comportent ainsi que les propriétés syntaxico-sémantiques des adverbes figés font également l‟objet de cette partie. La cinquième partie est consacrée à l‟exploitation de nos données linguistiques à des fins de traitement automatique des langues naturelles (TALN). Notre intérêt est focalisé sur la reconnaissance lexicale des adverbes figés et semi-figés dans les textes grecs. Nous présentons en annexe (volume 2) des échantillons représentatifs des tables du lexique-grammaire des adverbes figés et de la grammaire locale des expressions de date. [INFO:INFO_OH] Computer Science/Other adverbe figé adverbe semi-figé adverbe de date classification des adverbes figés propriété syntaxique propriété sémantique propriété transformationnelle dictionnaire électronique morphologique grammaire locale table de lexique-grammaire automate à états finis récursifs
100	Les déclarations gouvernementales en Belgique (1944-1992). Étude de lexicométrie politique Deroubaix, Jean-Claude 11 September 1997 (has links) (PDF) Résumé Saisir la politique à travers son discours, mesurer en quelque sorte le discours politique des uns et des autres pour mieux les comparer et mettre en évidence en quoi, au-delà de la lecture immédiate et quotidiennement politique, ces discours nous renseignent sur le fonctionnement de la société, voilà les objectifs que nous nous sommes assignés tout au long de cette recherche. Le plan de l'exposé s'ajuste étroitement à la stratégie de recherche qui vise à mener de front sans jamais les confondre une réflexion sur l'objet (le vocabulaire du discours politique gouvernemental belge tel qu'il s'exprime entre 1944 et 1992 dans la déclaration liminaire à la prise de fonction d'un nouveau cabinet ministériel), sur la méthode (le choix, la critique et éventuellement la construction de méthodes qui sans être nécessairement nouvelles dans leur principe le sont dans leur mise en œuvre) et sur l'interprétation (en distinguant bien les deux sens du mot selon qu'il s'agisse de l'interprétation linguistico-socio-politique ou de l'interprétation statistique). L'application des méthodes statistiques de la lexicométrie à un corpus de textes politiques n'est pas une simple opération mécanique. En effet comme pour toute application statistique dans quelque discipline que ce soit, le fait de soumettre des “ données ” formellement bien conditionnées à une procédure ou à un ensemble de procédures statistiques, par la grâce à l'informatique, suffit à la production de résultats. On peut imaginer qu'à ce stade commence le travail du chercheur et celui du lexicologue politique en l'occurrence. Nous savons que ce patron est évidemment irréaliste, qu'une recherche se construit et que, d'une certaine façon, elle demeure indissociable d'une réflexion sur les méthodes et sur l'interprétation. Dans cette recherche-ci en particulier, la découverte de la dominance d'un facteur temporel dans la structuration du vocabulaire politique gouvernemental nous a mené à définir une méthode spécifique pour mettre en évidence ce facteur, pour essayer de l'analyser et de comprendre le processus d'évolution du langage politique qui lui est sous-jacent. Ainsi, la production de ce résultat de lexicologie politique a-t-il été indissociable d'une réflexion sur les problèmes de méthodes d'analyse du vocabulaire. La recherche de la structure du vocabulaire des coalitions gouvernementales s'est faite en construisant, pas à pas, une méthode. Le choix des méthodes est intrinsèquement lié au projet de recherche. Nous avons tenu à expliciter à chaque fois pourquoi nous utilisions une méthode et en quoi celle-ci permettait d'atteindre nos objectifs de manière efficace. Nous étions parti de l'hypothèse que le champ lexical des discours gouvernementaux était essentiellement parcouru par les lignes de force principales du domaine politique en régime de démocratie représentative de masse, c'est-à-dire les lignes de force qu'engendre la polarisation entre la gauche et la droite politique, ou celles que définissent en Belgique les polarisations communautaires (entre Flamands et francophones) et philosophiques (entre catholiques et laïques), nous avons cependant conclu à la continuité gouvernementale comme ligne principale de structuration du vocabulaire. Les textes des déclarations des gouvernements belges écrits et prononcés pour obtenir la confiance des Chambres législatives au moment de l'entrée en fonction d'un nouveau cabinet entre 1944 et 1992 forment une série chronologique textuelle lorsqu'ils sont étudiés du point de vue de la distribution du vocabulaire. Les gouvernants puisent dans plusieurs stocks lexicaux pour faire leur déclaration : Un stock est commun à toutes les déclarations et caractérise la déclaration gouvernementale comme genre de littérature politique, stock dont on peut penser que le segment “ le gouvernement qui se présente devant vous ” et la forme “ confiance ” sont de bons représentants ; à coté de ce stock lexical commun subsistent plusieurs autres stocks qui fournissent durant des périodes déterminées leur lot de vocabulaire. C'est la mise en évidence de ces vocabulaires plus fréquemment employés durant une période déterminée qui nous conduisit à qualifier ce corpus de “ chronique textuelle ”. Le cheminement de la recherche nous a tout d'abord conduit à mettre en œuvre l'analyse factorielle des correspondances et des méthodes de classification automatique. L'abandon de notre hypothèse d'un champ lexical principalement polarisé entre la gauche et la droite au profit d'une hypothèse de structuration temporelle du corpus découle de l'AFC du tableau lexical (tronqué en ne retenant que les formes de fréquence supérieure ou égale à 10) qui révèle un effet “ Gutmann ” sensible sur le plan des axes 1 et 2 (forme en S des projections des points-déclarations). Cet aspect de chronique textuelle est confirmé par la comparaison entre l'ordre naturel de rédaction des déclarations et celui de leur représentation sur le premier axe. Une première définition du contenu lexical de la structure temporelle est proposée grâce à l'étude de la répartition des formes. L'hypothèse d'un effet temporel dévoilé par l'analyse factorielle est mis en évidence aussi à travers les méthodes de classification. Ces méthodes ont permis d'affiner la caractérisation des lignes de forces dégagées par l'analyse factorielle en fournissant des typologies de vocabulaire, en répartissant en classes disjointes les différentes sortes de vocabulaire selon leur fréquence d'usage par les gouvernements successifs. Certaines de ces classes de vocabulaire peuvent être envisagées comme des pots communs, des urnes spécialisées ou générales dans lesquelles ont puisé les gouvernements pour bâtir leur discours. Pour détecter les classes de vocabulaire responsables de l'aspect chronologique, nous avons construit une méthode de classification qui tient compte de la connexité deux à deux des déclarations. Ce qui a permis de distinguer les classes de vocabulaire dont l'usage a varié dans le temps, des classes de vocabulaires d'usage stable ou d'usage accidentel. Nous avons dès lors pu proposer un mode de fonctionnement du renouvellement du vocabulaire des discours gouvernementaux qui puisse rendre compte de la chronologicité de l'ensemble. L'intérêt des méthodes utilisées pour aboutir à ce diagnostic et à cette hypothèse de fonctionnement est d'utiliser peu d'hypothèses a priori tant du point de vue statistique (car les méthodes utilisées appartiennent essentiellement au domaine de la statistique descriptive) que du point de vue de la production sociolinguistique (ou politico-linguistique). Guidée par les données lexicales du corpus, notre démarche n'exclut cependant pas une volonté de définir des méthodes applicables à d'autres corpus. La démarche nous semble exportable : choisir (ou construire) la méthode qui permettra de mettre en évidence plus clairement, plus précisément les phénomènes étonnants déjà découverts, et cela au fur et à mesure du dévoilement des structures, des avancées partielles dans la compréhension. Dans la pratique, cette démarche n'a rien de linéaire. D'autres voies ont été envisagées ; nous avons tenu, dans un chapitre consacré aux expériences, à rendre compte d'au moins l'une d'entre elles : l'usage des distances de Levenshtein pour mesurer la “ dissemblance ” entre textes de déclarations en fonction de la manière dont les formes sont agencées dans le discours. Il nous semble qu'au prix de modifications dans l'application, il émerge peut-être un point de vue statistique intéressant sur le vocabulaire et sa mise en œuvre attestée dans un corpus. Enfin, un dernier apport consiste dans ce qui pourrait paraître, assez secondaire : la mise au point d'une méthode standardisée de choix des exemples qui satisfasse à des critères statistiques (les exemples doivent contenir beaucoup de formes appartenant à la liste à illustrer) et contribue à l'interprétation (en mettant en évidence, les formes d'intérêt dans le segment exemplaire). L'outil de recherche d'un exemple proposé doit être considéré comme une généralisation des concordanciers et autres outils de mise en évidence de contextes car il s'agit d'une méthode de visualisation de contextes communs à plusieurs formes lexicales. Le diagnostic de “ chronologicité ” est déduit d'un travail statistique d'analyse du vocabulaire; nous en proposons aussi une interprétation. Plusieurs facteurs concourent à “ fabriquer ” le caractère chronologique du corpus : le rituel de l'énonciation, la mission dévolue au gouvernement et le mode de composition du gouvernement, chacun de ces facteurs n'étant pas indépendant des autres. Le rituel de l'énonciation est un facteur de détermination de la déclaration gouvernementale comme style de discours politique ; il contribue au moins partiellement à la constitution du stock lexical commun. À ce titre, son action devrait être neutre du point de vue de la chronologicité. Toutefois, le rituel de la présentation officielle du gouvernement devant les chambres (qui représentent la nation) implique que le discours soit un discours rassembleur qui s'adresse à la totalité des électeurs et pas seulement à ceux qui ont voté pour la majorité. Ce discours, par définition, se doit de gommer les éléments partisans qui sont présents dans les discours électoraux. De ce fait, ce discours va puiser une partie de ses thèmes dans l'actualité politique, dans les problèmes politiques du moment, mais en mobilisant le vocabulaire commun en usage dans l'ensemble du monde politique pendant la période qui a précédé sa demande de confiance et non un vocabulaire partisan. Les problèmes liés à la guerre, à la mise en place de la Sécurité sociale, à la “ crise ” énergétique, à la transformation institutionnelle n'ont jamais été résolus le temps d'un seul gouvernement. On conçoit donc qu'ils induisent des effets de périodisation dans le vocabulaire du corpus : plusieurs gouvernements successifs vont s'y référer jusqu'à ce qu'ils disparaissent provisoirement ou définitivement de la liste des problèmes de l'heure. Le rituel conduit à diminuer l'impact du lexique partisan dans le discours de présentation, mais il favorise l'émergence d'un vocabulaire caractéristique de la période politique. Sans l'imposer, le rituel implique donc une mise en retrait des aspects partisans du programme politique. Le rôle dévolu au gouvernement comme représentant de l'État renforce cette pression sur l'effacement, dans le discours inaugural, de l'idéologie partisane. Au nom de la continuité de l'État, il conduit à utiliser le vocabulaire des gouvernements précédents pour marquer cette volonté de permanence dans la gestion des problèmes du moment. La contrainte de gestion “ raisonnable ” des affaires d'État, que s'imposent les gouvernements, aligne le discours sur l'actualité politique plutôt que sur la mise en œuvre d'un bouleversement idéologique. Enfin, les cabinets qui ont été investis de l'autorité exécutive durant la période 1944-1992 ont été essentiellement des cabinets de coalition. L'atténuation des programmes est le propre de la discussion autour de la formation d'un gouvernement, la recherche du compromis l'impose. Sans oublier qu'il n'est pas inutile de laisser du flou dans le programme de gouvernement, de recourir donc plus à l'énoncé des problèmes à prendre en considération qu'à la proposition de solutions concrètes. Ceci favorise encore la reprise des thèmes d'actualité et leur vocabulaire plus que la mobilisation d'un vocabulaire partisan. La périodisation du corpus répond donc à une périodisation de la vie politique belge autour de thèmes imposés par la situation sociale, économique, communautaire ainsi que par la situation internationale. La politique partisane est peu présente dans le discours gouvernemental car elle s'exprime dans le discours des partis et dans celui des parlementaires. Le gouvernement unifie le discours partisan dominant. La présence quasi constante dans l'exécutif d'une famille politique (les partis catholiques) inhibe les ruptures ; cette famille se succède à elle-même, ne se désavoue pas et fait du discours gouvernemental un discours “ neutralisé ”. Ceci ne signifie nullement que l'action du gouvernement soit neutre. L'idéologie bien entretenue d'un discours gouvernemental empreint de raison, responsable et qui place l'intérêt de l'État et de la Nation au-dessus des querelles de partis est éminemment favorable aux partis qui se réclament du centre (comme les partis sociaux-chrétiens) au détriment de leurs partenaires plus marqués dans le champ politique traditionnel (libéraux et socialistes) ou communautaire (Volksunie, FDF, Rassemblement wallon). L'exposé de programme gouvernemental se distingue du discours partisan en ce qu'il prétend réunir la totalité de la nation dans un projet commun, laissant au discours partisan le rôle de réunir les électeurs du parti autour d'un programme d'éventuel “ projet commun ”. Les vocabulaires utilisés portent la marque de cette division politique des tâches. En somme, transparaissent dans le discours gouvernemental les éléments, les mots, d'une “ culture ” politique commune aux milieux dirigeants. Cette “ culture ” qui transcende les différences entre partis évolue surtout sous la poussée de la transformation de la société et en fonction des mutations politiques extérieures surtout en Belgique, petit pays soumis aux influences de nations plus puissantes. lexicométrie analyse du discours discours politique statistique lexicale classification distances d'édition distance de Levenshtein sociologie politique institutions politiques parlement gouvernement

Search results