Global ETD Search

191	Identification de opiniónes de differentes fuentes en textos en español / Identification d'opinions issues de diverses sources dans des textes en espagnol / Identification of opinions from different sources in Spanish texts Rosá, Aiala 28 September 2011 (has links) Ce travail présente une étude linguistique des expressions d'opinions issues de différentes sources dans des textes en espagnol. Le travail comprend la définition d'un modèle pour les prédicats d'opinion et leurs arguments (la source, le sujet et le message), la création d'un lexique de prédicats d'opinions auxquels sont associées des informations provenant du modèle et la réalisation de trois systèmes informatiques.Le premier système, basé sur des règles contextuelles, obtient de bons résultats pour le score de F-mesure partielle: prédicat, 92%; source, 81%; sujet, 75%; message, 89%, opinion, 85%. En outre, l'identification de la source donne une valeur de 79% de F-mesure exacte. Le deuxième système, basé sur le modèle Conditional Random Fields (CRF), a été développé uniquement pour l'identification des sources, donnant une valeur de 76% de F-mesure exacte. Le troisième système, qui combine les deux techniques (règles et CRF), donne une valeur de 83% de F-mesure exacte, montrant ainsi que la combinaison permet d'obtenir des résultats intéressants.En ce qui concerne l'identification des sources, notre système, comparé à des travaux réalisés sur des corpus d'autres langues que l'espagnol, donne des résultats très satisfaisants. En effet ces différents travaux obtiennent des scores qui se situent entre 63% et 89,5%.Par ailleurs, en sus des systèmes réalisés pour l'identification de l'opinion, notre travail a débouché sur la construction de plusieurs ressources pour l'espagnol : un lexique de prédicats d'opinions, un corpus de 13000 mots avec des annotations sur les opinions et un corpus de 40000 mots avec des annotations sur les prédicats d'opinion et les sources. / This work presents a study of linguistic expressions of opinion from different sources in Spanish texts. The work includes the definition of a model for opinion predicates and their arguments (source, topic and message), the creation of a lexicon of opinion predicates which have information from the model associated, and the implementation of three systems.The first system, based on contextual rules, gets good results for the F-measure score (partial match): predicate, 92%; source, 81%; topic, 75%; message, 89%; full opinion, 85%. In addition, for source identification the F-measure for exact match is 79%. The second system, based on Conditional Random Fields (CRF), was developed only for the identification of sources, giving 76% of F-measure (exact match). The third system, which combines the two techniques (rules and CRF), gives a value of 83% of F-measure (exact match), showing that the combination yields interesting results.As regards the identification of sources, our system compared to other work developed for languages other than Spanish, gives very satisfactory results. Indeed these works had scores that fall between 63% and 89.5%.Moreover, in addition to the systems made for the identification of opinions, our work has led to the construction of several resources for Spanish: a lexicon of opinion predicates, a 13,000 words corpus with opinions annotated and a 40,000 words corpus with opinion predicates end sources annotated. Fouille d'opinions Discours rapporté Règles contextuelles Apprentissage automatique Conditional Random Fields (CRF) Natural Language Processing Opinion Mining Reported Speech Conditional Random Fields Contextual Rules Machine Learning
192	WikiGames : une plateforme de jeux dédiée à la validation d’une base de connaissances produite à partir de techniques d’extraction d’information ouverte Forand, Kevin 08 1900 (has links) No description available. Base de connaissances Apprentissage automatique Jeux Natural language processing Knowledge base Machine learning Games with a purpose
193	Désambiguïsation de l’arabe écrit et interprétation sémantique / Word sense disambiguation of written arabic and semantic interpretation Gzawi, Mahmoud 17 January 2019 (has links) Cette thèse se situe à l’intersection des domaines de la recherche en linguistique et du traitement automatique de la langue. Ces deux domaines se croisent pour la construction d’outils de traitement de texte, et des applications industrielles intégrant des solutions de désambiguïsation et d’interprétation de la langue.Une tâche difficile et très peu abordée et appliqué est arrivée sur les travaux de l’entreprise Techlimed, celle de l’analyse automatique des textes écrits en arabe. De nouvelles ressources sont apparues comme les lexiques de langues et les réseaux sémantiques permettant à la création de grammaires formelles d’accomplir cette tâche.Une métadonnée importante pour l’analyse de texte est de savoir « qu’est-ce qui est dit, et que signifie-t-il ? ». Le domaine de linguistique computationnelle propose des méthodes très diverses et souvent partielle pour permettre à l’ordinateur de répondre à de telles questions.L’introduction et l’application des règles de grammaire descriptives de langues dans les langages formels spécifiques au traitement de langues par ordinateur est l’objet principal de cette thèse.Au-delà de la réalisation d’un système de traitement et d’interprétation de textes en langue arabe, basé aussi sur la modélisation informatique, notre intérêt s’est porté sur l’évaluation des phénomènes linguistiques relevés par la littérature et les méthodes de leur formalisation en informatique.Dans tous les cas, nos travaux de recherche ont été testés et validés dans un cadre expérimental rigoureux autour de plusieurs formalismes et outils informatiques.Nos expérimentations concernant l'apport de la grammaire syntaxico-sémantique, a priori, ont montré une réduction importante de l’ambiguïté linguistique dans le cas de l'utilisation d’une grammaire à état fini écrite en Java et une grammaire générativetransformationnelle écrite en Prolog, intégrant des composants morphologiques, syntaxiques et sémantiques.La mise en place de notre étude a requis la construction d’outils de traitement de texte et d’outils de recherche d’information. Ces outils ont été construits par nos soins et sont disponible en Open-source.La réussite de l’application de nos travaux à grande échelle s’est conclue par la condition d’avoir de ressources sémantiques riches et exhaustives. Nous travaux ont été redirigés vers une démarche de production de telles ressources, en termes de recherche d’informations et d’extraction de connaissances. Les tests menés pour cette nouvelle perspective ont étéfavorables à d’avantage de recherche et d’expérimentation. / This thesis lies at the frontier of the fields of linguistic research and the automatic processing of language. These two fields intersect for the construction of natural language processing tools, and industrial applications integrating solutions for disambiguation and interpretation of texts.A challenging task, briefly approached and applied, has come to the work of the Techlimed company, that of the automatic analysis of texts written in Arabic. Novel resources have emerged as language lexicons and semantic networks allowing the creation of formal grammars to accomplish this task.An important meta-data for text analysis is "what is being said, and what does it mean". The field of computational linguistics offers very diverse and, mostly, partial methods to allow the computer to answer such questions.The main purpose of this thesis is to introduce and apply the rules of descriptive language grammar in formal languages specific to computer language processing.Beyond the realization of a system of processing and interpretation of texts in Arabic language based on computer modeling, our interest has been devoted to the evaluation of the linguistic phenomena described by the literature and the methods of their formalization in computer science.In all cases, our research was tested and validated in a rigorous experimental framework around several formalisms and computer tools.The experiments concerning the contribution of syntaxico-semantic grammar, a priori, have demonstrated a significant reduction of linguistic ambiguity in the case of the use of a finite-state grammar written in Java and a transformational generative grammarwritten in Prolog, integrating morphological, syntactic and semantic components.The implementation of our study required the construction of tools for word processing, information retrieval tools. These tools were built by us and are available in Open-source.The success of the application of our work in large scale was concluded by the requirement of having rich and comprehensive semantic resources. Our work has been redirected towards a process of production of such resources, in terms of informationretrieval and knowledge extraction. The tests for this new perspective were favorable to further research and experimentation. Linguistique Traitement automatique de langue Grammaire synatxico-sémantique Java Prolog Extraction d’information Indexation Linguistics Automatic language processing Synatxico-semantic grammar Java Prolog Transformational generative grammar Information extraction Indexing 410.28
194	Élaboration d'ontologies médicales pour une approche multi-agents d'aide à la décision clinique / A multi-agent framework for the development of medical ontologies in clinical decision making Shen, Ying 20 March 2015 (has links) La combinaison du traitement sémantique des connaissances (Semantic Processing of Knowledge) et de la modélisation des étapes de raisonnement (Modeling Steps of Reasoning), utilisés dans le domaine clinique, offrent des possibilités intéressantes, nécessaires aussi, pour l’élaboration des ontologies médicales, utiles à l'exercice de cette profession. Dans ce cadre, l'interrogation de banques de données médicales multiples, comme MEDLINE, PubMed… constitue un outil précieux mais insuffisant car elle ne permet pas d'acquérir des connaissances facilement utilisables lors d’une démarche clinique. En effet, l'abondance de citations inappropriées constitue du bruit et requiert un tri fastidieux, incompatible avec une pratique efficace de la médecine.Dans un processus itératif, l'objectif est de construire, de façon aussi automatisée possible, des bases de connaissances médicales réutilisables, fondées sur des ontologies et, dans cette thèse, nous développons une série d'outils d'acquisition de connaissances qui combinent des opérateurs d'analyse linguistique et de modélisation de la clinique, fondés sur une typologie des connaissances mises en œuvre, et sur une implémentation des différents modes de raisonnement employés. La connaissance ne se résume pas à des informations issues de bases de données ; elle s’organise grâce à des opérateurs cognitifs de raisonnement qui permettent de la rendre opérationnelle dans le contexte intéressant le praticien.Un système multi-agents d’aide à la décision clinique (SMAAD) permettra la coopération et l'intégration des différents modules entrant dans l'élaboration d'une ontologie médicale et les sources de données sont les banques médicales, comme MEDLINE, et des citations extraites par PubMed ; les concepts et le vocabulaire proviennent de l'Unified Medical Language System (UMLS).Concernant le champ des bases de connaissances produites, la recherche concerne l'ensemble de la démarche clinique : le diagnostic, le pronostic, le traitement, le suivi thérapeutique de différentes pathologies, dans un domaine médical donné.Différentes approches et travaux sont recensés, dans l’état de question, et divers paradigmes sont explorés : 1) l'Evidence Base Medicine (une médecine fondée sur des indices). Un indice peut se définir comme un signe lié à son mode de mise en œuvre ; 2) Le raisonnement à partir de cas (RàPC) se fonde sur l'analogie de situations cliniques déjà rencontrées ; 3) Différentes approches sémantiques permettent d'implémenter les ontologies.Sur l’ensemble, nous avons travaillé les aspects logiques liés aux opérateurs cognitifs de raisonnement utilisés et nous avons organisé la coopération et l'intégration des connaissances exploitées durant les différentes étapes du processus clinique (diagnostic, pronostic, traitement, suivi thérapeutique). Cette intégration s’appuie sur un SMAAD : système multi-agent d'aide à la décision. / The combination of semantic processing of knowledge and modelling steps of reasoning employed in the clinical field offers exciting and necessary opportunities to develop ontologies relevant to the practice of medicine. In this context, multiple medical databases such as MEDLINE, PubMed are valuable tools but not sufficient because they cannot acquire the usable knowledge easily in a clinical approach. Indeed, abundance of inappropriate quotations constitutes the noise and requires a tedious sort incompatible with the practice of medicine.In an iterative process, the objective is to build an approach as automated as possible, the reusable medical knowledge bases is founded on an ontology of the concerned fields. In this thesis, the author will develop a series of tools for knowledge acquisition combining the linguistic analysis operators and clinical modelling based on the implemented knowledge typology and an implementation of different forms of employed reasoning. Knowledge is not limited to the information from data, but also and especially on the cognitive operators of reasoning for making them operational in the context relevant to the practitioner.A multi-agent system enables the integration and cooperation of the various modules used in the development of a medical ontology.The data sources are from medical databases such as MEDLINE, the citations retrieved by PubMed, and the concepts and vocabulary from the Unified Medical Language System (UMLS).Regarding the scope of produced knowledge bases, the research concerns the entire clinical process: diagnosis, prognosis, treatment, and therapeutic monitoring of various diseases in a given medical field.It is essential to identify the different approaches and the works already done.Different paradigms will be explored: 1) Evidence Based Medicine. An index can be defined as a sign related to its mode of implementation; 2) Case-based reasoning, which based on the analogy of clinical situations already encountered; 3) The different semantic approaches which are used to implement ontologies.On the whole, we worked on logical aspects related to cognitive operators of used reasoning, and we organized the cooperation and integration of exploited knowledge during the various stages of the clinical process (diagnosis, prognosis, treatment, therapeutic monitoring). This integration is based on a SMAAD: multi-agent system for decision support. Traitement automatique des langues (TAL) Raisonnement à partir de cas (RàPC) Ontologiques médicales UMLS Télémédecine Natural Language Processing (NLP) Case-based reasoning (CBR) Medical Ontology UMLS Telemedicine 410
195	Logique linéaire et syntaxe des langues Retoré, Christian 04 January 2002 (has links) (PDF) Une bonne partie des résultats contenus dans ce travail portent sur les réseaux de démonstration de la logique linéaire ainsi que sur la sémantique des espaces cohérents. Ces résultats concernent plus particulièrement les variantes non commutatives de la logique linéaire que ce soit à la Lambek-Abrusci ou dans le calcul ordonné de l'auteur. Ils sont ensuite appliqués à la syntaxe du langage naturel, modélisée bien évidemment par les grammaires catégorielles, les TAGS, mais aussi par les grammaires minimalistes de Stabler que l'on peut aussi simuler en logique linéaire. Pour tous ces systèmes grammaticaux, le calcul de représentations sémantiques est explicité. [MATH] Mathematics logique théorie de la démonstration théorie des graphes logique linéaire linguistique traitement automatique des langues grammaires catégorielles
196	Modélisation de la communication multimodale : vers une formalisation de la pertinence Landragin, Frédéric 02 April 2003 (has links) (PDF) Notre manière de percevoir les objets qui nous entourent détermine nos choix langagiers et gestuels pour les désigner. Les gestes que nous produisons structurent notre espace visuel, les mots que nous utilisons modifient à leur tour notre manière de percevoir. Perception visuelle, langage et geste entretiennent ainsi de multiples interactions. Il s'agit bien d'une seule problématique qui doit être appréhendée globalement, premièrement pour comprendre la complexité des phénomènes de référence, deuxièmement pour en déduire une modélisation informatique exploitable dans tout système de dialogue homme-machine qui se veut un tant soit peu compréhensif.<br />Nous montrons comment tout acte de référence se produit dans un sous-ensemble d'objets, ce sous-ensemble appelé domaine de référence étant implicite et pouvant découler de multiples indices. Parmi ces indices, certains proviennent du contexte visuel et de l'énoncé émis, d'autres proviennent de l'intention, de l'attention et de la mémoire de l'utilisateur. Nous proposons une formalisation des domaines de référence en tenant compte de ces critères et en nous axant sur la notion de saillance dont nous proposons une caractérisation formelle. Il nous apparaît en effet que l'implicite se retrouve en priorité à l'aide des indices saillants. Nous montrons comment un système de dialogue peut exploiter les hypothèses obtenues en s'aidant d'un critère de pertinence. Nous posons quelques pistes pour une calculabilité de ce critère. Notre contribution s'attache ainsi à identifier l'implicite dans la communication multimodale, en termes de structurations d'objets et de formalisation de critères cognitifs. Communication multimodale spontanée perception visuelle traitement automatique des langues architecture logicielle pragmatique modélisation cognitive référence aux objets contexte saillance pertinence
197	Structuration automatique de flux télévisuels Guinaudeau, Camille 07 December 2011 (has links) (PDF) L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées. multimédia traitement automatique des langues reconnaissance automatique de la parole structuration de flux télévisuels segmentation thématique mesures de confiance relations sémantiques prosodie segmentation thématique hiérarchique
198	Description morphosyntaxique et sémantique des adverbes figés en vue d‟un système d‟analyse automatique des textes grecs Stavroula, Voyatzi 06 March 2006 (has links) (PDF) Cette recherche a pour objectif la description systématique et formelle des adverbes figés et semi-figés du grec moderne, abrégés ici en adverbes figés (i.e. κέζα ζηα άγξηα κεζάλπρηα/à l‟aube, ην κήλα πνπ δελ έρεη ΢άββαην/la semaine des quatre jeudis). Notre intention est d‟aboutir à une description aussi exhaustive et explicite que possible en vue de l‟analyse automatique de la langue grecque. La méthodologie du lexique-grammaire (M. Gross 1975, 1990a), s‟appuyant sur les principes de la grammaire transformationnelle harisienne, nous a fourni un modèle de description de la langue naturelle adéquat. Notre étude s‟articule autour de cinq parties. Dans la première partie, nous abordons les deux notions fondamentales qui véhiculent notre recherche : les notions d‟adverbe et de figement. Dans la deuxième partie, nous étudions la composition lexicale d‟un ensemble de 4 880 formes adverbiales figées, recensées à partir des sources éditées et numériques. Nous insistons particulièrement sur les différents types de variations mises en jeu ainsi que sur les problèmes que celles-ci posent lors de la représentation formalisée des adverbes dans le dictionnaire électronique morphologique et les tables du lexique-grammaire. La troisième partie traite l‟analyse syntaxico-sémantique des adverbes figés. En premier lieu, nous distinguons les adverbes figés des compléments formellement similaires mais syntaxiquement différents. En deuxième lieu, nous entreprenons l‟analyse syntaxique des phrases simples à adverbes figés et celle à adverbes de date. La quatrième partie porte sur la classification des adverbes figés, répartis en seize classes morpho-syntaxiquement distinctes. Après avoir exposé les principes théoriques qui régissent notre opération de classification, nous présentons l‟organisation des tables du lexique-grammaire des adverbes figés grecs. Les critères classificatoires, les régularités et les particularités que les classes établies comportent ainsi que les propriétés syntaxico-sémantiques des adverbes figés font également l‟objet de cette partie. La cinquième partie est consacrée à l‟exploitation de nos données linguistiques à des fins de traitement automatique des langues naturelles (TALN). Notre intérêt est focalisé sur la reconnaissance lexicale des adverbes figés et semi-figés dans les textes grecs. Nous présentons en annexe (volume 2) des échantillons représentatifs des tables du lexique-grammaire des adverbes figés et de la grammaire locale des expressions de date. [INFO:INFO_OH] Computer Science/Other adverbe figé adverbe semi-figé adverbe de date classification des adverbes figés propriété syntaxique propriété sémantique propriété transformationnelle dictionnaire électronique morphologique grammaire locale table de lexique-grammaire automate à états finis récursifs
199	Les déclarations gouvernementales en Belgique (1944-1992). Étude de lexicométrie politique Deroubaix, Jean-Claude 11 September 1997 (has links) (PDF) Résumé Saisir la politique à travers son discours, mesurer en quelque sorte le discours politique des uns et des autres pour mieux les comparer et mettre en évidence en quoi, au-delà de la lecture immédiate et quotidiennement politique, ces discours nous renseignent sur le fonctionnement de la société, voilà les objectifs que nous nous sommes assignés tout au long de cette recherche. Le plan de l'exposé s'ajuste étroitement à la stratégie de recherche qui vise à mener de front sans jamais les confondre une réflexion sur l'objet (le vocabulaire du discours politique gouvernemental belge tel qu'il s'exprime entre 1944 et 1992 dans la déclaration liminaire à la prise de fonction d'un nouveau cabinet ministériel), sur la méthode (le choix, la critique et éventuellement la construction de méthodes qui sans être nécessairement nouvelles dans leur principe le sont dans leur mise en œuvre) et sur l'interprétation (en distinguant bien les deux sens du mot selon qu'il s'agisse de l'interprétation linguistico-socio-politique ou de l'interprétation statistique). L'application des méthodes statistiques de la lexicométrie à un corpus de textes politiques n'est pas une simple opération mécanique. En effet comme pour toute application statistique dans quelque discipline que ce soit, le fait de soumettre des “ données ” formellement bien conditionnées à une procédure ou à un ensemble de procédures statistiques, par la grâce à l'informatique, suffit à la production de résultats. On peut imaginer qu'à ce stade commence le travail du chercheur et celui du lexicologue politique en l'occurrence. Nous savons que ce patron est évidemment irréaliste, qu'une recherche se construit et que, d'une certaine façon, elle demeure indissociable d'une réflexion sur les méthodes et sur l'interprétation. Dans cette recherche-ci en particulier, la découverte de la dominance d'un facteur temporel dans la structuration du vocabulaire politique gouvernemental nous a mené à définir une méthode spécifique pour mettre en évidence ce facteur, pour essayer de l'analyser et de comprendre le processus d'évolution du langage politique qui lui est sous-jacent. Ainsi, la production de ce résultat de lexicologie politique a-t-il été indissociable d'une réflexion sur les problèmes de méthodes d'analyse du vocabulaire. La recherche de la structure du vocabulaire des coalitions gouvernementales s'est faite en construisant, pas à pas, une méthode. Le choix des méthodes est intrinsèquement lié au projet de recherche. Nous avons tenu à expliciter à chaque fois pourquoi nous utilisions une méthode et en quoi celle-ci permettait d'atteindre nos objectifs de manière efficace. Nous étions parti de l'hypothèse que le champ lexical des discours gouvernementaux était essentiellement parcouru par les lignes de force principales du domaine politique en régime de démocratie représentative de masse, c'est-à-dire les lignes de force qu'engendre la polarisation entre la gauche et la droite politique, ou celles que définissent en Belgique les polarisations communautaires (entre Flamands et francophones) et philosophiques (entre catholiques et laïques), nous avons cependant conclu à la continuité gouvernementale comme ligne principale de structuration du vocabulaire. Les textes des déclarations des gouvernements belges écrits et prononcés pour obtenir la confiance des Chambres législatives au moment de l'entrée en fonction d'un nouveau cabinet entre 1944 et 1992 forment une série chronologique textuelle lorsqu'ils sont étudiés du point de vue de la distribution du vocabulaire. Les gouvernants puisent dans plusieurs stocks lexicaux pour faire leur déclaration : Un stock est commun à toutes les déclarations et caractérise la déclaration gouvernementale comme genre de littérature politique, stock dont on peut penser que le segment “ le gouvernement qui se présente devant vous ” et la forme “ confiance ” sont de bons représentants ; à coté de ce stock lexical commun subsistent plusieurs autres stocks qui fournissent durant des périodes déterminées leur lot de vocabulaire. C'est la mise en évidence de ces vocabulaires plus fréquemment employés durant une période déterminée qui nous conduisit à qualifier ce corpus de “ chronique textuelle ”. Le cheminement de la recherche nous a tout d'abord conduit à mettre en œuvre l'analyse factorielle des correspondances et des méthodes de classification automatique. L'abandon de notre hypothèse d'un champ lexical principalement polarisé entre la gauche et la droite au profit d'une hypothèse de structuration temporelle du corpus découle de l'AFC du tableau lexical (tronqué en ne retenant que les formes de fréquence supérieure ou égale à 10) qui révèle un effet “ Gutmann ” sensible sur le plan des axes 1 et 2 (forme en S des projections des points-déclarations). Cet aspect de chronique textuelle est confirmé par la comparaison entre l'ordre naturel de rédaction des déclarations et celui de leur représentation sur le premier axe. Une première définition du contenu lexical de la structure temporelle est proposée grâce à l'étude de la répartition des formes. L'hypothèse d'un effet temporel dévoilé par l'analyse factorielle est mis en évidence aussi à travers les méthodes de classification. Ces méthodes ont permis d'affiner la caractérisation des lignes de forces dégagées par l'analyse factorielle en fournissant des typologies de vocabulaire, en répartissant en classes disjointes les différentes sortes de vocabulaire selon leur fréquence d'usage par les gouvernements successifs. Certaines de ces classes de vocabulaire peuvent être envisagées comme des pots communs, des urnes spécialisées ou générales dans lesquelles ont puisé les gouvernements pour bâtir leur discours. Pour détecter les classes de vocabulaire responsables de l'aspect chronologique, nous avons construit une méthode de classification qui tient compte de la connexité deux à deux des déclarations. Ce qui a permis de distinguer les classes de vocabulaire dont l'usage a varié dans le temps, des classes de vocabulaires d'usage stable ou d'usage accidentel. Nous avons dès lors pu proposer un mode de fonctionnement du renouvellement du vocabulaire des discours gouvernementaux qui puisse rendre compte de la chronologicité de l'ensemble. L'intérêt des méthodes utilisées pour aboutir à ce diagnostic et à cette hypothèse de fonctionnement est d'utiliser peu d'hypothèses a priori tant du point de vue statistique (car les méthodes utilisées appartiennent essentiellement au domaine de la statistique descriptive) que du point de vue de la production sociolinguistique (ou politico-linguistique). Guidée par les données lexicales du corpus, notre démarche n'exclut cependant pas une volonté de définir des méthodes applicables à d'autres corpus. La démarche nous semble exportable : choisir (ou construire) la méthode qui permettra de mettre en évidence plus clairement, plus précisément les phénomènes étonnants déjà découverts, et cela au fur et à mesure du dévoilement des structures, des avancées partielles dans la compréhension. Dans la pratique, cette démarche n'a rien de linéaire. D'autres voies ont été envisagées ; nous avons tenu, dans un chapitre consacré aux expériences, à rendre compte d'au moins l'une d'entre elles : l'usage des distances de Levenshtein pour mesurer la “ dissemblance ” entre textes de déclarations en fonction de la manière dont les formes sont agencées dans le discours. Il nous semble qu'au prix de modifications dans l'application, il émerge peut-être un point de vue statistique intéressant sur le vocabulaire et sa mise en œuvre attestée dans un corpus. Enfin, un dernier apport consiste dans ce qui pourrait paraître, assez secondaire : la mise au point d'une méthode standardisée de choix des exemples qui satisfasse à des critères statistiques (les exemples doivent contenir beaucoup de formes appartenant à la liste à illustrer) et contribue à l'interprétation (en mettant en évidence, les formes d'intérêt dans le segment exemplaire). L'outil de recherche d'un exemple proposé doit être considéré comme une généralisation des concordanciers et autres outils de mise en évidence de contextes car il s'agit d'une méthode de visualisation de contextes communs à plusieurs formes lexicales. Le diagnostic de “ chronologicité ” est déduit d'un travail statistique d'analyse du vocabulaire; nous en proposons aussi une interprétation. Plusieurs facteurs concourent à “ fabriquer ” le caractère chronologique du corpus : le rituel de l'énonciation, la mission dévolue au gouvernement et le mode de composition du gouvernement, chacun de ces facteurs n'étant pas indépendant des autres. Le rituel de l'énonciation est un facteur de détermination de la déclaration gouvernementale comme style de discours politique ; il contribue au moins partiellement à la constitution du stock lexical commun. À ce titre, son action devrait être neutre du point de vue de la chronologicité. Toutefois, le rituel de la présentation officielle du gouvernement devant les chambres (qui représentent la nation) implique que le discours soit un discours rassembleur qui s'adresse à la totalité des électeurs et pas seulement à ceux qui ont voté pour la majorité. Ce discours, par définition, se doit de gommer les éléments partisans qui sont présents dans les discours électoraux. De ce fait, ce discours va puiser une partie de ses thèmes dans l'actualité politique, dans les problèmes politiques du moment, mais en mobilisant le vocabulaire commun en usage dans l'ensemble du monde politique pendant la période qui a précédé sa demande de confiance et non un vocabulaire partisan. Les problèmes liés à la guerre, à la mise en place de la Sécurité sociale, à la “ crise ” énergétique, à la transformation institutionnelle n'ont jamais été résolus le temps d'un seul gouvernement. On conçoit donc qu'ils induisent des effets de périodisation dans le vocabulaire du corpus : plusieurs gouvernements successifs vont s'y référer jusqu'à ce qu'ils disparaissent provisoirement ou définitivement de la liste des problèmes de l'heure. Le rituel conduit à diminuer l'impact du lexique partisan dans le discours de présentation, mais il favorise l'émergence d'un vocabulaire caractéristique de la période politique. Sans l'imposer, le rituel implique donc une mise en retrait des aspects partisans du programme politique. Le rôle dévolu au gouvernement comme représentant de l'État renforce cette pression sur l'effacement, dans le discours inaugural, de l'idéologie partisane. Au nom de la continuité de l'État, il conduit à utiliser le vocabulaire des gouvernements précédents pour marquer cette volonté de permanence dans la gestion des problèmes du moment. La contrainte de gestion “ raisonnable ” des affaires d'État, que s'imposent les gouvernements, aligne le discours sur l'actualité politique plutôt que sur la mise en œuvre d'un bouleversement idéologique. Enfin, les cabinets qui ont été investis de l'autorité exécutive durant la période 1944-1992 ont été essentiellement des cabinets de coalition. L'atténuation des programmes est le propre de la discussion autour de la formation d'un gouvernement, la recherche du compromis l'impose. Sans oublier qu'il n'est pas inutile de laisser du flou dans le programme de gouvernement, de recourir donc plus à l'énoncé des problèmes à prendre en considération qu'à la proposition de solutions concrètes. Ceci favorise encore la reprise des thèmes d'actualité et leur vocabulaire plus que la mobilisation d'un vocabulaire partisan. La périodisation du corpus répond donc à une périodisation de la vie politique belge autour de thèmes imposés par la situation sociale, économique, communautaire ainsi que par la situation internationale. La politique partisane est peu présente dans le discours gouvernemental car elle s'exprime dans le discours des partis et dans celui des parlementaires. Le gouvernement unifie le discours partisan dominant. La présence quasi constante dans l'exécutif d'une famille politique (les partis catholiques) inhibe les ruptures ; cette famille se succède à elle-même, ne se désavoue pas et fait du discours gouvernemental un discours “ neutralisé ”. Ceci ne signifie nullement que l'action du gouvernement soit neutre. L'idéologie bien entretenue d'un discours gouvernemental empreint de raison, responsable et qui place l'intérêt de l'État et de la Nation au-dessus des querelles de partis est éminemment favorable aux partis qui se réclament du centre (comme les partis sociaux-chrétiens) au détriment de leurs partenaires plus marqués dans le champ politique traditionnel (libéraux et socialistes) ou communautaire (Volksunie, FDF, Rassemblement wallon). L'exposé de programme gouvernemental se distingue du discours partisan en ce qu'il prétend réunir la totalité de la nation dans un projet commun, laissant au discours partisan le rôle de réunir les électeurs du parti autour d'un programme d'éventuel “ projet commun ”. Les vocabulaires utilisés portent la marque de cette division politique des tâches. En somme, transparaissent dans le discours gouvernemental les éléments, les mots, d'une “ culture ” politique commune aux milieux dirigeants. Cette “ culture ” qui transcende les différences entre partis évolue surtout sous la poussée de la transformation de la société et en fonction des mutations politiques extérieures surtout en Belgique, petit pays soumis aux influences de nations plus puissantes. lexicométrie analyse du discours discours politique statistique lexicale classification distances d'édition distance de Levenshtein sociologie politique institutions politiques parlement gouvernement
200	Traitement automatique des langues pour l'indexation d'images Tirilly, Pierre 07 July 2010 (has links) (PDF) Bien que s'inscrivant dans un cadre global de recherche d'information (RI) classique, l'indexation d'image ne tire que peu parti des nombreux travaux existants en RI textuelle et en traitement automatique des langues (TAL). Nous identifions deux niveaux auxquels de tels travaux peuvent s'intégrer aux systèmes d'indexation d'images. Le premier niveau est celui de la description du contenu visuel des images. Pour y intégrer des techniques de TAL, nous adoptons la description des images par mots visuels proposée par Sivic et Zisserman. Cette représentation soulève deux problématiques similaires aux problématiques classiques de la RI textuelle~: le choix des termes d'indexation les plus pertinents pour décrire les documents et la prise en compte des relations entre ces termes. Pour répondre à la première de ces problématiques nous proposons une étude des stop-lists et des pondérations dans le cadre de l'indexation d'images. Cette étude montre que, contrairement au cas des textes, il n'existe pas de pondération optimale pour tous types de requêtes, et que la pondération doit être choisie en fonction de la requête. Pour la seconde, nous utilisons des modèles de langues, outil classique du TAL que nous adaptons au cas des images, pour dépasser l'hypothèse d'indépendance des termes dans un cadre de classification d'images. Nos expérimentations montrent que prendre en compte des relations géométriques entre mots visuels permet d'améliorer les performances des systèmes. Le second niveau étudié est l'indexation sémantique des images : il est possible d'utiliser des méthodes de TAL sur des textes accompagnant les images pour obtenir des descriptions textuelles de celles-ci. Dans un premier temps, nous montrons que les descripteurs classiques d'images ne permettent pas d'obtenir des systèmes d'annotation d'images efficaces. Puis nous proposons une méthode d'annotation qui contourne cet écueil en se basant sur des descripteurs textuels et visuels de haut-niveau~: nous extrayons des textes des entités nommées, que nous mettons en relation avec des concepts visuels détectés dans les images afin d'annoter celles-ci. Nous validons notre approche sur un corpus réel et de grande taille composé d'articles de presse. Recherche d'information recherche d'images par le contenu annotation d'images traitement automatique des langues apprentissage artificiel modèles de langues entités nommées mots visuels pondérations détection de logos

Search results