Global ETD Search

151	Lexique et analyse sémantique de textes - structures, acquisitions, calculs, et jeux de mots Lafourcade, Mathieu 07 December 2011 (has links) (PDF) L'analyse sémantique de textes nécessite en préalable la construction d'objets relevant de la sémantique lexicale. Les vecteurs d'idées et les réseaux lexicaux semblent de bons candidats et constituent ensemble des structures complémentaires. Toutefois, faut-il encore être capable dans la pratique de les construire. Les vecteurs d'idées peuvent être calculés à partir de corpus de définitions de dictionnaires, de thésaurus ou encore de textes. Ils peuvent se décliner en des vecteurs conceptuels, des vecteurs anonymes ou des vecteurs lexicaux - chaque type présentant un équilibre différent entre précision, couverture et praticité. Quant aux réseaux lexicaux, ils peuvent être acquis efficacement via des jeux, et c'est précisément l'objet du projet JeuxDeMots. L'analyse sémantique peut être abordée par l'analyse thématique, et ainsi servir de moyen de calcul à des vecteurs d'idées (bouclage). Nous pouvons modéliser l'analyse comme un problème d'activation et de propagation. La multiplicité des critères pouvant intervenir dans une analyse sémantique, et la difficulté inhérente à définir une fonction de contrôle satisfaisante, nous amène à explorer l'usage de métaheuristiques bio-inspirées. Plus précisément, nous introduisons un modèle d'analyse par colonies de fourmis artificielles. A partir d'un texte, l'analyse vise a construire un graphe contenant les objets du texte (les mots), des objets identifiés comme pertinents (des syntagmes, des concepts) ainsi que des relations pondérées et typées entre ces objets. Traitement Automatique des Langues analyse sémantique de textes sémantique lexicale vecteurs d'idées réseaux lexico-sémantiques acquisition lexicale jeux sérieux
152	Vers une adaptation autonome des modèles acoustiques multilingues pour le traitement automatique de la parole Sam, Sethserey 07 June 2011 (has links) (PDF) Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est généralement une tâche très difficile et peu réaliste pour représenter toutes les origines des locuteurs. Ce travail de thèse porte sur l'amélioration des modèles acoustiques multilingues pour la transcription phonétique de la parole de type " réunion multilingue ". Traiter ce type de parole constitue plusieurs défis : 1) il peut exister de la conversation entre des locuteurs natifs et non natifs ; 2) il y a non seulement de la parole non native d'une langue, mais de plusieurs langues parlées par des locuteurs venant de différentes origines ; 3) il est difficile de collecter suffisamment de données pour amorcer les systèmes de transcription. Pour répondre à ces défis, nous proposons un processus d'adaptation de modèles acoustiques multilingues que nous appelons " adaptation autonome ". Dans l'adaptation autonome, nous étudions plusieurs approches pour adapter les modèles acoustiques multilingues de manière non supervisée (les langues parlées et les origines des locuteurs ne sont pas connues à l'avance) et qui n'utilise aucune donnée supplémentaire lors du processus d'adaptation. Les approches étudiées sont décomposées selon deux modules. Le premier module qui s'appelle " l'observateur de langues " consiste à récupérer les caractéristiques linguistiques (les langues parlées et les origines des locuteurs) des segments à décoder. Le deuxième module consiste à adapter le modèle acoustique multilingue en fonction des connaissances fournies par l'observateur de langue. Pour évaluer l'utilité de l'adaptation autonome d'un modèle acoustique multilingue, nous utilisons les données de test, qui sont extraites de réunions multilingues, contenant de la parole native et non native de trois langues : l'anglais (EN), le français (FR) et le vietnamien (VN). Selon les résultats d'expérimentation, l'adaptation autonome donne des résultats prometteurs pour les paroles non natives mais dégradent très légèrement les performances sur de la parole native. Afin d'améliorer la performance globale des systèmes de transcription pour toutes les paroles natives et non natives, nous étudions plusieurs approches de détection de parole non native et proposons de cascader un tel détecteur avec notre processus d'adaptation autonome. Les résultats obtenus ainsi, sont les meilleurs parmi toutes les expériences réalisées sur notre corpus de réunions multilingues. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Observateur de langues Classification de la par Interpolation
153	Analyse syntaxique à l'aide des tables du Lexique-Grammaire du français Tolone, Elsa 31 March 2011 (has links) (PDF) Les tables du Lexique-Grammaire, dont le développement a été initié par Gross (1975), constituent un lexique syntaxique très riche pour le français. Elles couvrent diverses catégories lexicales telles que les verbes, les noms, les adjectifs et les adverbes. Cette base de données linguistiques n'est cependant pas directement exploitable informatiquement car elle est incomplète et manque de cohérence. Chaque table regroupe un certain nombre d'entrées jugées similaires car elles acceptent des propriétés communes. Ces propriétés ont pour particularité de ne pas être codées dans les tables même mais uniquement décrites dans la littérature. Pour rendre ces tables exploitables, il faut expliciter les propriétés intervenant dans chacune d'entre elles. De plus, un grand nombre de ces propriétés doivent être renommées dans un souci de cohérence. Notre objectif est d'adapter les tables pour les rendre utilisables dans diverses applications de Traitement Automatique des Langues (TAL), notamment l'analyse syntaxique. Nous expliquons les problèmes rencontrés et les méthodes adoptées pour permettre leur intégration dans un analyseur syntaxique. Nous proposons LGExtract, un outil générique pour générer un lexique syntaxique pour le TAL à partir des tables du Lexique-Grammaire. Il est relié à une table globale dans laquelle nous avons ajouté les propriétés manquantes et un unique script d'extraction incluant toutes les opérations liées à chaque propriété devant être effectuées pour toutes les tables. Nous présentons également LGLex, le nouveau lexique syntaxique généré des verbes, des noms prédicatifs, des expressions figées et des adverbes. Ensuite, nous montrons comment nous avons converti les verbes et les noms prédicatifs de ce lexique au format Alexina, qui est celui du lexique Lefff (Lexique des Formes Fléchies du Français) (Sagot, 2010), un lexique morphologique et syntaxique à large couverture et librement disponible pour le français. Ceci permet son intégration dans l'analyseur syntaxique FRMG (French MetaGrammar) (Thomasset et de La Clergerie, 2005), un analyseur profond à large couverture pour le français, basé sur les grammaires d'arbres adjoints (TAG), reposant habituellement sur le Lefff. Cette étape de conversion consiste à extraire l'information syntaxique codée dans les tables du Lexique-Grammaire. Nous présentons les fondements linguistiques de ce processus de conversion et le lexique obtenu. Nous évaluons l'analyseur syntaxique FRMG sur le corpus de référence de la campagne d'évaluation d'analyseurs du français Passage (Produire des Annotations Syntaxiques à Grande Échelle) (Hamon et al., 2008), en comparant sa version basée sur le Lefff avec notre version reposant sur les tables du Lexique-Grammaire converties Traitement Automatique des Langues Ressources linguistiques Lexiques syntaxiques Lexique-Grammaire Analyse syntaxique Évaluation
154	Recensement et description des mots composés - méthodes et applications Savary, Agata 14 December 2000 (has links) (PDF) Ce mémoire décrit les recherches en informatique linguistique menées par l'auteur dans le domaine des mots composés, et plus spécialement de la composition nominale en anglais général et spécialisé. Le point de départ pour toutes les recherches présentées a été le système de traitement automatique de grands corpus, INTEX?.<br />Nous nous sommes penchée sur le problème du recensement des mots composés à grande échelle. Nous avons essayé de répondre aux questions suivantes :<br />1) Comment ce recensement peut être effectué ?<br />2) Est-il utile de le réaliser ?<br />La réponse à la première question est donnée dans le contexte de la création de dictionnaires électroniques, sous formats disponibles dans le système INTEX. Nous analysons la morphologie flexionnelle des noms composés en trois langues : le français, l'anglais et le polonais. Nous proposons une méthode formelle de description du comportement flexionnel des composés, ainsi qu'un algorithme qui génère automatiquement leurs formes fléchies. Nous décrivons la construction de deux dictionnaires électroniques : l'un pour les mots composés de l'anglais général, l'autre pour les termes simples et composés anglais du domaine de l'informatique. Nous présentons une bibliothèque d'automates et de transducteurs finis pour la reconnaissance des déterminants numéraux cardinaux et ordinaux de l'anglais.<br />L'intérêt de la création de bases lexicales pour les mots composés est vérifié dans deux types d'applications du TALN. Premièrement, nous présentons une méthode d'acquisition de terminologie, basée sur l'emploi de ressources terminologiques initiales. Deuxièmement, nous proposons un algorithme de correction orthographique des mots simples et composés, basé sur la consultation d'un dictionnaire sous format d'automate fini. [INFO:INFO_OH] Computer Science/Other analyse lexicale automatique dictionnaires électroniques mots composés acquisition de terminologie aide à la traduction correction orthographique
155	Intelligence Socio-Affective pour un Robot : primitives langagières pour une interaction évolutive d'un robot de l’habitat intelligent / Intelligence from Socio-Affects of Robot : Dialog Primitives for a Scalable Interaction with a Smart Home Robot Sasa, Yuko 26 January 2018 (has links) Le Traitement Automatique de la Parole (TAP) s’intéresse de plus en plus et progresse techniquement en matière d’étendue de vocabulaire, de gestion de complexité morphosyntaxique, de style et d’esthétique de la parole humaine. L’Affective Computing tend également à intégrer une dimension « émotionnelle » dans un objectif commun au TAP visant à désambiguïser le langage naturel et augmenter la naturalité de l’interaction personne-machine. Dans le cadre de la robotique sociale, cette interaction est modélisée dans des systèmes d’interaction, de dialogue, qui tendent à engendrer une dimension d’attachement dont les effets doivent être éthiquement et collectivement contrôlés. Or la dynamique du langage humain situé met à mal l’efficacité des systèmes automatiques. L’hypothèse de cette thèse propose dans la dynamique des interactions, il existerait une « glu socio-affective » qui ferait entrer en phases synchroniques deux individus dotés chacun d’un rôle social impliqué dans une situation/contexte d’interaction. Cette thèse s'intéresse à des dynamiques interactionnelles impliquant spécifiquement des processus altruistes, orthogonale à la dimension de dominance. Cette glu permettrait ainsi de véhiculer les événements langagiers entre les interlocuteurs, en modifiant constamment leur relation et leur rôle, qui eux même viennent à modifier cette glu, afin d’assurer la continuité de la communication. La seconde hypothèse propose que la glu socio-affective se construise à partir d’une « prosodie socio-affective pure » que l’on peut retrouver dans certaines formes de micro-expressions vocales. L’effet de ces événements langagiers serait alors graduel en fonction du degré de contrôle d’intentionnalité communicative qui s’observerait successivement par des primitives langagières : 1) des bruits de bouche (non phonétiques, non phonologiques), 2) des sons prélexicaux, 3) des interjections/onomatopées, 4) des imitations à contenu lexical contrôlé. Une méthodologie living-lab est ainsi développée au sein de la plateforme Domus, sur des boucles agiles et itératives co-construites avec les partenaires industriels et sociétaux. Un Magicien d’Oz – EmOz – est utilisé afin de contrôler les primitives vocales comme unique support langagier d’un robot majordome d’un habitat intelligent interagissant avec des personnes âgées en isolement relationnel. Un large corpus, EmOz Elderly Expressions –EEE– est ainsi recueilli. Cet isolement relationnel permet méthodologiquement d’appréhender les dimensions de la glu socio-affective, en introduisant une situation contrastive dégradée de la glu. Les effets des primitives permettraient alors d’observer les comportements de l’humain à travers des indices multimodaux. Les enjeux sociétaux abordés par la gérontechnologie montrent que l’isolement est un facteur de fragilisation où la qualité de la communication délite le maillage relationnel des personnes âgées alors que ces liens sont bénéfiques à sa santé et son bien-être. L’émergence de la robotique d’assistance en est une illustration. Le système automatisé qui découlera des données et des analyses de cette étude permettrait alors d’entraîner les personnes à solliciter pleinement leurs mécanismes de construction relationnelle, afin de redonner l’envie de communiquer avec leur entourage humain. Les analyses du corpus EEE recueilli montrent une évolution de la relation à travers différents indices interactionnels, temporellement organisés. Ces paramètres visent à être intégrés dans une perspective de système de dialogue incrémental – SASI. Les prémisses de ce système sont proposées dans un prototype de reconnaissance de la parole dont la robustesse ne dépendra pas de l’exactitude du contenu langagier reconnu, mais sur la reconnaissance du degré de glu, soit de l’état relationnel entre les locuteurs. Ainsi, les erreurs de reconnaissance tendraient à être compensées par l’intelligence socio-affective adaptative de ce système dont pourrait être doté le robot. / The Natural Language Processing (NLP) has technically improved regarding human speech vocabulary extension, morphosyntax scope, style and aesthetic. Affective Computing also tends to integrate an “emotional” dimension with a common goal shared with NLP which is to disambiguate the natural language and increase the human-machine interaction naturalness. Within social robotics, the interaction is modelled in dialogue systems trying to reach out an attachment dimension which effects need to an ethical and collective control. However, the situated natural language dynamics is undermining the automated system’s efficiency, which is trying to respond with useful and suitable feedbacks. This thesis hypothesis supposes the existence of a “socio-affective glue” in every interaction, set up in between two individuals, each with a social role depending on a communication context. This glue is so the consequence of dynamics generated by a process which mechanisms rely on an altruistic dimension, but independent of dominance dimension as seen in emotions studies. This glue would allow the exchange of the language events between interlocutors, by regularly modifying their relation and their role, which is changing themselves this glue, to ensure the communication continuity. The second hypothesis proposes the glue as built by “socio-affective pure prosody” forms that enable this relational construction. These cues are supposed to be carried by hearable and visible micro-expressions. The interaction events effect would also be gradual following the degree of the communication’s intentionality control. The graduation will be continuous through language primitives as 1) mouth noises (neither phonetics nor phonological sounds), 2) pre-lexicalised sounds, 3) interjections and onomatopoeias, 4) controlled command-based imitations with the same socio-affective prosody supposed to create and modify the glue. Within the Domus platform, we developed an almost living-lab methodology. It functions on agile and iterative loops co-constructed with industrial and societal partners. A wizard of oz approach – EmOz – is used to control the vocal primitives proposed as the only language tools of a Smart Home butler robot interacting with relationally isolated elderly. The relational isolation allows the dimensions the socio-affective glue in a contrastive situation where it is damaged. We could thus observe the primitives’ effects through multimodal language cues. One of the gerontechnology social motivation showed the isolation to be a phenomenon amplifying the frailty so can attest the emergence of assistive robotics. A vicious circle leads by the elderly communicational characteristics convey them to some difficulties to maintain their relational tissue while their bonds are beneficial for their health and well-being. If the proposed primitives could have a real effect on the glue, the automated system will be able to train the persons to regain some unfit mechanisms underlying their relational construction, and so possibly increase their desire to communicate with their human social surroundings. The results from the collected EEE corpus show the relation changes through various interactional cues, temporally organised. These denoted parameters tend to build an incremental dialogue system in perspectives – SASI. The first steps moving towards this system reside on a speech recognition prototype which robustness is not based on the accuracy of the recognised language content but on the possibility to identify the glue degree (i.e. the relational state) between the interlocutors. Thus, the recognition errors avoid the system to be rejected by the user, by tempting to be balanced by this system’s adaptive socio-affective intelligence. Traitement Automatique de la Langue Intelligence socio-Affective Primitives du langage Robot Habitat intelligent Natural Language Processing Socio-Emotional intelligence Language primitives Robot Smart Home 004
156	L'analyse de la complexité du discours et du texte pour apprendre et collaborer / Analysing discourse and text complexity for learning and collaborating Dascalu, Mihai 04 June 2013 (has links) L’apprentissage collaboratif assisté par ordinateur et les technologies d’e-learning devenant de plus en plus populaires et intégrés dans des contextes éducatifs, le besoin se fait sentir de disposer d’outils d’évaluation automatique et d’aide aux enseignants ou tuteurs pour les deux activités, fortement couplées, de compréhension de textes et collaboration entre pairs. Bien qu’une analyse de surface de ces activités est aisément réalisable, une compréhension plus profonde et complète du discours en jeu est nécessaire, complétée par une analyse de l’information méta-cognitive disponible par diverses sources, comme par exemples les auto-explications des apprenants. Dans ce contexte, nous utilisons un modèle dialogique issu des travaux de Bakhtine pour analyser les conversations collaboratives, et une approche théorique visant à unifier les activités de compréhension et de collaboration dans un même cadre, utilisant la construction de graphes de cohésion. Plus spécifiquement, nous nous sommes centrés sur la dimension individuelle de l’apprentissage, analysée à partir de l’identification de stratégies de lecture et sur la mise au jour d’un modèle de la complexité textuelle intégrant des facteurs de surface, lexicaux, morphologiques, syntaxiques et sémantiques. En complément, la dimension collaborative de l’apprentissage est centrée sur l’évaluation de l’implication des participants, ainsi que sur l’évaluation de leur collaboration par deux modèles computationnels: un modèle polyphonique, défini comme l’inter-animation de voix selon de multiples perspectives, un modèle spécifique de construction sociale de connaissances, fondé sur le graphe de cohésion et un mécanisme d’évaluation des tours de parole. Notre approche met en œuvre des techniques avancées de traitement automatique de la langue et a pour but de formaliser une évaluation qualitative du processus d’apprentissage. Ainsi, deux perspectives fortement interreliées sont prises en considération : d’une part, la compréhension, centrée sur la construction de connaissances et les auto-explications à partir desquelles les stratégies de lecture sont identifiées ; d’autre part la collaboration, qui peut être définie comme l’implication sociale, la génération d’idées ou de voix en interanimation dans un contexte donné. Des validations cognitives de nos différents systèmes d’évaluation automatique ont été réalisées, et nous avons conçu des scénarios d’utilisation de ReaderBench, notre système le plus avancé, dans différents contextes d’enseignement. L’un des buts principaux de notre modèle est de favoriser la compréhension vue en tant que « médiatrice de l’apprentissage », en procurant des rétroactions automatiques aux apprenants et enseignants ou tuteurs. Leur avantage est triple: leur flexibilité, leur extensibilité et, cependant, leur spécificité, car ils couvrent de multiples étapes de l’activité d’apprentissage, de la lecture de matériel d’apprentissage à l’écriture de synthèses de cours en passant par la discussion collaborative de contenus de cours et la verbalisation métacognitive de jugements de compréhension, afin d’obtenir une perspective complète du niveau de compréhension et de générer des rétroactions appropriées sur le processus d’apprentissage collaboratif. / With the advent and increasing popularity of Computer Supported Collaborative Learning (CSCL) and e-learning technologies, the need of automatic assessment and of teacher/tutor support for the two tightly intertwined activities of comprehension of reading materials and of collaboration among peers has grown significantly. Whereas a shallow or surface analysis is easily achievable, a deeper understanding of the discourse is required, extended by meta-cognitive information available from multiple sources as self-explanations. In this context, we use a polyphonic model of discourse derived from Bakhtin’s work as a paradigm for analyzing CSCL conversations, as well as cohesion graph building designed for creating an underlying discourse structure. This enables us to address both general texts and conversations and to incorporate comprehension and collaboration specific activities in a unique framework. As specificity of the analysis, in terms of individual learning we have focused on the identification of reading strategies and on providing a multi-dimensional textual complexity model integrating surface, word specific, morphology, syntax and semantic factors. Complementarily, the collaborative learning dimension is centered on the evaluation of participants’ involvement, as well as on collaboration assessment through the use of two computational models: a polyphonic model, defined in terms of voice inter-animation, and a specific social knowledge-building model, derived from the specially designed cohesion graph corroborated with a proposed utterance scoring mechanism. Our approach integrates advanced Natural Language Processing techniques and is focused on providing a qualitative estimation of the learning process. Therefore, two tightly coupled perspectives are taken into consideration: comprehension on one hand is centered on knowledge-building, self-explanations from which multiple reading strategies can be identified, whereas collaboration, on the other, can be seen as social involvement, ideas or voices generation, intertwining and inter-animation in a given context. Various cognitive validations for all our automated evaluation systems have been conducted and scenarios including the use of ReaderBench, our most advanced system, in different educational contexts have been built. One of the most important goals of our model is to enhance understanding as a “mediator of learning” by providing automated feedback to both learners and teachers or tutors. The main benefits are its flexibility, extensibility and nevertheless specificity for covering multiple stages, starting from reading classroom materials, to discussing on specific topics in a collaborative manner, and finishing the feedback loop by verbalizing metacognitive thoughts in order to obtain a clear perspective over one’s comprehension level and appropriate feedback about the collaborative learning processes. Complexité Traitement Automatique de la Langue Analyse du discours Compréhension de texte Complexity Natural Language Processing Discourse Analysis Textual Comprehension
157	Syntactic Similarity Measures in Annotated Corpora for Language Learning : application to Korean Grammar / Mesures de similarité syntaxique dans des corpus annotés pour la didactique des langues : application à la grammaire du coréen Wang, Ilaine 17 October 2017 (has links) L'exploration de corpus à travers des requêtes fait aujourd'hui partie de la routine de nombreux chercheurs adoptant une approche empirique de la langue, mais aussi de non-spécialistes qui utilisent des moteurs de recherche ou des concordanciers dans le cadre de l'apprentissage d'une langue. Si les requêtes ainsi basées sur des mots-clés sont communes, les non-spécialistes semblent encore peu enclins à explorer des constructions syntaxiques. En effet, les requêtes syntaxiques requièrent souvent des connaissances spécifiques comme la maîtrise des expressions régulières, le langage de requête de l'outil utilisé, ou même simplement le jeu d'étiquettes morpho-syntaxiques du corpus étudié.Pour permettre aux apprenants de langue de se concentrer sur l'analyse des données langagières plutôt que sur la formulation de requêtes, nous proposons une méthodologie incluant un analyseur syntaxique et utilisant des mesures de similarité classiques pour comparer des séquences d'étiquettes syntaxiques ainsi obtenues de manière automatique. / Using queries to explore corpora is today part of the routine of not only researchers of various fields with an empirical approach to discourse, but also of non-specialists who use search engines or concordancers for language learning purposes. If keyword-based queries are quite common, non-specialists still seem to be less likely to explore syntactic constructions. Indeed, syntax-based queries usually require the use of regular expressions with grammatical words combined with morphosyntactic tags, which imply that users master both the query language of the tool and the tagset of the annotated corpus. However, non-specialists like language learners might want to focus on the output rather than spend time and efforts on mastering a query language.To address this shortcoming, we propose a methodology including a syntactic parser and using common similarity measures to compare sequences of morphosyntactic tags automatically provided. Traitement automatique des langues Corpus Syntaxe Mesure de similarité Didactique des langues Grammaire Coréen Natural language processing Corpus Syntax Similarity measure Language learning Grammar Korean
158	Identification et analyse linguistique du lexique scientifique transdisciplinaire. Approche outillée sur un corpus d'articles de recherche en SHS / The French Cross-disciplinary Scientific Lexicon, Identification and Linguistic Analysis. A corpus-driven approach of Research Articles in Humanities and Social Sciences Hatier, Sylvain 07 December 2016 (has links) Cette thèse s’intéresse au lexique scientifique transdisciplinaire (LST), lexique inscrit dans le genre de l’article de recherche en sciences humaines et sociales. Le LST est fréquemment mobilisé dans les écrits scientifiques et constitue ainsi un objet d’importance pour l’étude de ce genre. Ce lexique trouve également des applications concrètes tant en indexation terminologique que pour l’aide à la rédaction/compréhension de textes scientifiques. Ces différents objectifs nous amènent à adopter une approche outillée pour identifier et caractériser les unités lexicales du LST, lexique complexe à circonscrire, situé entre lexique de la langue générale et terminologie. En nous basant sur les propriétés de spécificité et de transdisciplinarité ainsi que sur l’étude des propriétés lexico-syntaxiques de ses éléments, nous élaborons une ressource du LST intégrant informations lexicales, syntaxiques et sémantiques. L’analyse de la combinatoire à l’aide d’un corpus arboré autorise ainsi une caractérisation du LST ancrée sur l’usage dans le genre de l’article de recherche. Selon cette même approche, nous identifions les acceptions nominales transdisciplinaires et proposons une classification sémantique fondée sur la combinatoire en corpus pour intégrer à notre ressource lexicale une typologie nominale sur deux niveaux. Nous montrons enfin que cette structuration du LST nous permet d’aborder la dimension phraséologique et rhétorique du LST en faisant émerger du corpus des constructions récurrentes définies par leurs propriétés syntactico-sémantiques. / In this dissertation we study the French cross-disciplinary scientific lexicon (CSL), a lexicon which fall within the genre of scientific articles in humanities and social sciences. As the CSL is commonly used in scientific texts, it is a gateway of interest to explore this genre. This lexicon has also practical applications in the fields of automatic terms identification and foreign language teaching in the academic background. To this end, we apply a corpus-driven approach in order to extract and structure the CSL lexical units which are complex to circumscribe. The method relies on the cross-disciplinarity and specificity criteria and on the lexico-syntactic properties of the CSL lexical units. As a result, we designed a lexical resource which include lexical, syntactical and semantical informations. As we analyze the combinatorial properties extracted from a parsed corpus of scientific articles, we performed a CSL study based on its genre specific use. We follow the same approach to identify cross-disciplinary meanings for the CSL nouns and to design a nominal semantic classification. This two-level typology allow us to explore rhetorical and phraseological CSL properties by identifying frequent syntactico-semantic patterns. Linguistique de corpus Lexicologie Écrits scientifiques Lexique scientifique transdisciplinaire Sémantique Corpus linguistics Natural language processing Lexicology Scientific texts Cross-Discplinary scientific lexicon Semantics 400
159	Vers une approche non orientée pour l'évaluation de la qualité des odeurs / Towards a non oriented approach of the evaluation of the odor quality Medjkoune, Massissilia 30 March 2018 (has links) Caractériser la qualité d’une odeur est une tâche complexe qui consiste à identifier un ensemble de descripteurs qui synthétise au mieux la sensation olfactive au cours de séances d’analyse sensorielle. Généralement, cette caractérisation est une liste de descripteurs extraite d’un vocabulaire imposé par les industriels d’un domaine pour leurs analyses sensorielles. Ces analyses représentent un coût significatif pour les industriels chaque année. En effet, ces approches dites orientées reposent sur l’apprentissage de vocabulaires, limitent singulièrement les descripteurs pour un public non initié et nécessitent de couteuses phases d’apprentissage. Si cette caractérisation devait être confiée à des évaluateurs naïfs, le nombre de participants pourrait être significativement augmenté tout en réduisant le cout des analyses sensorielles. Malheureusement, chaque description libre n’est alors plus associée à un ensemble de descripteurs non ambigus, mais à un simple sac de mots en langage naturel (LN). Deux problématiques sont alors rattachées à la caractérisation d’odeurs. La première consiste à transformer des descriptions en LN en descripteurs structurés ; la seconde se donne pour objet de résumer un ensemble de descriptions formelles proposées par un panel d’évaluateurs en une synthèse unique et cohérente à des fins industrielles. Ainsi, la première partie de notre travail se focalise sur la définition et l’évaluation de modèles qui peuvent être utilisés pour résumer un ensemble de mots en un ensemble de descripteurs désambiguïsés. Parmi les différentes stratégies envisagées dans cette contribution, nous proposons de comparer des approches hybrides exploitant à la fois des bases de connaissances et des plongements lexicaux définis à partir de grands corpus de textes. Nos résultats illustrent le bénéfice substantiel à utiliser conjointement représentation symbolique et plongement lexical. Nous définissons ensuite de manière formelle le processus de synthèse d’un ensemble de concepts et nous proposons un modèle qui s’apparente à une forme d’intelligence humaine pour évaluer les résumés alternatifs au regard d’un objectif de synthèse donné. L’approche non orientée que nous proposons dans ce manuscrit apparait ainsi comme l’automatisation cognitive des tâches confiées aux opérateurs des séances d’analyse sensorielle. Elle ouvre des perspectives intéressantes pour développer des analyses sensorielles à grande échelle sur de grands panels d’évaluateurs lorsque l’on essaie notamment de caractériser les nuisances olfactives autour d’un site industriel. / Characterizing the quality of smells is a complex process that consists in identifying a set of descriptors best summarizing the olfactory sensation. Generally, this characterization results in a limited set of descriptors provided by sensorial analysis experts. These sensorial analysis sessions are however very costly for industrials. Indeed, such oriented approaches based on vocabulary learning limit, in a restrictive manner, the possible descriptors available for any uninitiated public, and therefore require a costly vocabulary-learning phase. If we could entrust this characterization to neophytes, the number of participants of a sensorial analysis session would be significantly enlarged while reducing costs. However, in that setting, each individual description is not related to a set of non-ambiguous descriptors anymore, but to a bag of terms expressed in natural language (NL). Two issues are then related to smell characterization implementing this approach. The first one is how to translate such NL descriptions into structured descriptors; the second one being how to summarize a set of individual characterizations into a consistent and synthetic unique characterization meaningful for professional purposes. Hence, this work focuses first on the definition and evaluation of models that can be used to summarize a set of terms into unambiguous entity identifiers selected from a given ontology. Among the several strategies explored in this contribution, we propose to compare hybrid approaches taking advantages of knowledge bases (symbolic representations) and word embeddings defined from large text corpora analysis. The results we obtain highlight the relative benefits of mixing symbolic representations with classic word embeddings for this task. We then formally define the problem of summarizing sets of concepts and we propose a model mimicking Human-like Intelligence for scoring alternative summaries with regard to a specific objective function. Interestingly, this non-oriented approach for identifying the quality of odors appears to be an actual cognitive automation of the task today performed by expert operators in sensorial analysis. It therefore opens interesting perspectives for developing scalable sensorial analyses based on large sets of evaluators when assessing, for instance, olfactory pollution around industrial sites. Représentation des connaissances Synthèse conceptuelle Fusion d’information Analyse sensorielle Taxonomie Knowledge Representation Conceptual synthesis Information fusion Automatic Natural Language Processing Sensory analysis Taxonomy
160	Using formal logic to represent sign language phonetics in semi-automatic annotation tasks / Using formal logic to represent sign language phonetics in semi-automatic annotation tasks Curiel Diaz, Arturo Tlacaélel 23 November 2015 (has links) Cette thèse présente le développement d'un framework formel pour la représentation des Langues de Signes (LS), les langages des communautés Sourdes, dans le cadre de la construction d'un système de reconnaissance automatique. Les LS sont de langues naturelles, qui utilisent des gestes et l'espace autour du signeur pour transmettre de l'information. Cela veut dire que, à différence des langues vocales, les morphèmes en LS ne correspondent pas aux séquences de sons; ils correspondent aux séquences de postures corporelles très spécifiques, séparés par des changements tels que de mouvements. De plus, lors du discours les signeurs utilisent plusieurs parties de leurs corps (articulateurs) simultanément, ce qui est difficile à capturer avec un système de notation écrite. Cette situation difficulté leur représentation dans de taches de Traitement Automatique du Langage Naturel (TALN). Pour ces raisons, le travail présenté dans ce document a comme objectif la construction d'une représentation abstraite de la LS; plus précisément, le but est de pouvoir représenter des collections de vidéo LS (corpus) de manière formelle. En générale, il s'agit de construire une couche de représentation intermédiaire, permettant de faire de la reconnaissance automatique indépendamment des technologies de suivi et des corpus utilisés pour la recherche. Cette couche corresponde à un système de transition d'états (STE), spécialement crée pour représenter la nature parallèle des LS. En plus, elle peut-être annoté avec de formules logiques pour son analyse, à travers de la vérification de modèles. Pour représenter les propriétés à vérifier, une logique multi-modale a été choisi : la Logique Propositionnelle Dynamique (PDL). Cette logique a été originalement crée pour la spécification de programmes. De manière plus précise, PDL permit d'utilise des opérateurs modales comme [a] et <a>, représentant <<nécessité>> et <<possibilité>>, respectivement. Une variante particulaire a été développée pour les LS : la PDL pour Langue de Signes (PDLSL), qui est interprété sur des STE représentant des corpus. Avec PDLSL, chaque articulateur du corps (comme les mains et la tête) est vu comme un agent indépendant; cela veut dire que chacun a ses propres actions et propositions possibles, et qu'il peux les exécuter pour influencer une posture gestuelle. L'utilisation du framework proposé peut aider à diminuer deux problèmes importantes qui existent dans l'étude linguistique des LS : hétérogénéité des corpus et la manque des systèmes automatiques d'aide à l'annotation. De ce fait, un chercheur peut rendre exploitables des corpus existants en les transformant vers des STE. Finalement, la création de cet outil à permit l'implémentation d'un système d'annotation semi-automatique, basé sur les principes théoriques du formalisme. Globalement, le système reçoit des vidéos LS et les transforme dans un STE valide. Ensuite, un module fait de la vérification formelle sur le STE, en utilisant une base de données de formules crée par un expert en LS. Les formules représentent des propriétés lexicales à chercher dans le STE. Le produit de ce processus, est une annotation qui peut être corrigé par des utilisateurs humains, et qui est utilisable dans des domaines d'études tels que la linguistique. / This thesis presents a formal framework for the representation of Signed Languages (SLs), the languages of Deaf communities, in semi-automatic recognition tasks. SLs are complex visio-gestural communication systems; by using corporal gestures, signers achieve the same level of expressivity held by sound-based languages like English or French. However, unlike these, SL morphemes correspond to complex sequences of highly specific body postures, interleaved with postural changes: during signing, signers use several parts of their body simultaneously in order to combinatorially build phonemes. This situation, paired with an extensive use of the three-dimensional space, make them difficult to represent with tools already existent in Natural Language Processing (NLP) of vocal languages. For this reason, the current work presents the development of a formal representation framework, intended to transform SL video repositories (corpus) into an intermediate representation layer, where automatic recognition algorithms can work under better conditions. The main idea is that corpora can be described with a specialized Labeled Transition System (LTS), which can then be annotated with logic formulae for its study. A multi-modal logic was chosen as the basis of the formal language: the Propositional Dynamic Logic (PDL). This logic was originally created to specify and prove properties on computer programs. In particular, PDL uses the modal operators [a] and <a> to denote necessity and possibility, respectively. For SLs, a particular variant based on the original formalism was developed: the PDL for Sign Language (PDLSL). With the PDLSL, body articulators (like the hands or head) are interpreted as independent agents; each articulator has its own set of valid actions and propositions, and executes them without influence from the others. The simultaneous execution of different actions by several articulators yield distinct situations, which can be searched over an LTS with formulae, by using the semantic rules of the logic. Together, the use of PDLSL and the proposed specialized data structures could help curb some of the current problems in SL study; notably the heterogeneity of corpora and the lack of automatic annotation aids. On the same vein, this may not only increase the size of the available datasets, but even extend previous results to new corpora; the framework inserts an intermediate representation layer which can serve to model any corpus, regardless of its technical limitations. With this, annotations is possible by defining with formulae the characteristics to annotate. Afterwards, a formal verification algorithm may be able to find those features in corpora, as long as they are represented as consistent LTSs. Finally, the development of the formal framework led to the creation of a semi-automatic annotator based on the presented theoretical principles. Broadly, the system receives an untreated corpus video, converts it automatically into a valid LTS (by way of some predefined rules), and then verifies human-created PDLSL formulae over the LTS. The final product, is an automatically generated sub-lexical annotation, which can be later corrected by human annotators for their use in other areas such as linguistics. Langue des signes Logique propositionnelle dynamique Annotation automatique Sign Language Propositional Dynamic Logic Automatic Annotation Natural Language Processing

Search results