Global ETD Search

41	Analyse et reconnaissance des émotions lors de conversations de centres d'appels Vaudable, Christophe 11 July 2012 (has links) (PDF) La reconnaissance automatique des émotions dans la parole est un sujet de recherche relativement récent dans le domaine du traitement de la parole, puisqu'il est abordé depuis une dizaine d'années environs. Ce sujet fait de nos jours l'objet d'une grande attention, non seulement dans le monde académique mais aussi dans l'industrie, grâce à l'augmentation des performances et de la fiabilité des systèmes. Les premiers travaux étaient fondés sur des donnés jouées par des acteurs, et donc non spontanées. Même aujourd'hui, la plupart des études exploitent des séquences pré-segmentées d'un locuteur unique et non une communication spontanée entre plusieurs locuteurs. Cette méthodologie rend les travaux effectués difficilement généralisables pour des informations collectées de manière naturelle.Les travaux entrepris dans cette thèse se basent sur des conversations de centre d'appels, enregistrés en grande quantité et mettant en jeu au minimum 2 locuteurs humains (un client et un agent commercial) lors de chaque dialogue. Notre but est la détection, via l'expression émotionnelle, de la satisfaction client. Dans une première partie nous présentons les scores pouvant être obtenus sur nos données à partir de modèles se basant uniquement sur des indices acoustiques ou lexicaux. Nous montrons que pour obtenir des résultats satisfaisants une approche ne prenant en compte qu'un seul de ces types d'indices ne suffit pas. Nous proposons pour palier ce problème une étude sur la fusion d'indices de types acoustiques, lexicaux et syntaxico-sémantiques. Nous montrons que l'emploi de cette combinaison d'indices nous permet d'obtenir des gains par rapport aux modèles acoustiques même dans les cas ou nous nous basons sur une approche sans pré-traitements manuels (segmentation automatique des conversations, utilisation de transcriptions fournies par un système de reconnaissance de la parole). Dans une seconde partie nous remarquons que même si les modèles hybrides acoustiques/linguistiques nous permettent d'obtenir des gains intéressants la quantité de données utilisées dans nos modèles de détection est un problème lorsque nous testons nos méthodes sur des données nouvelles et très variées (49h issus de la base de données de conversations). Pour remédier à ce problème nous proposons une méthode d'enrichissement de notre corpus d'apprentissage. Nous sélectionnons ainsi, de manière automatique, de nouvelles données qui seront intégrées dans notre corpus d'apprentissage. Ces ajouts nous permettent de doubler la taille de notre ensemble d'apprentissage et d'obtenir des gains par rapport aux modèles de départ. Enfin, dans une dernière partie nous choisissons d'évaluées nos méthodes non plus sur des portions de dialogues comme cela est le cas dans la plupart des études, mais sur des conversations complètes. Nous utilisons pour cela les modèles issus des études précédentes (modèles issus de la fusion d'indices, des méthodes d'enrichissement automatique) et ajoutons 2 groupes d'indices supplémentaires : i) Des indices " structurels " prenant en compte des informations comme la durée de la conversation, le temps de parole de chaque type de locuteurs. ii) des indices " dialogiques " comprenant des informations comme le thème de la conversation ainsi qu'un nouveau concept que nous nommons " implication affective ". Celui-ci a pour but de modéliser l'impact de la production émotionnelle du locuteur courant sur le ou les autres participants de la conversation. Nous montrons que lorsque nous combinons l'ensemble de ces informations nous arrivons à obtenir des résultats proches de ceux d'un humain lorsqu'il s'agit de déterminer le caractère positif ou négatif d'une conversation [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Détection d'émotions Apprentissage semi supervisé Traitement automatique des langues Reconnaissance de la parole
42	Conception et prototypage d'un outil web de médiation et d'aide au dialogue tchaté écrit en langue seconde Falaise, Achille 25 September 2009 (has links) (PDF) Notre thème de recherche général concerne les aides informatisées au dialogue en langue seconde, oral et/ou écrit. Cette thèse se concentre sur la dénition et l'étude, au moyen de corpus et d'un prototype, de procédés d'aide au dialogue écrit (tchat) en langue seconde, dans un contexte de médiation faible. Nous présentons dans un premier temps ce qu'est le tchat "ordinaire" en langue première, ses divergences de surface et ses convergences profondes vis à vis des autres formes d'écrit. Nous montrons ensuite les limites des aides actuelles, à médiation forte, dans laquelle l'outil d'aide est interposé entre des locuteurs supposés totalement incapables de communiquer par un autre biais, de sorte qu'on ne traite jamais le cas pourtant fréquent où ils peuvent utiliser une langue intermédiaire. Nous adaptons au tchat le scénario du projet VerbMobil (1992-2000) et proposons une approche à médiation faible pour locuteurs partiellement bilingues, capable de tenir compte de leurs compétences et de leurs problèmes spéciques. Le prototype développé dans ce cadre, Koinè, permet d'étudier les contraintes informatiques, ergonomiques et linguistiques d'un tel système, de proposer des solutions, et de les expérimenter. Des aides au dialogue oral ont été prévues, mais, comme la reconnaissance vocale du tout venant au téléphone ou sur IP n'est pas encore assez avancée pour ce type d'utilisation, la version actuelle est centrée sur l'écrit. Koinè est un service Web, construit à l'aide de la bibliothèque logicielle Krater, qui accélère et simplifie le développement d'applications Web. Koinè agrège des fonctionnalités utiles pour surmonter les obstacles de la communication en langue non native, telle que tableau blanc, livre de phrases interactif personnalisable, pré- traduction par traduction automatique, mesures d'intelligibilité et de prototypicalité des énoncés, et possibilité de désambiguïsation interactive et participative. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Traitement automatique des langues traduction automatique interface homme-machine ergonomie multimodalité génie logiciel
43	Localisation interne et en contexte des logiciels commerciaux et libres Fraisse, Amel 10 June 2010 (has links) (PDF) Nous proposons une méthode novatrice pour permettre la localisation en contexte de la majorité des logiciels commerciaux et libres, ceux programmés en Java et en C++/C#. Actuellement, la traduction des documents techniques ainsi que celle des éléments d'interface des logiciels commerciaux est confiée uniquement à des professionnels, ce qui allonge le processus de traduction, le rend coûteux, et quelquefois aboutit à une mauvaise qualité car les traducteurs professionnels n'ont pas accès au contexte d'utilisation des éléments textuels. Dès que l'on sort du petit ensemble des quelques langues les mieux dotées, et que lon veut localiser un logiciel pour des " langues peu dotées ", ce processus n'est plus viable pour des raisons de coût et surtout de rareté, de cherté, ou d'absence de traducteurs professionnels. Notre méthode consiste à faire participer de façon efficace et dynamique les bêta-testeurs et les utilisateurs finals au processus de localisation : pendant qu'ils utilisent l'application, les utilisateurs connaissant la langue originale du logiciel (souvent mais pas toujours l'anglais) peuvent intervenir sur les éléments textuels d'interface que l'application leur présente dans leur contexte d'utilisation courant. Ils peuvent ainsi traduire en contexte les boutons, les menus, les étiquettes, les onglets, etc., ou améliorer la traduction proposée par des systèmes de traduction automatique (TA) ou des mémoires de traductions (MT). Afin de mettre en place ce nouveau paradigme, nous avons besoin d'intervenir très localement sur le code source du logiciel : il s'agit donc aussi d'un paradigme de localisation interne. La mise en place d'une telle approche de localisation a nécessité l'intégration d'un gestionnaire de flot de traductions " SECTra_w ". Ainsi, nous avons un nouveau processus de localisation tripartite dont les trois parties sont l'utilisateur, l'éditeur du logiciel et le site collaboratif SECTra_w. Nous avons effectué une expérimentation complète du nouveau processus de localisation sur deux logiciels libres à code source ouvert : Notepad-plus-plus et Vuze. Traitement Automatique des Langues Localisation de logiciels Localisation en contexte
44	Un environnement générique et ouvert pour le traitement des expressions polylexicales : de l'acquisition aux applications Ramisch, Carlos Eduardo 11 September 2012 (has links) (PDF) Cette thèse présente un environnement ouvert et souple pour l'acquisition automatique d'expressions multimots (MWE) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des MWE pour les applications du TALN. Après avoir brièvement présenté les modules de l'environnement, le mémoire présente des résultats d'évaluation intrinsèque en utilisant deux applications: la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique de MWE, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des MWE dans ces applications et dans bien d'autres [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Traitement automatique des langues Linguistique computationnelle Expressions multimots Acquisition lexicale Traduction automatique Lexicographie
45	Voisinage lexical pour l'analyse du discours Adam, Clémentine 28 September 2012 (has links) (PDF) Cette thèse s'intéresse au rôle de la cohésion lexicale dans différentes approches de l'analyse du discours. Nous yexplorons deux hypothèses principales:- l'analyse distributionnelle, qui permet de rapprocher des unités lexicales sur la base des contextes syntaxiques qu'ellespartagent, met au jour des relations sémantiques variées pouvant être exploitées pour la détection de la cohésion lexicaledes textes;- les indices lexicaux constituent des éléments de signalisation de l'organisation du discours pouvant être exploités aussibien à un niveau local (identification de relations rhétoriques entre constituants élémentaires du discours) qu'à un niveauglobal (repérage ou caractérisation de segments de niveau supérieur dotés d'une fonction rhétorique et garantissant lacohérence et la lisibilité du texte, par exemple passages à unité thématique).Concernant le premier point, nous montrons la pertinence d'une ressource distributionnelle pour l'appréhension d'une largegamme de relations impliquées dans la cohésion lexicale des textes. Nous présentons les méthodes de projection et defiltrage que nous avons mises en œuvre pour la production de sorties exploitables.Concernant le second point, nous fournissons une série d'éclairages qui montrent l'apport d'une prise en compte réfléchiede la cohésion lexicale pour une grande variété de problématiques liées à l'étude et au repérage automatique del'organisation textuelle: segmentation thématique de textes, caractérisation des structures énumératives, étude de lacorrélation entre lexique et structure rhétorique du discours et enfin détection de réalisations d'une relation de discoursparticulière, la relation d'élaboration. Voisinage lexical Analyse du discours Analyse distributionnelle Traitement automatique des langues
46	Le traitement automatique de l’arabe dialectalisé : aspects méthodologiques et algorithmiques / Automatic processing of dialectal Arabic : methodological and algorithmic aspects Saadane, Houda 14 December 2015 (has links) L'auteur n'a pas fourni de résumé français. / L'auteur n'a pas fourni de résumé anglais. Traitement automatique des langues La langue arabe L'arabe dialectalisé Translittération et transcription Reconnaisssance Natural Language Processing Arabic Arabic dialectes Transliteration and transcription Recognition 490
47	L’Informatique au service des sciences du langage : la conception d’un programme étudiant le parler arabe libanais blanc / Computer science at the service of language sciences : the design of a program studying Arabic Lebanese white speech El Hage, Antoine 25 January 2017 (has links) A une époque où l’informatique a envahi tous les aspects de notre vie quotidienne, il est tout à fait normal de voir le domaine informatique participer aux travaux en sciences humaines et sociales, et notamment en linguistique où le besoin de développer des logiciels informatiques se fait de plus en plus pressant avec le volume grandissant des corpus traités. D’où notre travail de thèse qui consiste en l’élaboration d’un programme EPL qui étudie le parler arabe libanais blanc. En partant d’un corpus élaboré à partir de deux émissions télévisées enregistrées puis transcrites en lettres arabes, ce programme, élaboré avec le logiciel Access, nous a permis d’extraire les mots et les collocations et de procéder à une analyse linguistique aux niveaux lexical, phonétique, syntaxique et collocationnel. Le fonctionnement de l’EPL ainsi que le code de son développement sont décrits en détails dans une partie informatique à part. Des annexes de taille closent la thèse et rassemblent le produit des travaux de toute une équipe de chercheures venant de maintes spécialités. / At a time when computer science has invaded all aspects of our daily life, it is natural to see the computer field participating in human and social sciences work, and more particularly in linguistics where the need to develop computer software is becoming more and more pressing with the growing volume of analyzed corpora. Hence our thesis which consists in elaborating a program EPL that studies the white Lebanese Arabic speech. Starting from a corpus elaborated from two TV programs recorded then transcribed in Arabic letters, the program EPL, developed with Access software, allowed us to extract words and collocations, and to carry out a linguistic analysis on the lexical, phonetic, syntactic and collocational levels. The EPL’s functioning as well as its development code are described in the computer part. Important annexes conclude the thesis and gather the result of the work of a team of researchers coming from different specialties. Dialectologie Arabe Libanais Blanc Collocation Traitement automatique des langues (TAL) Dialectology White Lebanese Arabic Collocation Natural language processing 410
48	Immersion dans des documents scientifiques et techniques : unités, modèles théoriques et processus / Immersion in scientific and technical documents : units, theoretical models and processes Andreani, Vanessa 23 September 2011 (has links) Cette thèse aborde la problématique de l'accès à l'information scientifique et technique véhiculée par de grands ensembles documentaires. Pour permettre à l'utilisateur de trouver l'information qui lui est pertinente, nous avons oeuvré à la définition d'un modèle répondant à l'exigence de souplesse de notre contexte applicatif industriel ; nous postulons pour cela la nécessité de segmenter l'information tirée des documents en plans ontologiques. Le modèle résultant permet une immersion documentaire, et ce grâce à trois types de processus complémentaires : des processus endogènes (exploitant le corpus pour analyser le corpus), exogènes (faisant appel à des ressources externes) et anthropogènes (dans lesquels les compétences de l'utilisateur sont considérées comme ressource) sont combinés. Tous concourent à l'attribution d'une place centrale à l'utilisateur dans le système, en tant qu'agent interprétant de l'information et concepteur de ses connaissances, dès lors qu'il est placé dans un contexte industriel ou spécialisé. / This thesis adresses the issue of accessing scientific and technical information conveyed by large sets of documents. To enable the user to find his own relevant information, we worked on a model meeting the requirement of flexibility imposed by our industrial application context ; to do so, we postulated the necessity of segmenting information from documents into ontological facets. The resulting model enables a documentary immersion, thanks to three types of complementary processes : endogenous processes (exploiting the corpus to analyze the corpus), exogenous processes (using external resources) and anthropogenous ones (in which the user's skills are considered as a resource) are combined. They all contribute to granting the user a fundamental role in the system, as an interpreting agent and as a knowledge creator, provided that he is placed in an industrial or specialised context. Traitement automatique des langues Ergonomie Représentation des connaissances Ontologies Entités nommées Natural language processing Ergonomics Knowledge representation Ontologies Named entities
49	Représentations vectorielles et apprentissage automatique pour l’alignement d’entités textuelles et de concepts d’ontologie : application à la biologie / Vector Representations and Machine Learning for Alignment of Text Entities with Ontology Concepts : Application to Biology Ferré, Arnaud 24 May 2019 (has links) L'augmentation considérable de la quantité des données textuelles rend aujourd’hui difficile leur analyse sans l’assistance d’outils. Or, un texte rédigé en langue naturelle est une donnée non-structurée, c’est-à-dire qu’elle n’est pas interprétable par un programme informatique spécialisé, sans lequel les informations des textes restent largement sous-exploitées. Parmi les outils d’extraction automatique d’information, nous nous intéressons aux méthodes d’interprétation automatique de texte pour la tâche de normalisation d’entité qui consiste en la mise en correspondance automatique des mentions d’entités de textes avec des concepts d’un référentiel. Pour réaliser cette tâche, nous proposons une nouvelle approche par alignement de deux types de représentations vectorielles d’entités capturant une partie de leur sens : les plongements lexicaux pour les mentions textuelles et des “plongements ontologiques” pour les concepts, conçus spécifiquement pour ce travail. L’alignement entre les deux se fait par apprentissage supervisé. Les méthodes développées ont été évaluées avec un jeu de données de référence du domaine biologique et elles représentent aujourd’hui l’état de l’art pour ce jeu de données. Ces méthodes sont intégrées dans une suite logicielle de traitement automatique des langues et les codes sont partagés librement. / The impressive increase in the quantity of textual data makes it difficult today to analyze them without the assistance of tools. However, a text written in natural language is unstructured data, i.e. it cannot be interpreted by a specialized computer program, without which the information in the texts remains largely under-exploited. Among the tools for automatic extraction of information from text, we are interested in automatic text interpretation methods for the entity normalization task that consists in automatically matching text entitiy mentions to concepts in a reference terminology. To accomplish this task, we propose a new approach by aligning two types of vector representations of entities that capture part of their meanings: word embeddings for text mentions and concept embeddings for concepts, designed specifically for this work. The alignment between the two is done through supervised learning. The developed methods have been evaluated on a reference dataset from the biological domain and they now represent the state of the art for this dataset. These methods are integrated into a natural language processing software suite and the codes are freely shared. Extraction d’information Normalisation Plongement lexical Intelligence artificielle Traitement automatique des langues Information extraction Normalization Word embedding Artificial intelligence Natural language processing
50	Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues / Imitation learning : application to several structured learning tasks in natural language processing Knyazeva, Elena 25 May 2018 (has links) L’apprentissage structuré est devenu omniprésent dans le traitement automatique des langues naturelles. De nombreuses applications qui font maintenant partie de notre vie telles que des assistants personnels, la traduction automatique, ou encore la reconnaissance vocale, reposent sur ces techniques. Les problèmes d'apprentissage structuré qu’il est nécessaire de résoudre sont de plus en plus complexes et demandent de prendre en compte de plus en plus d’informations à des niveaux linguistiques variés (morphologique, syntaxique, etc.) et reposent la question du meilleurs compromis entre la finesse de la modélisation et l’exactitude des algorithmes d’apprentissage et d’inférence. L’apprentissage par imitation propose de réaliser les procédures d’apprentissage et d’inférence de manière approchée afin de pouvoir exploiter pleinement des structures de dépendance plus riches. Cette thèse explore ce cadre d’apprentissage, en particulier l’algorithme SEARN, à la fois sur le plan théorique ainsi que ses possibilités d’application aux tâches de traitement automatique des langues, notamment aux plus complexes telles que la traduction. Concernant les aspects théoriques, nous présentons un cadre unifié pour les différentes familles d’apprentissage par imitation, qui permet de redériver de manière simple les propriétés de convergence de ces algorithmes; concernant les aspects plus appliqués, nous utilisons l’apprentissage par imitation d’une part pour explorer l’étiquetage de séquences en ordre libre; d’autre part pour étudier des stratégies de décodage en deux étapes pour la traduction automatique. / Structured learning has become ubiquitousin Natural Language Processing; a multitude ofapplications, such as personal assistants, machinetranslation and speech recognition, to name just afew, rely on such techniques. The structured learningproblems that must now be solved are becomingincreasingly more complex and require an increasingamount of information at different linguisticlevels (morphological, syntactic, etc.). It is thereforecrucial to find the best trade-off between the degreeof modelling detail and the exactitude of the inferencealgorithm. Imitation learning aims to perform approximatelearning and inference in order to better exploitricher dependency structures. In this thesis, we explorethe use of this specific learning setting, in particularusing the SEARN algorithm, both from a theoreticalperspective and in terms of the practical applicationsto Natural Language Processing tasks, especiallyto complex tasks such as machine translation.Concerning the theoretical aspects, we introduce aunified framework for different imitation learning algorithmfamilies, allowing us to review and simplifythe convergence properties of the algorithms. With regardsto the more practical application of our work, weuse imitation learning first to experiment with free ordersequence labelling and secondly to explore twostepdecoding strategies for machine translation. Apprentissage structuré Apprentissage par imitation Structured learning Imitation learning Natural language processing

Search results