Global ETD Search

11	Modèles de régression linéaire pour variables explicatives fonctionnelles Crambes, Christophe 23 November 2006 (has links) (PDF) L'analyse des données fonctionnelles constitue une branche de la statistique dont le développement s'est fortement intensifié ces dernières années. Dans cette thèse, on s'intéresse à des problèmes de régression fonctionnelle pour lesquels il s'agit d'expliquer les variations d'une variable d'intérêt réelle à partir d'une variable explicative fonctionnelle, c'est-à-dire à valeur dans un espace de dimension éventuellement infinie. On considère plus précisément des modèles de régression linéaire. Deux types d'estimation sont proposés: l'estimation de quantiles conditionnels et l'estimation de la moyenne conditionnelle (cette dernière étant considérée dans le cas où la variable explicative est non bruitée, puis lorsque celle-ci est soumise à des erreurs de mesure). Dans chaque cas, des estimateurs basés sur les fonctions splines sont proposés, solutions de problèmes de minimisation pénalisés, la pénalisation intervenant pour contourner le problème lié au fait que la variable explicative est à valeurs dans un espace de dimension infinie. Finalement, on s'intéresse aux aspects pratique de cette étude, au moyen de simulations, puis sur un jeu de données réelles concernant la prévision de pics de pollution à l'ozone à Toulouse. [MATH] Mathematics statistique fonctionnelle modèle linéaire moyenne conditionnelle quantiles conditionnels fonctions splines variable explicative bruitée pics de pollution ozone
12	Les prédicats factifs: une enquête logique et linguistique Kreutz, Philippe January 1995 (has links) Doctorat en philosophie et lettres / info:eu-repo/semantics/nonPublished Sciences humaines Presupposition (Logic) Conditionals (Logic) Présupposition (Logique) Sujet et prédicat Conditionnels (Logique)
13	Data-driven natural language generation using statistical machine translation and discriminative learning / L'approche discriminante à la génération de la parole Manishina, Elena 05 February 2016 (has links) L'humanité a longtemps été passionnée par la création de machines intellectuelles qui peuvent librement intéragir avec nous dans notre langue. Tous les systèmes modernes qui communiquent directement avec l'utilisateur partagent une caractéristique commune: ils ont un système de dialogue à la base. Aujourd'hui pratiquement tous les composants d'un système de dialogue ont adopté des méthodes statistiques et les utilisent largement comme leurs modèles de base. Jusqu'à récemment la génération de langage naturel (GLN) utilisait pour la plupart des patrons/modèles codés manuellement, qui représentaient des phrases types mappées à des réalisations sémantiques particulières. C'était le cas jusqu'à ce que les approches statistiques aient envahi la communauté de recherche en systèmes de dialogue. Dans cette thèse, nous suivons cette ligne de recherche et présentons une nouvelle approche à la génération de la langue naturelle. Au cours de notre travail, nous nous concentrons sur deux aspects importants du développement des systèmes de génération: construire un générateur performant et diversifier sa production. Deux idées principales que nous défendons ici sont les suivantes: d'abord, la tâche de GLN peut être vue comme la traduction entre une langue naturelle et une représentation formelle de sens, et en second lieu, l'extension du corpus qui impliquait traditionnellement des paraphrases définies manuellement et des règles spécialisées peut être effectuée automatiquement en utilisant des méthodes automatiques d'extraction des synonymes et des paraphrases bien connues et largement utilisées. En ce qui concerne notre première idée, nous étudions la possibilité d'utiliser le cadre de la traduction automatique basé sur des modèles ngrams; nous explorons également le potentiel de l'apprentissage discriminant (notamment les champs aléatoires markoviens) appliqué à la GLN; nous construisons un système de génération qui permet l'inclusion et la combinaison des différents modèles et qui utilise un cadre de décodage efficace (automate à état fini). En ce qui concerne le second objectif, qui est l'extension du corpus, nous proposons d'élargir la taille du vocabulaire et le nombre de l'ensemble des structures syntaxiques disponibles via l'intégration des synonymes et des paraphrases. À notre connaissance, il n'y a pas eu de tentatives d'augmenter la taille du vocabulaire d'un système de GLN en incorporant les synonymes. À ce jour, la plupart d'études sur l'extension du corpus visent les paraphrases et recourent au crowdsourcing pour les obtenir, ce qui nécessite une validation supplémentaire effectuée par les développeurs du système. Nous montrons que l'extension du corpus au moyen d'extraction automatique de paraphrases et la validation automatique sont tout aussi efficaces, étant en même temps moins coûteux en termes de temps de développement et de ressources. Au cours d'expériences intermédiaires nos modèles ont montré une meilleure performance que celle obtenue par le modèle de référence basé sur les syntagmes et se sont révélés d'être plus robustes, pour le traitement des combinaisons inconnues de concepts, que le générateur à base des règles. L'évaluation humaine finale a prouvé que les modèles représent une alternative solide au générateur à base des règles / The humanity has long been passionate about creating intellectual machines that can freely communicate with us in our language. Most modern systems communicating directly with the user share one common feature: they have a dialog system (DS) at their base. As of today almost all DS components embraced statistical methods and widely use them as their core models. Until recently Natural Language Generation (NLG) component of a dialog system used primarily hand-coded generation templates, which represented model phrases in a natural language mapped to a particular semantic content. Today data-driven models are making their way into the NLG domain. In this thesis, we follow along this new line of research and present several novel data-driven approaches to natural language generation. In our work we focus on two important aspects of NLG systems development: building an efficient generator and diversifying its output. Two key ideas that we defend here are the following: first, the task of NLG can be regarded as the translation between a natural language and a formal meaning representation, and therefore, can be performed using statistical machine translation techniques, and second, corpus extension and diversification which traditionally involved manual paraphrasing and rule crafting can be performed automatically using well-known and widely used synonym and paraphrase extraction methods. Concerning our first idea, we investigate the possibility of using NGRAM translation framework and explore the potential of discriminative learning, notably Conditional Random Fields (CRF) models, as applied to NLG; we build a generation pipeline which allows for inclusion and combination of different generation models (NGRAM and CRF) and which uses an efficient decoding framework (finite-state transducers' best path search). Regarding the second objective, namely corpus extension, we propose to enlarge the system's vocabulary and the set of available syntactic structures via integrating automatically obtained synonyms and paraphrases into the training corpus. To our knowledge, there have been no attempts to increase the size of the system vocabulary by incorporating synonyms. To date most studies on corpus extension focused on paraphrasing and resorted to crowd-sourcing in order to obtain paraphrases, which then required additional manual validation often performed by system developers. We prove that automatic corpus extension by means of paraphrase extraction and validation is just as effective as crowd-sourcing, being at the same time less costly in terms of development time and resources. During intermediate experiments our generation models showed a significantly better performance than the phrase-based baseline model and appeared to be more robust in handling unknown combinations of concepts than the current in-house rule-based generator. The final human evaluation confirmed that our data-driven NLG models is a viable alternative to rule-based generators. Génération de la Parole Champs Aléatoires Conditionnels Traduction Automatique CRF TAL Language Generation Conditional Random Fields Machine Translation CRF NLP NLG 006.35
14	Vivre en libération conditionnelle au Québec : une expérience entre contrôle et accomplissement personnel Autixier, Cateline 12 1900 (has links) Chaque année au Québec environ 1000 détenus sont libérés en libération conditionnelle et quittent la prison avant la fin de leur sentence tout en étant soumis à de strictes conditions. Si un idéal de réhabilitation souhaitant voir le délinquant réformé et réintégré à la société a longtemps prévalu, il tend de nos jours à être remplacé par un idéal de protection de la société par l’intermédiaire de la gestion des risques que représente un individu. De plus, vivre en libération conditionnelle comporte un certain nombre de défis. Comme toute personne sortant de détention, les libérés font face à de nombreuses difficultés, notamment en matière d’emploi, de logement ou de relations familiales. La réussite de la mesure est elle aussi un enjeu auquel les libérés sont confrontés. Grâce à des entrevues semi-dirigées réalisées auprès de 14 hommes et femmes, ce projet a donc pour objectif de comprendre l’expérience des personnes en libération conditionnelle au Québec. L’analyse a fait ressortir que malgré des aspects pesants et stressants, les anciens détenus indiquent que « ça va bien », principalement car ils ne sont plus en détention, et qu’ils se sentent aidés. De plus, ils indiquent s’adapter et s’intégrer à leur nouvel environnement. Grâce à leur volonté et leur motivation, ils expliquent apprendre, travailler sur eux et s’impliquer dans leur réinsertion. En effet, les libérés conditionnels font de leur libération une expérience bénéfique pour eux et préparent leur avenir. / Every year in Québec, about 1 000 detainees are released from prison on parole and go back into society whilst still being compelled to conform to some conditions. For many years, the penal philosophy underlying parole was one of reform and reintegration of the offender. Nowadays, a trend towards more control over the delinquent and risk management as guarantees of public safety seems to be replacing the former rehabilitation ideal. Living on parole bears some challenges. As for every person released from prison, parolees face difficulties regarding, amongst others, employment, housing and personal relationships. The success of their release is also an issue they have to address. This project aims to understand the experience people released on parole in Québec. In order to do so we conducted 14 semi-structured interviews with parolees. We found that despite some stressful and burdensome aspects, parolees indicate they are doing well on parole, mainly because they are not incarcerated anymore and because they feel assisted. They also indicate that they have to adjust and adapt to their new environment. Being highly motivated and willing to grow, they explain learning a lot and being involved in their reintegration into society. Parolees see parole as a beneficial opportunity for them to prepare their future. libération conditionnelle libérés conditionnels réinsertion sociale gestion des risques sociologie de l’expérience Québec Parole parolees rehabilitation risk management sociology of experience
15	Segmentation of heterogeneous document images : an approach based on machine learning, connected components analysis, and texture analysis / Segmentation d'images hétérogènes de documents : une approche basée sur l'apprentissage automatique de données, l'analyse en composantes connexes et l'analyse de texture Bonakdar Sakhi, Omid 06 December 2012 (has links) La segmentation de page est l'une des étapes les plus importantes de l'analyse d'images de documents. Idéalement, une méthode de segmentation doit être capable de reconstituer la structure complète de toute page de document, en distinguant les zones de textes, les parties graphiques, les photographies, les croquis, les figures, les tables, etc. En dépit de nombreuses méthodes proposées à ce jour pour produire une segmentation de page correcte, les difficultés sont toujours nombreuses. Le chef de file du projet qui a rendu possible le financement de ce travail de thèse () utilise une chaîne de traitement complète dans laquelle les erreurs de segmentation sont corrigées manuellement. Hormis les coûts que cela représente, le résultat est subordonné au réglage de nombreux paramètres. En outre, certaines erreurs échappent parfois à la vigilance des opérateurs humains. Les résultats des méthodes de segmentation de page sont généralement acceptables sur des documents propres et bien imprimés; mais l'échec est souvent à constater lorsqu'il s'agit de segmenter des documents manuscrits, lorsque la structure de ces derniers est vague, ou lorsqu'ils contiennent des notes de marge. En outre, les tables et les publicités présentent autant de défis supplémentaires à relever pour les algorithmes de segmentation. Notre méthode traite ces problèmes. La méthode est divisée en quatre parties : - A contrario de ce qui est fait dans la plupart des méthodes de segmentation de page classiques, nous commençons par séparer les parties textuelles et graphiques de la page en utilisant un arbre de décision boosté. - Les parties textuelles et graphiques sont utilisées, avec d'autres fonctions caractéristiques, par un champ conditionnel aléatoire bidimensionnel pour séparer les colonnes de texte. - Une méthode de détection de lignes, basée sur les profils partiels de projection, est alors lancée pour détecter les lignes de texte par rapport aux frontières des zones de texte. - Enfin, une nouvelle méthode de détection de paragraphes, entraînée sur les modèles de paragraphes les plus courants, est appliquée sur les lignes de texte pour extraire les paragraphes, en s'appuyant sur l'apparence géométrique des lignes de texte et leur indentation. Notre contribution sur l'existant réside essentiellement dans l'utilisation, ou l'adaptation, d'algorithmes empruntés aux méthodes d'apprentissage automatique de données, pour résoudre les cas les plus difficiles. Nous démontrons en effet un certain nombre d'améliorations : sur la séparation des colonnes de texte lorsqu'elles sont proches l'une de l'autre~; sur le risque de fusion d'au moins deux cellules adjacentes d'une même table~; sur le risque qu'une région encadrée fusionne avec d'autres régions textuelles, en particulier les notes de marge, même lorsque ces dernières sont écrites avec une fonte proche de celle du corps du texte. L'évaluation quantitative, et la comparaison des performances de notre méthode avec des algorithmes concurrents par des métriques et des méthodologies d'évaluation reconnues, sont également fournies dans une large mesure.() Cette thèse a été financée par le Conseil Général de Seine-Saint-Denis, par l'intermédiaire du projet Demat-Factory, initié et conduit par SAFIG SA / Document page segmentation is one of the most crucial steps in document image analysis. It ideally aims to explain the full structure of any document page, distinguishing text zones, graphics, photographs, halftones, figures, tables, etc. Although to date, there have been made several attempts of achieving correct page segmentation results, there are still many difficulties. The leader of the project in the framework of which this PhD work has been funded () uses a complete processing chain in which page segmentation mistakes are manually corrected by human operators. Aside of the costs it represents, this demands tuning of a large number of parameters; moreover, some segmentation mistakes sometimes escape the vigilance of the operators. Current automated page segmentation methods are well accepted for clean printed documents; but, they often fail to separate regions in handwritten documents when the document layout structure is loosely defined or when side notes are present inside the page. Moreover, tables and advertisements bring additional challenges for region segmentation algorithms. Our method addresses these problems. The method is divided into four parts:1. Unlike most of popular page segmentation methods, we first separate text and graphics components of the page using a boosted decision tree classifier.2. The separated text and graphics components are used among other features to separate columns of text in a two-dimensional conditional random fields framework.3. A text line detection method, based on piecewise projection profiles is then applied to detect text lines with respect to text region boundaries.4. Finally, a new paragraph detection method, which is trained on the common models of paragraphs, is applied on text lines to find paragraphs based on geometric appearance of text lines and their indentations. Our contribution over existing work lies in essence in the use, or adaptation, of algorithms borrowed from machine learning literature, to solve difficult cases. Indeed, we demonstrate a number of improvements : on separating text columns when one is situated very close to the other; on preventing the contents of a cell in a table to be merged with the contents of other adjacent cells; on preventing regions inside a frame to be merged with other text regions around, especially side notes, even when the latter are written using a font similar to that the text body. Quantitative assessment, and comparison of the performances of our method with competitive algorithms using widely acknowledged metrics and evaluation methodologies, is also provided to a large extend.() This PhD thesis has been funded by Conseil Général de Seine-Saint-Denis, through the FUI6 project Demat-Factory, lead by Safig SA Segmentation images de documents Détection lignes de texte Apprentissage de données Champs aléatoires conditionnels Document image segmentation Text line detection Machine learning Condtional random fields
16	Contributions à la prévision statistique Faugeras, Olivier P. 28 November 2008 (has links) (PDF) Dans une première partie, on s'intéresse à la prévision d'une valeur future, non observée, d'un processus stochastique dont la loi est indexée par un paramètre inconnu, à partir des données passées de sa trajectoire. Plus précisément, on montre sur un modèle additif de régression comment on peut découpler, par un dispositif de séparation temporelle, le problème d'estimation du paramètre inconnu de celui du calcul du prédicteur probabiliste, pour obtenir un prédicteur statistique dont on étudie les propriétés de convergence asymptotiques.<br>Dans une seconde partie, on cherche à prédire, au sens d'expliquer, une variable Y par une variable X. Pour cela, on s'intéresse à l'estimation de la densité conditionnelle de Y sachant X = x, à partir d'un n-échantillon de couples de variables (X_i; Y_i). On propose un nouvel estimateur de forme produit, basé sur la transformation de quantile et la fonction de copule, dont on étudie les propriétés de convergence et de normalité asymptotiques. On compare l'estimateur proposé aux estimateurs concurrents de forme quotient et on en propose des modifications et des extensions. Enfin, on étudie les propriétés des prédicteurs associés à cet estimateur, à savoir le mode, la moyenne et les ensembles de niveau conditionnels. Des applications, liens et perspectives sont aussi esquissées. [MATH] Mathematics Prévision Statistique Processus Mélangeants Estimation non-paramétrique <br />Densité conditionnelle Copules Transformation de quantile Régression non-paramétrique Mode conditionnel Ensemble de niveaux conditionnels
17	La structuration dans les entités nommées / Structuration in named entities Dupont, Yoann 23 November 2017 (has links) La reconnaissance des entités nommées et une discipline cruciale du domaine du TAL. Elle sert à l'extraction de relations entre entités nommées, ce qui permet la construction d'une base de connaissance (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc... Nous nous intéressons ici aux phénomènes de structurations qui les entourent.Nous distinguons ici deux types d'éléments structurels dans une entité nommée. Les premiers sont des sous-chaînes récurrentes, que nous appelerons les affixes caractéristiques d'une entité nommée. Le second type d'éléments est les tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l'algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l'extraction d'entités nommées du Français et d'adresses postales.Une autre forme de structuration pour les entités nommées est de nature syntaxique, qui suit généralement une structure d'imbrications ou arborée. Nous proposons un type de cascade d'étiqueteurs linéaires qui n'avait jusqu'à présent jamais été utilisé pour la reconnaissance d'entités nommées, généralisant les approches précédentes qui ne sont capables de reconnaître des entités de profondeur finie ou ne pouvant modéliser certaines particularités des entités nommées structurées.Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients de chacune des méthodes. / Named entity recognition is a crucial discipline of NLP. It is used to extract relations between named entities, which allows the construction of knowledge bases (Surdeanu and Ji, 2014), automatic summary (Nobata et al., 2002) and so on. Our interest in this thesis revolves around structuration phenomena that surround them.We distinguish here two kinds of structural elements in named entities. The first one are recurrent substrings, that we will call the caracteristic affixes of a named entity. The second type of element is tokens with a good discriminative power, which we call trigger tokens of named entities. We will explain here the algorithm we provided to extract such affixes, which we will compare to Morfessor (Creutz and Lagus, 2005b). We will then apply the same algorithm to extract trigger tokens, which we will use for French named entity recognition and postal address extraction.Another form of structuration for named entities is of a syntactic nature. It follows an overlapping or tree structure. We propose a novel kind of linear tagger cascade which have not been used before for structured named entity recognition, generalising other previous methods that are only able to recognise named entities of a fixed depth or being unable to model certain characteristics of the structure. Ours, however, can do both.Throughout this thesis, we compare two machine learning methods, CRFs and neural networks, for which we will compare respective advantages and drawbacks. Reconnaissance des entités nommées Entités nommées structurées Apprentissage automatique Champs aléatoires conditionnels Réseaux de neurones Named entity recognition Structured named entities Machine learning Conditional random fields Neural networks
18	Word Confidence Estimation and Its Applications in Statistical Machine Translation / Les mesures de confiance au niveau des mots et leurs applications pour la traduction automatique statistique Luong, Ngoc Quang 12 November 2014 (has links) Les systèmes de traduction automatique (TA), qui génèrent automatiquement la phrase de la langue cible pour chaque entrée de la langue source, ont obtenu plusieurs réalisations convaincantes pendant les dernières décennies et deviennent les aides linguistiques efficaces pour la communauté entière dans un monde globalisé. Néanmoins, en raison de différents facteurs, sa qualité en général est encore loin de la perfection, constituant le désir des utilisateurs de savoir le niveau de confiance qu'ils peuvent mettre sur une traduction spécifique. La construction d'une méthode qui est capable d'indiquer des bonnes parties ainsi que d'identifier des erreurs de la traduction est absolument une bénéfice pour non seulement les utilisateurs, mais aussi les traducteurs, post-éditeurs, et les systèmes de TA eux-mêmes. Nous appelons cette méthode les mesures de confiance (MC). Cette thèse se porte principalement sur les méthodes des MC au niveau des mots (MCM). Le système de MCM assigne à chaque mot de la phrase cible un étiquette de qualité. Aujourd'hui, les MCM jouent un rôle croissant dans nombreux aspects de TA. Tout d'abord, elles aident les post-éditeurs d'identifier rapidement les erreurs dans la traduction et donc d'améliorer leur productivité de travail. De plus, elles informent les lecteurs des portions qui ne sont pas fiables pour éviter leur malentendu sur le contenu de la phrase. Troisièmement, elles sélectionnent la meilleure traduction parmi les sorties de plusieurs systèmes de TA. Finalement, et ce qui n'est pas le moins important, les scores MCM peuvent aider à perfectionner la qualité de TA via certains scénarios: ré-ordonnance des listes N-best, ré-décodage du graphique de la recherche, etc. Dans cette thèse, nous visons à renforcer et optimiser notre système de MCM, puis à l'exploiter pour améliorer TA ainsi que les mesures de confiance au niveau des phrases (MCP). Comparer avec les approches précédentes, nos nouvelles contributions étalent sur les points principaux comme suivants. Tout d'abord, nous intégrons différents types des paramètres: ceux qui sont extraits du système TA, avec des caractéristiques lexicales, syntaxiques et sémantiques pour construire le système MCM de base. L'application de différents méthodes d'apprentissage nous permet d'identifier la meilleure (méthode: "Champs conditionnels aléatoires") qui convient le plus nos donnés. En suite, l'efficacité de touts les paramètres est plus profond examinée en utilisant un algorithme heuristique de sélection des paramètres. Troisièmement, nous exploitons l'algorithme Boosting comme notre méthode d'apprentissage afin de renforcer la contribution des sous-ensembles des paramètres dominants du système MCM, et en conséquence d'améliorer la capacité de prédiction du système MCM. En outre, nous enquérons les contributions des MCM vers l'amélioration de la qualité de TA via différents scénarios. Dans le re-ordonnance des liste N-best, nous synthétisons les scores à partir des sorties du système MCM et puis les intégrons avec les autres scores du décodeur afin de recalculer la valeur de la fonction objective, qui nous permet d'obtenir un mieux candidat. D'ailleurs, dans le ré-décodage du graphique de la recherche, nous appliquons des scores de MCM directement aux noeuds contenant chaque mot pour mettre à jour leurs coûts. Une fois la mise à jour se termine, la recherche pour meilleur chemin sur le nouveau graphique nous donne la nouvelle hypothèse de TA. Finalement, les scores de MCM sont aussi utilisés pour renforcer les performances des systèmes de MCP. Au total, notre travail apporte une image perspicace et multidimensionnelle sur des MCM et leurs impacts positifs sur différents secteurs de la TA. Les résultats très prometteurs ouvrent une grande avenue où MCM peuvent exprimer leur rôle, comme: MCM pour la reconnaissance automatique de la parole (RAP), pour la sélection parmi plusieurs systèmes de TA, et pour les systèmes de TA auto-apprentissage. / Machine Translation (MT) systems, which generate automatically the translation of a target language for each source sentence, have achieved impressive gains during the recent decades and are now becoming the effective language assistances for the entire community in a globalized world. Nonetheless, due to various factors, MT quality is still not perfect in general, and the end users therefore expect to know how much should they trust a specific translation. Building a method that is capable of pointing out the correct parts, detecting the translation errors and concluding the overall quality of each MT hypothesis is definitely beneficial for not only the end users, but also for the translators, post-editors, and MT systems themselves. Such method is widely known under the name Confidence Estimation (CE) or Quality Estimation (QE). The motivations of building such automatic estimation methods originate from the actual drawbacks of assessing manually the MT quality: this task is time consuming, effort costly, and sometimes impossible in case where the readers have little or no knowledge of the source language. This thesis mostly focuses on the CE methods at word level (WCE). The WCE classifier tags each word in the MT output a quality label. The WCE working mechanism is straightforward: a classifier trained beforehand by a number of features using ML methods computes the confidence score of each label for each MT output word, then tag this word with highest score label. Nowadays, WCE shows an increasing importance in many aspects of MT. Firstly, it assists the post-editors to quickly identify the translation errors, hence improve their productivity. Secondly, it informs readers of portions of sentence that are not reliable to avoid the misunderstanding about the sentence's content. Thirdly, it selects the best translation among options from multiple MT systems. Last but not least, WCE scores can help to improve the MT quality via some scenarios: N-best list re-ranking, Search Graph Re-decoding, etc. In this thesis, we aim at building and optimizing our baseline WCE system, then exploiting it to improve MT and Sentence Confidence Estimation (SCE). Compare to the previous approaches, our novel contributions spread of these following main points. Firstly, we integrate various types of prediction indicators: system-based features extracted from the MT system, together with lexical, syntactic and semantic features to build the baseline WCE systems. We also apply multiple Machine Learning (ML) models on the entire feature set and then compare their performances to select the optimal one to optimize. Secondly, the usefulness of all features is deeper investigated using a greedy feature selection algorithm. Thirdly, we propose a solution that exploits Boosting algorithm as a learning method in order to strengthen the contribution of dominant feature subsets to the system, thus improve of the system's prediction capability. Lastly, we explore the contributions of WCE in improving MT quality via some scenarios. In N-best list re-ranking, we synthesize scores from WCE outputs and integrate them with decoder scores to calculate again the objective function value, then to re-order the N-best list to choose a better candidate. In the decoder's search graph re-decoding, the proposition is to apply WCE score directly to the nodes containing each word to update its cost regarding on the word quality. Furthermore, WCE scores are used to build useful features, which can enhance the performance of the Sentence Confidence Estimation system. In total, our work brings the insightful and multidimensional picture of word quality prediction and its positive impact on various sectors for Machine Translation. The promising results open up a big avenue where WCE can play its role, such as WCE for Automatic Speech Recognition (ASR) System, WCE for multiple MT selection, and WCE for re-trainable and self-learning MT systems. Traduction automatique statistique Mesure confiance Champs conditionnels aléatoires Statistical machine translation Confidence Estimation N-best list re-ranking Boost- ing Feature Selection Quality Estimation 004
19	Contributions à la détection et au diagnostic de fautes dans les systèmes par réseaux Bayésiens / Contributions to fault detection and diagnosis in systems by Bayesian networks Atoui, Mohamed Amine 29 September 2015 (has links) Les fautes systèmes peuvent conduire à des conséquences sérieuses pour l’humain, l’environnement et le matériel. Or, y remédier peut s’avérer coûteux voire même dangereux. Ainsi, afin d’éviter ces situations, il est devenu essentiel pour les systèmes complexes modernes de détecter et d’identifier tout changement dans leur fonctionnement nominal avant que cela ne devienne critique. De ce fait, plusieurs méthodes de détection et de diagnostic ont été proposées ou améliorées durant les dernières décennies. Parmi ces méthodes, celles présentant un fort intérêt se basent sur un outil statistique et probabiliste nommé réseau Bayésien. Toutefois, la majorité d’entre elles ne tiennent pas compte du risque de fausse alarme dans leur prise de décision. L’intérêt de cette thèse est alors d’introduire sous réseau Bayésien des limites probabilistes permettant le respect d’un niveau de signification considéré. Plus exactement, nous proposons une modélisation des statistiques quadratiques et les limites leurs correspondant sur réseau Bayésien. Ceci nous permet de généraliser sous réseau Bayésien des schémas de détection de fautes comme par exemple ceux basés sur l’analyse en composantes principale. Cette modélisation nous permet également de proposer une famille de réseaux Bayésiens permettant de faire de la détection et du diagnostic de façon simultanée, tout en tenant compte d’un rejet de distance. Enfin, nous proposons un cadre probabiliste permettant d’unifier les différents réseaux Bayésiens pouvant être utilisés pour la détection ou le diagnostic de fautes. / Systems failures can potentially lead to serious consequences forhuman, environment and material, and sometimes fixing them could be expensive and even dangerous. Thus, in order to avoid these undesirable situations, it becomes very important and essential for modern complex systems to detect and identify any changes in their nominal operations before they become critical. To do so, several detection and diagnosis methods have been proposed or enhanced during the last decades. Among these methods, those with a great interest are based on a statistical and probabilistic tool named Bayesian network. However, the majority of these methods do not handle the risk of false alarm in their decision-making. The interest of this thesis is to introduce, under Bayesian network, probabilistic limits able to respect a given significance level. More precisely, we propose to model the quadratic statistics and their limits in Bayesian network. This allows us to generalize under Bayesian network fault detection schemes as those associated to the principal component analysis. This modeling allows us also to propose a family of Bayesian networks that can make detection and diagnosis simultaneously, while taking into account the distance rejection.Finally, we propose a probabilistic framework able to unify different BNs dedicated to the detection or diagnosis of systems faults. Détection et diagnostic de fautes Réseaux Bayésiens Réseaux conditionnels Gaussiens Statistiques Classification supervisée Faults detection and diagnosis Bayesian networks Conditional Gaussian networks Statistics Supervised classification 621
20	Analyse d'opinion dans les interactions orales / Opinion analysis in speech interactions Barriere, Valentin 15 April 2019 (has links) La reconnaissance des opinions d'un locuteur dans une interaction orale est une étape cruciale pour améliorer la communication entre un humain et un agent virtuel. Dans cette thèse, nous nous situons dans une problématique de traitement automatique de la parole (TAP) sur les phénomènes d'opinions dans des interactions orales spontanées naturelles. L'analyse d'opinion est une tâche peu souvent abordée en TAP qui se concentrait jusqu'à peu sur les émotions à l'aide du contenu vocal et non verbal. De plus, la plupart des systèmes récents existants n'utilisent pas le contexte interactionnel afin d'analyser les opinions du locuteur. Dans cette thèse, nous nous penchons sur ces sujet. Nous nous situons dans le cadre de la détection automatique en utilisant des modèles d’apprentissage statistiques. Après une étude sur la modélisation de la dynamique de l'opinion par un modèle à états latents à l’intérieur d'un monologue, nous étudions la manière d’intégrer le contexte interactionnel dialogique, et enfin d'intégrer l'audio au texte avec différents types de fusion. Nous avons travaillé sur une base de données de Vlogs au niveau d'un sentiment global, puis sur une base de données d'interactions dyadiques multimodales composée de conversations ouvertes, au niveau du tour de parole et de la paire de tours de parole. Pour finir, nous avons fait annoté une base de données en opinion car les base de données existantes n'étaient pas satisfaisantes vis-à-vis de la tâche abordée, et ne permettaient pas une comparaison claire avec d'autres systèmes à l'état de l'art.A l'aube du changement important porté par l’avènement des méthodes neuronales, nous étudions différents types de représentations: les anciennes représentations construites à la main, rigides mais précises, et les nouvelles représentations apprises de manière statistique, générales et sémantiques. Nous étudions différentes segmentations permettant de prendre en compte le caractère asynchrone de la multi-modalité. Dernièrement, nous utilisons un modèle d'apprentissage à états latents qui peut s'adapter à une base de données de taille restreinte, pour la tâche atypique qu'est l'analyse d'opinion, et nous montrons qu'il permet à la fois une adaptation des descripteurs du domaine écrit au domaine oral, et servir de couche d'attention via son pouvoir de clusterisation. La fusion multimodale complexe n'étant pas bien gérée par le classifieur utilisé, et l'audio étant moins impactant sur l'opinion que le texte, nous étudions différentes méthodes de sélection de paramètres pour résoudre ces problèmes. / 2588/5000Recognizing a speaker's opinions in an oral interaction is a crucial step in improving communication between a human and a virtual agent. In this thesis, we find ourselves in a problematic of automatic speech processing (APT) on opinion phenomena in natural spontaneous oral interactions. Opinion analysis is a task that is not often addressed in TAP that focused until recently on emotions using voice and non-verbal content. In addition, most existing legacy systems do not use the interactional context to analyze the speaker's opinions. In this thesis, we focus on these topics.We are in the context of automatic detection using statistical learning models. A study on modeling the dynamics of opinion by a model with latent states within a monologue, we study how to integrate the context interactional dialogical, and finally to integrate audio to text with different types of fusion. We worked on a basic Vlogs data at a global sense, and on the basis of multimodal data dyadic interactions composed of open conversations, at the turn of speech and word pair of towers. Finally, we annotated database in opinion because existing database were not satisfactory vis-à-vis the task addressed, and did not allow a clear comparison with other systems in the state art.At the dawn of significant change brought by the advent of neural methods, we study different types of representations: the ancient representations built by hand, rigid, but precise, and new representations learned statistically, and general semantics. We study different segmentations to take into account the asynchronous nature of multi-modality. Recently, we are using a latent state learning model that can adapt to a small database, for the atypical task of opinion analysis, and we show that it allows both an adaptation of the descriptors of the written domain to the oral domain, and serve as an attention layer via its clustering power. Complex multimodal fusion is not well managed by the classifier used, and audio being less impacting on opinion than text, we study different methods of parameter selection to solve these problems. Analyse des sentiments Fouille d'opinions Deep learning Champs aléatoires conditionnels Traitement automatique des langues Traitement de la parole Sentiment analysis Opinion mining Deep learning Conditional random fields Natural language processing Speech processing

Search results