Global ETD Search

331	Typologie des constructions verbales à prédicat complexe : composition verbale en japonais et préverbation en polonais / Typology of complex predicate verbal constructions : verbal compounding in Japanese and verbal prefixation in Polish Matsumoto, Asuka 26 February 2016 (has links) Cette thèse vise à traiter les verbes composés en japonais et les verbes préverbés en polonais comme faisant partie des constructions verbales à prédicat complexe. D’abord, la notion de la formation des mots et, par conséquent, la notion de « mot », sont examinées par les analyses entre les mots (ortho)graphiques et prosodiques ; le problème d’espace entre les mots et différents systèmes d’accentuation sont pris en compte. D’une part, l’analyse des verbes composés japonais remonte jusqu’aux deux premières grammaires au XVIIe siècle, celle de Rodriguez et de Collado, dont la première propose la dichotomie entre les verbes composés à « mode de l’action » et à « particule ». Ensuite suivent les analyses des verbes composés contemporains, avec un accent particulier sur un certain nombre de couples de verbes transitifs et intransitifs en second élément du composé. D’autre part, la typologie des constructions préverbales de la langue polonaise est examinée. Enfin, à travers la comparaison multilingue du Petit prince de Saint-Exupéry entre l’original et deux traductions japonaises et deux polonaises, une typologie des constructions verbales à prédicat complexe est proposée, ce qui fait écho au choix de notre langue de rédaction, le français servant de pivot afin d’examiner diverses constructions verbales de nos langues de comparaison, le japonais et le polonais : composition verbale et construction converbale pour le premier et préverbation et construction infinitivale à semi-auxiliaire pour le second. / This thesis seeks to analyse Japanese compound verbs and Polish prefixed verbs as a part of complex predicate verbal constructions. First, the notion of word-formation and consequently that of word are examined by analyses between (ortho)graphic and prosodical words, which include problems of word space and several accentual systems. Next, this analysis of compound verbs goes back to 17th century with the first two Japanese grammars by Rodriguez and Collado, respectively, where the former proposes a dichotomy between manner of action and particle verbal compounds. Then follows an analysis of contemporary Japanese compound verbs, with particular emphasis on some pairs of transitive and intransitive verbs in the second element of compound. Contrastingly, a typology of verbal prefix constructions in Polish is considered and reviewed. Finally, through a multilingual comparison of The Little Prince, by Saint-Exupéry, using two translations in each of Japanese and Polish, a typology of complex predicate verbal constructions is put forward which corresponds with the language, French, in which this thesis is written and which serves as a pivot for the examination of various verbal constructions of the languages for comparison, Japanese and Polish: verbal compounding and converbal construction for the former, verbal prefixation and infinitival auxiliary construction for the latter. Formation des mots Composition verbale Prédicat complexe Préverbation Converbe Préverbe Mot João Rodriguez Word formation Verbal composition Complex predicate Verbal prefixation Converb Preverb Word João Rodriguez
332	Modèles de langage ad hoc pour la reconnaissance automatique de la parole / Ad-hoc language models for automatic speech recognition Oger, Stanislas 30 November 2011 (has links) Les trois piliers d’un système de reconnaissance automatique de la parole sont le lexique,le modèle de langage et le modèle acoustique. Le lexique fournit l’ensemble des mots qu’il est possible de transcrire, associés à leur prononciation. Le modèle acoustique donne une indication sur la manière dont sont réalisés les unités acoustiques et le modèle de langage apporte la connaissance de la manière dont les mots s’enchaînent.Dans les systèmes de reconnaissance automatique de la parole markoviens, les modèles acoustiques et linguistiques sont de nature statistique. Leur estimation nécessite de gros volumes de données sélectionnées, normalisées et annotées.A l’heure actuelle, les données disponibles sur le Web constituent de loin le plus gros corpus textuel disponible pour les langues française et anglaise. Ces données peuvent potentiellement servir à la construction du lexique et à l’estimation et l’adaptation du modèle de langage. Le travail présenté ici consiste à proposer de nouvelles approches permettant de tirer parti de cette ressource.Ce document est organisé en deux parties. La première traite de l’utilisation des données présentes sur le Web pour mettre à jour dynamiquement le lexique du moteur de reconnaissance automatique de la parole. L’approche proposée consiste à augmenter dynamiquement et localement le lexique du moteur de reconnaissance automatique de la parole lorsque des mots inconnus apparaissent dans le flux de parole. Les nouveaux mots sont extraits du Web grâce à la formulation automatique de requêtes soumises à un moteur de recherche. La phonétisation de ces mots est obtenue grâce à un phonétiseur automatique.La seconde partie présente une nouvelle manière de considérer l’information que représente le Web et des éléments de la théorie des possibilités sont utilisés pour la modéliser. Un modèle de langage possibiliste est alors proposé. Il fournit une estimation de la possibilité d’une séquence de mots à partir de connaissances relatives à ’existence de séquences de mots sur le Web. Un modèle probabiliste Web reposant sur le compte de documents fourni par un moteur de recherche Web est également présenté. Plusieurs approches permettant de combiner ces modèles avec des modèles probabilistes classiques estimés sur corpus sont proposées. Les résultats montrent que combiner les modèles probabilistes et possibilistes donne de meilleurs résultats que es modèles probabilistes classiques. De plus, les modèles estimés à partir des données Web donnent de meilleurs résultats que ceux estimés sur corpus. / The three pillars of an automatic speech recognition system are the lexicon, the languagemodel and the acoustic model. The lexicon provides all the words that can betranscribed, associated with their pronunciation. The acoustic model provides an indicationof how the phone units are pronounced, and the language model brings theknowledge of how words are linked. In modern automatic speech recognition systems,the acoustic and language models are statistical. Their estimation requires large volumesof data selected, standardized and annotated.At present, the Web is by far the largest textual corpus available for English andFrench languages. The data it holds can potentially be used to build the vocabularyand the estimation and adaptation of language model. The work presented here is topropose new approaches to take advantage of this resource in the context of languagemodeling.The document is organized into two parts. The first deals with the use of the Webdata to dynamically update the lexicon of the automatic speech recognition system.The proposed approach consists on increasing dynamically and locally the lexicon onlywhen unknown words appear in the speech. New words are extracted from the Webthrough the formulation of queries submitted toWeb search engines. The phonetizationof the words is obtained by an automatic grapheme-to-phoneme transcriber.The second part of the document presents a new way of handling the informationcontained on the Web by relying on possibility theory concepts. A Web-based possibilisticlanguage model is proposed. It provides an estition of the possibility of a wordsequence from knowledge of the existence of its sub-sequences on the Web. A probabilisticWeb-based language model is also proposed. It relies on Web document countsto estimate n-gram probabilities. Several approaches for combining these models withclassical models are proposed. The results show that combining probabilistic and possibilisticmodels gives better results than classical probabilistic models alone. In addition,the models estimated from Web data perform better than those estimated on corpus. Reconnaissance Automatique de la Parole Modélisation du Langage Théorie des Possibilités Modèle de Langage Web Mots Hors-Vocabulaires Automatic Speech Recognition, Language Modeling Theory of Possibilities Web Language Model Out-Of-Vocabulary Words 006.454
333	Répétitions dans les mots et seuils d'évitabilité Vaslet, Elise 23 June 2011 (has links) Nous étudions dans cette thèse différents problèmes d'évitabilité des répétitions dans les mots infinis. Soulevée par Thue et motivée par ses travaux sur les mots sans carrés, la problématique s'est développée au cours du XXe siècle, et est aujourd'hui devenue un des grands domaines de recherche en combinatoire des mots. En 1972, Dejean proposa une importante conjecture, dont la validation étape par étape s'est terminée récemment (2009). La conjecture concerne le seuil des répétitions d'un alphabet, i.e., la borne inférieure des exposants évitables sur cet alphabet. La notion de seuil, comme frontière entre évitabilité et non-évitabilité d'un ensemble donné de mots, est le fil directeur de nos travaux. Nous nous intéressons d'abord à une généralisation du seuil des répétitions (nous donnons des encadrements de sa valeur). Cette notion permet d'ajouter, pour décrire l'ensemble des répétitions à éviter, au paramètre de l'exposant, celui de la longueur des répétitions. Puis, nous étudions des problèmes d'existence de mots dans lesquels, simultanément, certaines répétitions sont interdites et d'autres sont forcées. Nous répondons, pour l'alphabet ternaire, à la question : quels réels sont l'exposant critique d'un mot infini sur un alphabet fixé? Nous introduisons ensuite une notion de haute répétitivité, et établissons une description partielle des couples d'exposants paramètrant une double contrainte de haute répétitivité et d'évitabilité. Pour finir, nous utilisons des résultats et techniques issus de ces problématiques pour résoudre une question de coloration de graphes : nous introduisons un seuil des répétitions, calqué sur celui connu pour les mots, et donnons sa valeur pour deux classes de graphes, les arbres et les graphes de subdivisions. / In this thesis we study various problems on repetition avoidance in infinite words. Raised by Thue and motivated by his work on squarefree words, the topic developed during the 20th century, and has nowadays become a principal area of research in combinatorics on words. In 1972, Dejean proposed an important conjecture whose verification in steps was completed recently (2009). The conjecture concerns the repetition threshold for an alphabet, i.e., the infimum of the avoidable exponents for that alphabet. The notion of threshold as a borderline between avoidability and unavoidability for a given set of words is the guiding line of our work. First, we focus on a generalization of the repetition threshold. This concept allows us to include, in addition to the exponent, the length of the repetitions as a parameter in the description of the set of repetitions to avoid. We obtain various bounds in that respect. We then study existence problems for words in which simultaneously some repetitions are forbidden, and others are forced. For the ternary alphabet, we answer the question: what real numbers are the critical exponent of some infinite word over a given alphabet? Also, we introduce a notion of highly repetitive words and give a partial description of the pairs of exponents which parameterize the existence of words both highly repetitive and repetition-free. Finally, we use results and techniques stemming from those problems to solve a question on graph colouring: we introduce a repetition threshold adapted from the thresholds we know for words, and give its value for two classes of graphs, namely, trees and subdivision graphs. Combinatoire des mots Évitabilité Répétitions Exposants critiques Conjecture de Dejean Seuil des répétitions Coloration de graphes Combinatorics on words Avoidability Repetitions Critical exponents Dejean's conjecture Repetition threshold Graphs coloring
334	Construction et stratégie d’exploitation des réseaux de confusion en lien avec le contexte applicatif de la compréhension de la parole / Confusion networks : construction algorithms and Spoken Language Understanding decision strategies in real applications Minescu, Bogdan 11 December 2008 (has links) Cette thèse s’intéresse aux réseaux de confusion comme représentation compacte et structurée des hypothèses multiples produites par un moteur de reconnaissance de parole et transmises à un module de post-traitement applicatif. Les réseaux de confusion (CN pour Confusion Networks) sont générés à partir des graphes de mots et structurent l’information sous la forme d’une séquence de classes contenant des hypothèses de mots en concurrence. Le cas d’usage étudié dans ces travaux est celui des hypothèses de reconnaissance transmises à un module de compréhension de la parole dans le cadre d’une application de dialogue déployée par France Telecom. Deux problématiques inhérentes à ce contexte applicatif sont soulevées. De façon générale, un système de dialogue doit non seulement reconnaître un énoncé prononcé par un utilisateur, mais aussi l’interpréter afin de déduire sons sens. Du point de vue de l’utilisateur, les performances perçues sont plus proches de celles de la chaîne complète de compréhension que de celles de la reconnaissance vocale seule. Ce sont ces performances que nous cherchons à optimiser. Le cas plus particulier d’une application déployée implique de pouvoir traiter des données réelles et donc très variées. Un énoncé peut être plus ou moins bruité, dans le domaine ou hors-domaine, couvert par le modèle sémantique de l’application ou non, etc. Étant donnée cette grande variabilité, nous posons la question de savoir si le fait d’appliquer les mêmes traitements sur l’ensemble des données, comme c’est le cas dans les approches classiques, est une solution adaptée. Avec cette double perspective, cette thèse s’attache à la fois à enrichir l’algorithme de construction des CNs dans le but d’optimiser globalement le processus de compréhension et à proposer une stratégie adéquate d’utilisation des réseaux de confusion dans le contexte d’une application réelle. Après une analyse des propriétés de deux approches de construction des CNs sur un corpus de données réelles, l’algorithme retenu est celui du "pivot". Nous en proposons une version modifiée et adaptée au contexte applicatif en introduisant notamment un traitement différencié des mots du graphe qui privilégie les mots porteurs de sens. En réponse à la grande variabilité des énoncés à traiter dans une application déployée, nous proposons une stratégie de décision à plusieurs niveaux qui vise à mieux prendre en compte les spécificités des différents types d’énoncés. Nous montrons notamment qu’il est préférable de n’exploiter la richesse des sorties multiples que sur les énoncés réellement porteurs de sens. Cette stratégie permet à la fois d’optimiser les temps de calcul et d’améliorer globalement les performances du système / The work presented in this PhD deals with the confusion networks as a compact and structured representation of multiple aligned recognition hypotheses produced by a speech recognition system and used by different applications. The confusion networks (CN) are constructed from word graphs and structure information as a sequence of classes containing several competing word hypothesis. In this work we focus on the problem of robust understanding from spontaneous speech input in a dialogue application, using CNs as structured representation of recognition hypotheses for the spoken language understanding module. We use France Telecom spoken dialogue system for customer care. Two issues inherent to this context are tackled. A dialogue system does not only have to recognize what a user says but also to understand the meaning of his request and to act upon it. From the user’s point of view, system performance is more accurately represented by the performance of the understanding process than by speech recognition performance only. Our work aims at improving the performance of the understanding process. Using a real application implies being able to process real heterogeneous data. An utterance can be more or less noisy, in the domain or out of the domain of the application, covered or not by the semantic model of the application, etc. A question raised by the variability of the data is whether applying the same processes to the entire data set, as done in classical approaches, is a suitable solution. This work follows a double perspective : to improve the CN construction algorithm with the intention of optimizing the understanding process and to propose an adequate strategy for the use of CN in a real application. Following a detailed analysis of two CN construction algorithms on a test set collected using the France Telecom customer care service, we decided to use the "pivot" algorithm for our work. We present a modified and adapted version of this algorithm. The new algorithm introduces different processing techniques for the words which are important for the understanding process. As for the variability of the real data the application has to process, we present a new multiple level decision strategy aiming at applying different processing techniques for different utterance categories. We show that it is preferable to process multiple recognition hypotheses only on utterances having a valid interpretation. This strategy optimises computation time and yields better global performance Réseaux de confusion Compréhension de la parole Stratégie de décision Graphes de mots Approche intégrée Confusion networks Spoken language understanding Decision strategy Lattice decoding Integrated approach Sequential interpretation strategy
335	FreeCore : un système d'indexation de résumés de document sur une Table de Hachage Distribuée (DHT) / FreeCore : an index system of summary of documents on an Distributed Hash Table (DHT) Ngom, Bassirou 13 July 2018 (has links) Cette thèse étudie la problématique de l’indexation et de la recherche dans les tables de hachage distribuées –Distributed Hash Table (DHT). Elle propose un système de stockage distribué des résumés de documents en se basant sur leur contenu. Concrètement, la thèse utilise les Filtre de Blooms (FBs) pour représenter les résumés de documents et propose une méthode efficace d’insertion et de récupération des documents représentés par des FBs dans un index distribué sur une DHT. Le stockage basé sur contenu présente un double avantage, il permet de regrouper les documents similaires afin de les retrouver plus rapidement et en même temps, il permet de retrouver les documents en faisant des recherches par mots-clés en utilisant un FB. Cependant, la résolution d’une requête par mots-clés représentée par un filtre de Bloom constitue une opération complexe, il faut un mécanisme de localisation des filtres de Bloom de la descendance qui représentent des documents stockés dans la DHT. Ainsi, la thèse propose dans un deuxième temps, deux index de filtres de Bloom distribués sur des DHTs. Le premier système d’index proposé combine les principes d’indexation basée sur contenu et de listes inversées et répond à la problématique liée à la grande quantité de données stockée au niveau des index basés sur contenu. En effet, avec l’utilisation des filtres de Bloom de grande longueur, notre solution permet de stocker les documents sur un plus grand nombre de serveurs et de les indexer en utilisant moins d’espace. Ensuite, la thèse propose un deuxième système d’index qui supporte efficacement le traitement des requêtes de sur-ensembles (des requêtes par mots-clés) en utilisant un arbre de préfixes. Cette dernière solution exploite la distribution des données et propose une fonction de répartition paramétrable permettant d’indexer les documents avec un arbre binaire équilibré. De cette manière, les documents sont répartis efficacement sur les serveurs d’indexation. En outre, la thèse propose dans la troisième solution, une méthode efficace de localisation des documents contenant un ensemble de mots-clés donnés. Comparé aux solutions de même catégorie, cette dernière solution permet d’effectuer des recherches de sur-ensembles en un moindre coût et constitue est une base solide pour la recherche de sur-ensembles sur les systèmes d’index construits au-dessus des DHTs. Enfin, la thèse propose le prototype d’un système pair-à-pair pour l’indexation de contenus et la recherche par mots-clés. Ce prototype, prêt à être déployé dans un environnement réel, est expérimenté dans l’environnement de simulation peersim qui a permis de mesurer les performances théoriques des algorithmes développés tout au long de la thèse. / This thesis examines the problem of indexing and searching in Distributed Hash Table (DHT). It provides a distributed system for storing document summaries based on their content. Concretely, the thesis uses Bloom filters (BF) to represent document summaries and proposes an efficient method for inserting and retrieving documents represented by BFs in an index distributed on a DHT. Content-based storage has a dual advantage. It allows to group similar documents together and to find and retrieve them more quickly at the same by using Bloom filters for keywords searches. However, processing a keyword query represented by a Bloom filter is a difficult operation and requires a mechanism to locate the Bloom filters that represent documents stored in the DHT. Thus, the thesis proposes in a second time, two Bloom filters indexes schemes distributed on DHT. The first proposed index system combines the principles of content-based indexing and inverted lists and addresses the issue of the large amount of data stored by content-based indexes. Indeed, by using Bloom filters with long length, this solution allows to store documents on a large number of servers and to index them using less space. Next, the thesis proposes a second index system that efficiently supports superset queries processing (keywords-queries) using a prefix tree. This solution exploits the distribution of the data and proposes a configurable distribution function that allow to index documents with a balanced binary tree. In this way, documents are distributed efficiently on indexing servers. In addition, the thesis proposes in the third solution, an efficient method for locating documents containing a set of keywords. Compared to solutions of the same category, the latter solution makes it possible to perform subset searches at a lower cost and can be considered as a solid foundation for supersets queries processing on over-dht index systems. Finally, the thesis proposes a prototype of a peer-to-peer system for indexing content and searching by keywords. This prototype, ready to be deployed in a real environment, is experimented with peersim that allowed to measure the theoretical performances of the algorithms developed throughout the thesis. Table de hachage distribuée Indexation Recherche par mots-clés Filtres de Blooms Arbres de préfixe FreeCore Distributed Hash Table Indexing Keywords search Bloom filters Prefix tree FreeCore 025.3
336	Les biais dans le traitement et l'apprentissage phonologiques / Biases in phonological processing and learning Martin, Alexander 30 June 2017 (has links) Pendant la perception de la parole, les locuteurs sont biaisés par un grand nombre de facteurs. Par exemple, il existe des limitations cognitives comme la mémoire ou l’attention, mais aussi des limitations linguistiques comme leur langue maternelle. Cette thèse se concentre sur deux de ces facteurs : les biais de traitement pendant la reconnaissance des mots, et les biais d’apprentissage pendant le processus de transmission. Ces facteurs peuvent se combiner et, au cours du temps, influencer l’évolution des langues. Dans la première partie de cette thèse, nous nous concentrons sur le processus de la reconnaissance des mots. Des recherches antérieures ont établi l’importance des traits phonologiques (p. ex. le voisement ou le lieu d’articulation) pendant le traitement de la parole. Cependant, nous en savons peu sur leur poids relatif les uns par rapport aux autres, et comment cela peut influencer la capacité des locuteurs à reconnaître les mots. Nous avons testé des locuteurs français sur leur capacité à reconnaître des mots mal prononcés et avons trouvé que les traits de mode et de lieu sont plus importants que le trait de voisement. Nous avons ensuite considéré deux sources de cette asymétrie et avons trouvé que les locuteurs sont biaisés et par la perception acoustique ascendante (les contrastes de mode sont plus facile à percevoir à cause de leur distance acoustique importante) et par la connaissance lexicale descendante (le trait de lieu est plus exploité dans le lexique français que les autres traits). Nous suggérons que ces deux sources de biais se combinent pour influencer les locuteurs lors de la reconnaissance des mots. Dans la seconde partie de cette thèse, nous nous concentrons sur la question d’un biais d’apprentissage. Il a été suggéré que les apprenants peuvent être biaisés vers l’apprentissage de certains patrons phonologiques grâce à leurs connaissances phonétiques. Cela peut alors expliquer pourquoi certains patrons sont récurrents dans la typologie, tandis que d’autres restent rares ou non-attestés. Plus spécifiquement, nous avons exploré le rôle d’un biais d’apprentissage sur l’acquisition de la règle typologiquement commune de l’harmonie vocalique comparée à celle de la règle non-attestée (mais logiquement équivalente) de la disharmonie vocalique. Nous avons trouvé des preuves d’un biais d’apprentissage aussi bien en perception qu’en production. En utilisant un modèle d’apprentissage itéré simulé, nous avons ensuite montré comment un biais, même petit, favorisant l’un des patrons, peut influencer la typologie linguistique au cours du temps et donc expliquer (en partie) la prépondérance de systèmes harmoniques. De plus, nous avons exploré le rôle du sommeil sur la consolidation mnésique. Nous avons montré que seul le patron commun bénéficie d’une consolidation et que cela est un facteur supplémentaire pouvant contribuer à l’asymétrie typologique. Dans l’ensemble, cette thèse considère certaines des sources de biais possibles chez l’individu et discute de comment ces influences peuvent, au cours du temps, faire évoluer les systèmes linguistiques. Nous avons démontré la nature dynamique et complexe du traitement de la parole, à la fois en perception et dans l’apprentissage. De futurs travaux devront explorer plus en détail comment ces différentes sources de biais sont pondérées les unes relativement aux autres. / During speech perception, listeners are biased by a great number of factors, including cognitive limitations such as memory and attention and linguistic limitations such as their native language. This thesis focuses on two of these factors: processing bias during word recognition, and learning bias during the transmission process. These factors are combinatorial and can, over time, affect the way languages evolve. In the first part of this thesis, we focus on the process of word recognition. Previous research has established the importance of phonological features (e.g., voicing or place of articulation) during speech processing, but little is known about their weight relative to one another, and how this influences listeners' ability to recognize words. We tested French participants on their ability to recognize mispronounced words and found that the manner and place features were more important than the voicing feature. We then explored two sources of this asymmetry and found that listeners were biased both by bottom-up acoustic perception (manner contrasts are easier to perceive because of their acoustic distance compared to the other features) and top-down lexical knowledge (the place feature is used more in the French lexicon than the other two features). We suggest that these two sources of bias coalesce during the word recognition process to influence listeners. In the second part of this thesis, we turn to the question of bias during the learning process. It has been suggested that language learners may be biased towards the learning of certain phonological patterns because of phonetic knowledge they have. This in turn can explain why certain patterns are recurrent in the typology while others remain rare or unattested. Specifically, we explored the role of learning bias on the acquisition of the typologically common rule of vowel harmony compared to the unattested (but logically equivalent) rule of vowel disharmony. We found that in both perception and production, there was evidence of a learning bias, and using a simulated iterated learning model, showed how even a small bias favoring one pattern over the other could influence the linguistic typology over time, thus explaining (in part) the prevalence of harmonic systems. We additionally explored the role of sleep on memory consolidation and showed evidence that the common pattern benefits from consolidation that the unattested pattern does not, a factor that may also contribute to the typological asymmetry. Overall, this thesis considers a few of the wide-ranging sources of bias in the individual and discusses how these influences can over time shape linguistic systems. We demonstrate the dynamic and complicated nature of speech processing (both in perception and learning) and open the door for future research to explore in finer detail just how these different sources of bias are weighted relative to one another. Reconnaissance de mots Traits phonologique Lexique Biais d'apprentissage Harmonie vocalique Changement linguistique Word recognition Phonological features Lexicon Learning bias Vowel harmony Language change 153 414
337	Le rôle de la prosodie et des mots grammaticaux dans l'acquisition du sens des mots / The role of phrasal prosody and function words in the acquisition of word meanings Lopa de Carvalho, Alex 15 September 2017 (has links) Des études précédentes démontrent qu’avoir accès à la structure syntaxique des phrases aide les enfants à découvrir le sens des mots nouveaux. Cela implique que les enfants doivent avoir accès à certains aspects de la structure syntaxique avant même de connaître beaucoup de mots. Étant donné que dans toutes les langues du monde la structure prosodique d’une phrase corrèle avec sa structure syntaxique, et que par ailleurs les mots et morphèmes grammaticaux sont utiles pour déterminer la catégorie syntaxique des mots, il se pourrait que les enfants utilisent la prosodie et les mots grammaticaux pour initialiser leur acquisition lexicale et syntaxique. Dans cette thèse, j’ai étudié le rôle de la prosodie phrasale et des mots grammaticaux pour guider l’analyse syntaxique chez les enfants (PARTIE 1) et la possibilité que les jeunes enfants exploitent cette information pour apprendre le sens des mots nouveaux (PARTIE 2). Dans la partie 1, j’ai construit des paires minimales de phrases en français et en anglais afin de tester si les enfants exploitent la relation entre les structures prosodique et syntaxique pour guider leur interprétation des homophones noms-verbes. J’ai démontré que les enfants d’âge préscolaire utilisent la prosodie phrasale en temps réel pour guider leur analyse syntaxique. En écoutant des phrases telles que [La petite ferme][.., les enfants interprètent ferme comme un nom, mais pour les phrases telles que [La petite][ferme...], ils interprètent ferme comme un verbe (Chapitre 3). Cette capacité a également été observée chez les enfants américains: en écoutant des phrases telles que « The baby flies… », ils utilisent la prosodie des phrases pour décider si flies est un nom ou un verbe (Chapitre 4). Par la suite, j’ai démontré que même les enfants d’environ 20 mois utilisent la prosodie des phrases pour récupérer leur structure syntaxique et pour en déduire la catégorie syntaxique des mots (Chapitre 5), une capacité qui serait extrêmement utile pour découvrir le sens des mots inconnus. C’est cette hypothèse que j’ai testé dans la partie 2, à savoir si l’information syntaxique obtenue à partir de la prosodie phrasale et des mots grammaticaux permet aux enfants d’apprendre le sens des mots. Une première série d’études s’appuie sur des phrases disloquées à droite contenant un verbe nouveau en français : [ili dase], [le bébéi] qui est minimalement différente de la phrase transitive [il dase le bébé]. Mes résultats montrent que les enfants de 28 mois exploitent les informations prosodiques de ces phrases pour contraindre leur interprétation du sens du nouveau verbe (Chapitre 6). Dans une deuxième série d’études, j’ai étudié si la prosodie et les mots grammaticaux guident l’acquisition de noms et de verbes. J’ai utilisé des phrases comme « Regarde la petite bamoule » qui peuvent être produites soit comme [Regarde la petite bamoule!], où «bamoule» est un nom, ou [Regarde], [la petite] [bamoule!], où bamoule est un verbe. Les enfants de 18 mois ont correctement analysé ces phrases et ont attribué une interprétation de nom ou de verbe au mot bamoule selon sa position dans la structure prosodique-syntaxique des phrases (Chapitre 7). Ensemble, ces études montrent que les jeunes enfants exploitent les mots grammaticaux et la structure prosodique des phrases pour inférer la structure syntaxique et contraindre ainsi l’interprétation possible du sens des mots. Ce mécanisme peut permettre aux enfants de construire une représentation initiale de la structure syntaxique des phrases, avant même de connaître la signification des mots. Bien que les informations prosodiques et les mots grammaticaux puissent prendre des formes différentes selon les langues, nos études suggèrent que cette information pourrait représenter un outil universel et qui permettrait aux enfants d’accéder à certaines informations syntaxiques des phrasesqu’ils entendent, et d’initialiser l’acquisition du langage. / Previous research demonstrates that having access to the syntactic structure of sentences helps children to discover the meaning of novel words. This implies that infants need to get access to aspects of syntactic structure before they know many words. Since in all the world’s languages the prosodic structure of a sentence correlates with its syntactic structure, and since function words/morphemes are useful to determine the syntactic category of words, infants might use phrasal prosody and function words to bootstrap their way into lexical and syntactic acquisition. In this thesis, I empirically investigated the role of phrasal prosody and function words to constrain syntactic analysis in young children (PART 1) and whether infants exploit this information to learn the meanings of novel words (PART 2). In part 1, I constructed minimal pairs of sentences in French and in English, testing whether children exploit the relationship between syntactic and prosodic structures to drive their interpretation of noun-verb homophones. I demonstrated that preschoolers use phrasal prosody online to constrain their syntactic analysis. When listening to French sentences such as [La petite ferme][…–[The little farm][…, children interpreted ferme as a noun, but in sentences such as [La petite][ferme…] – [The little girl][closes…, they interpreted ferme as a verb (Chapter 3). This ability was also attested in English-learning preschoolers who listened to sentences such as ‘The baby flies…’: they used prosodic information to decide whether “flies” was a noun or a verb (Chapter 4). Importantly, in further studies I demonstrated that even infants around 20-months use phrasal prosody to recover syntactic structures and to predict the syntactic category of upcoming words (Chapter 5), an ability which would be extremely useful to discover the meaning of unknown words. This is what I tested in part 2: whether the syntactic information obtained from phrasal prosody and function words could allow infants to constrain their acquisition of word meanings. A first series of studies relied on right-dislocated sentences containing a novel verb in French: [ili dase], [le bébéi] - ‘hei is dasing, the babyi’ (meaning ‘the baby is dasing’) which is minimally different from the transitive sentence [il dase le bébé] (he is dasing the baby). 28-montholds were shown to exploit prosodic information to constrain their interpretation of the novel verb meaning (Chapter 6). In a second series of studies, I investigated whether phrasal prosody and function words constrain the acquisition of nouns and verbs. I used sentences like ‘Regarde la petite bamoule’, which can be produced either as [Regarde la petite bamoule!] - Look at the little bamoule!, where ‘bamoule’ is a noun, or as [Regarde], [la petite] [bamoule!] - Look, the little (one) is bamouling, where bamoule is a verb. 18-month-olds correctly parsed such sentences and attributed a noun or verb meaning to the critical word depending on its position within the syntactic-prosodic structure of the sentences (Chapter 7). Taken together, these studies show that infants exploit function words and the prosodic structure of an utterance to recover the sentences’ syntactic structure, which in turn constrains the possible meaning of novel words. This powerful mechanism might be extremely useful for infants to construct a first-pass syntactic structure of spoken sentences even before they know the meanings of many words. Although prosodic information and functional elements can surface differently across languages, our studies suggest that this information may represent a universal and extremely useful tool for infants to access syntactic information through a surface analysis of the speech stream, and to bootstrap their way into language acquisition. Prosodie phrasale Mots grammaticaux Acquisition du langage Acquisition de la syntaxe Acquisition du lexique Phrasal prosody Function words Language acquisition Syntactic acquisition Lexical development 401.93
338	Algorithmes d'apprentissage statistique pour l'analyse géométrique et topologique de données / Statistical learning algorithms for geometric and topological data analysis Bonis, Thomas 01 December 2016 (has links) Dans cette thèse, on s'intéresse à des algorithmes d'analyse de données utilisant des marches aléatoires sur des graphes de voisinage, ou graphes géométriques aléatoires, construits à partir des données. On sait que les marches aléatoires sur ces graphes sont des approximations d'objets continus appelés processus de diffusion. Dans un premier temps, nous utilisons ce résultat pour proposer un nouvel algorithme de partitionnement de données flou de type recherche de modes. Dans cet algorithme, on définit les paquets en utilisant les propriétés d'un certain processus de diffusion que l'on approche par une marche aléatoire sur un graphe de voisinage. Après avoir prouvé la convergence de notre algorithme, nous étudions ses performances empiriques sur plusieurs jeux de données. Nous nous intéressons ensuite à la convergence des mesures stationnaires des marches aléatoires sur des graphes géométriques aléatoires vers la mesure stationnaire du processus de diffusion limite. En utilisant une approche basée sur la méthode de Stein, nous arrivons à quantifier cette convergence. Notre résultat s'applique en fait dans un cadre plus général que les marches aléatoires sur les graphes de voisinage et nous l'utilisons pour prouver d'autres résultats : par exemple, nous arrivons à obtenir des vitesses de convergence pour le théorème central limite. Dans la dernière partie de cette thèse, nous utilisons un concept de topologie algébrique appelé homologie persistante afin d'améliorer l'étape de "pooling" dans l'approche "sac-de-mots" pour la reconnaissance de formes 3D. / In this thesis, we study data analysis algorithms using random walks on neighborhood graphs, or random geometric graphs. It is known random walks on such graphs approximate continuous objects called diffusion processes. In the first part of this thesis, we use this approximation result to propose a new soft clustering algorithm based on the mode seeking framework. For our algorithm, we want to define clusters using the properties of a diffusion process. Since we do not have access to this continuous process, our algorithm uses a random walk on a random geometric graph instead. After proving the consistency of our algorithm, we evaluate its efficiency on both real and synthetic data. We then deal tackle the issue of the convergence of invariant measures of random walks on random geometric graphs. As these random walks converge to a diffusion process, we can expect their invariant measures to converge to the invariant measure of this diffusion process. Using an approach based on Stein's method, we manage to obtain quantitfy this convergence. Moreover, the method we use is more general and can be used to obtain other results such as convergence rates for the Central Limit Theorem. In the last part of this thesis, we use the concept of persistent homology, a concept of algebraic topology, to improve the pooling step of the bag-of-words approach for 3D shapes. Graphes géométriques aléatoires Marches aléatoires Partitionnement de données flou Méthode de Stein Homologie persistante Sac-de-mots Random geometric graphs Random walks Soft clustering Stein's method Persistent homology Bag-of-words
339	An Exploration of Word-Scale Visualizations for Text Documents / Une exploration des visualisations-mots pour du texte Goffin, Pascal 03 October 2016 (has links) Ma dissertation explore comment l'intégration de petites visualisations contextuelles basées sur des données peut complémenter des documents écrits. Plus spécifiquement, j'identifie et je définis des aspects importants et des directions de recherches pertinentes pour l'intégration de petites visualisations contextuelles basées sur des données textuelles. Cette intégration devra finalement devenir aussi fluide qu'écrire et aussi utile que lire un texte. Je définis les visualisations-mots (Word-Scale Visualizations) comme étant de petites visualisations contextuelles basées sur des données intégrées au texte de documents. Ces visualisations peuvent utiliser de multiples codages visuels incluant les cartes géographiques, les heatmaps, les graphes circulaires, et des visualisations plus complexes. Les visualisations-mots offrent une grande variété de dimensions toujours proches de l’échelle d’un mot, parfois plus grandes, mais toujours plus petites qu’une phrase ou un paragraphe. Les visualisations-mots peuvent venir en aide et être utilisées dans plusieurs formes de discours écrits tels les manuels, les notes, les billets de blogs, les rapports, les histoires, ou même les poèmes. En tant que complément visuel de textes, les visualisations-mots peuvent être utilisées pour accentuer certains éléments d'un document (comme un mot ou une phrase), ou pour apporter de l'information additionnelle. Par exemple, un petit diagramme de l'évolution du cours de l’action d’une entreprise peut être intégré à côté du nom de celle-ci pour apporter de l'information additionnelle sur la tendance passée du cours de l'action. Dans un autre exemple, des statistiques de jeux peuvent être incluses à côté du nom d'équipe de football ou de joueur dans les articles concernant le championnat d'Europe de football. Ces visualisations-mots peuvent notamment aider le lecteur à faire des comparaisons entre le nombre de passes des équipes et des joueurs. Le bénéfice majeur des visualisations-mots réside dans le fait que le lecteur peut rester concentré sur le texte, vu que les visualisations sont dans le texte et non à côté.Dans ma thèse j’apporte les contributions suivantes : j'explore pourquoi les visualisation-mots peuvent être utiles et comment promouvoir leur création. J’étudie différentes options de placement pour les visualisations-mots et je quantifie leurs effets sur la disposition du texte et sa mise en forme. Comme les visualisations-mots ont aussi des implications sur le comportement de lecture du lecteur, je propose une première étude qui étudie les différents placements de visualisations-mots sur le comportement de lecture. J'examine aussi comment combiner les visualisations-mots et l'interaction pour soutenir une lecture plus active en proposant des méthodes de collection, d’arrangement et de comparaison de visualisations-mots. Finalement, je propose des considérations de design pour la conception et la création de visualisations-mots et je conclus avec des exemples d'application.En résumé cette dissertation contribue à la compréhension de petites visualisations contextuelles basées sur des données intégrées dans le texte et à leur utilité pour la visualisation d'informations. / This dissertation explores how embedding small data-driven contextual visualizations can complement text documents. More specifically, I identify and define important aspects and relevant research directions for the integration of small data-driven contextual visualizations into text. This integration should eventually become as fluid as writing and as usable as reading a text. I define word-scale visualisations as small data-driven contextual visualizations embedded in text documents. These visualizations can use various visual encodings including geographical maps, heat maps, pie charts, and more complex visualizations. They can appear at a range of word scales, including sizes larger than a letter, but smaller than a sentence or paragraph. Word-scale visualisations can help support and be used in many forms of written discourse such as text books, notes, blog posts, reports, stories, or poems. As graphical supplements to text, word-scale visualisations can be used to emphasize certain elements of a document (e.g. a word or a sentence), or to provide additional information. For example, a small stock chart can be embedded next to the name of a company to provide additional information about the past trends of its stocks. In another example, game statistics can be embedded next to the names of soccer teams or players in daily reports from the UEFA European Championship. These word-scale visualisations can then for example allow readers to make comparison between number of passes of teams and players. The main benefit of word-scale visualisations is that the reader can remain focused on the text as the visualization are within the text rather than alongside it.In the thesis, I make the following main contributions: I explore why word-scale visualisations can be useful and how to support their creation. I investigate placement options to embed word-scale visualisations and quantify their effects on the layout and flow of the text. As word-scale visualisations also have implications on the reader's reading behavior I propose a first study that investigates different word-scale visualisation positions on the reading behavior. I also explore how word-scale visualisations can be combined with interaction to support a more active reading by proposing interaction methods to collect, arrange and compare word-scale visualisations. Finally, I propose design considerations for the authoring of word-scale visualisations and conclude with application examples.In summary, this dissertation contributes to the understanding of small data-driven contextual visualizations embedded into text and their value for Information Visualization. Visualisation d'informations Petites visualisations contextuelles Visualisations-Mots Visualisation de texte Sparklines Glyphes Information visualization Small contextual visualization Word-Scale visualization Text visualization Sparklines Glyphs
340	Evaluation de l’efficacité des logiciels de prédiction de mots sur la vitesse de saisie de texte sur l’outil informatique pour les personnes blessées médullaires cervicaux / Evaluation of the effectiveness of a targeted training program on the use of word prediction software on computer text input speed in persons with cervical spinal cord injury Pouplin, Samuel 18 February 2016 (has links) Ce travail de thèse avait pour objectif principal d’étudier l’influence de certains paramétrages deslogiciels de prédiction de mots et d’un programme d’entraînement ciblé sur la vitesse de saisie detexte chez des personnes tétraplégiques. Six études ont été menées. L’étude 1 nous a permis demettre en évidence des vitesses de saisie de texte chez les personnes tétraplégiques et d’étudierl’influence de leurs aides techniques d’accès à l’outil informatique sur cette vitesse. L’étude 2 nous apermis de mettre en avant l’hétérogénéité des résultats d’un logiciel de prédiction de mots sur lavitesse de saisie de texte sur une population hétérogène et sans paramétrage de ces logiciels.L’étude 3 nous a permis d’étudier les habitudes de préconisations et de paramétrages des logiciels deprédictions de mots par les professionnels. Les études 4 et 5 nous ont permis d’évaluer l’influencedes paramétrages (nombre de mots affichés dans la liste de prédiction et l’adaptation du logiciel auvocabulaire de l’utilisateur) sur cette saisie de texte. Enfin, l’étude 6 nous a permis d’étudierl’influence d’un entraînement dirigé par des professionnels sur les logiciels de prédictions de motschez des personnes tétraplégiques, sur la vitesse de saisie de texte.Les résultats montrent que seule l’aide technique d’accès à l’outil informatique influence la vitessede saisie de texte. Les logiciels de reconnaissance vocale permettent une vitesse de saisie de texteéquivalente à celle des personnes valides utilisant un clavier standard. Les paramétrages (nombre demots affichés dans la liste de prédiction et l’adaptation du logiciel au vocabulaire de l’utilisateur) ontune influence différente en fonction du niveau lésionnel des personnes tétraplégiques sur la vitessede saisie de texte, le nombre d’erreurs ou le confort. De plus, une différence entre l’importancedonnée aux paramétrages par les professionnels préconisateurs et les paramétrages effectivementréglés a été mise en évidence. Enfin, l’influence d’un entraînement dirigé sur la vitesse de saisie detexte a été mise en évidence sur la vitesse de saisie de texte. Au regard de l’ensemble de cesrésultats, il apparait nécessaire de paramétrer les logiciels de prédictions de mots, mais aussi deconnaitre l’influence des différents réglages et de diffuser cette information au sein des réseauxprofessionnels. La recherche doit être poursuivie pour améliorer les logiciels de prédiction de mots,mais aussi pour favoriser de nouveaux outils tels les tablettes tactiles et les logiciels dereconnaissance vocale. Une systématisation des entraînements dirigés sur les logiciels de prédictionde mots nécessite une réflexion et une validation sur les modalités et la nature de cesaccompagnements. / The main objective of this work was to study the influence of key settings of word predictionsoftware as well as a training program on the use of word prediction, on text input speed in personswith cervical spinal cord injury.Study 1 determined text input speed in persons with cervical spinal cord injury and the influence ofpersonal characteristics and type of computer device on text input speed. Study 2 evaluated theeffect of a dynamic virtual keyboard coupled with word prediction software on text input speed inpersons with functional tetraplegia. Study 3 analysed the word prediction software settingscommonly prescribed by health-related professionals for people with cervical spinal cord injury.Studies 4 and 5 evaluated the influence of the number of words displayed in the prediction list andthe frequency of use setting on text input speed. Finally, study 6 evaluated the influence of a trainingprogram on the use of word prediction software for persons with cervical spinal cord injury on textinput speed.The results showed that only the type of computer device influenced text input speed; voicerecognition software increased the text input speed of persons with cervical spinal cord injury to thatof able-bodied people using a standard keyboard. The influence of the different word predictionsoftware settings (number of words displayed in the prediction list and the frequency of use) on textinput speed, the number of errors or comfort of use, differed depending on the level of injury. Wealso found differences between the perception of the importance of some settings by healthprofessionalsand data in the literature regarding the optimization of settings. Moreover, althoughsome parameters were considered as very important, they were rarely configured. Finally, trainingpersons with cervical spinal cord injury in the use of word prediction software increased text inputspeed.The results of this work highlighted that word prediction software settings influence text input speedin persons with cervical spinal cord injury, however not all professionals are aware of this.Information should therefore be disseminated through professional networks. Further studies shouldaim to improve word prediction software and should also focus on new devices such as tablets andvoice recognition software. Persons with cervical spinal cord injury training programs in the use ofword prediction software need to be developed and validated. Prédiction de mots Paramétrages Tétraplégie Entrainement Vitesse de saisie de texte Word prediction software Settings Cervical Spinal cord injury Training Text input speed 610.28

Search results