Global ETD Search

1	Terminologie des techniques de décontamination des sols Dobrescu, Mihaela 13 April 2018 (has links) L'objet de cette recherche a été d'établir et de définir une nomenclature des notions de base des techniques de décontamination des terrains, qui comptent parmi les moyens de réhabilitation environnementale. Le résultat des recherches terminologiques a été utilisé afin d'apporter une contribution au développement d'une banque terminologique disponible sur Internet. La méthodologie appliquée est celle de la recherche thématique bilingue : à partir d'un corpus de textes spécialisés, l'on a procédé à la constitution d'une nomenclature, qui a fait l'objet d'une recherche terminologique, tant en langue française qu'en langue anglaise. Les dossiers terminologiques ainsi élaborés ont été validés par un comité d'experts et intégrés sous forme de fiches au Grand dictionnaire terminologique, produit et mis en ligne par l'Office québécois de la langue française. P 25.5 UL 2008 D634 Sols -- Décontamination -- Terminologie Langues de spécialité
2	Neural language models : Dealing with large vocabularies / Modèles de langue neuronaux : Gestion des grands vocabulaires Labeau, Matthieu 21 September 2018 (has links) Le travail présenté dans cette thèse explore les méthodes pratiques utilisées pour faciliter l'entraînement et améliorer les performances des modèles de langues munis de très grands vocabulaires. La principale limite à l'utilisation des modèles de langue neuronaux est leur coût computationnel: il dépend de la taille du vocabulaire avec laquelle il grandit linéairement. La façon la plus aisée de réduire le temps de calcul de ces modèles reste de limiter la taille du vocabulaire, ce qui est loin d'être satisfaisant pour de nombreuses tâches. La plupart des méthodes existantes pour l'entraînement de ces modèles à grand vocabulaire évitent le calcul de la fonction de partition, qui est utilisée pour forcer la distribution de sortie du modèle à être normalisée en une distribution de probabilités. Ici, nous nous concentrons sur les méthodes à base d'échantillonnage, dont le sampling par importance et l'estimation contrastive bruitée. Ces méthodes permettent de calculer facilement une approximation de cette fonction de partition. L'examen des mécanismes de l'estimation contrastive bruitée nous permet de proposer des solutions qui vont considérablement faciliter l'entraînement, ce que nous montrons expérimentalement. Ensuite, nous utilisons la généralisation d'un ensemble d'objectifs basés sur l'échantillonnage comme divergences de Bregman pour expérimenter avec de nouvelles fonctions objectif. Enfin, nous exploitons les informations données par les unités sous-mots pour enrichir les représentations en sortie du modèle. Nous expérimentons avec différentes architectures, sur le Tchèque, et montrons que les représentations basées sur les caractères permettent l'amélioration des résultats, d'autant plus lorsque l'on réduit conjointement l'utilisation des représentations de mots. / This work investigates practical methods to ease training and improve performances of neural language models with large vocabularies. The main limitation of neural language models is their expensive computational cost: it depends on the size of the vocabulary, with which it grows linearly. Despite several training tricks, the most straightforward way to limit computation time is to limit the vocabulary size, which is not a satisfactory solution for numerous tasks. Most of the existing methods used to train large-vocabulary language models revolve around avoiding the computation of the partition function, ensuring that output scores are normalized into a probability distribution. Here, we focus on sampling-based approaches, including importance sampling and noise contrastive estimation. These methods allow an approximate computation of the partition function. After examining the mechanism of self-normalization in noise-contrastive estimation, we first propose to improve its efficiency with solutions that are adapted to the inner workings of the method and experimentally show that they considerably ease training. Our second contribution is to expand on a generalization of several sampling based objectives as Bregman divergences, in order to experiment with new objectives. We use Beta divergences to derive a set of objectives from which noise contrastive estimation is a particular case. Finally, we aim at improving performances on full vocabulary language models, by augmenting output words representation with subwords. We experiment on a Czech dataset and show that using character-based representations besides word embeddings for output representations gives better results. We also show that reducing the size of the output look-up table improves results even more. Réseaux de Neurones Modèles de Langue Grands Vocabulaires Neural Networks Language Modelling Large Vocabularies
3	SyllabO+ : la première base de données sous-lexicale du français québécois oral Bédard, Pascale 24 April 2018 (has links) Les unités linguistiques sous-lexicales (p.ex., la syllabe, le phonème ou le phone) jouent un rôle crucial dans le traitement langagier. En particulier, le traitement langagier est profondément influencé par la distribution de ces unités. Par exemple, les syllabes les plus fréquentes sont articulées plus rapidement. Il est donc important d’avoir accès à des outils permettant de créer du matériel expérimental ou clinique pour l’étude du langage normal ou pathologique qui soit représentatif de l’utilisation des syllabes et des phones dans la langue orale. L’accès à ce type d’outil permet également de comparer des stimuli langagiers en fonction de leurs statistiques distributionnelles, ou encore d’étudier l’impact de ces statistiques sur le traitement langagier dans différentes populations. Pourtant, jusqu’à ce jour, aucun outil n’était disponible sur l’utilisation des unités linguistiques sous-lexicales du français oral québécois. Afin de combler cette lacune, un vaste corpus du français québécois oral spontané a été élaboré à partir d’enregistrements de 184 locuteurs québécois. Une base de données de syllabes et une base de données de phones ont ensuite été construites à partir de ce corpus, offrant une foule d’informations sur la structure des unités et sur leurs statistiques distributionnelles. Le fruit de ce projet, intitulé SyllabO +, sera rendu disponible en ligne en accès libre via le site web http://speechneurolab.ca/fr/syllabo dès la publication de l’article le décrivant. Cet outil incomparable sera d’une grande utilité dans plusieurs domaines, tels que les neurosciences cognitives, la psycholinguistique, la psychologie expérimentale, la phonétique, la phonologie, l’orthophonie et l’étude de l’acquisition des langues. / Linguistic sublexical units (e.g., syllables, phonemes or phones) have a crucial role in language processing. More specifically, language processing is greatly influenced by the distribution of these units in a language. For example, frequent syllables are produced more rapidly. It is thus important to have access to tools enabling the creation of experimental or clinical material that is representative of syllable and phoneme/phone use in language. Access to such tools also allows the comparison of language stimuli according to their distributional statistics, as well as the study of the impact of these statistics on language processing in different populations. However, to this day, there was no tool available on syllable and phone use for Quebec oral French. To circumvent this problem, a vast corpus of oral spontaneous French was elaborated from the recordings of 184 Quebec speakers. A syllable database and a phone database were then built from this corpus, offering a wealth of information on the structure and distributional statistics of syllables and phones. The project, named SyllabO +, will be made available online (open-access), via this website: http://speechneurolab.ca/en/syllabo as soon as the article describing it is published. We believe SyllabO + will prove immensely useful in many fields, such as cognitive neurosciences, psycholinguistics, experimental psychology, phonetics, phonology, speech therapy and the study of language acquisition.
4	Édition annotée et commentée du Devis de la langue francoyse d'Abel Matthieu, paru à Paris en 1559, suivie d'un glossaire Tremblay, France 11 April 2018 (has links) Le Devis de la langue francoyse d'Abel Matthieu n'a, jusqu'à maintenant, donné lieu à aucun travail d'édition. L'édition que nous proposons devrait permettre de mieux faire connaître un texte qui a contribué au développement de la langue française au XVIe siècle. Elle est accompagnée d'un glossaire contenant tous les termes qui ont disparu de la langue ou ceux qui ont aujourd'hui des sens différents; notre édition comporte en outre une abondante annotation et de nombreux commentaires historiques ou encyclopédiques destinés à rendre la lecture du texte plus accessible au lecteur moderne. P 25.5 UL 2006 T7892
5	Modèles de langage ad hoc pour la reconnaissance automatique de la parole Oger, Stanislas 30 November 2011 (has links) (PDF) Les trois piliers d'un système de reconnaissance automatique de la parole sont le lexique,le modèle de langage et le modèle acoustique. Le lexique fournit l'ensemble des mots qu'il est possible de transcrire, associés à leur prononciation. Le modèle acoustique donne une indication sur la manière dont sont réalisés les unités acoustiques et le modèle de langage apporte la connaissance de la manière dont les mots s'enchaînent.Dans les systèmes de reconnaissance automatique de la parole markoviens, les modèles acoustiques et linguistiques sont de nature statistique. Leur estimation nécessite de gros volumes de données sélectionnées, normalisées et annotées.A l'heure actuelle, les données disponibles sur le Web constituent de loin le plus gros corpus textuel disponible pour les langues française et anglaise. Ces données peuvent potentiellement servir à la construction du lexique et à l'estimation et l'adaptation du modèle de langage. Le travail présenté ici consiste à proposer de nouvelles approches permettant de tirer parti de cette ressource.Ce document est organisé en deux parties. La première traite de l'utilisation des données présentes sur le Web pour mettre à jour dynamiquement le lexique du moteur de reconnaissance automatique de la parole. L'approche proposée consiste à augmenter dynamiquement et localement le lexique du moteur de reconnaissance automatique de la parole lorsque des mots inconnus apparaissent dans le flux de parole. Les nouveaux mots sont extraits du Web grâce à la formulation automatique de requêtes soumises à un moteur de recherche. La phonétisation de ces mots est obtenue grâce à un phonétiseur automatique.La seconde partie présente une nouvelle manière de considérer l'information que représente le Web et des éléments de la théorie des possibilités sont utilisés pour la modéliser. Un modèle de langage possibiliste est alors proposé. Il fournit une estimation de la possibilité d'une séquence de mots à partir de connaissances relatives à 'existence de séquences de mots sur le Web. Un modèle probabiliste Web reposant sur le compte de documents fourni par un moteur de recherche Web est également présenté. Plusieurs approches permettant de combiner ces modèles avec des modèles probabilistes classiques estimés sur corpus sont proposées. Les résultats montrent que combiner les modèles probabilistes et possibilistes donne de meilleurs résultats que es modèles probabilistes classiques. De plus, les modèles estimés à partir des données Web donnent de meilleurs résultats que ceux estimés sur corpus. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Reconnaissance Automatique de la Parole Modélisation du Langage Théorie des Possibilités Modèle de Langage Web Mots Hors-Vocabulaires
6	Hiérarchies sémantiques pour l'annotation multifacette d'images Tousch, Anne-Marie 01 February 2010 (has links) (PDF) Cette thèse a pour sujet l'annotation automatique d'images. Pour plus de souplesse, nous utilisons un vocabulaire structuré, permettant de construire des annotations multifacettes et à différents niveaux d'interprétation. Une annotation prend alors la forme d'un ensemble de multilabels associés à des indices de confiance et permet d'exprimer un compromis fiabilité/précision sémantique. Le traitement proposé se déroule en deux phases : extraction de caractéristiques informatives et calcul de probabilités normalisées sur un espace de multilabels. Chacune exploite des mécanismes d'apprentissage. La démarche est évaluée sur deux jeux de données : un ensemble d'images de voitures et la base d'objets génériques Caltech-101. Les résultats suggèrent d'utiliser le vocabulaire structuré à différentes étapes selon la nature des données. Annotation d'image reconnaissance d'objets vocabulaires structurés classification à facettes apprentissage statistique
7	Modèles de langage ad hoc pour la reconnaissance automatique de la parole / Ad-hoc language models for automatic speech recognition Oger, Stanislas 30 November 2011 (has links) Les trois piliers d’un système de reconnaissance automatique de la parole sont le lexique,le modèle de langage et le modèle acoustique. Le lexique fournit l’ensemble des mots qu’il est possible de transcrire, associés à leur prononciation. Le modèle acoustique donne une indication sur la manière dont sont réalisés les unités acoustiques et le modèle de langage apporte la connaissance de la manière dont les mots s’enchaînent.Dans les systèmes de reconnaissance automatique de la parole markoviens, les modèles acoustiques et linguistiques sont de nature statistique. Leur estimation nécessite de gros volumes de données sélectionnées, normalisées et annotées.A l’heure actuelle, les données disponibles sur le Web constituent de loin le plus gros corpus textuel disponible pour les langues française et anglaise. Ces données peuvent potentiellement servir à la construction du lexique et à l’estimation et l’adaptation du modèle de langage. Le travail présenté ici consiste à proposer de nouvelles approches permettant de tirer parti de cette ressource.Ce document est organisé en deux parties. La première traite de l’utilisation des données présentes sur le Web pour mettre à jour dynamiquement le lexique du moteur de reconnaissance automatique de la parole. L’approche proposée consiste à augmenter dynamiquement et localement le lexique du moteur de reconnaissance automatique de la parole lorsque des mots inconnus apparaissent dans le flux de parole. Les nouveaux mots sont extraits du Web grâce à la formulation automatique de requêtes soumises à un moteur de recherche. La phonétisation de ces mots est obtenue grâce à un phonétiseur automatique.La seconde partie présente une nouvelle manière de considérer l’information que représente le Web et des éléments de la théorie des possibilités sont utilisés pour la modéliser. Un modèle de langage possibiliste est alors proposé. Il fournit une estimation de la possibilité d’une séquence de mots à partir de connaissances relatives à ’existence de séquences de mots sur le Web. Un modèle probabiliste Web reposant sur le compte de documents fourni par un moteur de recherche Web est également présenté. Plusieurs approches permettant de combiner ces modèles avec des modèles probabilistes classiques estimés sur corpus sont proposées. Les résultats montrent que combiner les modèles probabilistes et possibilistes donne de meilleurs résultats que es modèles probabilistes classiques. De plus, les modèles estimés à partir des données Web donnent de meilleurs résultats que ceux estimés sur corpus. / The three pillars of an automatic speech recognition system are the lexicon, the languagemodel and the acoustic model. The lexicon provides all the words that can betranscribed, associated with their pronunciation. The acoustic model provides an indicationof how the phone units are pronounced, and the language model brings theknowledge of how words are linked. In modern automatic speech recognition systems,the acoustic and language models are statistical. Their estimation requires large volumesof data selected, standardized and annotated.At present, the Web is by far the largest textual corpus available for English andFrench languages. The data it holds can potentially be used to build the vocabularyand the estimation and adaptation of language model. The work presented here is topropose new approaches to take advantage of this resource in the context of languagemodeling.The document is organized into two parts. The first deals with the use of the Webdata to dynamically update the lexicon of the automatic speech recognition system.The proposed approach consists on increasing dynamically and locally the lexicon onlywhen unknown words appear in the speech. New words are extracted from the Webthrough the formulation of queries submitted toWeb search engines. The phonetizationof the words is obtained by an automatic grapheme-to-phoneme transcriber.The second part of the document presents a new way of handling the informationcontained on the Web by relying on possibility theory concepts. A Web-based possibilisticlanguage model is proposed. It provides an estition of the possibility of a wordsequence from knowledge of the existence of its sub-sequences on the Web. A probabilisticWeb-based language model is also proposed. It relies on Web document countsto estimate n-gram probabilities. Several approaches for combining these models withclassical models are proposed. The results show that combining probabilistic and possibilisticmodels gives better results than classical probabilistic models alone. In addition,the models estimated from Web data perform better than those estimated on corpus. Reconnaissance Automatique de la Parole Modélisation du Langage Théorie des Possibilités Modèle de Langage Web Mots Hors-Vocabulaires Automatic Speech Recognition, Language Modeling Theory of Possibilities Web Language Model Out-Of-Vocabulary Words 006.454
8	Recherche d'information clinomique dans le Dossier Patient Informatisé : modélisation, implantation et évaluation. / Clinomics Information Retrieval in Electronic Health Records : Modelling, Implantation and Evaluation Cabot, Chloé 21 December 2017 (has links) Les objectifs de cette thèse s’inscrivent dans la large problématique de recherche d’information dans les données issues du Dossier Patient Informatisé (DPI). Les aspects abordés dans cette problématique sont multiples : d’une part la mise en oeuvre d’une recherche d’information clinomique au sein du DPI et d’autre part la recherche d’information au sein de données non structurées issues du DPI. Dans un premier temps, l’un des objectifs de cette thèse est d’intégrer au sein du DPI des informations dépassant le cadre de la médecine pour intégrer des données, informations et connaissances provenant de la biologie moléculaire ; les données omiques, issues de la génomique, protéomique ou encore métabolomique. L’intégration de ce type de données permet d’améliorer les systèmes d’information en santé, leur interopérabilité ainsi que le traitement et l’exploitation des données à des fins cliniques. Un enjeu important est d’assurer l’intégration de données hétérogènes, grâce à des recherches sur les modèles conceptuels de données, sur les ontologies et serveurs terminologiques et sur les entrepôts sémantiques. L’intégration de ces données et leur interprétation selon un même modèle de données conceptuel sont un verrou important. Enfin, il est important d’intégrer recherche clinique et recherche fondamentale afin d’assurer une continuité des connaissances entre recherche et pratique clinique et afin d’appréhender la problématique de personnalisation des soins. Cette thèse aboutit ainsi à la conception et au développement d’un modèle générique des données omiques exploité dans une application prototype de recherche et visualisation dans les données omiques et cliniques d’un échantillon de 2 000 patients. Le second objectif de ma thèse est l’indexation multi terminologique de documents médicaux à travers le développement de l’outil Extracteur de Concepts Multi-Terminologique (ECMT). Il exploite les terminologies intégrées au portail terminologique Health Terminology/Ontology Portal (HeTOP) pour identifier des concepts dans des documents non structurés. Ainsi, à partir d’un document rédigé par un humain, et donc porteur potentiellement d’erreurs de frappe, d’orthographe ou de grammaire,l’enjeu est d’identifier des concepts et ainsi structurer l’information contenue dans le document. Pour la recherche d’information médicale, l’indexation présente un intérêt incontournable pour la recherche dans les documents non structurés, comme lescomptes-rendus de séjour ou d’examens. Cette thèse propose plusieurs méthodes et leur évaluation suivant deux axes : l’indexation de textes médicaux à l’aide de plusieurs terminologies et le traitement du langage naturel dans les textes médicaux narratifs. / The aim of this thesis is part of the broad issue of information retrieval in Electronic Health Records (EHRs). The aspects tackled in this topic are numerous : on the one hand clinomics information retrieval within EHRs and secondly information retrieval within unstructured data from EHRs. As a first step, one of the objectives is to integrate in EHRs information beyond the scope of medicine to integrate data, information and knowledge from molecular biology ; omic data from genomics, proteomics or metabolomics. The integration of this type of data improves health information systems, their interoperability and the processing and exploitation of data for clinical purposes. An important challenge is to ensure the integration of heterogeneous data, through research on conceptual models of data, ontology and terminology servers, and semantic data warehouses. The integration of this data and their interpretation into a conceptual data model is an important challenge. Finally, it is important to integrate clinical research and fundamental research in order to ensure continuity of knowledge between research and clinical practice and to understand personalized medicine challenges. This thesis thus leads to the design and development of a generic model of omics data exploited in a prototype application for information retrieval and visualization in omic and clinical data within a sample of 2,000 patients. The second objective of this thesis is the multi-terminological indexing of medical documents through the development of the Extracting Concepts with Multiple Terminologies tool (ECMT). It uses terminologies embedded in the Health Terminology/Ontology Portal (HeTOP) to identify concepts in unstructured documents. From a document written by a human, and therefore potentially showing typing errors, spelling or grammar mistakes, the challenge is to identify concepts and thus structure the information contained in the text. In health information retrieval, indexing is of great interest for information retrieval in unstructured documents, such as reports and medical notes. This thesis proposes several methods and their evaluation along two axes : the indexing of medical texts using several terminologies and the processing of natural language in narrative medical notes. Recherche d'information Dossiers patients informatisés Modélisation Extraction d'information Vocabulaires contrôlés Traitement du langage naturel Information retrieval Electronic Health Records Modelling Information Extraction Controlled Vocabularies Natural Language Processing 006.35
9	Analyse d'évaluations en résumé automatique : proposition d'une terminologie française, description des paramètres expérimentaux et recommandations Goulet, Marie-Josée 13 April 2018 (has links) Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2007-2008. / Cette thèse porte sur l'évaluation des résumés automatiques. Ce sujet présente deux problèmes majeurs. Premièrement, la terminologie utilisée dans les évaluations de résumés automatiques comporte de nombreuses lacunes, tant en anglais qu'en français. Plus précisément, un même mot est parfois utilisé pour désigner plus d'un concept et certains concepts ne sont pas dénommés adéquatement. En outre, certains termes sont vagues et certains termes sont inappropriés. Afin de remédier à ce problème, un lexique de vingt-deux termes français pour la présentation des résultats d'évaluation de résumés automatiques a été élaboré. Le deuxième problème est l'absence d'un modèle pour la présentation des résultats d'évaluation de résumés automatiques. Par conséquent, les résultats ne sont pas présentés de la même manière d'un article à l'autre. Qui plus est, de nombreux chercheurs omettent des informations importantes lors de la présentation de leurs résultats d'évaluation, par exemple le nombre de juges qui ont évalué les résumés automatiques. Toutefois, l'élaboration d'un modèle de l'évaluation des résumés automatiques requiert une étude empirique d'assez grande envergure sur le sujet. Dans cette thèse, une analyse approfondie de vingt-sept évaluations de résumés automatiques a été effectuée, ce qui constitue la plus vaste étude jamais conduite sur ce sujet. Lors de cette analyse, toutes les informations pertinentes par rapport au déroulement de l'évaluation ont été retenues dans chacune des vingt-sept expériences du corpus. Ces informations, nommées paramètres expérimentaux, ont été classées en vingt-cinq grandes catégories, plus précisément : 1. quatre paramètres sur les textes sources ; 2. six paramètres sur les résumés automatiques évalués ; 3. sept paramètres sur les résumés de comparaison ; 4. huit paramètres sur les méthodes et les critères d'évaluation. Au terme de l'analyse, quarante-cinq recommandations pour la présentation des résultats d'évaluation de résumés automatiques ont été formulées. Les outils mis en place dans cette thèse, soit la terminologie française, les résultats d'analyse et les recommandations, pourront être utilisés par les chercheurs désirant évaluer leurs résumés automatiques. De plus, ils pourront bientôt être mis à contribution pour le démarrage d'une campagne d'évaluation internationale des résumés automatiques français. P 25.5 UL 2008 G698 Résumés automatiques -- Terminologie
10	Conception d'un répertoire d'expressions conventionnelles du français québécois destiné à l'enseignement du français Lx d'apprenant(e)s adultes Reid, Florence 26 March 2024 (has links) Titre de l'écran-titre (visionné le 12 octobre 2023) / Dans la ville de Québec, la première langue parlée à la maison est le français dans près de 95% des cas (Gouvernement du Québec, 2022). Sachant que chaque année, un nombre important de nouvelles personnes immigrantes sont accueillies au Québec selon le ministère de l'Immigration, de la Francisation et de l'Intégration (MIFI, 2021), la maîtrise de la langue est cruciale pour l'intégration à la société d'accueil (Calinon, 2009). Pour faciliter le développement de la compétence communicative, la connaissance de groupes de mots ritualisés, prévisibles et attendus de la part des membres d'une même communauté linguistique, est importante (Yorio, 1980). Ces combinaisons ritualisées de mots sont nommées expressions conventionnelles dans la littérature en acquisition des langues, et la recherche a relevé l'importance de ces dernières pour la réussite des interactions quotidiennes dans la langue cible (Lx) (Bardovi-Harlig, 2019a). Toutefois, les expressions conventionnelles répertoriées en français (Beaulieu et al., 2022 ; Edmonds, 2010a) ne sont pas entièrement arrimées à des situations de communication vécues par des nouveaux(-velles) arrivant(e)s s'établissant au Québec. Pour combler cette lacune, cette recherche vise à créer un répertoire d'expressions conventionnelles du français québécois (FQ) langue première (L1) qui reflète le contenu du niveau 4 du Programme d'études Francisation du ministère de l'Éducation et de l'Enseignement supérieur (MEES, 2015) et qui répond aux besoins réels d'apprenant(e)s de français Lx. Pour ce faire, un questionnaire discursif oral, constitué de 31 scénarios du quotidien inspirés du Programme du MEES (2015), a été conçu. Ce sont 79 personnes d'âges et de milieux variés dont le FQ est la L1 qui ont répondu au questionnaire discursif oral. Les données ont été transcrites, puis analysées par actes de parole et par stratégies de conversation, grâce à six méthodes d'analyse de données (dont deux créées), ainsi qu'aux cinq critères d'identification des expressions conventionnelles de Bardovi-Harlig (2009). Les données de notre échantillon ont relevé 28 expressions conventionnelles du FQ L1, ces dernières constituant le répertoire d'expressions conventionnelles. À la lumière des expressions recensées, des pistes méthodologiques et didactiques ont été proposées. Français (Langue) -- Mots et locutions. Français (Langue) -- Français parlé Langue familière. Répertoires -- Conception.

Search results