231 |
Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règlesZaghouani, Wajdi January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
232 |
Apprentissage des réseaux de neurones profonds et applications en traitement automatique de la langue naturelleGlorot, Xavier 11 1900 (has links)
En apprentissage automatique, domaine qui consiste à utiliser des données pour apprendre une solution aux problèmes que nous voulons confier à la machine, le modèle des Réseaux de Neurones Artificiels (ANN) est un outil précieux. Il a été inventé voilà maintenant près de soixante ans, et pourtant, il est encore de nos jours le sujet d'une recherche active. Récemment, avec l'apprentissage profond, il a en effet permis d'améliorer l'état de l'art dans de nombreux champs d'applications comme la vision par ordinateur, le traitement de la parole et le traitement des langues naturelles.
La quantité toujours grandissante de données disponibles et les améliorations du matériel informatique ont permis de faciliter l'apprentissage de modèles à haute capacité comme les ANNs profonds. Cependant, des difficultés inhérentes à l'entraînement de tels modèles, comme les minima locaux, ont encore un impact important. L'apprentissage profond vise donc à trouver des solutions, en régularisant ou en facilitant l'optimisation. Le pré-entraînnement non-supervisé, ou la technique du ``Dropout'', en sont des exemples.
Les deux premiers travaux présentés dans cette thèse suivent cette ligne de recherche. Le premier étudie les problèmes de gradients diminuants/explosants dans les architectures profondes. Il montre que des choix simples, comme la fonction d'activation ou l'initialisation des poids du réseaux, ont une grande influence. Nous proposons l'initialisation normalisée pour faciliter l'apprentissage. Le second se focalise sur le choix
de la fonction d'activation et présente le rectifieur, ou unité rectificatrice linéaire. Cette étude a été la première à mettre l'accent sur les fonctions d'activations linéaires par morceaux pour les réseaux de neurones profonds en apprentissage supervisé. Aujourd'hui, ce type de fonction d'activation est une composante essentielle des réseaux de neurones profonds.
Les deux derniers travaux présentés se concentrent sur les applications des ANNs en traitement des langues naturelles. Le premier aborde le sujet de l'adaptation de domaine pour l'analyse de sentiment, en utilisant des Auto-Encodeurs Débruitants. Celui-ci est encore l'état de l'art de nos jours. Le second traite de l'apprentissage de données multi-relationnelles avec un modèle à base d'énergie, pouvant être utilisé pour la tâche
de désambiguation de sens. / Machine learning aims to leverage data in order for computers to solve problems of interest. Despite being invented close to sixty years ago, Artificial Neural Networks (ANN) remain an area of active research and a powerful tool. Their resurgence in the context of deep learning has led to dramatic improvements in various domains from computer vision and speech processing to natural language processing.
The quantity of available data and the computing power are always increasing, which is desirable to train high capacity models such as deep ANNs. However, some intrinsic learning difficulties, such as local minima, remain problematic. Deep learning aims to find solutions to these problems, either by adding some regularisation or improving optimisation. Unsupervised pre-training or Dropout are examples of such solutions.
The two first articles presented in this thesis follow this line of research. The first analyzes the problem of vanishing/exploding gradients in deep architectures. It shows that simple choices, like the activation function or the weights initialization, can have an important impact. We propose the normalized initialization scheme to improve learning. The second focuses on the activation function, where we propose the rectified linear unit. This work was the first to emphasise the use of linear by parts activation functions for deep supervised neural networks, which is now an essential component of such models.
The last two papers show some applications of ANNs to Natural Language Processing. The first focuses on the specific subject of domain adaptation in the context of sentiment analysis, using Stacked Denoising Auto-encoders. It remains state of the art to this day. The second tackles learning with multi-relational data using an energy based model which can also be applied to the task of word-sense disambiguation.
|
233 |
Conception dirigée par les modèles à l’aide de langages de modélisation hétérogènes : application aux profils UML / Model-driven engineering using heterogeneous modeling languages : application to UML profilesNoyrit, Florian 25 October 2012 (has links)
Les divers intervenants qui décrivent, étudient et réalisent un système complexe ont besoin de points de vue adaptés à leurs préoccupations. Cependant, dans le contexte de l’Ingénierie Dirigée par les Modèles, les moyens pour définir et mettre en œuvre ces points de vue sont, soit trop rigides et inadaptées, soit totalement ad hoc. De plus, ces différents points de vue sont rarement indépendants les uns des autres. Dès lors, il faut s’attacher à identifier puis décrire les liens/les correspondances qui existent entre les points de vue pour enfin pouvoir vérifier que les réponses apportées par les différents intervenants constituent un tout cohérent.Les travaux exposés dans cette thèse permettent la définition de langages dédiés basés sur UML pour les points de vue. Pour cela, une méthode outillée qui analyse la sémantique des descriptions textuelles des concepts du domaine que l’on souhaite projeter sur UML est proposée afin de faciliter la définition de profils UML. Les résultats obtenus sur les cas d’études concrets étudiés sont encourageants et dépassent les résultats des outils existants. Pour définir des points de vue basés sur des profils UML, cette thèse propose une méthode qui permet au méthodologiste d’expliciter le point de vue voulu. Un outil génère ensuite l’outillage qui met en œuvre ce point de vue dans un environnement de modélisation ainsi que le langage dédié correspondant là où la pratique actuelle repose sur une mise en œuvre essentiellement manuelle.Pour assister l’identification des liens entre points de vue, cette thèse propose là aussi d’analyser la sémantique des descriptions textuelles des concepts des langages utilisés par les points de vue. Utilisée en complément des heuristiques syntaxiques existantes, l’approche proposée permet d’obtenir de bons résultats lorsque les terminologies des langages analysés sont éloignées. Un cadre théorique basé sur la théorie des catégories est proposé pour expliciter formellement les correspondances. Pour utiliser ce cadre, une catégorie pour les langages basés sur UML a été proposée. Afin de pouvoir également expliciter les correspondances entre les modèles issus de ces langages, la catégorie des ontologies OWL est utilisée. Une solution est proposée pour caractériser des correspondances plus complexes que la simple équivalence. Ce cadre théorique permet la définition formelle de relations complexes qui permettront de raisonner sur la cohérence de la description de l’architecture. Une fois la description de l’architecture intégrée en un tout en suivant les correspondances formalisées, la question de la cohérence est abordée. Les expérimentations faites sur un cas d’étude concret pour vérifier la cohérence à un niveau syntaxique donnent des résultats pratiques satisfaisants. Les expérimentations menées sur le même cas pour vérifier la cohérence à un niveau sémantique ne donnent pas de résultats pratiques satisfaisants. / The various stakeholders who describe study and implement a complex system require viewpoints that are dedicated to their concerns. However, in the context of Model-Driven Engineering, approaches to define and implement those viewpoints are either too rigid and inappropriate or completely ad hoc. In addition, those various viewpoints are rarely independent from each other. Therefore, we must strive to identify and describe the relationships/correspondences between the viewpoints in order to be able to verify that the parts of the solution given by the various stakeholders form a consistent whole.The work presented in this thesis provides a way to define dedicated languages based on UML for the viewpoints. For this, a method that analyzes the semantics of the textual descriptions of the concepts of the domain we want to map to UML has been implemented to facilitate the definition of UML profiles. The results we get on the concrete test cases we considered are encouraging and go beyond results of existing tools. To define a viewpoint based on some UML profiles, this thesis provides a method that lets the methodologist make explicit the viewpoint he/she wants. A tool can then generate the tooling that implements this viewpoint in a modeling environment together with the corresponding dedicated language while current practice is based on an implementation essentially manual.To assist the identification of relationships between the viewpoints, this thesis proposes again to analyze the semantics of textual descriptions of concepts of the languages used by the viewpoints. Used in combination with existing syntactic heuristics, the proposed approach provides good results when the terminologies of the languages that are analyzed are far apart. A theoretical framework based on category theory is provided to make explicit formally correspondences. To use this framework, a category for languages based on UML has been proposed. To be able to make explicit the correspondences between the models of those languages as well, the category of OWL ontologies is used. A solution is proposed to characterize correspondences that are more complex than the simple equivalence relationship. This theoretical framework provides a way to define formally complex relationships that can be used to verify the consistency of the architectural description. Once the description of the architecture has been integrated according to the formal correspondences, the issue of consistency is considered. The experiments carried out on a concrete test case to verify consistency on a syntactic perspective give satisfactory practical results. The experiments carried on the same test case to verify consistency on a semantic perspective don’t give satisfactory practical results.
|
234 |
Expérimentation de la cartographie conceptuelle comme dispositif de collecte de données en vue de l’évaluation des apprentissagesMorin, Maxim 08 1900 (has links)
No description available.
|
235 |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question / Open domain question-answering : relevant document selection geared to the questionFoucault, Nicolas 16 December 2013 (has links)
Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évaluer son apport. Nous développons et étudions une méthode basée sur une approche de Recherche d’Information pour la sélection de documents en QR. Celle-ci s’appuie sur un modèle de langue et un modèle de classification binaire de texte en catégorie pertinent ou non pertinent d’un point de vue QR. Cette méthode permet de filtrer les documents sélectionnés pour l’extraction de réponses par un système QR. Nous présentons la méthode et ses modèles, et la testons dans le cadre QR à l’aide de RITEL. L’évaluation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menée soit sur des documents complets, soit sur des segments de documents. L’hypothèse suivie est que le contenu informationnel des segments est plus cohérent et facilite l’extraction de réponses. Dans le premier cas, les gains obtenus sont faibles comparés aux résultats de référence (sans filtrage). Dans le second cas, les gains sont plus élevés et confortent l’hypothèse, sans pour autant être significatifs. Une étude approfondie des liens existant entre les performances de RITEL et les paramètres de filtrage complète ces évaluations. Le système de segmentation créé pour travailler sur des segments est détaillé et évalué. Son évaluation nous sert à mesurer l’impact de la variabilité naturelle des pages web (en taille et en contenu) sur la tâche QR, en lien avec l’hypothèse précédente. En général, les résultats expérimentaux obtenus suggèrent que notre méthode aide un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à mener pour rendre ces résultats significatifs, et notamment en utilisant des corpus de questions plus importants. / This thesis aims at defining a unified adaptation of the document selection and answer extraction strategies, based on the document and question types, in a Question-Answering (QA) context. The solution is integrated in RITEL (a LIMSI QA system) to assess the contribution. We develop and investigate a method based on an Information Retrieval approach for the selection of relevant documents in QA. The method is based on a language model and a binary model of textual classification in relevant or irrelevant category. It is used to filter unusable documents for answer extraction by matching lists of a priori relevant documents to the question type automatically. First, we present the method along with its underlying models and we evaluate it on the QA task with RITEL in French. The evaluation is done on a corpus of 500,000 unsegmented web pages with factoid questions provided by the Quaero program (i.e. evaluation at the document level or D-level). Then, we evaluate the methodon segmented web pages (i.e. evaluation at the segment level or S-level). The idea is that information content is more consistent with segments, which facilitates answer extraction. D-filtering brings a small improvement over the baseline (no filtering). S-filtering outperforms both the baseline and D-filtering but not significantly. Finally, we study at the S-level the links between RITEL’s performances and the key parameters of the method. In order to apply the method on segments, we created a system of web page segmentation. We present and evaluate it on the QA task with the same corpora used to evaluate our document selection method. This evaluation follows the former hypothesis and measures the impact of natural web page variability (in terms of size and content) on RITEL in its task. In general, the experimental results we obtained suggest that our IR-based method helps a QA system in its task, however further investigations should be conducted – especially with larger corpora of questions – to make them significant.
|
236 |
Automated evaluation of three dimensional ultrasonic datasets / Évaluation automatique de données ultrasonores en 3DOsman, Ahmad 14 June 2013 (has links)
Le contrôle non destructif est devenu nécessaire pour assurer la qualité des matériaux et des composants soit en service ou à l'étape de la production. Ceci nécessite l'utilisation d'une technique d’inspection rapide, robuste et fiable. En tant que technique de contrôle principale, la technologie des ultrasons a des capacités uniques pour évaluer la position, la taille et la forme des discontinuités. Ces informations ont un rôle essentiel dans les critères d'acceptation qui sont fondés sur la sécurité et les exigences de qualité des composants fabriqués. Par conséquent, un usage intensif de la technique des ultrasons apparaît notamment dans l'inspection des composites fabriqués à grande échelle dans l'industrie aérospatiale. D'importants progrès techniques ont contribué à l'optimisation des techniques d'acquisition par ultrasons telles que la technique de "Sampling Phased Array". Cependant, les systèmes d'acquisition doivent être complétés par une procédure d'analyse automatisée de données afin d'éviter l'interprétation manuelle fastidieuse de toutes les données produites. Un tel complément permet d'accélérer le processus d'inspection et d'améliorer sa fiabilité. L'objectif de cette thèse est de proposer une chaîne d’analyse dédiée au traitement automatique des volumes échographiques 3D obtenus en utilisant la technique Sampling Phased Array. Tout d'abord, une étude détaillée du bruit de speckle affectant les données échographiques a été effectuée, puisque ce type de bruit réduit la qualité des données échographiques. Ensuite, une chaîne d’analyse complète a été développée, constituée d'une procédure de segmentation suivie d'un processus de classification. La méthodologie de segmentation proposée est adaptée aux données ultrasonores 3D et a pour objectif de détecter tous les défauts potentiels à l'intérieur du volume d'entrée 3D. La procédure de segmentation étant en priorité dédiée à la détection des défauts qui est vitale, une difficulté principale est le taux élevé de fausses alarmes qui peuvent être détectées également. La classification correcte des fausses alarmes est nécessaire afin de réduire le taux de rejet des pièces saines. Cela doit être fait sans risquer la perte des vrais défauts. Par conséquent, la segmentation doit être suivie d'un processus de classification efficace qui doit distinguer les défauts réels des fausses alarmes. Ceci a été réalisé en utilisant une approche de classification spécifique basée sur une approche de fusion de données. La chaîne complète d'analyse a été testée sur plusieurs mesures ultrasonores volumiques de composites plastiques à renfort fibre de carbone. Les résultats expérimentaux de la chaîne ont révélé une grande précision ainsi qu'une très bonne fiabilité de détection, de caractérisation et de classification des défauts avec un taux très faible de fausses alarmes. / Non-destructive testing has become necessary to ensure the quality of materials and components either in-service or at the production stage. This requires the use of a rapid, robust and reliable testing technique. As a main testing technique, the ultrasound technology has unique abilities to assess the discontinuity location, size and shape. Such information play a vital role in the acceptance criteria which are based on safety and quality requirements of manufactured components. Consequently, an extensive usage of the ultrasound technique is perceived especially in the inspection of large scale composites manufactured in the aerospace industry. Significant technical advances have contributed into optimizing the ultrasound acquisition techniques such as the sampling phased array technique. However, acquisition systems need to be complemented with an automated data analysis procedure to avoid the time consuming manual interpretation of all produced data. Such a complement would accelerate the inspection process and improve its reliability. The objective of this thesis is to propose an analysis chain dedicated to automatically process the 3D ultrasound volumes obtained using the sampling phased array technique. First, a detailed study of the speckle noise affecting the ultrasound data was conducted, as speckle reduces the quality of ultrasound data. Afterward, an analysis chain was developed, composed of a segmentation procedure followed by a classification procedure. The proposed segmentation methodology is adapted for ultrasound 3D data and has the objective to detect all potential defects inside the input volume. While the detection of defects is vital, one main difficulty is the high amount of false alarms which are detected by the segmentation procedure. The correct distinction of false alarms is necessary to reduce the rejection ratio of safe parts. This has to be done without risking missing true defects. Therefore, there is a need for a powerful classifier which can efficiently distinguish true defects from false alarms. This is achieved using a specific classification approach based on data fusion theory. The chain was tested on several ultrasound volumetric measures of Carbon Fiber Reinforced Polymers components. Experimental results of the chain revealed high accuracy, reliability in detecting, characterizing and classifying defects.
|
237 |
Extraction de phrases parallèles à partir d’un corpus comparable avec des réseaux de neurones récurrents bidirectionnelsGrégoire, Francis 12 1900 (has links)
No description available.
|
238 |
Recherche et développement du Logiciel Intelligent de Cartographie Inversée, pour l’aide à la compréhension de texte par un public dyslexique / Research and development of the "Logiciel Intelligent de Cartographie Inversée", a tool to help dyslexics with reading comprehension.Laurent, Mario 05 October 2017 (has links)
Les enfants souffrant de troubles du langage, comme la dyslexie, rencontrent de grandes difficultés dans l'apprentissage de la lecture et dans toute tâche de lecture, par la suite. Ces difficultés compromettent grandement l'accès au sens des textes auxquels ils sont confrontés durant leur scolarité, ce qui implique des difficultés d'apprentissage et les entraîne souvent vers une situation d'échec scolaire. Depuis une quinzaine d'années, des outils développés dans le domaine du Traitement Automatique des Langues sont détournés pour être utilisés comme stratégie d'aide et de compensation pour les élèves en difficultés. Parallèlement, l'usage de cartes conceptuelles ou de cartes heuristiques pour aider les enfants dyslexiques à formuler leurs pensées, ou à retenir certaines connaissances, s'est développé. Ce travail de thèse vise à répertorier et croiser, d'une part, les connaissances sur le public dyslexique, sa prise en charge et ses difficultés, d'autre part, les possibilités pédagogiques ouvertes par l'usage de cartes, et enfin, les technologies de résumé automatique et d'extraction de mots-clés. L'objectif est de réaliser un logiciel novateur capable de transformer automatiquement un texte donné en une carte, celle-ci doit faciliter la compréhension du texte tout en comprenant des fonctionnalités adaptées à un public d'adolescents dyslexiques. Ce projet a abouti, premièrement, à la réalisation d'une expérimentation exploratoire, sur l'aide à la compréhension de texte grâce aux cartes heuristiques, qui permet de définir de nouveaux axes de recherche ; deuxièmement, à la réalisation d'un prototype de logiciel de cartographie automatique qui est présenté en fin de thèse / Children with language impairment, such as dyslexia, are often faced with important difficulties when learning to read and during any subsequent reading tasks. These difficulties tend to compromise the understanding of the texts they must read during their time at school. This implies learning difficulties and may lead to academic failure. Over the past fifteen years, general tools developed in the field of Natural Language Processing have been transformed into specific tools for that help with and compensate for language impaired students' difficulties. At the same time, the use of concept maps or heuristic maps to encourage dyslexic children express their thoughts, or retain certain knowledge, has become popular. This thesis aims to identify and explore knowledge about the dyslexic public, how society takes care of them and what difficulties they face; the pedagogical possibilities opened up by the use of maps; and the opportunities created by automatic summarization and Information Retrieval fields. The aim of this doctoral research project was to create an innovative piece of software that automatically transforms a given text into a map. It was important that this piece of software facilitate reading comprehension while including functionalities that are adapted to dyslexic teenagers. The project involved carrying out an exploratory experiment on reading comprehension aid, thanks to heuristic maps, that make the identification of new research topics possible, and implementing an automatic mapping software prototype that is presented at the end of this thesis
|
239 |
Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règlesZaghouani, Wajdi January 2009 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
|
240 |
Etude des caractéristiques de la langue vietnamienne en vue de sa synthèse et de sa reconnaissance automatique. Aspects statiques et dynamiquesNguyen, Viet Son 15 December 2009 (has links) (PDF)
Le travail présenté dans le cadre de cette thèse vise à étudier de manière approfondie les caractéristiques des voyelles longues et brèves et des consonnes finales du vietnamien, non seulement en statique mais aussi en dynamique, en calculant en particulier les vitesses de transitions formantiques. Deux ensembles consonnes voyelles ont été analysés : (C1)V1C2, avec C2 l'une des trois consonnes finales /p, t, k/ et (C1)V1V2 avec les voyelles longues et brèves correspondantes. L'objectif de l'analyse est de permettre la mise en évidence de caractéristiques spécifiques qui sont alors testées en synthèse. Pour étudier les voyelles longues, les voyelles brèves et les trois consonnes finales /p, t, k/ dans les contextes (C1)V1C2 et (C1)V1V2, nous avons fait deux corpus : un premier corpus avec quatre locuteurs vietnamiens pour étudier la partie centrale de la voyelle (la durée, les formants F1, F2, F3), les transitions V1C2 et V1V2 (durées de transition, pentes des transitions formantiques, valeurs du début de la transition formantique), et la partie finale (durée de la semi-voyelle finale) ; un deuxième corpus avec huit locuteurs (quatre hommes et quatre femmes) nous a permis d'étudier l'équation du locus pour les consonnes finales /p, t, k/. A partir des résultats analysés, nous avons réalisé des tests statistiques et des tests de perception (avec dix auditeurs vietnamiens, cinq hommes et cinq femmes). Les résultats d'analyse, les résultats statistiques et les résultats perceptifs nous permettent de mieux comprendre la production des voyelles vietnamiennes et des trois consonnes finales vietnamiennes /p, t, k/ comme résumés ci-dessous : (1) Dans la langue vietnamienne, il y a trois séries de voyelles longues et brèves /a, ӑ/, /ɤ, ɤ̆/, /ɔ, ɔ̆/ qui sont acoustiquement proches dans le plan F1-F2, mais se distinguent par leur durée, les pentes des formants transitionnels et la durée de la semi-voyelle V2 (dans le contexte des syllabes V1V2). Les durées des transitions V1C2 et V1V2 ne varient pas en fonction de la nature de la voyelle longue ou brève. (2) Les trois consonnes finales /p, t, k/ se terminent par un silence sans burst. Pour les syllabes (C1)V1C2, en comparant les consonnes finales C2 dans un même contexte d'une voyelle précédente V1, bien qu'il n'y a aucune différence de leurs caractéristiques acoustiques statiques (la durée de la transition, et les valeurs au début de la transition formantique), leurs caractéristiques acoustiques dynamiques (la pente des formants transitionnels) sont significativement distinctes et permettent aux vietnamiens de reconnaitre ces trois consonnes finales. (3) Nous avons obtenu les équations du locus avec une linéarité excellente et un bon regroupement des points autour des droites de régression. Les lieux d'articulation des 3 consonnes finales occlusives /p, t, k/ sont bien distincts. On ne trouve aucun effet du ton sur les équations du locus des consonnes finales. Les résultats de ces travaux phonétiques sont ensuite validés à l'aide des systèmes de synthèse (SMART (Synthesis with a Model of Anthropomorphic Region and Tract) et DRM (Distinctive Region Model)).
|
Page generated in 0.1274 seconds