Global ETD Search

41	Recurrent neural models and related problems in natural language processing Zhang, Saizheng 04 1900 (has links) No description available. réseaux de neurones récurrents apprentissage profond compréhension en lecture système de dialogue recurrent neural networks deep learning natural language processing reading comprehension dialogue system
42	Marqueurs discursifs de neurodégénérescence liée à la pathologie Alzheimer Slegers, Antoine 06 1900 (has links) La maladie d’Alzheimer (MA) et les aphasies progressives primaires (APP) s’accompagnent de perturbations du langage expressif parfois subtiles, mais précoces dans l’évolution de ces maladies neurodégénératives. Considérés dans une approche automatisée, ces changements pourraient constituer des marqueurs de dégénérescence identifiés de façon non invasive et peu onéreuse. À ce titre, ils font l’objet d’études visant à automatiser leur utilisation clinique. Cependant, l’intégration des marqueurs langagiers à une approche diagnostique centrée sur les biomarqueurs reste à faire. À cette fin, la présente thèse a deux objectifs. D’abord, recenser systématiquement les marqueurs du discours qui distinguent le mieux les personnes avec une MA de témoins en santé. Ensuite, appliquer une approche automatisée et à un large éventail de marqueurs de discours pour identifier, dans un groupe hétérogène de patients avec une APP, lesquels ont une pathologie Alzheimer sous-jacente. Afin de mettre en contexte ces deux objectifs, nous proposons une introduction générale comprenant les éléments suivants : la pathophysiologie de la MA et des APP, le rôle croissant des biomarqueurs dans la prise de décision clinique dans les maladies neurodégénératives, les études pionnières du discours en neurodégénérescence, ainsi que de récentes études computationnelles sur les marqueurs de discours dans la MA et les APP. Nos résultats font émerger un patron multidimensionnel (acoustique, lexical, syntaxique, sémantique et pragmatique) de changements langagiers qui distinguent les personnes avec une MA de témoins en santé, avec une prépondérance des marqueurs lexicosémantiques. Dans le groupe de patients avec une APP avec une imagerie amyloïde positive ou négative, nous mesurons ensuite le pouvoir de classification d’un court échantillon de discours et montrons qu’il peut être avantageusement comparé à d’autres biomarqueurs. Nous discutons du patron spécifique de marqueurs discriminants pour ce sous-groupe de patients, notamment l’importance des marqueurs psycholinguistiques pour prédire le résultat de l’imagerie amyloïde à partir du discours. / Alzheimer’s disease (AD) and primary progressive aphasias (PPA) feature changes in expressive language that appear early in the course of the disease. Within an automated analysis framework, these language changes could offer a non-invasive and inexpensive alternative to the collection of biomarkers which are not readily available in most settings. Current research is thus focused on the automated analysis of language data for clinical use. The usefulness of connected speech (CS) markers has not yet been established in a diagnostic perspective focused on biomarkers. To this aim, the present thesis contains two phases. First, we systematically review the CS markers that best differentiate persons with AD from healthy controls. Second, we automatically extract a wide array of CS markers in a heterogenous group of PPA patients by combining expert knowledge and the latest natural language processing software. A machine-learning classification approach identifies PPA patients for the presence of underlying AD pathology. The most discriminant CS features are identified. To integrate the two phases of the thesis, we provide a general introduction with the following sections: the pathophysiology of AD and PPAs, the growing importance of biomarkers in clinical decision-making for neurodegenerative diseases, the seminal studies of CS in neurodegenerative diseases, and the latest computational studies of CS markers in AD and PPA. Our results bring forth a multidimensional pattern (acoustic, lexical, syntactic, semantic, pragmatic) of language changes that distinguish people with AD from healthy controls, with an emphasis on lexical-semantic features. In the group of PPA patients with either positive or negative amyloid imaging, we then describe the classificatory power of a short sample of CS and show that it compares favorably to other biomarkers. We discuss the specific pattern of discriminant markers for this subgroup of patients, in particular the role of psycholinguistics. Alzheimer’s disease connected speech primary progressive aphasia natural language processing machine learning psycholinguistics psycholinguistique apprentissage automatique amyloïde aphasie progressive primaire discours maladie d’Alzheimer
43	La protection des renseignements personnels dans l'exploitation des assistants vocaux. Rouhana, Jad 09 1900 (has links) Les assistants vocaux ont mis au jour une nouvelle manière pour l’humain d’interagir avec les technologies en n’utilisant que la voix. Une technologie qui est également évolutive et interactive grâce à l’intelligence artificielle. Nous verrons que les caractéristiques techniques et logicielles les composant concourent à une collecte massive de renseignements personnels par les entreprises. L’imprécision des politiques de confidentialité, l’absence d’information sur le mode de fonctionnement, l’imperfection du traitement automatique du langage naturel (ci-après le « TALN ») caractérisée par les faux positifs et les difficultés inhérentes à l’exercice par l’individu de certains de ses droits tendent à limiter l’effectivité des différentes lois existantes à l’assistant vocal. En outre, la possibilité pour plusieurs personnes d’interagir avec l’objet ainsi que son absence d’autonomie tendent à compliquer l’application des régimes de responsabilité civile, dont celui résultant du fait des biens. Cette apparition récente de l’assistant vocal n’a pour l’heure pas permis au juge de se prononcer pour faire évoluer les jurisprudences relatives au droit à la vie privée, à la protection des renseignements personnels et à la responsabilité civile. Celles déjà existantes ne semblent plus être adaptées à ce contexte technologique autour de l’assistant vocal, et plus généralement autour de la voix. C’est ainsi que le test de Oakes, permettant de déterminer le caractère raisonnable d’une violation des droits et libertés énoncés dans la Charte canadienne, repris pour être appliqué à la LPRPDE, apparaît comme étant inadapté à ce nouveau contexte technologique. Enfin, le manque de pouvoirs conférés aux autorités compétentes représente un obstacle majeur dans le suivi de l’application des règles de droit. / Voice assistants bring a new way for humans to interact with technology by only using their voice. Scalable and interactive technology thanks to artificial intelligence. We will see that the technical and software characteristics of voice assistants contribute to a massive collection of personal information by companies. The imprecision of confidentiality policies, the absence of information on the mode of operation, the imperfection of the Natural Language Processing characterized by false positives and the difficulties inherent in the exercise by individuals of some of their rights contribute to the mismatch between voice assistants and various existing laws. In addition, the possibility for people to interact with the object as well as its lack of autonomy tend to complicate the application of civil liability regimes, including that resulting from the act of thing. This recent appearance of voice assistants has so far not giving judges the possibility to rule on the right to privacy, protection of personal information and civil liability. Current case law doesn’t seem to be well adapted to the technological context around the voice assistant, and more generally the voice. The Oakes test, which was design to determining the reasonableness of a violation of the rights and freedoms set out in the Canadian Charter, appears to be unsuited to this new context. We will see that the lack of powers conferred on the competent authorities represents a major obstacle in monitoring the application of the rule of law. Intelligence artificielle Renseignement personnel Responsabilité civile Vie privée Assistant vocal Algorithme Artificial intelligence Personal information Civil liability Privacy Voice assistant Algorithm Natural language processing
44	Regroupement de textes avec des approches simples et efficaces exploitant la représentation vectorielle contextuelle SBERT Petricevic, Uros 12 1900 (has links) Le regroupement est une tâche non supervisée consistant à rassembler les éléments semblables sous un même groupe et les éléments différents dans des groupes distincts. Le regroupement de textes est effectué en représentant les textes dans un espace vectoriel et en étudiant leur similarité dans cet espace. Les meilleurs résultats sont obtenus à l’aide de modèles neuronaux qui affinent une représentation vectorielle contextuelle de manière non supervisée. Or, cette technique peuvent nécessiter un temps d’entraînement important et sa performance n’est pas comparée à des techniques plus simples ne nécessitant pas l’entraînement de modèles neuronaux. Nous proposons, dans ce mémoire, une étude de l’état actuel du domaine. Tout d’abord, nous étudions les meilleures métriques d’évaluation pour le regroupement de textes. Puis, nous évaluons l’état de l’art et portons un regard critique sur leur protocole d’entraînement. Nous proposons également une analyse de certains choix d’implémentation en regroupement de textes, tels que le choix de l’algorithme de regroupement, de la mesure de similarité, de la représentation vectorielle ou de l’affinage non supervisé de la représentation vectorielle. Finalement, nous testons la combinaison de certaines techniques ne nécessitant pas d’entraînement avec la représentation vectorielle contextuelle telles que le prétraitement des données, la réduction de dimensionnalité ou l’inclusion de Tf-idf. Nos expériences démontrent certaines lacunes dans l’état de l’art quant aux choix des métriques d’évaluation et au protocole d’entraînement. De plus, nous démontrons que l’utilisation de techniques simples permet d’obtenir des résultats meilleurs ou semblables à des méthodes sophistiquées nécessitant l’entraînement de modèles neuronaux. Nos expériences sont évaluées sur huit corpus issus de différents domaines. / Clustering is an unsupervised task of bringing similar elements in the same cluster and different elements in distinct groups. Text clustering is performed by representing texts in a vector space and studying their similarity in this space. The best results are obtained using neural models that fine-tune contextual embeddings in an unsupervised manner. However, these techniques require a significant amount of training time and their performance is not compared to simpler techniques that do not require training of neural models. In this master’s thesis, we propose a study of the current state of the art. First, we study the best evaluation metrics for text clustering. Then, we evaluate the state of the art and take a critical look at their training protocol. We also propose an analysis of some implementation choices in text clustering, such as the choice of clustering algorithm, similarity measure, contextual embeddings or unsupervised fine-tuning of the contextual embeddings. Finally, we test the combination of contextual embeddings with some techniques that don’t require training such as data preprocessing, dimensionality reduction or Tf-idf inclusion. Our experiments demonstrate some shortcomings in the state of the art regarding the choice of evaluation metrics and the training protocol. Furthermore, we demonstrate that the use of simple techniques yields better or similar results to sophisticated methods requiring the training of neural models. Our experiments are evaluated on eight benchmark datasets from different domains. Regroupement de textes représentation vectorielle contextuelle réduction de dimensionnalité apprentissage automatique SBERT Tf-idf UMAP TSDEA Text clustering Contextual word embedding Dimension reduction Machine learning Natural language processing
45	Traitement automatique du langage naturel pour les textes juridiques : prédiction de verdict et exploitation de connaissances du domaine Salaün, Olivier 12 1900 (has links) À l'intersection du traitement automatique du langage naturel et du droit, la prédiction de verdict ("legal judgment prediction" en anglais) est une tâche permettant de représenter la question de la justice prédictive, c'est-à-dire tester les capacités d'un système automatique à prédire le verdict décidé par un juge dans une décision de justice. La thèse présente de bout en bout la mise en place d'une telle tâche formalisée sous la forme d'une classification multilabel, ainsi que différentes stratégies pour tenter d'améliorer les performances des classifieurs. Le tout se base sur un corpus de décisions provenant du Tribunal administratif du logement du Québec (litiges entre propriétaires et locataires). Tout d'abord, un prétraitement préliminaire et une analyse approfondie du corpus permettent d'en tirer les aspects métier les plus saillants. Cette étape primordiale permet de s'assurer que la tâche de prédiction de verdict a du sens, et de mettre en relief des biais devant être pris en considération pour les tâches ultérieures. En effet, à l'issue d'un premier banc d'essai comparant différents modèles sur cette tâche, ces derniers tendent à exacerber des biais préexistant dans le corpus (p. ex. ils donnent encore moins gain de cause aux locataires par rapport à un juge humain). Fort de ce constat, la suite des expériences vise à améliorer les performances de classification et à atténuer ces biais, en se focalisant sur CamemBERT. Pour ce faire, des connaissances du domaine cible (droit du logement) sont exploitées. Une première approche consiste à employer des articles de loi comme données d'entrée qui font l'objet de différentes représentations, mais c'est cependant loin d'être la panacée. Une autre approche employant la modélisation thématique s'intéresse aux thèmes pouvant être extraits à partir du texte décrivant les faits litigieux. Une évaluation automatique et manuelle des thèmes obtenus démontre leur informativité vis-à-vis des motifs amenant des justiciables à se rendre au tribunal. Avec ce constat, la dernière partie de notre travail revisite une nouvelle fois la tâche de prédiction de verdict en s'appuyant à la fois sur des systèmes de recherche d'information (RI), et des thèmes associés aux décisions. Les modèles conçus ici ont la particularité de s'appuyer sur une jurisprudence (décisions passées pertinentes) récoltée selon différents critères de recherche (p. ex. similarité au niveau du texte et/ou des thèmes). Les modèles utilisant des critères de RI basés sur des sacs-de-mots (Lucene) et des thèmes obtiennent des gains significatifs en termes de scores F1 Macro. Cependant, le problème d'amplification des biais persiste encore bien qu'atténué. De manière globale, l'exploitation de connaissances du domaine permet d'améliorer les performances des prédicteurs de verdict, mais la persistance de biais dans les résultats décourage le déploiement de tels modèles à grande échelle dans le monde réel. D'un autre côté, les résultats de la modélisation thématique laissent entrevoir de meilleurs débouchés pour ce qui relève de l'accessibilité et de la lisibilité des documents juridiques par des utilisateurs humains. / At the intersection of natural language processing and law, legal judgment prediction is a task that can represent the problem of predictive justice, or in other words, the capacity of an automated system to predict the verdict decided by a judge in a court ruling. The thesis presents from end to end the implementation of such a task formalized as a multilabel classification, along with different strategies attempting to improve classifiers' performance. The whole work is based on a corpus of decisions from the Administrative housing tribunal of Québec (disputes between landlords and tenants). First of all, a preliminary preprocessing and an in-depth analysis of the corpus highlight its most prominent domain aspects. This crucial step ensures that the verdict prediction task is sound, and also emphasizes biases that must be taken into consideration for future tasks. Indeed, a first testbed comparing different models on this task reveals that they tend to exacerbate biases pre-existing within the corpus (i.e. their verdicts are even less favourable to tenants compared with a human judge). In light of this, the next experiments aim at improving classification performance and at mitigating these biases, by focusing on CamemBERT. In order to do so, knowledge from the target domain (housing law) are exploited. A first approach consists in employing articles of law as input features which are used under different representations, but such method is far from being a panacea. Another approach relying on topic modeling focuses on topics that can be extracted from the text describing the disputed facts. An automatic and manual evaluation of topics obtained shows evidence of their informativeness about reasons leading litigants to go to court. On this basis, the last part of our work revisits the verdict prediction task by relying on both information retrieval (IR) system, and topics assigned to decisions. The models designed here have the particularity to rely on jurisprudence (relevant past cases) retrieved with different search criteria (e.g. similarity at the text or topics level). Models using IR criteria based on bags-of-words (Lucene) and topics obtain significant gains in terms of Macro F1 scores. However, the aforementioned amplified biases issue, though mitigated, still remains. Overall, the exploitation of domain-related knowledge can improve the performance of verdict predictors, but the persistence of biases in the predictions hinders the deployment of such models on a large scale in the real world. On the other hand, results obtained from topic modeling suggest better prospects for anything that can improve the accessibility and readability of legal documents by human users. apprentissage automatique droit prédiction de verdict classification multilabel modélisation thématique recherche d'information machine learning natural language processing law legal judgment prediction multilabel classification topic modeling information retrieval
46	Conception dirigée par les modèles à l’aide de langages de modélisation hétérogènes : application aux profils UML / Model-driven engineering using heterogeneous modeling languages : application to UML profiles Noyrit, Florian 25 October 2012 (has links) Les divers intervenants qui décrivent, étudient et réalisent un système complexe ont besoin de points de vue adaptés à leurs préoccupations. Cependant, dans le contexte de l’Ingénierie Dirigée par les Modèles, les moyens pour définir et mettre en œuvre ces points de vue sont, soit trop rigides et inadaptées, soit totalement ad hoc. De plus, ces différents points de vue sont rarement indépendants les uns des autres. Dès lors, il faut s’attacher à identifier puis décrire les liens/les correspondances qui existent entre les points de vue pour enfin pouvoir vérifier que les réponses apportées par les différents intervenants constituent un tout cohérent.Les travaux exposés dans cette thèse permettent la définition de langages dédiés basés sur UML pour les points de vue. Pour cela, une méthode outillée qui analyse la sémantique des descriptions textuelles des concepts du domaine que l’on souhaite projeter sur UML est proposée afin de faciliter la définition de profils UML. Les résultats obtenus sur les cas d’études concrets étudiés sont encourageants et dépassent les résultats des outils existants. Pour définir des points de vue basés sur des profils UML, cette thèse propose une méthode qui permet au méthodologiste d’expliciter le point de vue voulu. Un outil génère ensuite l’outillage qui met en œuvre ce point de vue dans un environnement de modélisation ainsi que le langage dédié correspondant là où la pratique actuelle repose sur une mise en œuvre essentiellement manuelle.Pour assister l’identification des liens entre points de vue, cette thèse propose là aussi d’analyser la sémantique des descriptions textuelles des concepts des langages utilisés par les points de vue. Utilisée en complément des heuristiques syntaxiques existantes, l’approche proposée permet d’obtenir de bons résultats lorsque les terminologies des langages analysés sont éloignées. Un cadre théorique basé sur la théorie des catégories est proposé pour expliciter formellement les correspondances. Pour utiliser ce cadre, une catégorie pour les langages basés sur UML a été proposée. Afin de pouvoir également expliciter les correspondances entre les modèles issus de ces langages, la catégorie des ontologies OWL est utilisée. Une solution est proposée pour caractériser des correspondances plus complexes que la simple équivalence. Ce cadre théorique permet la définition formelle de relations complexes qui permettront de raisonner sur la cohérence de la description de l’architecture. Une fois la description de l’architecture intégrée en un tout en suivant les correspondances formalisées, la question de la cohérence est abordée. Les expérimentations faites sur un cas d’étude concret pour vérifier la cohérence à un niveau syntaxique donnent des résultats pratiques satisfaisants. Les expérimentations menées sur le même cas pour vérifier la cohérence à un niveau sémantique ne donnent pas de résultats pratiques satisfaisants. / The various stakeholders who describe study and implement a complex system require viewpoints that are dedicated to their concerns. However, in the context of Model-Driven Engineering, approaches to define and implement those viewpoints are either too rigid and inappropriate or completely ad hoc. In addition, those various viewpoints are rarely independent from each other. Therefore, we must strive to identify and describe the relationships/correspondences between the viewpoints in order to be able to verify that the parts of the solution given by the various stakeholders form a consistent whole.The work presented in this thesis provides a way to define dedicated languages based on UML for the viewpoints. For this, a method that analyzes the semantics of the textual descriptions of the concepts of the domain we want to map to UML has been implemented to facilitate the definition of UML profiles. The results we get on the concrete test cases we considered are encouraging and go beyond results of existing tools. To define a viewpoint based on some UML profiles, this thesis provides a method that lets the methodologist make explicit the viewpoint he/she wants. A tool can then generate the tooling that implements this viewpoint in a modeling environment together with the corresponding dedicated language while current practice is based on an implementation essentially manual.To assist the identification of relationships between the viewpoints, this thesis proposes again to analyze the semantics of textual descriptions of concepts of the languages used by the viewpoints. Used in combination with existing syntactic heuristics, the proposed approach provides good results when the terminologies of the languages that are analyzed are far apart. A theoretical framework based on category theory is provided to make explicit formally correspondences. To use this framework, a category for languages based on UML has been proposed. To be able to make explicit the correspondences between the models of those languages as well, the category of OWL ontologies is used. A solution is proposed to characterize correspondences that are more complex than the simple equivalence relationship. This theoretical framework provides a way to define formally complex relationships that can be used to verify the consistency of the architectural description. Once the description of the architecture has been integrated according to the formal correspondences, the issue of consistency is considered. The experiments carried out on a concrete test case to verify consistency on a syntactic perspective give satisfactory practical results. The experiments carried on the same test case to verify consistency on a semantic perspective don’t give satisfactory practical results. Langage de modélisation Langage spécialisé UML Profils UML Cadre architectural Points de vue Ingénierie dirigée par les modèles ISO42010 Modeling language Domain specific language UML UML profiles Architectural framework Viewpoint Natural language processing Model-Driven Engineering ISO42010
47	Expérimentation de la cartographie conceptuelle comme dispositif de collecte de données en vue de l’évaluation des apprentissages Morin, Maxim 08 1900 (has links) No description available. Carte conceptuelle Évaluation des apprentissages Verbalisation de la pensée Stratégies des élèves Analyse automatique de textes Notation de cartes conceptuelles Modèles de mesure Modèles de Rasch Concept map Educational assessment Think-aloud Students' strategies Automatic generation of concept map Text analysis Natural language processing Concept map scoring Measurement models Rasch models
48	Extraction de phrases parallèles à partir d’un corpus comparable avec des réseaux de neurones récurrents bidirectionnels Grégoire, Francis 12 1900 (has links) No description available. Extraction de phrases parallèles Traduction automatique Apprentissage profond Réseaux de neurones récurrents Corpus parallèle Corpus comparable Parallel sentence extraction Machine translation Natural language processing Deep learning Recurrent neural networks Parallel corpora Comparable corpora
49	Fouille de Textes : de l'extraction des descripteurs linguistiques à leur induction Roche, Mathieu 09 December 2011 (has links) (PDF) Les masses de données textuelles aujourd'hui disponibles engendrent un problème difficile lié à leur traitement automatique. Dans ce cadre, des méthodes de Fouille de Textes (FT) et de Traitement Automatique du Langage (TAL) peuvent, en partie, répondre à une telle problématique. Elles consistent à modéliser puis mettre en œuvre des méthodologies appliquées aux données textuelles afin d'en déterminer le sens et/ou découvrir des connaissances nouvelles. Dans ce processus, le descripteur linguistique constitue un élément pivot. Après une présentation des méthodes de traitement des descripteurs en eux-mêmes, ces derniers seront étudiés en contexte, c'est-à-dire en corpus. L'identification des descripteurs est souvent difficile à partir de corpus bruités et à faible contenu textuel sur lesquels nous concentrons nos efforts (par exemple, corpus issus du Web 2.0 ou du traitement OCR). Outre les mots considérés comme des descripteurs linguistiques pertinents en FT, nous nous sommes également intéressés à l'étude des syntagmes complexes à partir de corpus classiques puis d'une terminologie classique à partir de corpus complexes (par exemple, données logs ou corpus en français médiéval). Dans la suite, les syntagmes étudiés ne se situent plus à proprement parler dans les textes mais ils seront induits à partir des mots issus des corpus. Les méthodes proposées permettent de mettre en relief des syntagmes originaux tout à fait utiles pour l'identification d'Entités Nommées, le titrage automatique ou la construction de classes conceptuelles. Contrairement au raisonnement déductif, le raisonnement inductif est dit hypothétique. Dans ce cadre, l'utilisation de méthodes de validation automatique des relations induites par le biais d'approches de Fouille du Web se révèle déterminant. Les perspectives à ce travail se concentreront sur l'extraction de nouveaux descripteurs. Ces derniers seront associés à de nouvelles représentations sous forme d'entrepôts de données textuelles. Enfin, les travaux que nous souhaitons développer se focaliseront sur l'analyse des textes dans un contexte plus vaste lié au multimédia que le paradigme du Web 2.0 a mis en exergue ces dernières années. [INFO:INFO_WB] Computer Science/Web [INFO:INFO_WB] Informatique/Web Fouille de Textes Recherche d'Information
50	Un langage contrôlé pour les instructions nautiques du Service Hydographique et Océanographique de la Marine / A controlled language for the french national Hydrographic and Oceanographic Service Coast Pilot Books instructions nautiques Sauvage-Vincent, Julie 16 January 2017 (has links) Les langages contrôlés sont des langages artificiellement définis utilisant un sous-ensemble du vocabulaire, des formes morphologiques, des constructions syntaxiques d'une langue naturelle tout en en éliminant la polysémie. En quelque sorte, ils constituent le pont entre les langages formels et les langues naturelles. De ce fait, ils remplissent la fonction de communication du médium texte tout en étant rigoureux et analysables par la machine sans ambiguïté. En particulier, ils peuvent être utilisés pour faciliter l'alimentation de bases de connaissances, dans le cadre d'une interface homme-machine.Le Service Hydrographique et Océanographique de la Marine (SHOM) publie depuis 1971 les Instructions nautiques, des recueils de renseignements généraux, nautiques et réglementaires, destinés aux navigateurs. Ces ouvrages complètent les cartes marines. Elles sont obligatoires à bord des navires de commerce et de pêche. D'autre part, l'Organisation Hydrographique Internationale (OHI) a publié des normes spécifiant l'échange de données liées à la navigation et notamment un modèle universel de données hydrographiques (norme S-100, janvier 2010). Cette thèse se propose d'étudier l'utilisation d'un langage contrôlé pour représenter des connaissances contenues dans les Instructions nautiques, dans le but de servir de pivot entre la rédaction du texte par l'opérateur dédié, la production de l'ouvrage imprimé ou en ligne, et l'interaction avec des bases de connaissances et des outils d'aide à la navigation. En particulier on étudiera l'interaction entre le langage contrôlé des Instructions nautiques et les cartes électroniques correspondantes. Plus généralement, cette thèse se pose la question de l'évolution d'un langage contrôlé et des ontologies sous-jacentes dans le cadre d'une application comme les Instructions nautiques, qui ont la particularité d'avoir des aspects rigides (données numériques, cartes électroniques, législation) et des aspects nécessitant une certaine flexibilité (rédaction du texte par des opérateurs humains, imprévisibilité du type de connaissance à inclure par l'évolution des usages et des besoins des navigants). De manière similaire aux ontologies dynamiques que l'on rencontre dans certains domaines de connaissance, on définit ici un langage contrôlé dynamique. Le langage contrôlé décrit dans cette thèse constitue une contribution intéressante pour la communauté concernée puisqu'il touche au domaine maritime, domaine encore inexploité dans l'étude des langages contrôlés, mais aussi parce qu'il présente un aspect hybride, prenant en compte les multiples modes (textuel et visuel) présents dans le corpus constitué par les Instructions nautiques et les documents qu'elles accompagnent. Bien que créé pour le domaine de la navigation maritime, les mécanismes du langage contrôlé présentés dans cette thèse ont le potentiel pour être adaptés à d'autres domaines utilisant des corpus multimodaux. Enfin, les perspectives d'évolution pour un langage contrôlé hybride sont importantes puisqu'elles peuvent exploiter les différents avantages des modes en présence (par exemple, une exploitation de l'aspect visuel pour une extension 3D). / Controlled Natural Languages (CNL) are artificial languages that use a subset of the vocabulary, morphological forms and syntactical constructions of a natural language while eliminating its polysemy. In a way, they constitute the bridge between formal languages and natural languages. Therefore, they perform the communicative function of the textual mode while being precise and computable by the machine without any ambiguity. In particular, they can be used to facilitate the population or update of knowledge bases within the framework of a human-machine interface.Since 1971, the French Marine Hydrographic and Oceanographic Service (SHOM) issues the French Coast Pilot Books Instructions nautiques , collections of general, nautical and statutory information, intended for use by sailors. These publications aim to supplement charts, in the sense that they provide the mariner with supplemental information not in the chart. They are mandatory for fishing and commercial ships. On the other hand, the International Hydrographic Organization (IHO) issued standards providing information about navigational data exchange. Among these standards, one of a particular interest is the universal model of hydrographic data (S-100 standard, January, 2010).This thesis analyses the use of a CNL to represent knowledge contained in the Instructions nautiques. This CNL purpose is to act as a pivot between the writing of the text by the dedicated operator, the production of the printed or online publication, and the interaction with knowledge bases and navigational aid tools. We will focus especially on the interaction between the Instructions nautiques Controlled Natural Language and the corresponding Electronic Navigational Charts (ENC).More generally, this thesis asks the question of the evolution of a CNL and the underlying ontologies involved in the Instructions nautiques project. Instructions nautiques have the particularity of combining both strictness (numerical data, electronic charts, legislation) and a certain amount of flexibility (text writing by human operators, unpredictability of the knowledge to be included due to the evolution of sailors¿ practices and needs). We define in this thesis a dynamic CNL in the same way that dynamic ontologies are defined in particular domains. The language described in this thesis is intended as an interesting contribution for the community involved in CNL. Indeed, it addresses the creation of a CNL for the unexploited domain of maritime navigation, but its hybrid aspects as well through the exploration of the multiple modalities (textual and visual) coexisting in a corpus comprising ENC and their companion texts. The mechanisms of the CNL presented in this thesis, although developed for the domain of the maritime navigation, have the potential to be adapted to other domains using multimodal corpuses. Finally, the benefits in the future of a controlled hybrid language are undeniable: the use of the different modalities in their full potential can be used in many different applications (for example, the exploitation of the visual modality for a 3D extension). Langages contrôlés Langage contrôlé hybride Système d'information géographique Géomatique Instructions nautiques Intelligence artificielle Natural language processing Controlled natural language Controlled hybrid language Knowledge base Geographic information systems Maritime navigation Electronic Navigational Charts Coast pilot books Artificial intelligence 004

Search results