• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 17
  • 11
  • 1
  • Tagged with
  • 33
  • 33
  • 30
  • 24
  • 22
  • 22
  • 14
  • 12
  • 12
  • 10
  • 10
  • 10
  • 9
  • 9
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes / Uncertainty and imprecision management in a knowledge extraction process from unstructured texts

Jean, Pierre-Antoine 23 November 2017 (has links)
Les concepts de découverte et d’extraction de connaissances ainsi que d’inférencesont abordés sous différents angles au sein de la littérature scientifique. En effet, de nombreux domaines s’y intéressent allant de la recherche d’information, à l’implication textuelle en passant par les modèles d’enrichissement automatique des bases de connaissances. Ces concepts suscitent de plus en plus d’intérêt à la fois dans le monde académique et industriel favorisant le développement de nouvelles méthodes.Cette thèse propose une approche automatisée pour l’inférence et l’évaluation de connaissances basée sur l’analyse de relations extraites automatiquement à partir de textes. L’originalité de cette approche repose sur la définition d’un cadre tenant compte (i) de l’incertitude linguistique et de sa détection dans le langage naturel réalisée au travers d’une méthode d’apprentissage tenant compte d’une représentation vectorielle spécifique des phrases, (ii) d’une structuration des objets étudiés (e.g. syntagmes nominaux) sous la forme d’un ordre partiel tenant compte à la fois des implications syntaxiques et d’une connaissance a priori formalisée dans un modèle de connaissances de type taxonomique (iii) d’une évaluation des relations extraites et inférées grâce à des modèles de sélection exploitant une organisation hiérarchique des relations considérées. Cette organisation hiérarchique permet de distinguer différents critères en mettant en œuvre des règles de propagation de l’information permettant ainsi d’évaluer la croyance qu’on peut accorder à une relation en tenant compte de l’incertitude linguistique véhiculée. Bien qu’a portée plus large, notre approche est ici illustrée et évaluée au travers de la définition d’un système de réponse à un questionnaire, généré de manière automatique, exploitant des textes issus du Web. Nous montrons notamment le gain informationnel apporté par la connaissance a priori, l’impact des modèles de sélection établis et le rôle joué par l’incertitude linguistique au sein d’une telle chaîne de traitement. Les travaux sur la détection de l’incertitude linguistique et la mise en place de la chaîne de traitement ont été validés par plusieurs publications et communications nationales et internationales. Les travaux développés sur la détection de l’incertitude et la mise en place de la chaîne de traitement sont disponibles au téléchargement à l’adresse suivante : https ://github.com/PAJEAN/. / Knowledge discovery and inference are concepts tackled in different ways in the scientific literature. Indeed, a large number of domains are interested such as : information retrieval, textual inference or knowledge base population. Theses concepts are arousing increasing interest in both academic and industrial fields, promoting development of new methods.This manuscript proposes an automated approach to infer and evaluate knowledge from extracted relations in non-structured texts. Its originality is based on a novel framework making possible to exploit (i) the linguistic uncertainty thanks to an uncertainty detection method described in this manuscript (ii) a generated partial ordering of studied objects (e.g. noun phrases) taking into account of syntactic implications and a prior knowledge defined into taxonomies, and (iii) an evaluation step of extracted and inferred relations by selection models exploiting a specific partial ordering of relations. This partial ordering allows to compute some criteria in using information propagation rules in order to evaluate the belief associated to a relation in taking into account of the linguistic uncertainty. The proposed approach is illustrated and evaluated through the definition of a system performing question answering by analysing texts available on the Web. This case study shows the benefits of structuring processed information (e.g. using prior knowledge), the impact of selection models and the role of the linguistic uncertainty for inferring and discovering new knowledge. These contributions have been validated by several international and national publications and our pipeline can be downloaded at https ://github.com/PAJEAN/.
12

La représentation des documents par réseaux de neurones pour la compréhension de documents parlés / Neural network representations for spoken documents understanding

Janod, Killian 27 November 2017 (has links)
Les méthodes de compréhension de la parole visent à extraire des éléments de sens pertinents du signal parlé. On distingue principalement deux catégories dans la compréhension du signal parlé : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient. Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé. Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, les travaux de cette thèse montrent que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, nous proposons deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles. / Application of spoken language understanding aim to extract relevant items of meaning from spoken signal. There is two distinct types of spoken language understanding : understanding of human/human dialogue and understanding in human/machine dialogue. Given a type of conversation, the structure of dialogues and the goal of the understanding process varies. However, in both cases, most of the time, automatic systems have a step of speech recognition to generate the textual transcript of the spoken signal. Speech recognition systems in adverse conditions, even the most advanced one, produce erroneous or partly erroneous transcript of speech. Those errors can be explained by the presence of information of various natures and functions such as speaker and ambience specificities. They can have an important adverse impact on the performance of the understanding process. The first part of the contribution in this thesis shows that using deep autoencoders produce a more abstract latent representation of the transcript. This latent representation allow spoken language understanding system to be more robust to automatic transcription mistakes. In the other part, we propose two different approaches to generate more robust representation by combining multiple views of a given dialogue in order to improve the results of the spoken language understanding system. The first approach combine multiple thematic spaces to produce a better representation. The second one introduce new autoencoders architectures that use supervision in the denoising autoencoders. These contributions show that these architectures reduce the difference in performance between a spoken language understanding using automatic transcript and one using manual transcript.
13

From Information Extraction to Knowledge Discovery: Semantic Enrichment of Multilingual Content with Linked Open Data

De Wilde, Max 23 October 2015 (has links)
Discovering relevant knowledge out of unstructured text in not a trivial task. Search engines relying on full-text indexing of content reach their limits when confronted to poor quality, ambiguity, or multiple languages. Some of these shortcomings can be addressed by information extraction and related natural language processing techniques, but it still falls short of adequate knowledge representation. In this thesis, we defend a generic approach striving to be as language-independent, domain-independent, and content-independent as possible. To reach this goal, we offer to disambiguate terms with their corresponding identifiers in Linked Data knowledge bases, paving the way for full-scale semantic enrichment of textual content. The added value of our approach is illustrated with a comprehensive case study based on a trilingual historical archive, addressing constraints of data quality, multilingualism, and language evolution. A proof-of-concept implementation is also proposed in the form of a Multilingual Entity/Resource Combiner & Knowledge eXtractor (MERCKX), demonstrating to a certain extent the general applicability of our methodology to any language, domain, and type of content. / Découvrir de nouveaux savoirs dans du texte non-structuré n'est pas une tâche aisée. Les moteurs de recherche basés sur l'indexation complète des contenus montrent leur limites quand ils se voient confrontés à des textes de mauvaise qualité, ambigus et/ou multilingues. L'extraction d'information et d'autres techniques issues du traitement automatique des langues permettent de répondre partiellement à cette problématique, mais sans pour autant atteindre l'idéal d'une représentation adéquate de la connaissance. Dans cette thèse, nous défendons une approche générique qui se veut la plus indépendante possible des langues, domaines et types de contenus traités. Pour ce faire, nous proposons de désambiguïser les termes à l'aide d'identifiants issus de bases de connaissances du Web des données, facilitant ainsi l'enrichissement sémantique des contenus. La valeur ajoutée de cette approche est illustrée par une étude de cas basée sur une archive historique trilingue, en mettant un accent particulier sur les contraintes de qualité, de multilinguisme et d'évolution dans le temps. Un prototype d'outil est également développé sous le nom de Multilingual Entity/Resource Combiner & Knowledge eXtractor (MERCKX), démontrant ainsi le caractère généralisable de notre approche, dans un certaine mesure, à n'importe quelle langue, domaine ou type de contenu. / Doctorat en Information et communication / info:eu-repo/semantics/nonPublished
14

Cold-start recommendation : from Algorithm Portfolios to Job Applicant Matching / Démarrage à froid en recommandation : des portfolios d'algorithmes à l'appariement automatique d'offres et de chercheurs d'emploi

Gonard, François 31 May 2018 (has links)
La quantité d'informations, de produits et de relations potentielles dans les réseaux sociaux a rendu indispensable la mise à disposition de recommandations personnalisées. L'activité d'un utilisateur est enregistrée et utilisée par des systèmes de recommandation pour apprendre ses centres d'intérêt. Les recommandations sont également utiles lorsqu'estimer la pertinence d'un objet est complexe et repose sur l'expérience. L'apprentissage automatique offre d'excellents moyens de simuler l'expérience par l'emploi de grandes quantités de données.Cette thèse examine le démarrage à froid en recommandation, situation dans laquelle soit un tout nouvel utilisateur désire des recommandations, soit un tout nouvel objet est proposé à la recommandation. En l'absence de données d'intéraction, les recommandations reposent sur des descriptions externes. Deux problèmes de recommandation de ce type sont étudiés ici, pour lesquels des systèmes de recommandation spécialisés pour le démarrage à froid sont présentés.En optimisation, il est possible d'aborder le choix d'algorithme dans un portfolio d'algorithmes comme un problème de recommandation. Notre première contribution concerne un système à deux composants, un sélecteur et un ordonnanceur d'algorithmes, qui vise à réduire le coût de l'optimisation d'une nouvelle instance d'optimisation tout en limitant le risque d'un échec de l'optimisation. Les deux composants sont entrainés sur les données du passé afin de simuler l'expérience, et sont alternativement optimisés afin de les faire coopérer. Ce système a remporté l'Open Algorithm Selection Challenge 2017.L'appariement automatique de chercheurs d'emploi et d'offres est un problème de recommandation très suivi par les plateformes de recrutement en ligne. Une seconde contribution concerne le développement de techniques spécifiques pour la modélisation du langage naturel et leur combinaison avec des techniques de recommandation classiques afin de tirer profit à la fois des intéractions passées des utilisateurs et des descriptions textuelles des annonces. Le problème d'appariement d'offres et de chercheurs d'emploi est étudié à travers le prisme du langage naturel et de la recommandation sur deux jeux de données tirés de contextes réels. Une discussion sur la pertinence des différents systèmes de recommandations pour des applications similaires est proposée. / The need for personalized recommendations is motivated by the overabundance of online information, products, social connections. This typically tackled by recommender systems (RS) that learn users interests from past recorded activities. Another context where recommendation is desirable is when estimating the relevance of an item requires complex reasoning based on experience. Machine learning techniques are good candidates to simulate experience with large amounts of data.The present thesis focuses on the cold-start context in recommendation, i.e. the situation where either a new user desires recommendations or a brand-new item is to be recommended. Since no past interaction is available, RSs have to base their reasoning on side descriptions to form recommendations. Two of such recommendation problems are investigated in this work. Recommender systems designed for the cold-start context are designed.The problem of choosing an optimization algorithm in a portfolio can be cast as a recommendation problem. We propose a two components system combining a per-instance algorithm selector and a sequential scheduler to reduce the optimization cost of a brand-new problem instance and mitigate the risk of optimization failure. Both components are trained with past data to simulate experience, and alternatively optimized to enforce their cooperation. The final system won the Open Algorithm Challenge 2017.Automatic job-applicant matching (JAM) has recently received considerable attention in the recommendation community for applications in online recruitment platforms. We develop specific natural language (NL) modeling techniques and combine them with standard recommendation procedures to leverage past user interactions and the textual descriptions of job positions. The NL and recommendation aspects of the JAM problem are studied on two real-world datasets. The appropriateness of various RSs on applications similar to the JAM problem are discussed.
15

Modélisation du langage à l'aide de pénalités structurées / Modeling language with structured penalties

Nelakanti, Anil Kumar 11 February 2014 (has links)
La modélisation de la langue naturelle est l¿un des défis fondamentaux de l¿intelligence artificielle et de la conception de systèmes interactifs, avec applications dans les systèmes de dialogue, la génération de texte et la traduction automatique. Nous proposons un modèle log-linéaire discriminatif donnant la distribution des mots qui suivent un contexte donné. En raison de la parcimonie des données, nous proposons un terme de pénalité qui code correctement la structure de l¿espace fonctionnel pour éviter le sur-apprentissage et d¿améliorer la généralisation, tout en capturant de manière appropriée les dépendances à long terme. Le résultat est un modèle efficace qui capte suffisamment les dépendances longues sans occasionner une forte augmentation des ressources en espace ou en temps. Dans un modèle log-linéaire, les phases d¿apprentissage et de tests deviennent de plus en plus chères avec un nombre croissant de classes. Le nombre de classes dans un modèle de langue est la taille du vocabulaire, qui est généralement très importante. Une astuce courante consiste à appliquer le modèle en deux étapes: la première étape identifie le cluster le plus probable et la seconde prend le mot le plus probable du cluster choisi. Cette idée peut être généralisée à une hiérarchie de plus grande profondeur avec plusieurs niveaux de regroupement. Cependant, la performance du système de classification hiérarchique qui en résulte dépend du domaine d¿application et de la construction d¿une bonne hiérarchie. Nous étudions différentes stratégies pour construire la hiérarchie des catégories de leurs observations. / Modeling natural language is among fundamental challenges of artificial intelligence and the design of interactive machines, with applications spanning across various domains, such as dialogue systems, text generation and machine translation. We propose a discriminatively trained log-linear model to learn the distribution of words following a given context. Due to data sparsity, it is necessary to appropriately regularize the model using a penalty term. We design a penalty term that properly encodes the structure of the feature space to avoid overfitting and improve generalization while appropriately capturing long range dependencies. Some nice properties of specific structured penalties can be used to reduce the number of parameters required to encode the model. The outcome is an efficient model that suitably captures long dependencies in language without a significant increase in time or space requirements. In a log-linear model, both training and testing become increasingly expensive with growing number of classes. The number of classes in a language model is the size of the vocabulary which is typically very large. A common trick is to cluster classes and apply the model in two-steps; the first step picks the most probable cluster and the second picks the most probable word from the chosen cluster. This idea can be generalized to a hierarchy of larger depth with multiple levels of clustering. However, the performance of the resulting hierarchical classifier depends on the suitability of the clustering to the problem. We study different strategies to build the hierarchy of categories from their observations.
16

Microservices identification in existing applications using meta-heuristics optimization and machine learning

Barry, Hanifa 03 1900 (has links)
L’architecture en microservices met en évidence de multiples avantages pour les entreprises et les développeurs. Cela explique pourquoi de nombreuses entreprises technologiques choisissent de migrer leurs logiciels d’une architecture monolithique vers celle des microservices. Cependant, la migration d’un système monolithique ou d’un système hérité vers une architecture en microservices est une tâche complexe, risquée et chronophage. Pour faciliter et améliorer ce processus, notre travail se concentrera sur la conception d’une approche semiautomatique pour détecter et identifier les microservices dans les applications existantes. Il s’agit d’une étape clé vers l’objectif global de migrer un système monolithique vers des microservices. Notre approche consiste à combiner des méthodes de regroupement et d’optimisation de la proximité entre les dépendances structurelles à un niveau de granularité optimal. Dans ce projet, nous nous appuyons également sur plusieurs méthodes d’intelligence artificielle, en particulier des algorithmes d’apprentissage automatique, pour mettre en oeuvre notre approche. D’une part, nous effectuons l’extraction de dépendances et le regroupement. D’autre part, nous mettons en oeuvre des méthodes qui nous aideront à optimiser la proximité entre éléments constituant un microservice. Pour obtenir les scores de proximité, nous ciblons à la fois les relations sémantiques et les dépendances structurelles. L’analyse des graphes d’appels et des traces d’exécutions peut nous aider à générer les différentes connexions structurelles. En ce qui concerne les connexions sémantiques, nous pouvons tirer parti de techniques d’apprentissage de représentations numériques (embedding) telles que SBERT. / The microservices architecture highlights multiple benefits for companies and developers. This explains the reason why numerous tech companies choose to migrate their software from a monolithic architecture to one of microservices. However, migrating from a monolithic or a legacy system to a microservices architecture is a complex, risky, and time-consuming task. To ease and improve this process, our work will focus on designing a semi-automatic approach to detect and identify microservices in existing applications. This is a key step toward the overall goal of migrating a monolithic system toward microservices. Our approach consists in combining methods of clustering and optimization of proximity between structural dependencies at an optimal level of granularity. In this project, we rely on several Artificial Intelligence techniques as well, specifically Machine Learning algorithms, to implement our approach. On one hand, we are performing dependency extraction and clustering. On the other hand, we are implementing methods that will help us optimize the proximity. To obtain the proximity scores, we are targeting both semantic relationships and structural dependencies. Analyzing call graphs and execution traces can help us generate the different structural links or relations. As for the semantic connections, we can take advantage of highly useful embedding such as SBERT.
17

Le web social et le web sémantique pour la recommandation de ressources pédagogiques / Social Web and semantic Web for recommendation in e-learning

Ghenname, Mérième 02 December 2015 (has links)
Ce travail de recherche est conjointement effectué dans le cadre d’une cotutelle entre deux universités : en France l’Université Jean Monnet de Saint-Etienne, laboratoire Hubert Curien sous la supervision de Mme Frédérique Laforest, M. Christophe Gravier et M. Julien Subercaze, et au Maroc l’Université Mohamed V de Rabat, équipe LeRMA sous la supervision de Mme Rachida Ajhoun et Mme Mounia Abik. Les connaissances et les apprentissages sont des préoccupations majeures dans la société d’aujourd’hui. Les technologies de l’apprentissage humain visent à promouvoir, stimuler, soutenir et valider le processus d’apprentissage. Notre approche explore les opportunités soulevées en faisant coopérer le Web Social et le Web sémantique pour le e-learning. Plus précisément, nous travaillons sur l’enrichissement des profils des apprenants en fonction de leurs activités sur le Web Social. Le Web social peut être une source d’information très importante à explorer, car il implique les utilisateurs dans le monde de l’information et leur donne la possibilité de participer à la construction et à la diffusion de connaissances. Nous nous focalisons sur le suivi des différents types de contributions, dans les activités de collaboration spontanée des apprenants sur les réseaux sociaux. Le profil de l’apprenant est non seulement basé sur la connaissance extraite de ses activités sur le système de e-learning, mais aussi de ses nombreuses activités sur les réseaux sociaux. En particulier, nous proposons une méthodologie pour exploiter les hashtags contenus dans les écrits des utilisateurs pour la génération automatique des intérêts des apprenants dans le but d’enrichir leurs profils. Cependant les hashtags nécessitent un certain traitement avant d’être source de connaissances sur les intérêts des utilisateurs. Nous avons défini une méthode pour identifier la sémantique de hashtags et les relations sémantiques entre les significations des différents hashtags. Par ailleurs, nous avons défini le concept de Folksionary, comme un dictionnaire de hashtags qui pour chaque hashtag regroupe ses définitions en unités de sens. Les hashtags enrichis en sémantique sont donc utilisés pour nourrir le profil de l’apprenant de manière à personnaliser les recommandations sur le matériel d’apprentissage. L’objectif est de construire une représentation sémantique des activités et des intérêts des apprenants sur les réseaux sociaux afin d’enrichir leurs profils. Nous présentons également notre approche générale de recommandation multidimensionnelle dans un environnement d’e-learning. Nous avons conçu une approche fondée sur trois types de filtrage : le filtrage personnalisé à base du profil de l’apprenant, le filtrage social à partir des activités de l’apprenant sur les réseaux sociaux, et le filtrage local à partir des statistiques d’interaction de l’apprenant avec le système. Notre implémentation s’est focalisée sur la recommandation personnalisée / This work has been jointly supervised by U. Jean Monnet Saint Etienne, in the Hubert Curien Lab (Frederique Laforest, Christophe Gravier, Julien Subercaze) and U. Mohamed V Rabat, LeRMA ENSIAS (Rachida Ahjoun, Mounia Abik). Knowledge, education and learning are major concerns in today’s society. The technologies for human learning aim to promote, stimulate, support and validate the learning process. Our approach explores the opportunities raised by mixing the Social Web and the Semantic Web technologies for e-learning. More precisely, we work on discovering learners profiles from their activities on the social web. The Social Web can be a source of information, as it involves users in the information world and gives them the ability to participate in the construction and dissemination of knowledge. We focused our attention on tracking the different types of contributions, activities and conversations in learners spontaneous collaborative activities on social networks. The learner profile is not only based on the knowledge extracted from his/her activities on the e-learning system, but also from his/her many activities on social networks. We propose a methodology for exploiting hashtags contained in users’ writings for the automatic generation of learner’s semantic profiles. Hashtags require some processing before being source of knowledge on the user interests. We have defined a method to identify semantics of hashtags and semantic relationships between the meanings of different hashtags. By the way, we have defined the concept of Folksionary, as a hashtags dictionary that for each hashtag clusters its definitions into meanings. Semantized hashtags are thus used to feed the learner’s profile so as to personalize recommendations on learning material. The goal is to build a semantic representation of the activities and interests of learners on social networks in order to enrich their profiles. We also discuss our recommendation approach based on three types of filtering (personalized, social, and statistical interactions with the system). We focus on personalized recommendation of pedagogical resources to the learner according to his/her expectations and profile
18

Détection de textes générés automatiquement / Detection of automatically generated texts

Nguyen, Minh Tien 03 April 2018 (has links)
Le texte généré automatiquement a été utilisé dans de nombreuses occasions à des buts différents. Il peut simplement passer des commentaires générés dans une discussion en ligne à une tâche beaucoup plus malveillante, comme manipuler des informations bibliographiques. Ainsi, cette thèse introduit d'abord différentes méthodes pour générer des textes libres ayant trait à un certain sujet et comment ces textes peuvent être utilisés. Par conséquent, nous essayons d'aborder plusieurs questions de recherche. La première question est comment et quelle est la meilleure méthode pour détecter un document entièrement généré.Ensuite, nous irons un peu plus loin et montrer la possibilité de détecter quelques phrases ou un petit paragraphe de texte généré automatiquement en proposant une nouvelle méthode pour calculer la similarité des phrases en utilisant leur structure grammaticale. La dernière question est comment détecter un document généré automatiquement sans aucun échantillon, ceci est utilisé pour illustrer le cas d'un nouveau générateur ou d'un générateur dont il est impossible de collecter des échantillons dessus.Cette thèse étudie également l'aspect industriel du développement. Un aperçu simple d'un flux de travail de publication d'un éditeur de premier plan est présenté. À partir de là, une analyse est effectuée afin de pouvoir intégrer au mieux notre méthode de détection dans le flux de production.En conclusion, cette thèse a fait la lumière sur de multiples questions de recherche importantes concernant la possibilité de détecter des textes générés automatiquement dans différents contextes. En plus de l'aspect de la recherche, des travaux d'ingénierie importants dans un environnement industriel réel sont également réalisés pour démontrer qu'il est important d'avoir une application réelle pour accompagner une recherche hypothétique. / Automatically generated text has been used in numerous occasions with distinct intentions. It can simply go from generated comments in an online discussion to a much more mischievous task, such as manipulating bibliography information. So, this thesis first introduces different methods of generating free texts that resemble a certain topic and how those texts can be used. Therefore, we try to tackle with multiple research questions. The first question is how and what is the best method to detect a fully generated document.Then, we take it one step further to address the possibility of detecting a couple of sentences or a small paragraph of automatically generated text by proposing a new method to calculate sentences similarity using their grammatical structure. The last question is how to detect an automatically generated document without any samples, this is used to address the case of a new generator or a generator that it is impossible to collect samples from.This thesis also deals with the industrial aspect of development. A simple overview of a publishing workflow from a high-profile publisher is presented. From there, an analysis is carried out to be able to best incorporate our method of detection into the production workflow.In conclusion, this thesis has shed light on multiple important research questions about the possibility of detecting automatically generated texts in different setting. Besides the researching aspect, important engineering work in a real life industrial environment is also carried out to demonstrate that it is important to have real application along with hypothetical research.
19

Recherche d'information clinomique dans le Dossier Patient Informatisé : modélisation, implantation et évaluation. / Clinomics Information Retrieval in Electronic Health Records : Modelling, Implantation and Evaluation

Cabot, Chloé 21 December 2017 (has links)
Les objectifs de cette thèse s’inscrivent dans la large problématique de recherche d’information dans les données issues du Dossier Patient Informatisé (DPI). Les aspects abordés dans cette problématique sont multiples : d’une part la mise en oeuvre d’une recherche d’information clinomique au sein du DPI et d’autre part la recherche d’information au sein de données non structurées issues du DPI. Dans un premier temps, l’un des objectifs de cette thèse est d’intégrer au sein du DPI des informations dépassant le cadre de la médecine pour intégrer des données, informations et connaissances provenant de la biologie moléculaire ; les données omiques, issues de la génomique, protéomique ou encore métabolomique. L’intégration de ce type de données permet d’améliorer les systèmes d’information en santé, leur interopérabilité ainsi que le traitement et l’exploitation des données à des fins cliniques. Un enjeu important est d’assurer l’intégration de données hétérogènes, grâce à des recherches sur les modèles conceptuels de données, sur les ontologies et serveurs terminologiques et sur les entrepôts sémantiques. L’intégration de ces données et leur interprétation selon un même modèle de données conceptuel sont un verrou important. Enfin, il est important d’intégrer recherche clinique et recherche fondamentale afin d’assurer une continuité des connaissances entre recherche et pratique clinique et afin d’appréhender la problématique de personnalisation des soins. Cette thèse aboutit ainsi à la conception et au développement d’un modèle générique des données omiques exploité dans une application prototype de recherche et visualisation dans les données omiques et cliniques d’un échantillon de 2 000 patients. Le second objectif de ma thèse est l’indexation multi terminologique de documents médicaux à travers le développement de l’outil Extracteur de Concepts Multi-Terminologique (ECMT). Il exploite les terminologies intégrées au portail terminologique Health Terminology/Ontology Portal (HeTOP) pour identifier des concepts dans des documents non structurés. Ainsi, à partir d’un document rédigé par un humain, et donc porteur potentiellement d’erreurs de frappe, d’orthographe ou de grammaire,l’enjeu est d’identifier des concepts et ainsi structurer l’information contenue dans le document. Pour la recherche d’information médicale, l’indexation présente un intérêt incontournable pour la recherche dans les documents non structurés, comme lescomptes-rendus de séjour ou d’examens. Cette thèse propose plusieurs méthodes et leur évaluation suivant deux axes : l’indexation de textes médicaux à l’aide de plusieurs terminologies et le traitement du langage naturel dans les textes médicaux narratifs. / The aim of this thesis is part of the broad issue of information retrieval in Electronic Health Records (EHRs). The aspects tackled in this topic are numerous : on the one hand clinomics information retrieval within EHRs and secondly information retrieval within unstructured data from EHRs. As a first step, one of the objectives is to integrate in EHRs information beyond the scope of medicine to integrate data, information and knowledge from molecular biology ; omic data from genomics, proteomics or metabolomics. The integration of this type of data improves health information systems, their interoperability and the processing and exploitation of data for clinical purposes. An important challenge is to ensure the integration of heterogeneous data, through research on conceptual models of data, ontology and terminology servers, and semantic data warehouses. The integration of this data and their interpretation into a conceptual data model is an important challenge. Finally, it is important to integrate clinical research and fundamental research in order to ensure continuity of knowledge between research and clinical practice and to understand personalized medicine challenges. This thesis thus leads to the design and development of a generic model of omics data exploited in a prototype application for information retrieval and visualization in omic and clinical data within a sample of 2,000 patients. The second objective of this thesis is the multi-terminological indexing of medical documents through the development of the Extracting Concepts with Multiple Terminologies tool (ECMT). It uses terminologies embedded in the Health Terminology/Ontology Portal (HeTOP) to identify concepts in unstructured documents. From a document written by a human, and therefore potentially showing typing errors, spelling or grammar mistakes, the challenge is to identify concepts and thus structure the information contained in the text. In health information retrieval, indexing is of great interest for information retrieval in unstructured documents, such as reports and medical notes. This thesis proposes several methods and their evaluation along two axes : the indexing of medical texts using several terminologies and the processing of natural language in narrative medical notes.
20

Grounding the interaction : knowledge management for interactive robots / Ancrer l’interaction : Gestion des connaissances pour la robotique interactive

Lemaignan, Severin 17 July 2012 (has links)
Avec le développement de la robotique cognitive, le besoin d’outils avancés pour représenter, manipuler, raisonner sur les connaissances acquises par un robot a clairement été mis en avant. Mais stocker et manipuler des connaissances requiert tout d’abord d’éclaircir ce que l’on nomme connaissance pour un robot, et comment celle-ci peut-elle être représentée de manière intelligible pour une machine. Ce travail s’efforce dans un premier temps d’identifier de manière systématique les besoins en terme de représentation de connaissance des applications robotiques modernes, dans le contexte spécifique de la robotique de service et des interactions homme-robot. Nous proposons une typologie originale des caractéristiques souhaitables des systèmes de représentation des connaissances, appuyée sur un état de l’art détaillé des outils existants dans notre communauté. Dans un second temps, nous présentons en profondeur ORO, une instanciation particulière d’un système de représentation et manipulation des connaissances, conçu et implémenté durant la préparation de cette thèse. Nous détaillons le fonctionnement interne du système, ainsi que son intégration dans plusieurs architectures robotiques complètes. Un éclairage particulier est donné sur la modélisation de la prise de perspective dans le contexte de l’interaction, et de son interprétation en terme de théorie de l’esprit. La troisième partie de l’étude porte sur une application importante des systèmes de représentation des connaissances dans ce contexte de l’interaction homme-robot : le traitement du dialogue situé. Notre approche et les algorithmes qui amènent à l’ancrage interactif de la communication verbale non contrainte sont présentés, suivis de plusieurs expériences menées au Laboratoire d’Analyse et d’Architecture des Systèmes au CNRS à Toulouse, et au groupe Intelligent Autonomous System de l’université technique de Munich. Nous concluons cette thèse sur un certain nombre de considérations sur la viabilité et l’importance d’une gestion explicite des connaissances des agents, ainsi que par une réflexion sur les éléments encore manquant pour réaliser le programme d’une robotique “de niveau humain” / With the rise of the so-called cognitive robotics, the need of advanced tools to store, manipulate, reason about the knowledge acquired by the robot has been made clear. But storing and manipulating knowledge requires first to understand what the knowledge itself means to the robot and how to represent it in a machine-processable way. This work strives first at providing a systematic study of the knowledge requirements of modern robotic applications in the context of service robotics and human-robot interaction. What are the expressiveness requirement for a robot? what are its needs in term of reasoning techniques? what are the requirement on the robot's knowledge processing structure induced by other cognitive functions like perception or decision making? We propose a novel typology of desirable features for knowledge representation systems supported by an extensive review of existing tools in our community. In a second part, the thesis presents in depth a particular instantiation of a knowledge representation and manipulation system called ORO, that has been designed and implemented during the preparation of the thesis. We elaborate on the inner working of this system, as well as its integration into several complete robot control stacks. A particular focus is given to the modelling of agent-dependent symbolic perspectives and their relations to theories of mind. The third part of the study is focused on the presentation of one important application of knowledge representation systems in the human-robot interaction context: situated dialogue. Our approach and associated algorithms leading to the interactive grounding of unconstrained verbal communication are presented, followed by several experiments that have taken place both at the Laboratoire d'Analyse et d'Architecture des Systèmes at CNRS, Toulouse and at the Intelligent Autonomous System group at Munich Technical University. The thesis concludes on considerations regarding the viability and importance of an explicit management of the agent's knowledge, along with a reflection on the missing bricks in our research community on the way towards "human level robots"

Page generated in 0.1267 seconds