Global ETD Search

111	Partitioning Ontologies for Aligning Large Ontologies Pereira, Sunny Lucas 03 November 2017 (has links) No description available. Computer Science
112	What makes leaders think war? Foreign military intervention decision making in post-cold war Germany Martinson, Jeffrey D. 02 December 2005 (has links) No description available. Democrats ontologies German realist universalist Christian Democrats ontology
113	Development of an ontology of animals in context within the OBO Foundry framework from a SNOMED-CT extension and subset Santamaria, Suzanne Lamar 05 June 2012 (has links) Animal classification needs vary by use and application. The Linnaean taxonomy is an important animal classification scheme but does not portray key animal identifying information like sex, age group, physiologic stage, living environment and role in production systems such as farms. Ontologies are created and used for defining, organizing and classifying information in a domain to enable learning and sharing of information. This work develops an ontology of animal classes that form the basis for communication of animal identifying information among animal managers, medical professionals caring for animals and biomedical researchers involved in disciplines as diverse as wildlife ecology and dairy science. The Animals in Context Ontology (ACO) was created from an extension and subset of the Systematized Nomenclature of Medicine — Clinical Terms (SNOMED-CT). The principles of the Open Biological and Biomedical Ontologies (OBO) Foundry were followed and freely available tools were used. ACO includes normal development and physiologic animal classes as well animal classes where humans have assigned the animal's role. ACO is interoperable with and includes classes from other OBO Foundry ontologies such as the Gene Ontology (GO). Meeting many of the OBO Foundry principles was straightforward but difficulties were encountered with missing and problematic content in some of the OBO ontologies. Additions and corrections were submitted to four ontologies. Some information in ACO could not be represented formally because of inconsistency in husbandry practices. ACO classes are of interest to science, medicine and agriculture, and can connect information between animal and human systems to enable knowledge discovery. / Master of Science veterinary informatics animals in context biomedical ontologies OBO SNOMED-CT
114	Recherche d'information sémantique et extraction automatique d'ontologie du domaine Morneau, Maxime 12 April 2018 (has links) Il peut s'avérer ardu, même pour une organisation de petite taille, de se retrouver parmi des centaines, voir des milliers de documents électroniques. Souvent, les techniques employées par les moteurs de recherche dans Internet sont utilisées par les entreprises voulant faciliter la recherche d'information dans leur intranet. Ces techniques reposent sur des méthodes statistiques et ne permettent pas de traiter la sémantique contenue dans la requête de l'usager ainsi que dans les documents. Certaines approches ont été développées pour extraire cette sémantique et ainsi, mieux répondre à des requêtes faites par les usagers. Par contre, la plupart de ces techniques ont été conçues pour s'appliquer au Web en entier et non pas sur un domaine en particulier. Il pourrait être intéressant d'utiliser une ontologie pour représenter un domaine spécifique et ainsi, être capable de mieux répondre aux questions posées par un usager. Ce mémoire présente notre approche proposant l'utilisation du logiciel Text- To-Onto pour créer automatiquement une ontologie décrivant un domaine. Cette même ontologie est par la suite utilisée par le logiciel Sesei, qui est un filtre sémantique pour les moteurs de recherche conventionnels. Cette méthode permet ainsi d'améliorer la pertinence des documents envoyés à l'usager. / It can prove to be diffcult, even for a small size organization, to find information among hundreds, even thousands of electronic documents. Most often, the methods employed by search engines on the Internet are used by companies wanting to improve information retrieval on their intranet. These techniques rest on statistical methods and do not make it possible neither to evaluate the semantics contained in the user requests, nor in the documents. Certain methods were developed to extract this semantics and thus, to improve the answer given to requests. On the other hand, the majority of these techniques were conceived to be applied on the entire World Wide Web and not on a particular field of knowledge, like corporative data. It could be interesting to use domain specific ontologies in trying to link a specific query to related documents and thus, to be able to better answer these queries. This thesis presents our approach which proposes the use of the Text-To-Onto software to automatically create an ontology describing a particular field. Thereafter, this ontology is used by the Sesei software, which is a semantic filter for conventional search engines. This method makes it possible to improve the relevance of documents returned to the user. QA 76.05 UL 2006 Ontologies (Recherche de l'information) Recherche documentaire automatisée
115	Modélisation de la sémantique lexicale dans le cadre de la théorie des types / Modelling lexical semantics in a type-theoretic framework Mery, Bruno 05 July 2011 (has links) Le présent manuscrit constitue la partie écrite du travail de thèse réalisé par Bruno Mery sous la direction de Christian Bassac et Christian Retoré entre 2006 et 2011, portant sur le sujet "Modélisation de la sémantique lexicale dans la théorie des types". Il s'agit d'une thèse d'informatique s'inscrivant dans le domaine du traitement automatique des langues, et visant à apporter un cadre formel pour la prise en compte, lors de l'analyse sémantique de la phrase, d'informations apportées par chacun des mots.Après avoir situé le sujet, cette thèse examine les nombreux travaux l'ayant précédée et s'inscrit dans la tradition du lexique génératif. Elle présente des exemples de phénomènes à traiter, et donne une proposition de système de calcul fondée sur la logique du second ordre. Elle examine ensuite la validité de cette proposition par rapport aux exemples et aux autres approches déjà formalisées, et relate une implémentation de ce système. Enfin, elle propose une brève discussion des sujets restant en suspens. / This paper is part of the thesis by Bruno Mery advised by Christian Bassac and Christian Retore in the years 2006-2011, on the topic "Modelling lexical semantics in a type-theoretic framework''. It is a doctoral thesis in computer science, in the area of natural language processing, aiming to bring forth a formal framework that takes into account, in the parsing of the semantics of a sentence, of lexical data.After a discussion of the topic, this thesis reviews the many works perceding it and adopts the tradition of the generative lexicon. It presents samples of data to account for, and gives a proposal for a calculus system based upon a second-order logic. It afterwards reviews the validity of this proposal, coming back to the data samples and the other formal approaches, and gives an implementation of that system. At last, it engages in a short discussion of the remaining questions. Lexique Génératif Ontologies Sémantique compositionnelle Lambda-calcul du second ordre Generative Lexicon Ontologies Compositional semantics Second-order Lambda calculus
116	Utilisation d'ontologies comme support à la recherche et à la navigation dans une collection de documents / ONTOLOGY BASED INFORMATION RETRIEVAL Sy, Mohameth François 11 December 2012 (has links) Les ontologies offrent une modélisation des connaissances d'un domaine basée sur une hiérarchie des concepts clefs de ce domaine. Leur utilisation dans le cadre des Systèmes de Recherche d'Information (SRI), tant pour indexer les documents que pour exprimer une requête, permet notamment d'éviter les ambiguïtés du langage naturel qui pénalisent les SRI classiques. Les travaux de cette thèse portent essentiellement sur l'utilisation d'ontologies lors du processus d'appariement durant lequel les SRI ordonnent les documents d'une collection en fonction de leur pertinence par rapport à une requête utilisateur. Nous proposons de calculer cette pertinence à l'aide d'une stratégie d'agrégation de scores élémentaires entre chaque document et chaque concept de la requête. Cette agrégation, simple et intuitive, intègre un modèle de préférences dépendant de l'utilisateur et une mesure de similarité sémantique associée à l'ontologie. L'intérêt majeur de cette approche est qu'elle permet d'expliquer à l'utilisateur pourquoi notre SRI, OBIRS, estime que les documents qu'il a sélectionnés sont pertinents. Nous proposons de renforcer cette justification grâce à une visualisation originale où les résultats sont représentés par des pictogrammes, résumant leurs pertinences élémentaires, puis disposés sur une carte sémantique en fonction de leur pertinence globale. La Recherche d'Information étant un processus itératif, il est nécessaire de permettre à l'utilisateur d'interagir avec le SRI, de comprendre et d'évaluer les résultats et de le guider dans sa reformulation de requête. Nous proposons une stratégie de reformulation de requêtes conceptuelles basée sur la transposition d'une méthode éprouvée dans le cadre de SRI vectoriels. La reformulation devient alors un problème d'optimisation utilisant les retours faits par l'utilisateur sur les premiers résultats proposés comme base d'apprentissage. Nous avons développé une heuristique permettant de s'approcher d'une requête optimale en ne testant qu'un sous-espace des requêtes conceptuelles possibles. Nous montrons que l'identification efficace des concepts de ce sous-espace découle de deux propriétés qu'une grande partie des mesures de similarité sémantique vérifient, et qui suffisent à garantir la connexité du voisinage sémantique d'un concept.Les modèles que nous proposons sont validés tant sur la base de performances obtenues sur des jeux de tests standards, que sur la base de cas d'études impliquant des experts biologistes. / Domain ontologies provide a knowledge model where the main concepts of a domain are organized through hierarchical relationships. In conceptual Information Retrieval Systems (IRS), where they are used to index documents as well as to formulate a query, their use allows to overcome some ambiguities of classical IRSs based on natural language processes.One of the contributions of this study consists in the use of ontologies within IRSs, in particular to assess the relevance of documents with respect to a given query. For this matching process, a simple and intuitive aggregation approach is proposed, that incorporates user dependent preferences model on one hand, and semantic similarity measures attached to a domain ontology on the other hand. This matching strategy allows justifying the relevance of the results to the user. To complete this explanation, semantic maps are built, to help the user to grasp the results at a glance. Documents are displayed as icons that detail their elementary scores. They are organized so that their graphical distance on the map reflects their relevance to a query represented as a probe. As Information Retrieval is an iterative process, it is necessary to involve the users in the control loop of the results relevancy in order to better specify their information needs. Inspired by experienced strategies in vector models, we propose, in the context of conceptual IRS, to formalize ontology based relevance feedback. This strategy consists in searching a conceptual query that optimizes a tradeoff between relevant documents closeness and irrelevant documents remoteness, modeled through an objective function. From a set of concepts of interest, a heuristic is proposed that efficiently builds a near optimal query. This heuristic relies on two simple properties of semantic similarities that are proved to ensure semantic neighborhood connectivity. Hence, only an excerpt of the ontology dag structure is explored during query reformulation.These approaches have been implemented in OBIRS, our ontological based IRS and validated in two ways: automatic assessment based on standard collections of tests, and case studies involving experts from biomedical domain. Ontologies Cartes sémantiques Distance sémantique Recherche d'Information Visualisation Reformulation Ontologies Semantic maps Semantic distances Information Retrieval Visualization Relevance feedback
117	Ontologies dans les images satellitaires : interprétation sémantique des images / Ontologies for semantic interpretation of satellite images Andrés, Samuel 13 December 2013 (has links) Étant donnée l'évolution technologique des capteurs embarqués à bord des satellites, le potentiel d'images satellitaires accessible s'accroît de telle manière que se pose maintenant la question de son exploitation la plus efficace possible. C'est l'objectif du projet CARTAM-SAT que de fluidifier la chaîne de traitement depuis les satellites jusqu'aux utilisateurs des images. La thèse s'inscrit dans ce cadre. Les traitements relatifs aux images ont évolué au cours des années. Les images basse résolution étaient traitées par une approche dite pixel alors que la haute résolution a permis le développement d'une approche dite objet. Cette dernière s'attache à analyser non plus des pixels isolés, mais des groupes de pixels représentatifs d'objets concrets sur le terrain. Ainsi, en principe, ces groupes de pixels sont dotés d'une sémantique propre au domaine de la télédétection. La représentation des connaissances a évolué parallèlement aux images satellitaires. Les standards de représentation ont profité de l'expansion du web pour donner naissance à des standards comme OWL. Celui-ci repose en grande partie sur les logiques de description qui permettent l'utilisation de raisonneurs automatiques capables d'inférer une connaissance implicite.Cette thèse se place à la jonction de ces deux sciences et propose une approche ontologique d'analyse des images satellitaires. Il s'agit de formaliser différents types de connaissances et de conceptualisations implicitement utilisés par les logiciels de traitement d'image et par les experts en télédétection, puis de raisonner automatiquement sur la description d'une image pour en obtenir une interprétation sémantique.Ce principe général est susceptible de nombreuses déclinaisons techniques. La mise en œuvre a consisté en la réalisation d'un prototype alliant une bibliothèque d'analyse d'images satellitaires et un raisonneur basé sur les ontologies. L'implémentation proposée dans la thèse permet d'explorer quatre déclinaisons techniques du principe qui mènent à des discussions sur la complémentarité des paradigmes d'analyse pixel et objet, la représentation de certaines relations spatiales et la place de la connaissance par rapport aux traitements. / Given the technological development of embedded satellite sensors, the potential of available satellite images increases so that the question now arises of their most efficient exploitation possible. This is the purpose of the CARTAM-SAT project to fluidize the processing workflow from satellite images to users. The thesis is part of this framework.Processing operations relating to images have evolved over the years. Low-resolution images were processed by a so-called pixel approach while the high-resolution has allowed the development of a so-called object approach. The latter focuses on analysing not about the isolated pixels, but about groups of pixels representative of concrete objects on the ground. Thus, in principle, these are groups of pixels with a domain-specific remote sensing semantics.Along with satellite imagery, knowledge representation has evolved. The standards of representation have benefited from the expansion of the web to give rise to standards like OWL. This one is widely based on description logics that allow the use of automated reasoners able to infer implicit knowledge.This thesis is at the junction of these two sciences and provides an ontological approach for analysing satellite images. The aim is to formalize different types of knowledges and conceptualizations implicitly used by image processing programs and by remote sensing experts, and then reasoning automatically on an image description to obtain one semantic interpretation.This general principle may have numerous technical variations. The implementation consisted in a prototype combining a satellite image analysis library and an ontology-based reasoner. The implementation proposed in the thesis allows to explore four technical variations of the principle that lead to discussions on the complementarity of pixel and object analysis paradigms, the representation of some of the spatial relations and the role of knowledge in relation to processing. Fossé sémantique Images satellitaires Ontologies Télédétection Connaissance Géomatique Semantic gap Satellite image Ontologies Remote sensing Knowledge Geomatics
118	Méthodes sémantiques pour la comparaison inter-espèces de voies métaboliques : application au métabolisme des lipides chez l'humain, la souris et la poule / Semantic methods for the cross-species metabolic pathways comparison : application to human, mice and chicken lipid metabolism Bettembourg, Charles 16 December 2013 (has links) La comparaison inter-espèces de voies métaboliques est une problématique importante en biologie. Actuellement, les connaissances sont générées à partir d'expériences sur un nombre relativement limité d'espèces dites modèles. Mieux connaître une espèce permet de valider ou non une inférence faite à partir de ces données expérimentales et de déterminer si ou dans quelle mesure des résultats obtenus sur une espèce modèle peuvent être transposés à une autre espèce. Cette thèse propose une méthode de comparaison inter-espèces de voies métaboliques. Elle compare chaque étape d'une voie métabolique en exploitant les annotations dans Gene Ontology qui leur sont associées. Ce travail valide l'intérêt des mesures de similarités sémantiques pour interpréter ces annotations, propose d'utiliser conjointement une mesure de particularité sémantique et propose une méthode basée sur des motifs de similarité et de particularité pour interpréter chaque étape de voie métabolique. De nombreuses mesures sémantiques quantifient la similarité entre des produits de gènes en fonction des annotations qu'ils ont en commun. Nous en avons identifié et utilisé une adaptée à la problématique de comparaison inter-espèces. En se focalisant sur la part commune aux produits de gènes comparés, les mesures de similarité sémantiques ignorent les caractéristiques spécifiques d'un seul produit de gène. Or la comparaison inter-espèces de voies métaboliques se doit de quantifier non seulement la similarité des produits de gènes qui interviennent dans celles-ci, mais également leurs particularités. Nous avons développé une mesure de particularité sémantique répondant à cette problématique. Pour chaque étape de voie métabolique, nous calculons un profil composé de sa valeur de similarité et de ses deux valeurs de particularité sémantiques. Il n'est pas possible d'établir formellement que deux produits de gènes sont similaires ou que l'un d'eux a des particularités significatives sans disposer d'un seuil de similarité et d'un seuil de particularité. Jusqu'à présent, ces interprétations se faisaient sur la base d'un seuil implicite ou arbitraire. Pour combler ce manque, nous avons développé une méthode de définition de seuils pour les mesures de similarité et de particularité sémantiques. Nous avons enfin appliqué une mesure de similarité inter-espèces et notre mesure de particularité pour comparer le métabolisme des lipides entre l'Homme, la souris et la poule. Nous avons pu interpréter les résultats à l'aide des seuils que nous avions définis. Chez les trois espèces, des particularités ont pu être observées, y compris au niveau de produits de gènes similaires. Elles concernent notamment des processus biologiques et des composants cellulaires. Les fonctions moléculaires présentent une forte similarité et peu de particularités. Ces résultats sont biologiquement pertinents. / Cross-species comparison of metabolic pathways is an important task in biology. It is a major stake for both human health and agronomy. Currently, knowledge is acquired from some experiments on a relatively low number of species referred to as ``models''. A better understanding of a species determines whether to validate or not an inference made from these experimental data. It also determines whether or to what extent results obtained on model species can be transposed to another species. This thesis proposes a cross-species metabolic pathways comparison method. Our method compares each step of a metabolic pathway using the associated Gene Ontology annotations. This work validates the interest of the semantic similarity measures for interpreting these annotations, proposes to use jointly a semantic particularity measure and proposes a method based on similarity and particularity patterns to interpret each metabolic pathway step. Several gene products are involved throughout a metabolic pathway. They are associated to some annotations in order to describe their biological roles. Based on a shared ontology, these annotations allow to compare data from different species and to take into account several level of abstraction. Several semantic measures quantifying the similarity between gene products from their annotations have been developed previously. We have identified and used a semantic similarity measure appropriate for cross-species comparisons. Because they focus on the common part of the compared gene products, the semantic similarity measures ignore their specific characteristics. Therefore, cross-species metabolic pathways comparison has to quantify not only the similarity of the gene products involved, but also their particularity. We have developed a semantic particularity measure addressing this issue. For each pathway step, we proposed to create a profile combining its semantic similarity and its two semantic particularity values. Concerning the results interpretation, it is not possible to establish formally that two gene products are similar or that one of them have some significant particularities without having a similarity threshold and a particularity threshold. So far, these interpretations were based on an implicit or an arbitrary threshold. To address this gap, we developed a threshold definition method for the semantic similarity and particularity measures. We last applied a cross-species similarity measure and our particularity measure to compare the lipid metabolism between human, mice and chicken. We then interpreted the results using the previously defined thresholds. In all three species, we observed some particularities, including on similar genes. They concerned notably some biological processes and cellular components. The molecular functions present a strong similarity and few particularities. These results are biologically relevant. Bio-informatique Ontologies Sémantique Génétique Gene Ontology Voies métaboliques Computational Biology Ontologies Semantics Genetics Gene Ontology Metabolic pathways
119	Forage des données et formalisation des connaissances sur un accident : Le cas Deepwater Horizon / Data drilling and formalization of knowledge related to an accident : The Deepwater Horizon case Eude, Thibaut 18 December 2018 (has links) Le forage de données, méthode et moyens développés dans cette thèse, redéfinit le processus d’extraction de données, de la formalisation de la connaissance et de son enrichissement notamment dans le cadre de l’élucidation d’évènements qui n’ont pas ou peu été documentés. L’accident de la plateforme de forage Deepwater Horizon, opérée pour le compte de BP dans le Golfe du Mexique et victime d’un blowout le 20 avril 2010, sera notre étude de cas pour la mise en place de notre preuve de concept de forage de données. Cet accident est le résultat d’un décalage inédit entre l’état de l’art des heuristiques des ingénieurs de forage et celui des ingénieurs antipollution. La perte de contrôle du puits MC 252-1 est donc une faillite d’ingénierie et il faudra quatre-vingt-sept jours à l’équipe d’intervention pour reprendre le contrôle du puits devenu sauvage et stopper ainsi la pollution. Deepwater Horizon est en ce sens un cas d’ingénierie en situation extrême, tel que défini par Guarnieri et Travadel.Nous proposons d’abord de revenir sur le concept général d’accident au moyen d’une analyse linguistique poussée présentant les espaces sémantiques dans lesquels se situe l’accident. Cela permet d’enrichir son « noyau de sens » et l’élargissement de l’acception commune de sa définition.Puis, nous amenons que la revue de littérature doit être systématiquement appuyée par une assistance algorithmique pour traiter les données compte tenu du volume disponible, de l’hétérogénéité des sources et des impératifs d’exigences de qualité et de pertinence. En effet, plus de huit cent articles scientifiques mentionnant cet accident ont été publiés à ce jour et une vingtaine de rapports d’enquêtes, constituant notre matériau de recherche, ont été produits. Notre méthode montre les limites des modèles d’accidents face à un cas comme Deepwater Horizon et l’impérieuse nécessité de rechercher un moyen de formalisation adéquat de la connaissance.De ce constat, l’utilisation des ontologies de haut niveau doit être encouragée. L’ontologie DOLCE a montré son grand intérêt dans la formalisation des connaissances à propos de cet accident et a permis notamment d’élucider très précisément une prise de décision à un moment critique de l’intervention. La population, la création d’instances, est le coeur de l’exploitation de l’ontologie et son principal intérêt mais le processus est encore très largement manuel et non exempts d’erreurs. Cette thèse propose une réponse partielle à ce problème par un algorithme NER original de population automatique d’une ontologie.Enfin, l’étude des accidents n’échappe pas à la détermination des causes et à la réflexion sur les « faits socialement construits ». Cette thèse propose les plans originaux d’un « pipeline sémantique » construit à l’aide d’une série d’algorithmes qui permet d’extraire la causalité exprimée dans un document et de produire un graphe représentant ainsi le « cheminement causal » sous-jacent au document. On comprend l’intérêt pour la recherche scientifique ou industrielle de la mise en lumière ainsi créée du raisonnement afférent de l’équipe d’enquête. Pour cela, ces travaux exploitent les avancées en Machine Learning et Question Answering et en particulier les outils Natural Language Processing.Cette thèse est un travail d’assembleur, d’architecte, qui amène à la fois un regard premier sur le cas Deepwater Horizon et propose le forage des données, une méthode et des moyens originaux pour aborder un évènement, afin de faire émerger du matériau de recherche des réponses à des questionnements qui échappaient jusqu’alors à la compréhension. / Data drilling, the method and means developed in this thesis, redefines the process of data extraction, the formalization of knowledge and its enrichment, particularly in the context of the elucidation of events that have not or only slightly been documented. The Deepwater Horizon disaster, the drilling platform operated for BP in the Gulf of Mexico that suffered a blowout on April 20, 2010, will be our case study for the implementation of our proof of concept for data drilling. This accident is the result of an unprecedented discrepancy between the state of the art of drilling engineers' heuristics and that of pollution response engineers. The loss of control of the MC 252-1 well is therefore an engineering failure and it will take the response party eighty-seven days to regain control of the wild well and halt the pollution. Deepwater Horizon is in this sense a case of engineering facing extreme situation, as defined by Guarnieri and Travadel.First, we propose to return to the overall concept of accident by means of an in-depth linguistic analysis presenting the semantic spaces in which the accident takes place. This makes it possible to enrich its "core meaning" and broaden the shared acceptance of its definition.Then, we bring that the literature review must be systematically supported by algorithmic assistance to process the data taking into account the available volume, the heterogeneity of the sources and the requirements of quality and relevance standards. In fact, more than eight hundred scientific articles mentioning this accident have been published to date and some twenty investigation reports, constituting our research material, have been produced. Our method demonstrates the limitations of accident models when dealing with a case like Deepwater Horizon and the urgent need to look for an appropriate way to formalize knowledge.As a result, the use of upper-level ontologies should be encouraged. The DOLCE ontology has shown its great interest in formalizing knowledge about this accident and especially in elucidating very accurately a decision-making process at a critical moment of the intervention. The population, the creation of instances, is the heart of the exploitation of ontology and its main interest, but the process is still largely manual and not without mistakes. This thesis proposes a partial answer to this problem by an original NER algorithm for the automatic population of an ontology.Finally, the study of accidents involves determining the causes and examining "socially constructed facts". This thesis presents the original plans of a "semantic pipeline" built with a series of algorithms that extract the expressed causality in a document and produce a graph that represents the "causal path" underlying the document. It is significant for scientific or industrial research to highlight the reasoning behind the findings of the investigation team. To do this, this work leverages developments in Machine Learning and Question Answering and especially the Natural Language Processing tools.As a conclusion, this thesis is a work of a fitter, an architect, which offers both a prime insight into the Deepwater Horizon case and proposes the data drilling, an original method and means to address an event, in order to uncover answers from the research material for questions that had previously escaped understanding. Deepwater Horizon Apprentissage automatique DOLCE Ontologies Causalité Accident Deepwater Horizon Machine learning DOLCE Ontologies Causality Accident 006.31
120	Using Background Knowledge to Enhance Biomedical Ontology Matching / Utilisation des ressources de connaissances externes pour améliorer l'alignement d'ontologies biomédicales Annane, Amina 29 October 2018 (has links) Les sciences de la vie produisent de grandes masses de données (par exemple, des essais cliniques et des articles scientifiques). L'intégration et l'analyse des différentes bases de données liées à la même question de recherche, par exemple la corrélation entre phénotypes et génotypes, sont essentielles pour découvrir de nouvelles connaissances. Pour cela, la communauté des sciences de la vie a adopté les techniques du Web sémantique pour réaliser l'intégration et l'interopérabilité des données, en particulier les ontologies. En effet, les ontologies représentent la brique de base pour représenter et partager la quantité croissante de données sur le Web. Elles fournissent un vocabulaire commun pour les humains, et des définitions d'entités formelles pour les machines.Un grand nombre d'ontologies et de terminologies biomédicales a été développé pour représenter et annoter les différentes bases de données existantes. Cependant, celles qui sont représentées avec différentes ontologies qui se chevauchent, c'est à dire qui ont des parties communes, ne sont pas interopérables. Il est donc crucial d'établir des correspondances entre les différentes ontologies utilisées, ce qui est un domaine de recherche actif connu sous le nom d'alignement d'ontologies.Les premières méthodes d'alignement d'ontologies exploitaient principalement le contenu lexical et structurel des ontologies à aligner. Ces méthodes sont moins efficaces lorsque les ontologies à aligner sont fortement hétérogènes lexicalement, c'est à dire lorsque des concepts équivalents sont décrits avec des labels différents. Pour pallier à ce problème, la communauté d'alignement d'ontologies s'est tournée vers l'utilisation de ressources de connaissance externes en tant que pont sémantique entre les ontologies à aligner. Cette approche soulève plusieurs nouvelles questions de recherche, notamment : (1) la sélection des ressources de connaissance à utiliser, (2) l'exploitation des ressources sélectionnées pour améliorer le résultat d'alignement. Plusieurs travaux de recherche ont traité ces problèmes conjointement ou séparément. Dans notre thèse, nous avons fait une revue systématique et une comparaison des méthodes proposées dans la littérature. Puis, nous nous sommes intéressés aux deux questions.Les ontologies, autres que celles à aligner, sont les ressources de connaissance externes (Background Knowledge : BK) les plus utilisées. Les travaux apparentés sélectionnent souvent un ensemble d'ontologies complètes en tant que BK même si, seuls des fragments des ontologies sélectionnées sont réellement efficaces pour découvrir de nouvelles correspondances. Nous proposons une nouvelle approche qui sélectionne et construit une ressource de connaissance à partir d'un ensemble d'ontologies. La ressource construite, d'une taille réduite, améliore, comme nous le démontrons, l'efficience et l'efficacité du processus d'alignement basé sur l'exploitation de BK.L'exploitation de BK dans l'alignement d'ontologies est une épée à double tranchant : bien qu'elle puisse augmenter le rappel (i.e., aider à trouver plus de correspondances correctes), elle peut réduire la précision (i.e., générer plus de correspondances incorrectes). Afin de faire face à ce problème, nous proposons deux méthodes pour sélectionner les correspondances les plus pertinentes parmi les candidates qui se basent sur : (1) un ensemble de règles et (2) l'apprentissage automatique supervisé. Nous avons expérimenté et évalué notre approche dans le domaine biomédical, grâce à la profusion de ressources de connaissances en biomédecine (ontologies, terminologies et alignements existants). Nous avons effectué des expériences intensives sur deux benchmarks de référence de la campagne d'évaluation de l'alignement d'ontologie (OAEI). Nos résultats confirment l'efficacité et l'efficience de notre approche et dépassent ou rivalisent avec les meilleurs résultats obtenus. / Life sciences produce a huge amount of data (e.g., clinical trials, scientific articles) so that integrating and analyzing all the datasets related to a given research question like the correlation between phenotypes and genotypes, is a key element for knowledge discovery. The life sciences community adopted Semantic Web technologies to achieve data integration and interoperability, especially ontologies which are the key technology to represent and share the increasing amount of data on the Web. Indeed, ontologies provide a common domain vocabulary for humans, and formal entity definitions for machines.A large number of biomedical ontologies and terminologies has been developed to represent and annotate various datasets. However, datasets represented with different overlapping ontologies are not interoperable. It is therefore crucial to establish correspondences between the ontologies used; an active area of research known as ontology matching.Original ontology matching methods usually exploit the lexical and structural content of the ontologies to align. These methods are less effective when the ontologies to align are lexically heterogeneous i.e., when equivalent concepts are described with different labels. To overcome this issue, the ontology matching community has turned to the use of external knowledge resources as a semantic bridge between the ontologies to align. This approach arises several new issues mainly: (1) the selection of these background resources, (2) the exploitation of the selected resources to enhance the matching results. Several works have dealt with these issues jointly or separately. In our thesis, we made a systematic review and historical evaluation comparison of state-of-the-art approaches.Ontologies, others than the ones to align, are the most used background knowledge resources. Related works often select a set of complete ontologies as background knowledge, even if, only fragments of the selected ontologies are actually effective for discovering new mappings. We propose a novel BK-based ontology matching approach that selects and builds a knowledge resource with just the right concepts chosen from a set of ontologies. The conducted experiments showed that our BK selection approach improves efficiency without loss of effectiveness.Exploiting background knowledge resources in ontology matching is a double-edged sword: while it may increase recall (i.e., retrieve more correct mappings), it may lower precision (i.e., produce more incorrect mappings). We propose two methods to select the most relevant mappings from the candidate ones: (1) based on a set of rules and (2) with Supervised Machine Learning. We experiment and evaluate our approach in the biomedical domain, thanks to the profusion of knowledge resources in biomedicine (ontologies, terminologies and existing alignments).We evaluated our approach with extensive experiments on two Ontology Alignment Evaluation Initiative (OAEI) benchmarks. Our results confirm the effectiveness and efficiency of our approach and overcome or compete with state-of-the-art matchers exploiting background knowledge resources. Web sémantique Ontologies biomédicales Alignement d'ontologies Ressources de connaissances Machine Learning Semantic web Biomedical ontologies Ontology matching Background knowledge Machine Learning

Search results