Global ETD Search

101	A semantic framework for social search / Un cadre de développement sémantique pour la recherche sociale Stan, Johann 09 November 2011 (has links) Cette thèse présente un système permettant d’extraire les interactions partagées dans les réseaux sociaux et de construire un profil dynamique d’expertise pour chaque membre dudit réseau social. La difficulté principale dans cette partie est l’analyse de ces interactions, souvent très courtes et avec peu de structure grammaticale et linguistique. L’approche que nous avons mis en place propose de relier les termes importants de ces messages à des concepts dans une base de connaissance sémantique, type Linked Data. Cette connexion permet en effet d’enrichir le champ sémantique des messages en exploitant le voisinage sémantique du concept dans la base de connaissances. Notre première contribution dans ce contexte est un algorithme qui permet d'effectuer cette liaison avec une précision plus augmentée par rapport à l’état de l’art, en considérant le proﬁl de l’utilisateur ainsi que les messages partagés dans la communauté dont il est membre comme source supplémentaire de contexte. La deuxième étape de l’analyse consiste à effectuer l’expansion sémantique du concept en exploitant les liens dans la base de connaissance. Notre algorithme utilise une heuristique basant sur le calcul de similarité entre les descriptions des concepts pour ne garder que ceux les plus pertinents par rapport au proﬁl de l’utilisateur. Les deux algorithmes mentionnés précédemment permettent d’avoir un ensemble de concepts qui illustrent les centres d'expertise de l’utilisateur. Aﬁn de mesurer le degré d'expertise de l’utilisateur qui s’applique sur chaque concept dans son proﬁl, nous appliquons la méthode-standard vectoriel et associons à chaque concept une mesure composée de trois éléments : (i) le tf-idf, (ii) le sentiment moyen que l’utilisateur exprime par rapport au dit concept et (iii) l’entropie moyen des messages partagés contenant ledit concept. L’ensemble des trois mesures combinées permet d’avoir un poids unique associé à chaque concept du profil. Ce modèle de profil vectoriel permet de trouver les « top-k » profils les plus pertinents par rapport à une requête. Aﬁn de propager ces poids sur les concepts dans l’expansion sémantique, nous avons appliqué un algorithme de type propagation sous contrainte (Constrained Spreading Activation), spécialement adapté à la structure d'un graphe sémantique. L’application réalisée pour prouver l’efficacité de notre approche, ainsi que d’illustrer la stratégie de recommandation est un système disponible en ligne, nommé « The Tagging Beak » (http://www.tbeak.com). Nous avons en effet développé une stratégie de recommandation type Q&A (question - réponse), où les utilisateurs peuvent poser des questions en langage naturel et le système recommande des personnes à contacter ou à qui se connecter pour être notifié de nouveaux messages pertinents par rapport au sujet de la question / In recent years, online collaborative environments, e.g. social content sites (such as Twitter or Facebook) have significantly changed the way people share information and interact with peers. These platforms have become the primary common environment for people to communicate about their activity and their information needs and to maintain and create social ties. Status updates or microposts emerged as a convenient way for people to share content frequently without a long investment of time. Some social platforms even limit the length of a “post”. A post generally consists of a single sentence (e.g. news, a question), it can include a picture, a hyperlink, tags or other descriptive data (metadata). Contrarily to traditional documents, posts are informal (with no controlled vocabulary) and don't have a well established structure. Social platforms can become so popular (huge number of users and posts), that it becomes difficult to find relevant information in the ﬂow of notifications. Therefore, organizing this huge quantity of social information is one of the major challenges of such collaborative environments. Traditional information retrieval techniques are not well suited for querying such corpus, because of the short size of the share content, the uncontrolled vocabulary used by author and because these techniques don't take in consideration the ties in-between people. Also, such techniques tend to find the documents that best match a query, which may not be sufficient in the context of social platform where the creation of new connections in the platform has a motivating impact and where the platform tries to keep on-going participation. A new information retrieval paradigm, social search has been introduced as a potential solution to this problem. This solution consists of different strategies to leverage user generated content for information seeking, such as the recommendation of people. However, existing strategies have limitations in the user profile construction process and in the routing of queries to the right people identified as experts. More concretely, the majority of user profiles in such systems are keyword-based, which is not suited for the small size and the informal aspect of the posts. Secondly, expertise is measured only based on statistical scoring mechanisms, which do not take into account the fact that people on social platforms will not precisely consume the results of the query, but will aim to engage into a conversation with the expert. Also a particular focus needs to be done on privacy management, where still traditional methods initially designed for databases are used without taking into account the social ties between people. In this thesis we propose and evaluate an original framework for the organization and retrieval of information in social platforms. Instead of retrieving content that best matches a user query, we retrieve people who have expertise and are most motivated to engage in conversations on its topics. We propose to build dynamically proﬁles for users based on their interactions in the social platform. The construction of such proﬁles requires the capture of interactions (microposts), their analysis and the extraction and understanding of their topics. In order to build a more meaningful proﬁle, we leverage Semantic Web Technologies and more specifically, Linked Data, for the transformation of microposts topics into semantic concepts. Our thesis contributes to several fields related to the organization, management and retrieval of information in collaborative environments and to the fields of social computing and human-computer interaction Web sémantique Recherche sociale Recommandation Plateforme sociale Linked data Profil utilisateur Intéraction sociale Concept sémantique Semantic web Linked data Social Interaction
102	Modeling human behaviors and frailty for a personalized ambient assisted living framework / Modélisation des comportements humains et de la fragilité pour la conception d'une plateforme d'assistance d'intelligence ambiante Bellmunt Montoya, Joaquim 21 November 2017 (has links) Les technologies d’assistance à la vie autonome est aujourd'hui nécessaire pour soutenir les personnes ayant des besoins spécifiques dans leurs activités de la vie quotidienne, mais leurs développements demeure limités malgré les enjeux liés à l’accompagnement des personnes âgées et dépendantes. Par ailleurs, l'élaboration de plateformes technologiques durant la dernière décennie s'est principalement concentrée sur la dimension technologique, en négligeant l'impact des facteurs humains et des besoins sociaux. Les nouvelles technologies, telles que le cloud et l’Internet des objets (IoT) pourraient apporter de nouvelles capacités dans ce domaine de recherche permettant aux systèmes de traiter les activités humaines selon des modèles orientés vers l'usage (ie. la fragilité) dans une approche non invasive.Cette thèse se propose d'envisager un nouveau paradigme dans les technologies d'assistance pour le vieillissement et le bien-être en introduisant (i) des métriques de la fragilité humaine et (ii) une dimension urbaine dans un cadre d'assistance ambiant (extension de l'espace de vie de l'intérieur vers l'extérieur). Elle propose une plateforme basée sur l’Informatique dans le cloud (cloud computing) pour une communication transparente avec les objets connectés, permettant au système intégré de calculer et de modéliser différents niveaux de fragilité humaine. Cette thèse propose d'utiliser des données hétérogènes en temps réel fournies par différents types de sources (capteurs intérieurs et extérieurs), ainsi que des données de référence, collectées sur un serveur de cloud de raisonnement central. La plateforme stocke les données brutes et les traite à travers un moteur de raisonnement hybride combinant à la fois l'approche basée sur les données (apprentissage automatique), et l'approche basée sur la connaissance (raisonnement sémantique) pour (i) déduire les activités de la vie quotidienne, (ii) détecter le changement du comportement humain, et enfin (iii) calibrer les valeurs de fragilité humaine. Les valeurs de fragilité peuvent permettre au système de détecter automatiquement tout changement de comportement, ou toute situation anormale, qui pourrait entraîner un risque à la maison ou à l'extérieur. L'ambition à long terme est de détecter et d'intervenir pour éviter un risque avant même qu'un médecin ne le détecte lors d'une consultation. L'objectif ultime est de promouvoir le paradigme de la prévention pour la santé et du bien-être.Cette thèse vise à concevoir et développer une plateforme intégrée, personnalisée, basée sur le cloud, capable de communiquer avec des capteurs intérieurs non invasifs (par ex. mouvement, contact, fibre optique) et à l'extérieur (par ex. BLE Beacons, smartphone, bracelet..). La plateforme développée comprend également un classificateur de mobilité du comportement humain qui utilise les capteurs internes du Smart Phone pour calibrer le type de mouvement effectué par l'individu (p. ex. marche, vélo, tram, bus, et voiture). Les données recueillies dans ce contexte servent à construire un modèle multidimensionnel de fragilité basé sur plusieurs éléments standardisés de fragilité, à partir d'une littérature abondante et d'un examen approfondi d’autres plateformes. La plateforme et les modèles associés ont été évalués dans des conditions réelles de vie impliquant les utilisateurs et les aidants par le biais de différents sites pilotes à Singapour et en France. Les données obtenues ont été analysées et publiées dans de nombreuses conférences et revues internationales.La plateforme développée est actuellement déployée en situation écologique dans 24 habitats individuels. Cela comprend cinq chambres en EHPAD, et neuf maisons sont situées en France, en collaboration avec une maison de retraite (Argentan-Normandie) et à Montpellier en collaboration avec Montpellier Métropole. Entre autre dix appartements privés sont situés à Singapour en collaboration avec un Senior Activity Center. / Ambient Assisted Living is nowadays necessary to support people with special needs in performing their activities of daily living, but it remains unaltered in front of the necessity to accompany aging and dependent people in their outdoors activities. Moreover, the development of multiple frameworks during the last decade has mainly focused on the engineering dimension neglecting impact of human factors and social needs in the design process. New technologies, such as cloud computing and Internet of Things (IoT) could bring new capabilities to this field of research allowing systems to process human condition following usage oriented models (e.g. frailty) in a non-invasive approach. This thesis proposes to consider a new paradigm in assistive technologies for aging and wellbeing by introducing (i) human frailty metrics, and (ii) urban dimension in an ambient assistive framework (extending the living space from indoors to outdoors). It proposes a cloud-based framework for seamless communication with connected objects, allowing the integrated system to compute and to model different levels of human frailty based on several frailty standardized items, and leveraged from an extensive literature and frameworks reviews.This thesis aims at designing and developing an integrated cloud-based framework, which would be able to communicate with heterogeneous real-time non-invasive indoor sensors (e.g. motion, contact, fiber optic) and outdoors (e.g. BLE Beacons, smartphone). The framework stores the raw data and processes it through a designed hybrid reasoning engine combining both approaches, data driven (machine learning), and knowledge driven (semantic reasoning) algorithms, to (i) infer the activities of the daily living (ADL), (ii) detect changes of human behavior, and ultimately (iii) calibrate human frailty values. It also includes a human behavior mobility classifier that uses the inner smartphone sensors to classify the type of movement performed by the individual (e.g. Walk, Cycling, MRT, Bus, Car). The frailty values might allow the system to automatically detect any change of behaviors, or abnormal situations, which might lead to a risk at home or outside.The proposed models and framework have been developed in close collaboration with IPAL and LIRMM research teams. They also have been assessed in real conditions involving end-users and caregivers through different pilots sites in Singapore and in France. Nowadays, the proposed framework, is currently deployed in a real world deployment in 24 individual homes. 14 spaces are located in France (5 privates rooms in nursing home and 9 private houses) in collaboration with a nursing home (Argentan-Normandie and Montpellier). 10 individual homes are located in Singapore in collaboration with a Senior Activity Center (non-profit organization).The long-term ambition is to detect and intervene to avoid a risk even before a medical doctor detects it during a consultation. The ultimate goal is to promote prevention paradigm for health and wellbeing. The obtained data has been analyzed and published in multiple international conferences and journals. Traitement données Intelligence artificielle Assistance d'intelligence Ambiente Web sémantique Comportements Humains Processing data Artificial Intelligence Ambient assisted Living Semantic Web Human Behaviors
103	Approche de gestion orientée service pour l'Internet des objets (IoT) considérant la Qualité de Service (QoS) / Service oriented approach for the Internet of Things (IoT) Quality of Service (QoS) aware Garzone, Guillaume 30 November 2018 (has links) L’Internet des Objets (IoT) est déjà omniprésent aujourd’hui : domotique, bâtiments connectés ou ville intelligente, beaucoup d’initiatives et d’innovations sont en cours et à venir. Le nombre d’objets connectés ne cesse de croître à tel point que des milliards d’objets sont attendus dans un futur proche.L’approche de cette thèse met en place un système de gestion autonomique pour des systèmes à base d’objets connectés, en les combinant avec d’autres services comme par exemple des services météo accessibles sur internet. Les modèles proposés permettent une prise de décision autonome basée sur l’analyse d’évènements et la planification d’actions exécutées automatiquement. Des paramètres comme le temps d’exécution ou l’énergie consommée sont aussi considérés afin d’optimiser les choix d’actions à effectuer et de services utilisés. Un prototype concret a été réalisé dans un scénario de ville intelligente et de bus connectés dans le projet investissement d'avenir S2C2. / The Internet of Things (IoT) is already everywhere today: home automation, connected buildings or smart city, many initiatives and innovations are ongoing and yet to come. The number of connected objects continues to grow to the point that billions of objects are expected in the near future.The approach of this thesis sets up an autonomic management architecture for systems based on connected objects, combining them with other services such as weather services accessible on the Internet. The proposed models enable an autonomous decision making based on the analysis of events and the planning of actions executed automatically. Parameters such as execution time or consumed energy are also considered in order to optimize the choices of actions to be performed and of services used. A concrete prototype was realized in a smart city scenario with connected buses in the investment for future project: S2C2. Internet des Objets Approche orientée service Informatique autonomique Web sémantique Grammaire de graphes Qualité de service Internet of Things Service Oriented Approach Autonomic Computing Semantic Web Graph Grammar Quality of Service 005.1 004
104	Towards interoperable IOT systems with a constraint-aware semantic web of things / Vers une gestion intelligente des données de l'Internet des Objets Seydoux, Nicolas 16 November 2018 (has links) Cette thèse porte sur le Web Sémantique des Objets (WSdO), un domaine de recherche à l'interface de l'Internet des Objets (IdO) et du Web Sémantique (WS). L’intégration des approche du WS à l'IdO permettent de traiter l'importante hétérogénéité des ressources, des technologies et des applications de l'IdO, laquelle est une source de problèmes d'interopérabilité freinant le déploiement de systèmes IdO. Un premier verrou scientifique est lié à la consommation en ressource des technologies du WS, là où l'IdO s’appuie sur des objets aux capacités de calcul et de communication limitées. De plus, les réseaux IdO sont déployés à grande échelle, quand la montée en charge est difficile pour les technologies du WS. Cette thèse a pour objectif de traiter ce double défi, et comporte deux contributions. La première porte sur l'identification de critères de qualité pour les ontologies de l'IdO, et l’élaboration de IoT-O, une ontologie modulaire pour l'IdO. IoT-O a été implantée pour enrichir les données d'un bâtiment instrumenté, et pour être moteur de semIoTics, notre application de gestion autonomique. La seconde contribution est EDR (Emergent Distributed Reasoning), une approche générique pour distribuer dynamiquement le raisonnement à base de règles. Les règles sont propagées de proche en proche en s'appuyant sur les descriptions échangées entre noeuds. EDR est évaluée dans deux scénario concrets, s'appuyant sur un serveur et des noeuds contraints pour simuler le déploiement. / This thesis is situated in the Semantic Web of things (SWoT) domain, at the interface between the Internet of Things (IoT) and the Semantic Web (SW). The integration of SW approaches into the IoT aim at tackling the important heterogeneity of resources, technologies and applications in the IoT, which creates interoperability issues impeding the deployment of IoT systems. A first scientific challenge is risen by the resource consumption of the SW technologies, inadequated to the limites computation and communication capabilities of IoT devices. Moreover, IoT networks are deployed at a large scale, when SW technologies have scalability issues. This thesis addresses this double challenge by two contributions. The first one is the identification of quality criteria for IoT ontologies, leading to the proposition of IoT-O, a modular IoT ontology. IoT-O is deployed to enrich data from a smart building, and drive semIoTics, our autonomic computing application. The second contribution is EDR (Emergent Distributed Reasoning), a generic approach to dynamically distributed rule-based reasoning. Rules are propagated peer-to-peer, guided by descriptions exchanged among nodes. EDR is evaluated in two use-cases, using both a server and some constrained nodes to simulate the deployment. Web sémantique des objets Fog computing sémantique Intéropérabilité Semantic Web of things Semantic fog computing Distributed rule-based reasoning Interoperability 006.3
105	Semantic snippets via query-biased ranking of linked data entities / Snippets sémantiques via l'ordonnancement biaisé-requête des entités LOD Alsarem, Mazen 30 May 2016 (has links) Dans cette thèse, nous introduisons un nouvel artefact interactif pour le SERP: le "Snippet sémantique". Les snippets sémantiques s'appuient sur la coexistence des deux Webs pour faciliter le transfert des connaissances aux utilisateurs grâce a une contextualisation sémantique du besoin d'information de l'utilisateur. Ils font apparaître les relations entre le besoin d'information et les entités les plus pertinentes présentes dans la page Web. / In this thesis, we introduce a new interactive artifact for the SERP: the "Semantic Snippet". Semantic Snippets rely on the coexistence of the two webs to facilitate the transfer of knowledge to the user thanks to a semantic contextualization of the user's information need. It makes apparent the relationships between the information need and the most relevant entities present in the web page. Informatique Web sémantique Web de données Ordonnancement d'entités Snippet sémantique Information Technology Semantic web Web of data Entity ranking Semantic snippets 025.040 72
106	Un wiki sémantique pour la gestion des connaissances décisionnelles : application à la cancérologie / A Semantic Wiki for Decision Knowledge Management : Application in Oncology Meilender, Thomas 28 June 2013 (has links) Les connaissances décisionnelles sont un type particulier de connaissances dont le but est de décrire des processus de prise de décision. En cancérologie, ces connaissances sont généralement regroupées dans des guides de bonnes pratiques cliniques. Leur publication est assurée par des organismes médicaux suite à un processus d'édition collaboratif complexe. L'informatisation des guides a conduit à la volonté de formaliser l'ensemble des connaissances contenues de manière à pouvoir alimenter des systèmes d'aide à la décision. Ainsi, leur édition peut être vue comme une problématique d'acquisition des connaissances. Dans ce contexte, le but de cette thèse est de proposer des méthodes et des outils permettant de factoriser l'édition des guides et leur formalisation. Le premier apport de cette thèse est l'intégration des technologies du Web social et sémantique dans le processus d'édition. La création du wiki sémantique OncoLogiK a permis de mettre en oeuvre cette proposition. Ainsi, un retour d'expérience et des méthodes sont présentés pour la migration depuis une solution Web statique. Le deuxième apport consiste à proposer une solution pour exploiter les connaissances décisionnelles présentes dans les guides. Ainsi, le framework KCATOS définit un langage d'arbres de décision simple pour lequel une traduction reposant sur les technologies du Web sémantique est développée. KCATOS propose en outre un éditeur d'arbres, permettant l'édition collaborative en ligne. Le troisième apport consiste à concilier dans un même système les approches pour la création des guides de bonnes pratiques informatisés : l'approche s'appuyant sur les connaissances symbolisée par KCATOS et l'approche documentaire d'OncoLogiK. Leur fonctionnement conjoint permet de proposer une solution bénéficiant des avantages des deux approches. De nombreuses perspectives sont exposées. La plupart d'entre elles visent à améliorer les services aux utilisateurs et l'expressivité de la base de connaissances. En prenant en compte le travail effectué et les perspectives, un modèle réaliste visant à faire du projet Kasimir un système d'aide à la décision complet est proposé / Decision knowledge is a particular type of knowledge that aims at describing the processes of decision making. In oncology, this knowledge is generally grouped into clinical practice guidelines. The publication of the guidelines is provided by medical organizations as a result of complex collaborative editing processes. The computerization of guides has led to the desire of formalizing the knowledge so as to supply decision-support systems. Thus, editing can be seen as a knowledge acquisition issue. In this context, this thesis aims at proposing methods and tools for factorizing editing guides and their formalization. The first contribute on of this thesis is the integration of social semantic web technologies in the editing process. The creation of the semantic wiki OncoLogiK allows to implement this proposal. Thus, a feedback and methods are presented for the migration from a static web solution. The second contribution consists in a solution to exploit the knowledge present in the decision-making guides. Thus, KcatoS framework defines a simple decision tree language for which a translation based on semantic web technologies is developed. KcatoS also proposes an editor of trees, allowing collaborative editing online. The third contribution is to combine in a single system approaches for the creation of clinical guidelines: the approach based on the knowledge symbolized by KcatoS and the documentary approach symbolized by OncoLogiK. Their joint operation can propose a solution benefiting from the advantages of both approaches. Many future works are proposed. Most of them aim at improving services to users and the expressiveness of the knowledge base. Taking into account the work and prospects, a realistic model to create a decision-support system based on clinical guidelines is proposed Web sémantique Wiki Recommandations de pratique clinique Guides de bonnes pratiques informatisés Semantic Web Wiki Clinical practice guidelines Computer-interpretable guidelines 006.7 658.403 54
107	Apport des ontologies de domaine pour l'extraction de connaissances à partir de données biomédicales / Contribution of domain ontologies for knowledge discovery in biomedical data Personeni, Gabin 09 November 2018 (has links) Le Web sémantique propose un ensemble de standards et d'outils pour la formalisation et l'interopérabilité de connaissances partagées sur le Web, sous la forme d'ontologies. Les ontologies biomédicales et les données associées constituent de nos jours un ensemble de connaissances complexes, hétérogènes et interconnectées, dont l'analyse est porteuse de grands enjeux en santé, par exemple dans le cadre de la pharmacovigilance. On proposera dans cette thèse des méthodes permettant d'utiliser ces ontologies biomédicales pour étendre les possibilités d'un processus de fouille de données, en particulier, permettant de faire cohabiter et d'exploiter les connaissances de plusieurs ontologies biomédicales. Les travaux de cette thèse concernent dans un premier temps une méthode fondée sur les structures de patrons, une extension de l'analyse formelle de concepts pour la découverte de co-occurences de événements indésirables médicamenteux dans des données patients. Cette méthode utilise une ontologie de phénotypes et une ontologie de médicaments pour permettre la comparaison de ces événements complexes, et la découverte d'associations à différents niveaux de généralisation, par exemple, au niveau de médicaments ou de classes de médicaments. Dans un second temps, on utilisera une méthode numérique fondée sur des mesures de similarité sémantique pour la classification de déficiences intellectuelles génétiques. On étudiera deux mesures de similarité utilisant des méthodes de calcul différentes, que l'on utilisera avec différentes combinaisons d'ontologies phénotypiques et géniques. En particulier, on quantifiera l'influence que les différentes connaissances de domaine ont sur la capacité de classification de ces mesures, et comment ces connaissances peuvent coopérer au sein de telles méthodes numériques. Une troisième étude utilise les données ouvertes liées ou LOD du Web sémantique et les ontologies associées dans le but de caractériser des gènes responsables de déficiences intellectuelles. On utilise ici la programmation logique inductive, qui s'avère adaptée pour fouiller des données relationnelles comme les LOD, en prenant en compte leurs relations avec les ontologies, et en extraire un modèle prédictif et descriptif des gènes responsables de déficiences intellectuelles. L'ensemble des contributions de cette thèse montre qu'il est possible de faire coopérer avantageusement une ou plusieurs ontologies dans divers processus de fouille de données / The semantic Web proposes standards and tools to formalize and share knowledge on the Web, in the form of ontologies. Biomedical ontologies and associated data represents a vast collection of complex, heterogeneous and linked knowledge. The analysis of such knowledge presents great opportunities in healthcare, for instance in pharmacovigilance. This thesis explores several ways to make use of this biomedical knowledge in the data mining step of a knowledge discovery process. In particular, we propose three methods in which several ontologies cooperate to improve data mining results. A first contribution of this thesis describes a method based on pattern structures, an extension of formal concept analysis, to extract associations between adverse drug events from patient data. In this context, a phenotype ontology and a drug ontology cooperate to allow a semantic comparison of these complex adverse events, and leading to the discovery of associations between such events at varying degrees of generalization, for instance, at the drug or drug class level. A second contribution uses a numeric method based on semantic similarity measures to classify different types of genetic intellectual disabilities, characterized by both their phenotypes and the functions of their linked genes. We study two different similarity measures, applied with different combinations of phenotypic and gene function ontologies. In particular, we investigate the influence of each domain of knowledge represented in each ontology on the classification process, and how they can cooperate to improve that process. Finally, a third contribution uses the data component of the semantic Web, the Linked Open Data (LOD), together with linked ontologies, to characterize genes responsible for intellectual deficiencies. We use Inductive Logic Programming, a suitable method to mine relational data such as LOD while exploiting domain knowledge from ontologies by using reasoning mechanisms. Here, ILP allows to extract from LOD and ontologies a descriptive and predictive model of genes responsible for intellectual disabilities. These contributions illustrates the possibility of having several ontologies cooperate to improve various data mining processes Bioontologies Données ouvertes liées Programmation logique inductive Similarité sémantique Structures de patrons Web sémantique Bioontologies Inductive Logic Programming Linked Open Data Pattern structures Semantic similarity Semantic Web 006.332 006.312
108	La recommandation des jeux de données basée sur le profilage pour le liage des données RDF / Profile-based Datas and Recommendation for RDF Data Linking Ben Ellefi, Mohamed 01 December 2016 (has links) Avec l’émergence du Web de données, notamment les données ouvertes liées, une abondance de données est devenue disponible sur le web. Cependant, les ensembles de données LOD et leurs sous-graphes inhérents varient fortement par rapport a leur taille, le thème et le domaine, les schémas et leur dynamicité dans le temps au niveau des données. Dans ce contexte, l'identification des jeux de données appropriés, qui répondent a des critères spécifiques, est devenue une tâche majeure, mais difficile a soutenir, surtout pour répondre a des besoins spécifiques tels que la recherche d'entités centriques et la recherche des liens sémantique des données liées. Notamment, en ce qui concerne le problème de liage des données, le besoin d'une méthode efficace pour la recommandation des jeux de données est devenu un défi majeur, surtout avec l'état actuel de la topologie du LOD, dont la concentration des liens est très forte au niveau des graphes populaires multi-domaines tels que DBpedia et YAGO, alors qu'une grande liste d'autre jeux de données considérés comme candidats potentiels pour le liage est encore ignorée. Ce problème est dû a la tradition du web sémantique dans le traitement du problème de "identification des jeux de données candidats pour le liage". Bien que la compréhension de la nature du contenu d'un jeu de données spécifique est une condition cruciale pour les cas d'usage mentionnées, nous adoptons dans cette thèse la notion de "profil de jeu de données"- un ensemble de caractéristiques représentatives pour un jeu de données spécifique, notamment dans le cadre de la comparaison avec d'autres jeux de données. Notre première direction de recherche était de mettre en œuvre une approche de recommandation basée sur le filtrage collaboratif, qui exploite à la fois les prols thématiques des jeux de données, ainsi que les mesures de connectivité traditionnelles, afin d'obtenir un graphe englobant les jeux de données du LOD et leurs thèmes. Cette approche a besoin d'apprendre le comportement de la connectivité des jeux de données dans le LOD graphe. Cependant, les expérimentations ont montré que la topologie actuelle de ce nuage LOD est loin d'être complète pour être considéré comme des données d'apprentissage.Face aux limites de la topologie actuelle du graphe LOD, notre recherche a conduit a rompre avec cette représentation de profil thématique et notamment du concept "apprendre pour classer" pour adopter une nouvelle approche pour l'identification des jeux de données candidats basée sur le chevauchement des profils intensionnels entre les différents jeux de données. Par profil intensionnel, nous entendons la représentation formelle d'un ensemble d'étiquettes extraites du schéma du jeu de données, et qui peut être potentiellement enrichi par les descriptions textuelles correspondantes. Cette représentation fournit l'information contextuelle qui permet de calculer la similarité entre les différents profils d'une manière efficace. Nous identifions le chevauchement de différentes profils à l'aide d'une mesure de similarité semantico-fréquentielle qui se base sur un classement calcule par le tfidf et la mesure cosinus. Les expériences, menées sur tous les jeux de données lies disponibles sur le LOD, montrent que notre méthode permet d'obtenir une précision moyenne de 53% pour un rappel de 100%.Afin d'assurer des profils intensionnels de haute qualité, nous introduisons Datavore- un outil oriente vers les concepteurs de métadonnées qui recommande des termes de vocabulaire a réutiliser dans le processus de modélisation des données. Datavore fournit également les métadonnées correspondant aux termes recommandés ainsi que des propositions des triples utilisant ces termes. L'outil repose sur l’écosystème des Vocabulaires Ouverts Lies (LOV) pour l'acquisition des vocabulaires existants et leurs métadonnées. / With the emergence of the Web of Data, most notably Linked Open Data (LOD), an abundance of data has become available on the web. However, LOD datasets and their inherent subgraphs vary heavily with respect to their size, topic and domain coverage, the schemas and their data dynamicity (respectively schemas and metadata) over the time. To this extent, identifying suitable datasets, which meet specific criteria, has become an increasingly important, yet challenging task to supportissues such as entity retrieval or semantic search and data linking. Particularlywith respect to the interlinking issue, the current topology of the LOD cloud underlines the need for practical and efficient means to recommend suitable datasets: currently, only well-known reference graphs such as DBpedia (the most obvious target), YAGO or Freebase show a high amount of in-links, while there exists a long tail of potentially suitable yet under-recognized datasets. This problem is due to the semantic web tradition in dealing with "finding candidate datasets to link to", where data publishers are used to identify target datasets for interlinking.While an understanding of the nature of the content of specific datasets is a crucial prerequisite for the mentioned issues, we adopt in this dissertation the notion of "dataset profile" - a set of features that describe a dataset and allow the comparison of different datasets with regard to their represented characteristics. Our first research direction was to implement a collaborative filtering-like dataset recommendation approach, which exploits both existing dataset topic proles, as well as traditional dataset connectivity measures, in order to link LOD datasets into a global dataset-topic-graph. This approach relies on the LOD graph in order to learn the connectivity behaviour between LOD datasets. However, experiments have shown that the current topology of the LOD cloud group is far from being complete to be considered as a ground truth and consequently as learning data.Facing the limits the current topology of LOD (as learning data), our research has led to break away from the topic proles representation of "learn to rank" approach and to adopt a new approach for candidate datasets identication where the recommendation is based on the intensional profiles overlap between differentdatasets. By intensional profile, we understand the formal representation of a set of schema concept labels that best describe a dataset and can be potentially enriched by retrieving the corresponding textual descriptions. This representation provides richer contextual and semantic information and allows to compute efficiently and inexpensively similarities between proles. We identify schema overlap by the help of a semantico-frequential concept similarity measure and a ranking criterion based on the tfidf cosine similarity. The experiments, conducted over all available linked datasets on the LOD cloud, show that our method achieves an average precision of up to 53% for a recall of 100%. Furthermore, our method returns the mappings between the schema concepts across datasets, a particularly useful input for the data linking step.In order to ensure a high quality representative datasets schema profiles, we introduce Datavore\| a tool oriented towards metadata designers that provides rankedlists of vocabulary terms to reuse in data modeling process, together with additional metadata and cross-terms relations. The tool relies on the Linked Open Vocabulary (LOV) ecosystem for acquiring vocabularies and metadata and is made available for the community. Liage de données RDF Jeux de données RDF Web Sémantique Profile de jeux de données Recommendation des jeux de données Linked Data RDF dataset Semantic WEB Dataset Profiling Dataset Recommendation
109	Applications communautaires spontanées dynamiquement reconfigurables en environnement pervasif / Dynamically reconfigurable applications for spontaneous communities in pervasive environment Ben Nejma, Ghada 22 December 2015 (has links) Depuis quelques années, des évolutions importantes ont lieu en matière d’infrastructures technologiques. En particulier, la démocratisation des dispositifs mobiles (comme les PCs, Smartphones, Tablettes, etc.) a rendu l’information accessible par le grand public partout et à tout moment, ce qui est l’origine du concept d’informatique ubiquitaire. L’approche classique des systèmes de l’informatique ubiquitaire, qui répondent aux besoins des utilisateurs indépendants les uns des autres, a été bouleversée par l’introduction de la dimension sociale. Ce rapprochement est à l’origine d’une discipline naissante « le pervasive social computing » ou l’informatique socio-pervasive. Les applications socio-pervasives connaissent une véritable expansion. Ces dernières intègrent de plus en plus la notion de communauté. Le succès des applications communautaires se justifie par le but poursuivi par ces dernières qui est de répondre aux besoins des communautés et d’offrir un ‘chez soi’ virtuel, spécifique à la communauté, dans lequel elle va construire sa propre identité et réaliser ses objectifs. Par ailleurs, la notion de communauté représente une source d’informations contextuelles sociales. Elle est, aujourd’hui, au cœur des problématiques de personnalisation et d’adaptation des applications informatiques. Dans le cadre de cette thèse, nous étudions sous différents aspects les applications informatiques centrées communautés existantes et soulignons un certain nombre de carences au niveau même de la notion de communauté, des modèles de communautés, ou encore des architectures dédiées à ces applications communautaires, etc. Pour remédier à ces défauts, nous proposons trois principales contributions : Un nouveau type de communauté adapté aux exigences des environnements pervasifs qui vient rompre avec les traditionnelles communautés pérennes thématiques : des communautés éphémères, géolocalisées et spontanées (sans contrainte thématique).   Un modèle de communauté basé sur les standards du web sémantique pour répondre aux problèmes liés à l’hétérogénéité de conception des communautés. Une architecture dynamiquement reconfigurable pour promouvoir les communautés spontanées en aidant les utilisateurs nomades à intégrer des communautés environnantes et à découvrir les services dédiés.  Nous montrons la faisabilité de nos propositions pour la conception et le développement d’applications communautaires spontanées grâce au prototype Taldea. Enfin, nous testons les approches proposées de découverte de communauté et de services à travers plusieurs scénarios caractérisés par la mobilité et l’ubiquité. / Advances in technology, in particular the democratization of mobile devices (PCs, smartphones and tablets), has made information accessible to anyone at any time and from anywhere while facilitating the capture of physical contextual data, thereby justifying the growing interest for pervasive computing. The classical approach of pervasive computing has been affected by the introduction of the social dimension. Ubiquitous systems do not meet the needs of users independently from each other but do take into account their social context. Fostering the social dimension has given rise to a fast growing research field called Pervasive Social Computing. Applications in this area are increasingly concerned by communities. The contextual information associated with a community can be harnessed for personalization, adaptability and dynamic deployment of services, which are important factors for Pervasive Computing. A community is considered in our approach as a set of distinct social entities that should be supported with services as a single user is. In this thesis, we look into different aspects of existing centered communities applications and we identify several weaknesses and shortcomings in the notion of community, the community models, and the architecture of communities’ applications. To overcome these shortcomings, we propose three main contributions: A new type of communities that fits better with the requirements of pervasive environments: short- lived, geolocated and spontaneous (without thematic constraint) community. Intuitively, it is the type of community that best matches with circumstantial, accidental, incidental or fortuitous situations. This kind of community has to meet specific needs, which are not taken into account by perennial thematic communities.   A model for communities based on semantic web standards to overcome the problem of heterogeneity across definitions and models. The ontological representation allows us to organize and represent social data, to make information searches easier for users and to infer new knowledge.   A dynamically reconfigurable architecture for fostering spontaneous communities in order to facilitate the user access to communities, information exchange between community members and service discovery.  The proposed architecture for community and service discovery have been validated through a prototype called Taldea and have been tested through several scenarios characterized by mobility and ubiquity. Application communautaire Informatique socio-pervasive Technologies du web sémantique Découverte de services Sensibilité au contexte Community application Pervasive social computing Semantic web technologies Service discovery Context-awareness
110	Towards the French Biomedical Ontology Enrichment / Vers l'enrichissement d'ontologies biomédicales françaises Lossio-Ventura, Juan Antonio 09 November 2015 (has links) En biomedicine, le domaine du « Big Data » (l'infobésité) pose le problème de l'analyse de gros volumes de données hétérogènes (i.e. vidéo, audio, texte, image). Les ontologies biomédicales, modèle conceptuel de la réalité, peuvent jouer un rôle important afin d'automatiser le traitement des données, les requêtes et la mise en correspondance des données hétérogènes. Il existe plusieurs ressources en anglais mais elles sont moins riches pour le français. Le manque d'outils et de services connexes pour les exploiter accentue ces lacunes. Dans un premier temps, les ontologies ont été construites manuellement. Au cours de ces dernières années, quelques méthodes semi-automatiques ont été proposées. Ces techniques semi-automatiques de construction/enrichissement d'ontologies sont principalement induites à partir de textes en utilisant des techniques du traitement du langage naturel (TALN). Les méthodes de TALN permettent de prendre en compte la complexité lexicale et sémantique des données biomédicales : (1) lexicale pour faire référence aux syntagmes biomédicaux complexes à considérer et (2) sémantique pour traiter l'induction du concept et du contexte de la terminologie. Dans cette thèse, afin de relever les défis mentionnés précédemment, nous proposons des méthodologies pour l'enrichissement/la construction d'ontologies biomédicales fondées sur deux principales contributions.La première contribution est liée à l'extraction automatique de termes biomédicaux spécialisés (complexité lexicale) à partir de corpus. De nouvelles mesures d'extraction et de classement de termes composés d'un ou plusieurs mots ont été proposées et évaluées. L'application BioTex implémente les mesures définies.La seconde contribution concerne l'extraction de concepts et le lien sémantique de la terminologie extraite (complexité sémantique). Ce travail vise à induire des concepts pour les nouveaux termes candidats et de déterminer leurs liens sémantiques, c'est-à-dire les positions les plus pertinentes au sein d'une ontologie biomédicale existante. Nous avons ainsi proposé une approche d'extraction de concepts qui intègre de nouveaux termes dans l'ontologie MeSH. Les évaluations, quantitatives et qualitatives, menées par des experts et non experts, sur des données réelles soulignent l'intérêt de ces contributions. / Big Data for biomedicine domain deals with a major issue, the analyze of large volume of heterogeneous data (e.g. video, audio, text, image). Ontology, conceptual models of the reality, can play a crucial role in biomedical to automate data processing, querying, and matching heterogeneous data. Various English resources exist but there are considerably less available in French and there is a strong lack of related tools and services to exploit them. Initially, ontologies were built manually. In recent years, few semi-automatic methodologies have been proposed. The semi-automatic construction/enrichment of ontologies are mostly induced from texts by using natural language processing (NLP) techniques. NLP methods have to take into account lexical and semantic complexity of biomedical data : (1) lexical refers to complex phrases to take into account, (2) semantic refers to sense and context induction of the terminology.In this thesis, we propose methodologies for enrichment/construction of biomedical ontologies based on two main contributions, in order to tackle the previously mentioned challenges. The first contribution is about the automatic extraction of specialized biomedical terms (lexical complexity) from corpora. New ranking measures for single- and multi-word term extraction methods have been proposed and evaluated. In addition, we present BioTex software that implements the proposed measures. The second contribution concerns the concept extraction and semantic linkage of the extracted terminology (semantic complexity). This work seeks to induce semantic concepts of new candidate terms, and to find the semantic links, i.e. relevant location of new candidate terms, in an existing biomedical ontology. We proposed a methodology that extracts new terms in MeSH ontology. The experiments conducted on real data highlight the relevance of the contributions. Web sémantique Traitement automatique du Langage Ontologies biomédicales BioNLP Text Mining Liaison des données Semantic Web Natural Language Processing (biomedical) ontologies BioNLP Text/data mining Linked data

Search results