Global ETD Search

71	Third-party expectations of nepotism and mating preferences from facial similary / Anticipation par les tiers des effets de népotisme et de préférences de couple à partir de la similarité faciale Ivănescu, Andrei 16 October 2017 (has links) Notre relation avec nos apparentés forme une grande partie de notre monde social; et la façon dont nous reconnaissons et traitons nos apparentés a donné lieu à une importante somme de recherche. Lorsqu'il s'agit de reconnaître un apparenté direct, la similarité faciale est considérée comme un indice d'apparentement. Dans cette thèse, j'étudie si elle joue un rôle comparable lorsqu'il s'agit de reconnaître un apparentement entre des tiers, en menant deux lignes de recherche: les prédictions de comportement népotistiques et les prédictions de préférences de couple, par des tiers, en présence de stimuli faciaux. La catégorisation devant servir l'action, la similarité faciale doit avoir un effet dépendant du contexte sur ces prédictions, susceptible à des changements de valence et de domaine. En l'absence de contexte, les individus semblent pouvoir détecter la similarité faciale et la mettre en relation avec l'apparentement. Nos deux séries d'expériences offrent une conclusion différente. Quand la valence du contexte change et que nous analysons les prédictions des participants en terme de kin selection, leurs choix ne semblent pas mettre en relation similarité faciale et apparentement. / Our relation to our kin shapes much of our social world. It's no surprise then, that how we recognize and react to our own kin has been a widely investigated topic. In particular, when tackling direct kin recognition, facial similarity has emerged as a putative cue of relatedness. In this thesis, I investigate whether or not the same can be said for third party kin recognition. Split between two lines of research, we explore individuals' predictions of nepotistic and mating behavior} in third party scenarios using facial stimuli. These two domains provide the backbone of our research. Categorization must serve action. So, what would strengthen the notion of a presence of third-party kin recognition in humans? Facial similarity \emph{must have} a context-dependent effect on participants predictions, susceptible to valence changes in scenarios and switches from the prosocial and mate choice domains. This is precisely what we set out to do with our two lines of research. Though our literature review revealed that when context is starved participants seem to be able to detect similarity and seemingly connect it to relatedness. Our nepotism and mating series of experiments, by re-inserting context, offers us a different conclusion altogether. Within scenarios in which valence is modified and our participants analysis is bounded by predictions made by kin selection, their choices do no reflect a connection between similarity and relatedness. Reconnaissance des apparentés Tiers Appariemment de phénotype Similarité faciale Inclusive fitness Kin recognition Third parties Inclusive fitness Phenotype matching Facial similarity
72	Mining user similarity in online social networks : analysis,modeling and applications / Fouille de similarité de l'utilisateur dans les réseaux sociaux : analyse, modélisation et applications Han, Xiao 21 May 2015 (has links) Réseaux sociaux (RS) (par exemple, Facebook, Twitter et LinkedIn) ont gagné en popularité écrasante et accumulé des données numériques massives sur la société humaine. Ces données massives, représentant de l’information personnelle et sociale des individus, nous offrent des possibilités sans précédent pour étudier, analyser et modéliser la structure de réseau complexe, les relations humaines, les gens similitude, etc. Pendant ce temps, les RS ont déclenché un grand nombre d’applications et de services qui rentables chercher à maintenir des liens de vibrer et l’expérience des utilisateurs d’avance. Dans ce contexte, comment concevoir ces applications et les services, en particulier comment extraire et d’exploiter des fonctionnalités sociales efficaces à partir des données massives disponibles pour améliorer les applications et les services, a reçu beaucoup d’attention. Cette thèse, visant à améliorer les applications et les services sociaux, étudie trois questions essentielles et pratiques RS: (1) Comment pouvons-nous explorer les amis potentiels pour un utilisateur d’établir et d’élargir ses liens sociaux? (2) comment pouvons-nous découvrir un contenu intéressant pour un utilisateur pour satisfaire ses goûts personnels? (3) comment pouvons-nous informer un utilisateur du risque d’exposition de son information privée pour préserver sa vie privée? S’appuyant sur les idées sur la similarité de personnes dans les sciences sociales, cette thèse étudie les effets et les applications de l’utilisateur similitude dans les RS pour résoudre les problèmes mentionnés ci-dessus. Plus précisément, les sociologues suggèrent que la similitude engendre connexion et induit principe homophilie que les gens similaires (par exemple, même âge, l’éducation ou la profession) sont plus susceptibles de communiquer, de confiance et de partager l’information avec l’autre que ceux dissemblables. Inspiré par ces résultats, cette thèse étudie le principe de similitude répandue dans RS en termes de savoir si les utilisateurs similaires seraient proches dans leurs relations sociales, similaire dans leurs intérêts, ou approximative dans leur géo distance, en se appuyant sur 500K profils d’utilisateurs recueillies auprès de Facebook; il explore en outre des solutions pour exploiter efficacement le principe de similitude observée pour concevoir les quatre applications et des services sociaux suivantes: • Effets de Similarité de L’utilisateur sur Lien Prévision pour les Nouveaux Utilisateurs : nous analysons la prédiction de liaison pour les nouveaux utilisateurs qui n’ont pas créé de lien. Basé sur l’information limitée obtenu lors de votre inscription la procédure de nouveaux utilisateurs, ainsi que les attributs et les liens des utilisateurs existants dans un RS, nous étudions la façon dont beaucoup de similitude entre deux utilisateurs affecterait la probabilité qu’ils se lient d’amitié. En conséquence, nous proposons un modèle de prédiction de liaison efficace pour les nouveaux utilisateurs. • Similarité Minière de L’utilisateur pour la Découverte de Contenu en Réseaux P2P Sociale : nous examinons comment similarité et connaissances des participants dans RS pourraient bénéficier leur découverte de contenu dans les réseaux P2P. Nous construisons un modèle de réseau P2P sociale où chaque pair attribue plus de poids à ses amis dans RS qui ont similarité supérieur et plus de connaissances. Utilisation de marche aléatoire avec la méthode de redémarrage, nous présentons un nouveau contenu algorithme de découverte le dessus du modèle de réseau P2P sociale proposé. • Inspection intérêt similarité - Prédiction et Application : nous présentons des études empiriques détaillées sur les intérêts similitude et de révéler que les gens sont susceptibles de présenter des goûts similaires s’ils ont des informations démographiques similaires (par exemple, âge, lieu), ou s’elles sont amis. Par conséquent, étant donné un nouvel utilisateur dont les intérêts (...) / Online Social Networks (OSNs) (e.g., Facebook, Twitter and LinkedIn) have gained overwhelming popularity and accumulated massive digital data about human society. These massive data, representing individuals' personal and social information, provide us with unprecedented opportunities to study, analyze and model the complex network structure, human connections, people similarity, etc. Meanwhile, OSNs have triggered a large number of profitable applications and services which seek to maintain vibrate connections and advance users' experience. In this context, how to devise such applications and services, especially how to extract and exploit effective social features from the massive available data to enhance the applications and services, has received much attention. This dissertation, aiming to enhance the social applications and services, investigates three critical and practical issues in OSNs: (1) How can we explore potential friends for a user to establish and enlarge her social connections? (2) How can we discover interesting content for a user to satisfy her personal tastes? (3) How can we inform a user the exposure risk of her private information to preserve her privacy? Drawing on the insights about people's similarity in social science, this dissertation studies the widespread similarity principle in OSN in terms of whether similar users would be close in their social relationships, similar in their interests, or approximate in their geo-distance, relying on 500K user profiles collected from Facebook; it further explores solutions to effectively leverage the observed similarity principle to address the aforementioned practical issues Réseaux sociaux Fouille de données Similarité des utilisateurs Applications sociales Online social network Data mining User similarity Social applications
73	Tests d’hypothèses statistiquement et algorithmiquement efficaces de similarité et de dépendance / Statistically and computationally efficient hypothesis tests for similarity and dependency Bounliphone, Wacha 30 January 2017 (has links) Cette thèse présente de nouveaux tests d’hypothèses statistiques efficaces pour la relative similarité et dépendance, et l’estimation de la matrice de précision. La principale méthodologie adoptée dans cette thèse est la classe des estimateurs U-statistiques.Le premier test statistique porte sur les tests de relative similarité appliqués au problème de la sélection de modèles. Les modèles génératifs probabilistes fournissent un cadre puissant pour représenter les données. La sélection de modèles dans ce contexte génératif peut être difficile. Pour résoudre ce problème, nous proposons un nouveau test d’hypothèse non paramétrique de relative similarité et testons si un premier modèle candidat génère un échantillon de données significativement plus proche d’un ensemble de validation de référence.La deuxième test d’hypothèse statistique non paramétrique est pour la relative dépendance. En présence de dépendances multiples, les méthodes existantes ne répondent qu’indirectement à la question de la relative dépendance. Or, savoir si une dépendance est plus forte qu’une autre est important pour la prise de décision. Nous présentons un test statistique qui détermine si une variable dépend beaucoup plus d’une première variable cible ou d’une seconde variable.Enfin, une nouvelle méthode de découverte de structure dans un modèle graphique est proposée. En partant du fait que les zéros d’une matrice de précision représentent les indépendances conditionnelles, nous développons un nouveau test statistique qui estime une borne pour une entrée de la matrice de précision. Les méthodes existantes de découverte de structure font généralement des hypothèses restrictives de distributions gaussiennes ou parcimonieuses qui ne correspondent pas forcément à l’étude de données réelles. Nous introduisons ici un nouveau test utilisant les propriétés des U-statistics appliqués à la matrice de covariance, et en déduisons une borne sur la matrice de précision. / The dissertation presents novel statistically and computationally efficient hypothesis tests for relative similarity and dependency, and precision matrix estimation. The key methodology adopted in this thesis is the class of U-statistic estimators. The class of U-statistics results in a minimum-variance unbiased estimation of a parameter.The first part of the thesis focuses on relative similarity tests applied to the problem of model selection. Probabilistic generative models provide a powerful framework for representing data. Model selection in this generative setting can be challenging. To address this issue, we provide a novel non-parametric hypothesis test of relative similarity and test whether a first candidate model generates a data sample significantly closer to a reference validation set.Subsequently, the second part of the thesis focuses on developing a novel non-parametric statistical hypothesis test for relative dependency. Tests of dependence are important tools in statistical analysis, and several canonical tests for the existence of dependence have been developed in the literature. However, the question of whether there exist dependencies is secondary. The determination of whether one dependence is stronger than another is frequently necessary for decision making. We present a statistical test which determine whether one variables is significantly more dependent on a first target variable or a second.Finally, a novel method for structure discovery in a graphical model is proposed. Making use of a result that zeros of a precision matrix can encode conditional independencies, we develop a test that estimates and bounds an entry of the precision matrix. Methods for structure discovery in the literature typically make restrictive distributional (e.g. Gaussian) or sparsity assumptions that may not apply to a data sample of interest. Consequently, we derive a new test that makes use of results for U-statistics and applies them to the covariance matrix, which then implies a bound on the precision matrix. U-statistiques Tests d’hypothèses statistiques Dépendance Similarité Méthodes à noyau U-statistics Hypothesis testing Dependency Similarity Kernel methods
74	Analyse computationnelle des protéines kinases surexprimées dans le cancer du sein «Triple-négatif» / Computational analysis of overexpressed protein kinases in «triple-negative» breast cancer. Um Nlend, Ingrid January 2014 (has links) Résumé : Malgré l’apport de nouvelles armes thérapeutiques, le cancer du sein reste la première cause de décès par cancer chez la femme de moins de 65 ans. Le cancer du sein dit «triple-négatif», un sous-type représentant environ 10 % des cancers du sein, est caractérisé par l’absence de récepteurs hormonaux aux oestrogènes et à la progestérone et aussi par l’absence d’expression du récepteur de croissance HER-2. Ce type de cancer considéré comme étant le plus agressif des cancers du sein, possède un profil clinique défavorable avec un haut risque de rechute métastatique. Les seuls outils thérapeutiques disponibles actuellement contre ce type de cancer sont la chimiothérapie et la radiothérapie, qui s’avèrent être très toxiques pour le patient et ne ciblent pas de manière spécifique la tumeur. Il a été ainsi démontré qu’il existe au sein du kinome (i.e. l’ensemble des protéines kinases du génome humain), 26 protéines kinases surexprimées dans le cancer du sein dit «triple-négatif» et dont le rôle s’avère être critique dans la croissance de ces cellules cancéreuses. Nous avons utilisé différentes méthodes computationnelles développées au sein de notre laboratoire afin de caractériser le site de liaison de l’ensemble de ces 26 protéines kinases. Plus précisément, nous avons calculé les similitudes entre les protéines kinases à plusieurs niveaux: 1. séquence globale, 2. séquence des sites de liaison, 3. structure des sites de liaison et 4. profils de liaison. Nous avons utilisé des outils de visualisation de données afin de mettre en évidence ces similarités. Le profil de liaison de 38 molécules inhibitrices a été déterminé pour un ensemble de 290 protéines kinases humaines, incluant 15 des protéines kinases appartenant à notre sous-ensemble de protéines d'intérêt. Ces profils de liaison sont utilisés pour définir les similarités fonctionnelles entre les protéines kinases d'intérêt, en utilisant le coefficient tau de corrélation des rangs de Kendall ([tau]). Nous avons effectué des simulations d’arrimage à l’aide du logiciel FlexAID, pour chacune des protéines et l’ensemble des 38 molécules inhibitrices afin d’élargir l’analyse précédente aux autres protéines qui n’ont pas été testé par Karaman et al. Grâce aux différentes études structurales et computationnelles effectuées ci-dessus, nous avons été à même de hiérarchiser les protéines kinases en fonction des similarités moléculaires vis-à-vis de leurs profils de liaison, en vue du développement futur d’outils thérapeutiques poly-pharmacologiques. // Abstract : Despite the development of novel therapeutic agents, breast cancer represents a major cause of death among women. Among breast cancer patients, triple negative (TN) breast cancer (TNBC) represents approximately 15% of cases. TNBC is characterized by the absence of the estrogen receptor, the progesterone receptor as well as the HER2 protein kinase. Recently, it has been shown that a subset of 26 protein kinases (TNVT set) is overexpressed in TNBC. Their inhibition in siRNA knockdown experiments leads to varying levels of growth inhibition in TN and sometimes non-TN cancer cell lines. These studies validate TNVT set kinases as potential therapeutic targets. The aim of this project is to characterize the binding site of TNVT set kinases using different computational methods developed in our research group and to determine which protein kinases of this subset could be more likely to bind similar ligands as part of a poly-pharmacological approach. We calculated global sequence similarities, binding-site sequence similarities and 3D atomic binding-site similarities for the TNVT set of kinases. This analysis shows that binding-site sequence similarities somehow reflect global sequence similarities. Binding-site 3D atomic similarities reflect binding-site sequence similarities but are more widespread. This may have potential functional consequences in terms of small-molecule molecular recognition. Such similarities can potentially lead to cross-reactivity effects but they can also be exploited in the development of multi-functional poly-pharmacological drugs. Recently, the dissociation constants (K[indice inférieur d]) of 38 small-molecule inhibitors for 290 protein kinases (including 17 kinases in the TNVT set) were calculated. These experimental bindingprofiles were used to define a measure of functional profile similarity using Kendall rank correlations ([tau]). We will present results using our docking program FlexAID for the 38 small-molecules tested by Karaman et al. against the 26 kinases in the TNVT set. Similar to experimental binding-profiles, the docking scores can be used to define docking bindingprofiles similarities using [tau] rank correlations. Docking binding-profile similarities are then used to cluster the 26 kinases in the TNVT set. Clusters represent subsets of kinases within the TNVT set with functionally similar binding-sites. Finally, we compare functional docking profile similarities to the sequence and 3D atomic similarities discussed above. This analysis will allow us to detect subsets of kinases in the TNVT set for which it may be possible to develop multi-functional inhibitors. Protéine kinase Similarité Site de liaison Reconnaissance moléculaire Cancer du sein Inhibition Poly-pharmacologie Protein kinase Similarity Binding site Molecular récognition Breast cancer Polypharmacology
75	Indexation guidée par les connaissances en imagerie médicale AL SUN, Mohammad Homam 10 January 2012 (has links) (PDF) Dans ce travail de recherche, nous nous intéressons à l'exploitation des informations médicales pour l'aide à la décision diagnostique. Notre objectif est de définir un système capable de manipuler des données, des informations et des connaissances médicales d'une manière efficace afin de fournir au médecin, à la sortie du système, des informations permettant de faciliter la prise de décision diagnostique. Dans un premier temps, nous abordons les deux phases essentielles dans un système d'aide au diagnostic : la phase de modélisation des connaissances et la phase de raisonnement ou de mécanisme de manipulation de ces connaissances modélisées. Dans le cadre de ce travail, deux modes de raisonnement sont particulièrement considérés : le raisonnement par classification et le raisonnement par similarité. La modélisation des connaissances et le raisonnement sont abordés à la lumière de deux caractéristiques de l'information médicale qui sont : l'hétérogénéité et l'imperfection. Comme cadre général du système proposé, nous avons opté pour l'application de la théorie des possibilités grâce à ses avantages par rapport à d'autres théories de décision en termes de capacités de modélisation et de traitement des informations hétérogènes et imparfaites. En se basant sur cette théorie, nous avons proposé deux modèles possibilistes des connaissances médicales, et pour chaque modèle possibiliste proposé, nous avons discuté les deux types de raisonnement adoptés, par classification et par similarité. Les performances du système d'aide au diagnostic proposé sont évaluées en considérant une application médicale endoscopique comportant deux bases : une base de connaissances constituée d'un ensemble des diagnostics et une base de cas de lésions. Les résultats obtenus sont très intéressants et montrent l'efficacité de la théorie des possibilités comme un cadre de représentation des connaissances médicales et comme outil de raisonnement diagnostique. De plus, l'approche proposée s'est montré très efficace pour l'intégration de plusieurs sources des connaissances, pour la définition de la similarité entre cas et pour l'utilisation l'indice de confiance comme critère de décision (en termes de qualité des informations fournies au médecin). Aide au diagnostic Raisonnement par classification Raisonnement à base de cas Mesure de similarité Théorie des possibilités distribution de possibilité anormale
76	Extraction et reconnaissance de primitives dans les façades de Paris à l'aide d'appariement de graphes / Extraction and recognition of object in the facades of Paris using graph matching Haugeard, Jean-emmanuel 17 December 2010 (has links) Cette dernière décennie, la modélisation des villes 3D est devenue l'un des enjeux de la recherche multimédia et un axe important en reconnaissance d'objets. Dans cette thèse nous nous sommes intéressés à localiser différentes primitives, plus particulièrement les fenêtres, dans les façades de Paris. Dans un premier temps, nous présentons une analyse des façades et des différentes propriétés des fenêtres. Nous en déduisons et proposons ensuite un algorithme capable d'extraire automatiquement des hypothèses de fenêtres. Dans une deuxième partie, nous abordons l'extraction et la reconnaissance des primitives à l'aide d'appariement de graphes de contours. En effet une image de contours est lisible par l'oeil humain qui effectue un groupement perceptuel et distingue les entités présentes dans la scène. C'est ce mécanisme que nous avons cherché à reproduire. L'image est représentée sous la forme d'un graphe d'adjacence de segments de contours, valué par des informations d'orientation et de proximité des segments de contours. Pour la mise en correspondance inexacte des graphes, nous proposons plusieurs variantes d'une nouvelle similarité basée sur des ensembles de chemins tracés sur les graphes, capables d'effectuer les groupements des contours et robustes aux changements d'échelle. La similarité entre chemins prend en compte la similarité des ensembles de segments de contours et la similarité des régions définies par ces chemins. La sélection des images d'une base contenant un objet particulier s'effectue à l'aide d'un classifieur SVM ou kppv. La localisation des objets dans l'image utilise un système de vote à partir des chemins sélectionnés par l'algorithme d'appariement. / This last decade, modeling of 3D city became one of the challenges of multimedia search and an important focus in object recognition. In this thesis we are interested to locate various primitive, especially the windows, in the facades of Paris. At first, we present an analysis of the facades and windows properties. Then we propose an algorithm able to extract automatically window candidates. In a second part, we discuss about extraction and recognition primitives using graph matching of contours. Indeed an image of contours is readable by the human eye, which uses perceptual grouping and makes distinction between entities present in the scene. It is this mechanism that we have tried to replicate. The image is represented as a graph of adjacency of segments of contours, valued by information orientation and proximity to edge segments. For the inexact matching of graphs, we propose several variants of a new similarity based on sets of paths, able to group several contours and robust to scale changes. The similarity between paths takes into account the similarity of sets of segments of contours and the similarity of the regions defined by these paths. The selection of images from a database containing a particular object is done using a KNN or SVM classifier. Appariement inexact de graphe Graphe Relationnel Attribué Similarité de graphes Noyau sur graphe Fenêtres et façades Inexact graph matching Attributed Relational Graph Graph similarity Graph kernel Windows and facades
77	Quel est le niveau hiérarchique des premières catégories apprises ? : une analyse des facteurs chevauchement inter catégories et redondance intra catégorie Girard, Jade January 2008 (has links) Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal. Formation de catégories Catefory formation Similarité Similarity Niveau de base Basic level Chevauchement inter catégories Between categories overlap Redondance intra catégorie Within category redundancy
78	Approche générique d’extraction automatique des événements et leur exploitation / Generic Approach for the Automatic Events Extraction and their Exploitation El Khelifi, Aymen 08 December 2012 (has links) Dans le cadre de notre thèse, nous avons proposé une approche générique d’extraction automatique des événements et de leur exploitation. L’approche est organisée en quatre composantes indépendantes et réutilisables. Une première composante de prétraitement, où les textes sont nettoyés et segmentés. Au cours de la seconde étape, les événements sont extraits en sebasant sur notre algorithme AnnotEC qui dispose d’une complexité polynomiale et qui est associé à des cartes sémantiques et des ressources linguistiques dédiées. Nous avons mis en place deux nouvelles mesures de similarité SimCatégoreille et SimEvent pour regrouper les événementssimilaires dans le cadre de la troisième composante de clustering. Les annotations, ajoutées tout au long des trois premières étapes, sont exploitées au niveau de la dernière composante par le bais des fichiers de synthèse paramétrables par l’utilisateur.L’approche a été évaluée sur un corpus issu du Web 2.0. Nous avons comparé les résultats avec des méthodes d’apprentissage automatique et des méthodes linguistiques par compilation et nous avons obtenu de meilleurs résultats. / In the framework of our thesis, we proposed a generic approach for the automatic extraction of events and their exploitation. This approach is divided into four independent and reusable components. The first component of pretreatment, in which texts are cleaned and segmented. During the second stage, events are extracted based on our algorithm AnnotEC which has polynomial complexity. AnnotEC is associated with semantic maps and dedicated linguistic resources. We have proposed two new similarity measures SimCatégoreille and SimEvent to group similar events using clustering algorithms.Annotations, added throughout the first three steps, are used at the last component by summarizing files configurable by users. The approach was evaluated on a corpus of Web 2.0, we compared the obtained results with machine learning methods and linguistic compiling methods and we got good results. Extraction d’événement Annotation d’information Mesure de Similarité Sémantique Cartes Sémantiques Ontologies Linguistiques Exploration Contextuelle Plateforme Linguistique Corpus Web 2.0 Event Extraction Information Annotation Semantic Maps Semantic Measure of Similarity
79	Apport des ontologies de domaine pour l'extraction de connaissances à partir de données biomédicales / Contribution of domain ontologies for knowledge discovery in biomedical data Personeni, Gabin 09 November 2018 (has links) Le Web sémantique propose un ensemble de standards et d'outils pour la formalisation et l'interopérabilité de connaissances partagées sur le Web, sous la forme d'ontologies. Les ontologies biomédicales et les données associées constituent de nos jours un ensemble de connaissances complexes, hétérogènes et interconnectées, dont l'analyse est porteuse de grands enjeux en santé, par exemple dans le cadre de la pharmacovigilance. On proposera dans cette thèse des méthodes permettant d'utiliser ces ontologies biomédicales pour étendre les possibilités d'un processus de fouille de données, en particulier, permettant de faire cohabiter et d'exploiter les connaissances de plusieurs ontologies biomédicales. Les travaux de cette thèse concernent dans un premier temps une méthode fondée sur les structures de patrons, une extension de l'analyse formelle de concepts pour la découverte de co-occurences de événements indésirables médicamenteux dans des données patients. Cette méthode utilise une ontologie de phénotypes et une ontologie de médicaments pour permettre la comparaison de ces événements complexes, et la découverte d'associations à différents niveaux de généralisation, par exemple, au niveau de médicaments ou de classes de médicaments. Dans un second temps, on utilisera une méthode numérique fondée sur des mesures de similarité sémantique pour la classification de déficiences intellectuelles génétiques. On étudiera deux mesures de similarité utilisant des méthodes de calcul différentes, que l'on utilisera avec différentes combinaisons d'ontologies phénotypiques et géniques. En particulier, on quantifiera l'influence que les différentes connaissances de domaine ont sur la capacité de classification de ces mesures, et comment ces connaissances peuvent coopérer au sein de telles méthodes numériques. Une troisième étude utilise les données ouvertes liées ou LOD du Web sémantique et les ontologies associées dans le but de caractériser des gènes responsables de déficiences intellectuelles. On utilise ici la programmation logique inductive, qui s'avère adaptée pour fouiller des données relationnelles comme les LOD, en prenant en compte leurs relations avec les ontologies, et en extraire un modèle prédictif et descriptif des gènes responsables de déficiences intellectuelles. L'ensemble des contributions de cette thèse montre qu'il est possible de faire coopérer avantageusement une ou plusieurs ontologies dans divers processus de fouille de données / The semantic Web proposes standards and tools to formalize and share knowledge on the Web, in the form of ontologies. Biomedical ontologies and associated data represents a vast collection of complex, heterogeneous and linked knowledge. The analysis of such knowledge presents great opportunities in healthcare, for instance in pharmacovigilance. This thesis explores several ways to make use of this biomedical knowledge in the data mining step of a knowledge discovery process. In particular, we propose three methods in which several ontologies cooperate to improve data mining results. A first contribution of this thesis describes a method based on pattern structures, an extension of formal concept analysis, to extract associations between adverse drug events from patient data. In this context, a phenotype ontology and a drug ontology cooperate to allow a semantic comparison of these complex adverse events, and leading to the discovery of associations between such events at varying degrees of generalization, for instance, at the drug or drug class level. A second contribution uses a numeric method based on semantic similarity measures to classify different types of genetic intellectual disabilities, characterized by both their phenotypes and the functions of their linked genes. We study two different similarity measures, applied with different combinations of phenotypic and gene function ontologies. In particular, we investigate the influence of each domain of knowledge represented in each ontology on the classification process, and how they can cooperate to improve that process. Finally, a third contribution uses the data component of the semantic Web, the Linked Open Data (LOD), together with linked ontologies, to characterize genes responsible for intellectual deficiencies. We use Inductive Logic Programming, a suitable method to mine relational data such as LOD while exploiting domain knowledge from ontologies by using reasoning mechanisms. Here, ILP allows to extract from LOD and ontologies a descriptive and predictive model of genes responsible for intellectual disabilities. These contributions illustrates the possibility of having several ontologies cooperate to improve various data mining processes Bioontologies Données ouvertes liées Programmation logique inductive Similarité sémantique Structures de patrons Web sémantique Bioontologies Inductive Logic Programming Linked Open Data Pattern structures Semantic similarity Semantic Web 006.332 006.312
80	Enhancing Ontology Matching by Using Machine Learning, Graph Matching and Information Retrieval Techniques / Amélioration de l'alignement d'ontologies par les techniques d'apprentissage automatique, d'appariement de graphes et de recherche d'information Ngo, Duy Hoa 14 December 2012 (has links) Ces dernières années, les ontologies ont suscité de nombreux travaux dans le domaine du web sémantique. Elles sont utilisées pour fournir le vocabulaire sémantique permettant de rendre la connaissance du domaine disponible pour l'échange et l'interprétation au travers des systèmes d'information. Toutefois, en raison de la nature décentralisée du web sémantique, les ontologies sont très hétérogènes. Cette hétérogénéité provoque le problème de la variation de sens ou ambiguïté dans l'interprétation des entités et, par conséquent, elle empêche le partage des connaissances du domaine. L'alignement d'ontologies, qui a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre ce problème d'hétérogénéité dans les applications du web sémantique. Les principaux défis dans le domaine de l'alignement d'ontologies ont été décrits dans des études récentes. Parmi eux, la sélection de mesures de similarité appropriées ainsi que le réglage de la configuration de leur combinaison sont connus pour être des problèmes fondamentaux que la communauté doit traiter. En outre, la vérification de la cohérence sémantique des correspondances est connue pour être une tâche importante. Par ailleurs, la difficulté du problème augmente avec la taille des ontologies. Pour faire face à ces défis, nous proposons dans cette thèse une nouvelle approche, qui combine différentes techniques issues des domaines de l'apprentissage automatique, d'appariement de graphes et de recherche d'information en vue d'améliorer la qualité de l'alignement d'ontologies. En effet, nous utilisons des techniques de recherche d'information pour concevoir de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités de contexte au niveau des entités. Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre effectivement des correspondances en exploitant des informations structurelles des entités. Pour combiner les mesures de similarité au niveau des entités, nous transformons la tâche de l'alignement d'ontologie en une tâche de classification de l'apprentissage automatique. Par ailleurs, nous proposons une méthode dynamique de la somme pondérée pour combiner automatiquement les correspondances obtenues au niveau des entités et celles obtenues au niveau de la structure. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique. Enfin, pour traiter le problème de l'alignement d'ontologies à large échelle, nous proposons deux méthodes de sélection des candidats pour réduire l'espace de calcul.Toutes ces contributions ont été mises en œuvre dans un prototype nommé YAM++. Pour évaluer notre approche, nous avons utilisé des données du banc d'essai de la compétition OAEI : Benchmark, Conference, Multifarm, Anatomy, Library and Large Biomedical Ontologies. Les résultats expérimentaux montrent que les méthodes proposées sont très efficaces. De plus, en comparaison avec les autres participants à la compétition OAEI, YAM++ a montré sa compétitivité et a acquis une position de haut rang. / In recent years, ontologies have attracted a lot of attention in the Computer Science community, especially in the Semantic Web field. They serve as explicit conceptual knowledge models and provide the semantic vocabularies that make domain knowledge available for exchange and interpretation among information systems. However, due to the decentralized nature of the semantic web, ontologies are highlyheterogeneous. This heterogeneity mainly causes the problem of variation in meaning or ambiguity in entity interpretation and, consequently, it prevents domain knowledge sharing. Therefore, ontology matching, which discovers correspondences between semantically related entities of ontologies, becomes a crucial task in semantic web applications.Several challenges to the field of ontology matching have been outlined in recent research. Among them, selection of the appropriate similarity measures as well as configuration tuning of their combination are known as fundamental issues that the community should deal with. In addition, verifying the semantic coherent of the discovered alignment is also known as a crucial task. Furthermore, the difficulty of the problem grows with the size of the ontologies. To deal with these challenges, in this thesis, we propose a novel matching approach, which combines different techniques coming from the fields of machine learning, graph matching and information retrieval in order to enhance the ontology matching quality. Indeed, we make use of information retrieval techniques to design new effective similarity measures for comparing labels and context profiles of entities at element level. We also apply a graph matching method named similarity propagation at structure level that effectively discovers mappings by exploring structural information of entities in the input ontologies. In terms of combination similarity measures at element level, we transform the ontology matching task into a classification task in machine learning. Besides, we propose a dynamic weighted sum method to automatically combine the matching results obtained from the element and structure level matchers. In order to remove inconsistent mappings, we design a new fast semantic filtering method. Finally, to deal with large scale ontology matching task, we propose two candidate selection methods to reduce computational space.All these contributions have been implemented in a prototype named YAM++. To evaluate our approach, we adopt various tracks namely Benchmark, Conference, Multifarm, Anatomy, Library and Large BiomedicalOntologies from the OAEI campaign. The experimental results show that the proposed matching methods work effectively. Moreover, in comparison to other participants in OAEI campaigns, YAM++ showed to be highly competitive and gained a high ranking position. Alignement d'ontologies Extraction/recherche d'information Apprentissage automatique Propagation de similarité Vérification sémantique Ontology matching Information retrieval Machine learning Similarity propagation Semantic verification

Search results