Global ETD Search

61	Apprentissage statistique pour l'étiquetage de musique et la recommandation Bertin-Mahieux, Thierry January 2009 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal Machine learning Traitement de signal Étiquetage automatique de musique Similarité musicale Machine learning Signal processing Automatic tagging of music Music similarity
62	Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique Hussain, Syed Fawad 28 September 2010 (has links) (PDF) La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés. [INFO] Computer Science [INFO] Informatique Co-similarité co-classification systeme d'apprentissage fouille de texts expression génique co-clustering
63	Conditions aux limites tridimensionnelles pour la simulation directe et aux grandes échelles des écoulements turbulents : modélisation de sous-maille pour la turbulence en région de proche paroi Lodato, Guido 05 December 2008 (has links) (PDF) Le traitement des conditions aux limites et la modélisation fine des interactions de sous-maille ont été abordés dans cette thèse. La formulation caractéristique des conditions aux limites a été analysée et une nouvelle procédure 3D-NSCBC est proposée qui autorise la prise en compte de l'évolution de la vitesse et de la pression dans le plan des frontières, afin d'introduire le caractère tridimensionnel de l'écoulement dans les conditions limites. Des nouvelles formulations pour resoudre le couplage des ondes caractéristiques au niveau des arêtes et des coins ont été développées. Dans le cadre de la Simulation des Grandes Échelles, pour reproduire correctement la dynamique de la turbulence à la paroi et pour mieux prendre en compte l'anisotropie du tenseur des contraintes de sous-maille, un modèle structural fondé sur l'hypothèse de similarité est développé pour des écoulements modérément compressibles et validé sur la simulation d'un jet rond en impaction sur une paroi plane. [PHYS] Physics [PHYS] Physique Conditions limites Caractéristiques 3D Simulation Grandes échelles Modèles Sous-Maille Similarité-mixte Asymptotique Turbulence en paroi
64	Conception et modélisation de nouvelles molécules hautement énergétiques en fonction des contraintes réglementaires et environnementales / Design and modelling of High Energetic Materials (HEM) in accordance with environmentals and regulatories contraints Alliod, Charlotte 08 March 2018 (has links) Depuis deux décennies, la recherche militaire se focalise sur l'amélioration des critères de performances des explosifs, tout en prenant en compte leurs impacts environnementaux et toxicologiques. Ces enjeux sont encadrés par une réglementation stricte : REACh (Registration, Evaluation, Authorization and Restriction of Chemicals) permettant d'assurer un haut niveau de protection sanitaire et environnementale. De nos jours, développer des explosifs ou molécules hautement énergétiques (High Energy Materials (HEM)) ayant un effet réduit sur l'homme et l'environnement est un sujet de préoccupation majeur. Ainsi, en collaboration avec Airbus Safran Lauchers (ASL), un programme de recherche a été mis en place, afin d'obtenir des outils optimisés pour la prédiction de la toxicité des HEMs et concevoir de nouvelles molécules HEMS non toxiques et réglementaires.Différentes méthodes in silico ont été utilisées dont des Relations Structure Activité Quantitatives (ou Quantitative Structure-Activity Relationship (QSAR)) et le Machine Learning. La recherche de similarité structurale parmi les molécules est un outil novateur sur lequel nous avons basé nos prédictions in silico. Cette similarité est obtenue grâce à un algorithme intelligent développé au sein du Pôle Rhône Alpin de Bio-Informatique de Lyon et qui a donné lieu à un brevet. Cet algorithme nous permet d'obtenir des prédictions plus précises basées sur des données expérimentales issues de directives européennes / For the last two decades, the military research has focused on the improvement of explosive performances, while taking into account their environmental and toxicological impacts. These issues are governed by strict regulations: REACh (Registration, Evaluation, Authorization and Restriction of Chemicals) to ensure a high level of health and environmental protection.Today, it's a major consideration to develop High Energetic Materials (HEM) or molecules who's hazard on human health and environment are reduced. Thus, in collaboration with Airbus Safran Lauchers (ASL), a research program was set up to obtain optimized tools for predicting the potential toxicity of HEM and to design new non-toxic and regulatory molecules.Different in silico methods have been used, including Quantitative Structure Activity Activity Relationships (QSARs) and Machine Learning.The search for structural similarity among molecules is an innovative tool on which we based our predictions in silico. This similarity is obtained thanks to an intelligent algorithm developed within the Pole Rhone Alpin de Bio-Informatique of Lyon which gave rise to a patent. This algorithm allows us to obtain more accurate predictions based on experimental data from European directives Prédiction Similarité HEM REACh Toxicité Machine learning Algorithme Prediction Similarity HEM REACh Toxicity Machine learning Algorithm 571.95
65	Nouveaux logiciels pour la biologie structurale computationnelle et la chémoinformatique / New software for computational structural biology and chemoinformatics Bérenger, François 05 July 2016 (has links) Ma thèse introduit cinq logiciels de trois différents domaines: le calcul parallèle et distribué, la biologie structurale computationnelle et la chémoinformatique. Le logiciel pour le calcul parallèle et distribué s'appelle PAR. PAR permet d'exécuter des expériences indépendantes de manière parallèle et distribuée. Les logiciels pour la biologie structurale computationnelle sont Durandal, EleKit et Fragger. Durandal exploite la propagation de contraintes géométriques afin d'accélérer l'algorithme de partitionnement exact pour des modèles de protéines. EleKit permet de mesurer la similarité électrostatique entre une petite molécule et la protéine qu'elle est conçue pour remplacer sur une interface protéine-protéine. Fragger est un cueilleur de fragments de protéines permettant de sélectionner des fragments dans la banque de protéines mondiale. Enfin, le logiciel de chémoinformatique est ACPC. ACPC permet l'encodage fin, d'une manière rotation-translation invariante, d'une molécule dans un ou une combinaison des trois espaces chimiques (électrostatique, stérique ou hydrophobe). ACPC est un outil de criblage virtuel qui supporte les requêtes consensus, l'annotation de la molécule requête et les processeurs multi-coeurs. / This thesis introduces five software useful in three different areas : parallel and distributed computing, computational structural biology and chemoinformatics. The software from the parallel and distributed area is PAR. PAR allows to execute independent experiments in a parallel and distributed way. The software for computational structural biology are Durandal, EleKit and Fragger. Durandal exploits the propagation of geometric constraints to accelerate the exact clustering algorithm for protein models. EleKit allows to measure the electrostatic similarity between a chemical molecule and the protein it is designed to replace at a protein-protein interface. Fragger is a fragment picker able to select protein fragments in the whole protein data-bank. Finally, the chemoinformatics software is ACPC. ACPC encodes in a rotation-translation invariant way a chemical molecule in any or a combination of three chemical spaces (electrostatic, steric or hydrophobic). ACPC is a ligand-based virtual screening tool supporting consensus queries, query molecule annotation and multi-core computers. Regroupement Similarité électrostatique Autocorrélation Criblage virtuel Ligand Protéine Clustering Electrostatic similarity Autocorrelation Virtual screening Ligand Protein 572.6
66	Historical handwriting representation model dedicated to word spotting application / Modèle de représentation des écritures pour la recherche de mots par similarité dans les documents manuscrits du patrimoine Wang, Peng 18 November 2014 (has links) L’objectif du travail de thèse est de proposer un modèle de représentation des écritures dans les images de documents du patrimoine sans recourir à une transcription des textes. Ce modèle, issu d’une étude très complète des méthodes actuelles de caractérisation des écritures, est à la base d’une proposition de scénario de recherche par similarité de mots, indépendante du scripteur et ne nécessitant pas d’apprentissage. La recherche par similarité proposée repose sur une structure de graphes intégrant des informations sur la topologie, la morphologie locale des mots et sur le contexte extrait du voisinage de chaque point d’intérêt. Un graphe est construit à partir du squelette décrit en chaque point sommet par le contexte de formes, descripteur riche et compact. L’extraction de mots est assurée par une première étape de localisation grossière de régions candidates, décrites par une séquence déduite d’une représentation par graphes liée à des critères topologiques de voisinage. L’appariement entre mots repose ensuite sur une distance dynamique et un usage adapté du coût d’édition approximé entre graphes rendant compte de la nature bi-dimensionnelle de l’écriture. L’approche a été conçue pour être robuste aux distorsions de l’écriture et aux changements de scripteurs. Les expérimentations sont réalisées sur des bases de documents manuscrits patrimoniaux exploitées dans les compétitions de word-spotting. Les performances illustrent la pertinence de la proposition et ouvrent des voies nouvelles d’investigation dans des domaines d’applications autour de la reconnaissance de symboles et d’écritures iconographiques / As more and more documents, especially historical handwritten documents, are converted into digitized version for long-term preservation, the demands for efficient information retrieval techniques in such document images are increasing. The objective of this research is to establish an effective representation model for handwriting, especially historical manuscripts. The proposed model is supposed to help the navigation in historical document collections. Specifically speaking, we developed our handwriting representation model with regards to word spotting application. As a specific pattern recognition task, handwritten word spotting faces many challenges such as the high intra-writer and inter-writer variability. Nowadays, it has been admitted that OCR techniques are unsuccessful in handwritten offline documents, especially historical ones. Therefore, the particular characterization and comparison methods dedicated to handwritten word spotting are strongly required. In this work, we explore several techniques that allow the retrieval of singlestyle handwritten document images with query image. The proposed representation model contains two facets of handwriting, morphology and topology. Based on the skeleton of handwriting, graphs are constructed with the structural points as the vertexes and the strokes as the edges. By signing the Shape Context descriptor as the label of vertex, the contextual information of handwriting is also integrated. Moreover, we develop a coarse-to-fine system for the large-scale handwritten word spotting using our representation model. In the coarse selection, graph embedding is adapted with consideration of simple and fast computation. With selected regions of interest, in the fine selection, a specific similarity measure based on graph edit distance is designed. Regarding the importance of the order of handwriting, dynamic time warping assignment with block merging is added. The experimental results using benchmark handwriting datasets demonstrate the power of the proposed representation model and the efficiency of the developed word spotting approach. The main contribution of this work is the proposed graph-based representation model, which realizes a comprehensive description of handwriting, especially historical script. Our structure-based model captures the essential characteristics of handwriting without redundancy, and meanwhile is robust to the intra-variation of handwriting and specific noises. With additional experiments, we have also proved the potential of the proposed representation model in other symbol recognition applications, such as handwritten musical and architectural classification Modèle de représentation Reconnaissance de mots Recherche par similarité Contexte de forme Comprehensive representation model Word spotting Graph-based Shape context
67	Mesures de similarité pour cartes généralisées / Similarity measures between generalized maps Combier, Camille 28 November 2012 (has links) Une carte généralisée est un modèle topologique permettant de représenter implicitementun ensemble de cellules (sommets, arêtes, faces , volumes, . . .) ainsi que l’ensemblede leurs relations d’incidence et d’adjacence au moyen de brins et d’involutions. Les cartes généralisées sont notamment utilisées pour modéliser des images et objets3D. A ce jour il existe peu d’outils permettant l’analyse et la comparaison de cartes généralisées.Notre objectif est de définir un ensemble d’outils permettant la comparaisonde cartes généralisées.Nous définissons tout d’abord une mesure de similarité basée sur la taille de la partiecommune entre deux cartes généralisées, appelée plus grande sous-carte commune.Nous définissons deux types de sous-cartes, partielles et induites, la sous-carte induitedoit conserver toutes les involutions tandis que la sous-carte partielle autorise certaines involutions à ne pas être conservées. La sous-carte partielle autorise que les involutionsne soient pas toutes conservées en analogie au sous-graphe partiel pour lequelles arêtes peuvent ne pas être toutes présentes. Ensuite nous définissons un ensembled’opérations de modification de brins et de coutures pour les cartes généralisées ainsiqu’une distance d’édition. La distance d’édition est égale au coût minimal engendrépar toutes les successions d’opérations transformant une carte généralisée en une autrecarte généralisée. Cette distance permet la prise en compte d’étiquettes, grâce à l’opérationde substitution. Les étiquettes sont posées sur les brins et permettent d’ajouter del’information aux cartes généralisées. Nous montrons ensuite, que pour certains coûtsnotre distance d’édition peut être calculée directement à partir de la plus grande souscartecommune.Le calcul de la distance d’édition est un problème NP-difficile. Nous proposons unalgorithme glouton permettant de calculer en temps polynomial une approximation denotre distance d’édition de cartes. Nous proposons un ensemble d’heuristiques baséessur des descripteurs du voisinage des brins de la carte généralisée permettant de guiderl’algorithme glouton, et nous évaluons ces heuristiques sur des jeux de test générésaléatoirement, pour lesquels nous connaissons une borne de la distance.Nous proposons des pistes d’utilisation de nos mesures de similarités dans le domainede l’analyse d’image et de maillages. Nous comparons notre distance d’éditionde cartes généralisées avec la distance d’édition de graphes, souvent utilisée en reconnaissancede formes structurelles. Nous définissons également un ensemble d’heuristiquesprenant en compte les étiquettes de cartes généralisées modélisant des images etdes maillages. Nous mettons en évidence l’aspect qualitatif de notre appariement, permettantde mettre en correspondance des zones de l’image et des points du maillages. / A generalized map is a topological model that allows to represent implicitly differenttypes of cells (vertices, edges, volumes, . . . ) and their relationship by using a set of dartsand some involutions. Generalized maps are used to model 3D meshes and images.Anyway there exists only few tools to compare theses generalized maps. Our main goalis to define some tools tolerant to error to compare them.We define a similarity measure based on the size of the common part of two generalizedmaps, called maximum common submap. Then we define two types of submaps,partial and induced, the induced submap needs to preserve all the involutions whereasthe partial one can allow some involutions to be removed. Then we define a set of operationsto modify a generalized map into another and the associated edit distance. Theedit distance is equal to the minimal cost of all the sequences of operations that modifya generalized map into the other. This edit distance can use labels to consider additionalinformation, with the operation called ’substitution’. Labels are set on darts. Wenext showa relation between our edit distance and the distance based on the maximumcommon submap.Computing theses distance are aNP-hard problem.We propose a greedy algorithmcomputing an approximation of it. We also propose a set of heuristics based on thedescription of the neighborhoob of the darts to help the greedy algorithm.We try thesesheuristics on a set of generalized maps randomly generated where a lower bound of thedistance is known. We also propose some applications of our similarity measures inthe image analysis domain. We compare our edit distance on generalized maps withthe edit distance on graphs. We also define a set of labels specific on images and 3Dmeshes. And we show that the matching computed by our algorithm construct a linkbetween images’s areas. Carte généralisée Maillage Mesure de similarité Ensembles d'heuristiques Algorithme glouton Genralized map Mesh Similarity measure Set of heuristics Greedy algorithm 006.693
68	Un système de recommandation contextuel et composite pour la visite personnalisée de sites culturels / A contextual and composite recommender system for the personalization of cultural sites visit Benouaret, Idir 25 January 2017 (has links) Notre travail concerne les systèmes d’aide à la visite de musée et l’accès au patrimoine culturel. L’objectif est de concevoir des systèmes de recommandation, implémentés sur dispositifs mobiles, pour améliorer l’expérience du visiteur, en lui recommandant les items les plus pertinents et en l’aidant à personnaliser son parcours. Nous considérons essentiellement deux terrains d’application : la visite de musées et le tourisme. Nous proposons une approche de recommandation hybride et sensible au contexte qui utilise trois méthodes différentes : démographique, sémantique et collaborative. Chaque méthode est adaptée à une étape spécifique de la visite de musée. L’approche démographique est tout d’abord utilisée afin de résoudre le problème du démarrage à froid. L’approche sémantique est ensuite activée pour recommander à l’utilisateur des œuvres sémantiquement proches de celles qu’il a appréciées. Enfin l’approche collaborative est utilisée pour recommander à l’utilisateur des œuvres que les utilisateurs qui lui sont similaires ont aimées. La prise en compte du contexte de l’utilisateur se fait à l’aide d’un post-filtrage contextuel, qui permet la génération d’un parcours personnalisé dépendant des œuvres qui ont été recommandées et qui prend en compte des informations contextuelles de l’utilisateur à savoir : l’environnement physique, la localisation ainsi que le temps de visite. Dans le domaine du tourisme, les points d’intérêt à recommander peuvent être de différents types (monument, parc, musée, etc.). La nature hétérogène de ces points d’intérêt nous a poussé à proposer un système de recommandation composite. Chaque recommandation est une liste de points d’intérêt, organisés sous forme de packages, pouvant constituer un parcours de l’utilisateur. L’objectif est alors de recommander les Top-k packages parmi ceux qui satisfont les contraintes de l’utilisateur (temps et coût de visite par exemple). Nous définissons une fonction de score qui évalue la qualité d’un package suivant trois critères : l’appréciation estimée de l’utilisateur, la popularité des points d’intérêt ainsi que la diversité du package et nous proposons un algorithme inspiré de la recherche composite pour construire la liste des packages recommandés. L’évaluation expérimentale du système que nous avons proposé, en utilisant un data-set réel extrait de Tripadvisor démontre sa qualité et sa capacité à améliorer à la fois la précision et la diversité des recommandations. / Our work concerns systems that help users during museum visits and access to cultural heritage. Our goal is to design recommender systems, implemented in mobile devices to improve the experience of the visitor, by recommending him the most relevant items and helping him to personalize the tour he makes. We consider two mainly domains of application : museum visits and tourism. We propose a context-aware hybrid recommender system which uses three different methods : demographic, semantic and collaborative. Every method is adapted to a specific step of the museum tour. First, the demographic approach is used to solve the problem of the cold start. The semantic approach is then activated to recommend to the user artworks that are semantically related to those that the user appreciated. Finally, the collaborative approach is used to recommend to the user artworks that users with similar preferences have appreciated. We used a contextual post filtering to generate personalized museum routes depending on artworks which were recommended and contextual information of the user namely : the physical environment, the location as well as the duration of the visit. In the tourism field, the items to be recommended can be of various types (monuments, parks, museums, etc.). Because of the heterogeneous nature of these points of interest, we proposed a composite recommender system. Every recommendation is a list of points of interest that are organized in a package, where each package may constitute a tour for the user. The objective is to recommend the Top-k packages among those who satisfy the constraints of the user (time, cost, etc.). We define a scoring function which estimates the quality of a package according to three criteria : the estimated appreciation of the user, the popularity of points of interest as well as the diversity of packages. We propose an algorithm inspired by composite retrieval to build the list of recommended packages. The experimental evaluation of the system we proposed using a real world data set crawled from Tripadvisor demonstrates its quality and its ability to improve both the relevance and the diversity of recommendations. Similarité Diversité Approche sémantique Approche collaborative Visite de musées Recommender systems Semantic web Similarity Diversity Context awareness Museum Tourism
69	Méthodes de classification des graphes : application à l’identification des réseaux fonctionnels impliqués dans les processus de mémoire / Methods for graph classification : application to the identification of neural cliques involved in memory porcesses Mheich, Ahmad 16 December 2016 (has links) Le cerveau humain est un réseau «large-échelle» formé de régions corticales distribuées et fonctionnellement interconnectées. Le traitement de l'information par le cerveau est un processus dynamique mettant en jeu une réorganisation rapide des réseaux cérébraux fonctionnels, sur une échelle de temps très courte (inférieure à la seconde). Dans le champ des neurosciences cognitives, deux grandes questions restent ouvertes concernant ces réseaux. D'une part, est-il possible de suivre leur dynamique spatio-temporelle avec une résolution temporelle nettement supérieure à celle de l'IRM fonctionnelle? D'autre part, est-il possible de mettre en évidence des différences significatives dans ces réseaux lorsque le cerveau traite des stimuli (visuels, par exemple) ayant des caractéristiques différentes. Ces deux questions ont guidé les développements méthodologiques élaborés dans cette thèse. En effet, de nouvelles méthodes basées sur l'électroencéphalographie sont proposées. Ces méthodes permettent, d'une part de suivre la reconfiguration dynamique des réseaux cérébraux fonctionnels à une échelle de temps inférieure à la seconde. Elles permettent, d'autre part, de comparer deux réseaux cérébraux activés dans des conditions spécifiques. Nous proposons donc un nouvel algorithme bénéficiant de l'excellente résolution temporelle de l'EEG afin de suivre la reconfiguration rapide des réseaux fonctionnels cérébraux à l'échelle de la milliseconde. L'objectif principal de cet algorithme est de segmenter les réseaux cérébraux en un ensemble d' «états de connectivité fonctionnelle» à l'aide d'une approche de type « clustering ». L'algorithme est basé sur celui des K-means et a été appliqué sur les graphes de connectivité obtenus à partir de l'estimation des valeurs de connectivité fonctionnelle entre les régions d'intérêt considérées. La seconde question abordée dans ce travail relève de la mesure de similarité entre graphes. Ainsi, afin de comparer des réseaux de connectivité fonctionnelle, nous avons développé un algorithme (SimNet) capable de quantifier la similarité entre deux réseaux dont les nœuds sont définis spatialement. Cet algorithme met en correspondance les deux graphes en « déformant » le premier pour le rendre identique au second sur une contrainte de coût minimal associée à la déformation (insertion, suppression, substitution de nœuds et d’arêtes). Il procède selon deux étapes, la première consistant à calculer une distance sur les nœuds et la seconde une distance sur les arrêtes. Cet algorithme fournit un indice de similarité normalisé: 0 pour aucune similarité et 1 pour deux réseaux identiques. Il a été évalué sur des graphes simulés puis comparé à des algorithmes existants. Il montre de meilleures performances pour détecter la variation spatiale entre les graphes. Il a également été appliqué sur des données réelles afin de comparer différents réseaux cérébraux. Les résultats ont montré des performances élevées pour comparer deux réseaux cérébraux réels obtenus à partir l'EEG à haute résolution spatiale, au cours d'une tâche cognitive consistant à nommer des éléments de deux catégories différentes (objets vs animaux). / The human brain is a "large-scale" network consisting of distributed and functionally interconnected regions. The information processing in the brain is a dynamic process that involves a fast reorganization of functional brain networks in a very short time scale (less than one second). In the field of cognitive neuroscience, two big questions remain about these networks. Firstly, is it possible to follow the spatiotemporal dynamics of the brain networks with a temporal resolution significantly higher than the functional MRI? Secondly, is it possible to detect a significant difference between these networks when the brain processes stimuli (visual, for example) with different characteristics? These two questions are the main motivations of this thesis. Indeed, we proposed new methods based on dense electroencephalography. These methods allow: i) to follow the dynamic reconfiguration of brain functional networks at millisecond time scale and ii) to compare two activated brain networks under specific conditions. We propose a new algorithm benefiting from the excellent temporal resolution of EEG to track the fast reconfiguration of the functional brain networks at millisecond time scale. The main objective of this algorithm is to segment the brain networks into a set of "functional connectivity states" using a network-clustering approach. The algorithm is based on K-means and was applied on the connectivity graphs obtained by estimation the functional connectivity values between the considered regions of interest. The second challenge addressed in this work falls within the measure of similarity between graphs. Thus, to compare functional connectivity networks, we developed an algorithm (SimNet) that able to quantify the similarity between two networks whose node coordinates is known. This algorithm maps one graph to the other using different operations (insertion, deletion, substitution of nodes and edges). The algorithm is based on two main parts, the first one is based on calculating the nodes distance and the second one is to calculate the edges distance. This algorithm provides a normalized similarity index: 0 for no similarity and 1 for two identical networks. SimNet was evaluated with simulated graphs and was compared with previously-published graph similarity algorithms. It shows high performance to detect the similarity variation between graphs involving a shifting of the location of nodes. It was also applied on real data to compare different brain networks. Results showed high performance in the comparison of real brain networks obtained from dense EEG during a cognitive task consisting in naming items of two different categories (objects vs. animals). Eeg Réseaux cérébral Similarité entre graphes Dynamique des réseaux cérébral Electroencephalography Brain network simialrity Brain networks dynamics Brain connectivity
70	Development of new computational methods for a synthetic gene set annotation / Développement de nouvelles méthodes informatiques pour une annotation synthétique d’un ensemble de gènes. Ayllón-Benítez, Aarón 05 December 2019 (has links) Les avancées dans l'analyse de l'expression différentielle de gènes ont suscité un vif intérêt pour l'étude d'ensembles de gènes présentant une similarité d'expression au cours d'une même condition expérimentale. Les approches classiques pour interpréter l'information biologique reposent sur l'utilisation de méthodes statistiques. Cependant, ces méthodes se focalisent sur les gènes les plus connus tout en générant des informations redondantes qui peuvent être éliminées en prenant en compte la structure des ressources de connaissances qui fournissent l'annotation. Au cours de cette thèse, nous avons exploré différentes méthodes permettant l'annotation d'ensembles de gènes.Premièrement, nous présentons les solutions visuelles développées pour faciliter l'interprétation des résultats d'annota-tion d'un ou plusieurs ensembles de gènes. Dans ce travail, nous avons développé un prototype de visualisation, appelé MOTVIS, qui explore l'annotation d'une collection d'ensembles des gènes. MOTVIS utilise ainsi une combinaison de deux vues inter-connectées : une arborescence qui fournit un aperçu global des données mais aussi des informations détaillées sur les ensembles de gènes, et une visualisation qui permet de se concentrer sur les termes d'annotation d'intérêt. La combinaison de ces deux visualisations a l'avantage de faciliter la compréhension des résultats biologiques lorsque des données complexes sont représentées.Deuxièmement, nous abordons les limitations des approches d'enrichissement statistique en proposant une méthode originale qui analyse l'impact d'utiliser différentes mesures de similarité sémantique pour annoter les ensembles de gènes. Pour évaluer l'impact de chaque mesure, nous avons considéré deux critères comme étant pertinents pour évaluer une annotation synthétique de qualité d'un ensemble de gènes : (i) le nombre de termes d'annotation doit être réduit considérablement tout en gardant un niveau suffisant de détail, et (ii) le nombre de gènes décrits par les termes sélectionnés doit être maximisé. Ainsi, neuf mesures de similarité sémantique ont été analysées pour trouver le meilleur compromis possible entre réduire le nombre de termes et maintenir un niveau suffisant de détails fournis par les termes choisis. Tout en utilisant la Gene Ontology (GO) pour annoter les ensembles de gènes, nous avons obtenu de meilleurs résultats pour les mesures de similarité sémantique basées sur les nœuds qui utilisent les attributs des termes, par rapport aux mesures basées sur les arêtes qui utilisent les relations qui connectent les termes. Enfin, nous avons développé GSAn, un serveur web basé sur les développements précédents et dédié à l'annotation d'un ensemble de gènes a priori. GSAn intègre MOTVIS comme outil de visualisation pour présenter conjointement les termes représentatifs et les gènes de l'ensemble étudié. Nous avons comparé GSAn avec des outils d'enrichissement et avons montré que les résultats de GSAn constituent un bon compromis pour maximiser la couverture de gènes tout en minimisant le nombre de termes.Le dernier point exploré est une étape visant à étudier la faisabilité d'intégrer d'autres ressources dans GSAn. Nous avons ainsi intégré deux ressources, l'une décrivant les maladies humaines avec Disease Ontology (DO) et l'autre les voies métaboliques avec Reactome. Le but était de fournir de l'information supplémentaire aux utilisateurs finaux de GSAn. Nous avons évalué l'impact de l'ajout de ces ressources dans GSAn lors de l'analyse d’ensembles de gènes. L'intégration a amélioré les résultats en couvrant d'avantage de gènes sans pour autant affecter de manière significative le nombre de termes impliqués. Ensuite, les termes GO ont été mis en correspondance avec les termes DO et Reactome, a priori et a posteriori des calculs effectués par GSAn. Nous avons montré qu'un processus de mise en correspondance appliqué a priori permettait d'obtenir un plus grand nombre d'inter-relations entre les deux ressources. / The revolution in new sequencing technologies, by strongly improving the production of omics data, is greatly leading to new understandings of the relations between genotype and phenotype. To interpret and analyze data grouped according to a phenotype of interest, methods based on statistical enrichment became a standard in biology. However, these methods synthesize the biological information by a priori selecting the over-represented terms and focus on the most studied genes that may represent a limited coverage of annotated genes within a gene set. During this thesis, we explored different methods for annotating gene sets. In this frame, we developed three studies allowing the annotation of gene sets and thus improving the understanding of their biological context.First, visualization approaches were applied to represent annotation results provided by enrichment analysis for a gene set or a repertoire of gene sets. In this work, a visualization prototype called MOTVIS (MOdular Term VISualization) has been developed to provide an interactive representation of a repertoire of gene sets combining two visual metaphors: a treemap view that provides an overview and also displays detailed information about gene sets, and an indented tree view that can be used to focus on the annotation terms of interest. MOTVIS has the advantage to solve the limitations of each visual metaphor when used individually. This illustrates the interest of using different visual metaphors to facilitate the comprehension of biological results by representing complex data.Secondly, to address the issues of enrichment analysis, a new method for analyzing the impact of using different semantic similarity measures on gene set annotation was proposed. To evaluate the impact of each measure, two relevant criteria were considered for characterizing a "good" synthetic gene set annotation: (i) the number of annotation terms has to be drastically reduced while maintaining a sufficient level of details, and (ii) the number of genes described by the selected terms should be as large as possible. Thus, nine semantic similarity measures were analyzed to identify the best possible compromise between both criteria while maintaining a sufficient level of details. Using GO to annotate the gene sets, we observed better results with node-based measures that use the terms’ characteristics than with edge-based measures that use the relations terms. The annotation of the gene sets achieved with the node-based measures did not exhibit major differences regardless of the characteristics of the terms used. Then, we developed GSAn (Gene Set Annotation), a novel gene set annotation web server that uses semantic similarity measures to synthesize a priori GO annotation terms. GSAn contains the interactive visualization MOTVIS, dedicated to visualize the representative terms of gene set annotations. Compared to enrichment analysis tools, GSAn has shown excellent results in terms of maximizing the gene coverage while minimizing the number of terms.At last, the third work consisted in enriching the annotation results provided by GSAn. Since the knowledge described in GO may not be sufficient for interpreting gene sets, other biological information, such as pathways and diseases, may be useful to provide a wider biological context. Thus, two additional knowledge resources, being Reactome and Disease Ontology (DO), were integrated within GSAn. In practice, GO terms were mapped to terms of Reactome and DO, before and after applying the GSAn method. The integration of these resources improved the results in terms of gene coverage without affecting significantly the number of involved terms. Two strategies were applied to find mappings (generated or extracted from the web) between each new resource and GO. We have shown that a mapping process before computing the GSAn method allowed to obtain a larger number of inter-relations between the two knowledge resources. Bioinformatique Ontologies biologiques Annotation fonctionnelle Similarité sémantique Intégration Visualisation Bioinformatics Biological Ontologies Functional annotation Semantic similarity Integration Visualization

Search results