Global ETD Search

211	Automatic Discovery of Hidden Associations Using Vector Similarity : Application to Biological Annotation Prediction / Découverte automatique des associations cachées en utilisant la similarité vectorielle : application à la prédiction de l'annotation biologique Alborzi, Seyed Ziaeddin 23 February 2018 (has links) Cette thèse présente: 1) le développement d'une nouvelle approche pour trouver des associations directes entre des paires d'éléments liés indirectement à travers diverses caractéristiques communes, 2) l'utilisation de cette approche pour associer directement des fonctions biologiques aux domaines protéiques (ECDomainMiner et GODomainMiner) et pour découvrir des interactions domaine-domaine, et enfin 3) l'extension de cette approche pour annoter de manière complète à partir des domaines les structures et les séquences des protéines. Au total, 20 728 et 20 318 associations EC-Pfam et GO-Pfam non redondantes ont été découvertes, avec des F-mesures de plus de 0,95 par rapport à un ensemble de référence Gold Standard extrait d'une source d'associations connues (InterPro). Par rapport à environ 1500 associations déterminées manuellement dans InterPro, ECDomainMiner et GODomainMiner produisent une augmentation de 13 fois le nombre d'associations EC-Pfam et GO-Pfam disponibles. Ces associations domaine-fonction sont ensuite utilisées pour annoter des milliers de structures de protéines et des millions de séquences de protéines pour lesquelles leur composition de domaine est connue mais qui manquent actuellement d'annotations fonctionnelles. En utilisant des associations de domaines ayant acquis des annotations fonctionnelles inférées, et en tenant compte des informations de taxonomie, des milliers de règles d'annotation ont été générées automatiquement. Ensuite, ces règles ont été utilisées pour annoter des séquences de protéines dans la base de données TrEMBL / This thesis presents: 1) the development of a novel approach to find direct associations between pairs of elements linked indirectly through various common features, 2) the use of this approach to directly associate biological functions to protein domains (ECDomainMiner and GODomainMiner), and to discover domain-domain interactions, and finally 3) the extension of this approach to comprehensively annotate protein structures and sequences. ECDomainMiner and GODomainMiner are two applications to discover new associations between EC Numbers and GO terms to protein domains, respectively. They find a total of 20,728 and 20,318 non-redundant EC-Pfam and GO-Pfam associations, respectively, with F-measures of more than 0.95 with respect to a “Gold Standard” test set extracted from InterPro. Compared to around 1500 manually curated associations in InterPro, ECDomainMiner and GODomainMiner infer a 13-fold increase in the number of available EC-Pfam and GO-Pfam associations. These function-domain associations are then used to annotate thousands of protein structures and millions of protein sequences for which their domain composition is known but that currently lack experimental functional annotations. Using inferred function-domain associations and considering taxonomy information, thousands of annotation rules have automatically been generated. Then, these rules have been utilized to annotate millions of protein sequences in the TrEMBL database Graphes tripartites Similarité vectorielle Règles d'associations Bases de données biologiques Domaines protéiques Annotation fonctionnelle des protéines Interactions domaine-domaine Tripartite graphs Vector similarity Association rules Biological databases Protein domains Functional annotation of proteins Domain-domain interactions 006.312
212	Utilisation des bases de données de l’Assurance Maladie pour l’étude de l’utilisation des antiépileptiques pendant la grossesse et des risques associés à l’exposition in utero chez l’enfant / Antiepileptic drug prescribing during pregnancy and risks of major congenital malformations and neurodevelopmental outcomes in infants exposed in utero : a study based on comprehensive French health insurance data Blotière, Pierre-Olivier 25 June 2019 (has links) Dans le cadre du programme commun d’études pharmaco-épidémiologiques de la caisse nationale de l'assurance maladie et de l’agence nationale de sécurité du médicament, visant à évaluer l'impact sanitaire en France de l'exposition in utero à l’acide valproïque à partir des bases de données médico-administratives (BDMA) françaises, l’objectif de cette thèse était d’étudier l’utilisation des antiépileptiques pendant la grossesse et les risques de malformations congénitales et de troubles neuro-développementaux associés chez l’enfant. Le premier volet de cette thèse a consisté à formaliser et publier un algorithme d’identification des grossesses spécifiquement adapté aux BDMA françaises. L’application de cet algorithme à la description de l’utilisation des antiépileptiques pendant la grossesse a permis d’estimer à 6,7‰ la prévalence de l’utilisation des antiépileptiques pendant la grossesse et de montrer une baisse de l’utilisation des antiépileptiques de première génération, en particulier de l’acide valproïque, au bénéfice des antiépileptiques de deuxième génération entre 2007 et 2014. Dans le deuxième volet de cette thèse, l’exposition in utero à l’acide valproïque a été retrouvée associée à une augmentation du risque d’un grand nombre des malformations congénitales majeures (MCM) étudiées, avec une relation dose-effet pour les MCM les plus fréquentes, et l’exposition in utero au topiramate à une augmentation du risque de fentes oro-faciales. Des signaux relatifs à la prégabaline, au clonazépam et au phénobarbital ont aussi été identifiés. Dans le troisième volet de cette thèse, l’exposition in utero à l’acide valproïque a été retrouvée associée à une augmentation du risque de chacun des événements neuro-développementaux précoces étudiés versus lamotrigine, avec une relation dose-effet, à l’inverse des autres antiépileptiques. La réalisation d’études pharmaco-épidémiologiques à partir des BDMA françaises a permis aux autorités sanitaires de fournir rapidement des données sur l’utilisation des antiépileptiques pendant la grossesse en France. La réalisation de ces études a aussi permis de participer à l’enrichissement de la littérature observationnelle internationale sur les conséquences de l’exposition in utero aux antiépileptiques pour l’enfant à naitre. / The works of this thesis have been carried out within a programme of pharmacoepidemiological studies initiated by the National Agency of Medicine and Health Product Safety (ANSM) and the National Health Insurance fund (Cnam) in order to evaluate the public health situation in relation to prenatal exposure to valproic acid in France on the basis of the French health care databases. The objective of this thesis was to study antiepileptic drug (AED) use during pregnancy and the risks of congenital malformations and neurodevelopmental disorders associated with prenatal exposure to these drugs. In a first study, we developed an algorithm to identify pregnancy episodes and related outcomes using the French health care claims databases and applied it to study AED use during pregnancy between 2007 and 2014. Over the study period, 6.7 per 1000 pregnancies were exposed to an AED. The use of newer AEDs increased concomitantly with the decreased use of valproic acid and the other older AEDs. In a second study, prenatal exposure to valproic acid was found to be associated with a wide range of malformations among those investigated, with a dose-response relationship for half of them, and prenatal exposure to topiramate with an increased risk of cleft lip with or without cleft palate. Signals concerning pregabalin, clonazepam and phenobarbital have also been identified. In a third study, prenatal exposure to valproic acid was found to be associated with increased risks of all early neurodevelopmental outcomes investigated compared with lamotrigine, with a dose-response relationship. Prenatal exposure to the other AEDs was not associated with an increased risk of any of these neurodevelopmental outcomes versus lamotrigine. Conducting pharmacoepidemiological studies based on the French health care databases enabled the health authorities to rapidly provide data on the use of AED during pregnancy in France. It also brought additional evidence to the international observational literature on the consequences of prenatal exposure to AEDs for the unborn child. Antiépileptiques Acide valproïque Grossesse Malformations congénitales Troubles neuro-développementaux France Antiepileptic drugs Valproic acid Pregnancy Congenital malformations Neurodevelopmental disorders Health care databases France 615.784 615.704 2
213	Un système de visualisation pour l'extraction, l'évaluation, et l'exploration interactives des règles d'association. Blanchard, Julien 24 November 2005 (has links) (PDF) De nombreuses méthodes d'Extraction de Connaissances dans les Données (ECD) produisent des résultats sous forme de règles. Les règles ont l'avantage de représenter les connaissances de manière explicite, ce qui en fait des modèles tout à fait intelligibles pour un utilisateur. Elles sont d'ailleurs au fondement de la plupart des théories de<br />représentation de la connaissance en sciences cognitives. En fouille de données, la principale technique à base de règles est l'extraction de règles d'association, qui a donné lieu à de nombreux travaux de recherche.<br /><br />La limite majeure des algorithmes d'extraction de règles d'association est qu'ils produisent communément de grandes quantités de règles, dont beaucoup se révèlent même sans aucun intérêt pour l'utilisateur. Ceci s'explique par la nature non supervisée de ces algorithmes : ne considérant aucune variable endogène, ils envisagent dans les règles toutes les combinaisons possibles de variables. Dans la pratique, l'utilisateur ne peut pas exploiter les résultats tels quels directement à la sortie des algorithmes. Un post-traitement consistant en une seconde opération de fouille se<br />révèle indispensable pour valider les volumes de règles et découvrir des connaissances utiles. Cependant, alors que la fouille de données est effectuée automatiquement par des algorithmes combinatoires, la fouille de règles est une<br />tâche laborieuse à la charge de l'utilisateur.<br /><br />La thèse développe deux approches pour assister l'utilisateur dans le post-traitement des règles d'association :<br />– la mesure de la qualité des règles par des indices numériques,<br />– la supervision du post-traitement par une visualisation interactive.<br /><br />Pour ce qui concerne la première approche, nous formalisons la notion d'indice de qualité de règles et réalisons une classification inédite des nombreux indices de la littérature, permettant d'aider l'utilisateur à choisir les indices pertinents pour son besoin. Nous présentons également trois nouveaux indices aux propriétés originales : l'indice<br />probabiliste d'écart à l'équilibre, l'intensité d'implication entropique, et le taux informationnel. Pour ce qui concerne la seconde approche, nous proposons une méthodologie de visualisation pour l'exploration interactive des règles. Elle<br />est conçue pour faciliter la tâche de l'utilisateur confronté à de grands ensembles de règles en prenant en compte ses capacités de traitement de l'information. Dans cette méthodologie, l'utilisateur dirige la découverte de connaissances<br />par des opérateurs de navigation adaptés en visualisant des ensembles successifs de règles décrits par des indices de qualité.<br /><br />Les deux approches sont intégrées au sein de l'outil de visualisation ARVis (Association Rule Visualization) pour l'exploration interactive des règles d'association. ARVis implémente notre méthodologie au moyen d'une représentation<br />3D, inédite en visualisation de règles, mettant en valeur les indices de qualité. De plus, ARVis repose sur un algorithme spécifique d'extraction sous contraintes permettant de générer les règles interactivement au fur et à mesure de la navigation de l'utilisateur. Ainsi, en explorant les règles, l'utilisateur dirige à la fois l'extraction et le<br />post-traitement des connaissances. visualisation d'information fouille de connaissances règles d'association exploration des règles visualisation interactive des règles mesures de qualité de règles extraction de règles sous contraintes
214	Construction et utilisation d'une base de connaissances pharmacogénomique pour l'intégration de données et la découverte de connaissances Coulet, Adrien 10 October 2008 (has links) (PDF) Cette thèse porte sur l'utilisation d'ontologies et de bases de connaissances pour guider différentes étapes du processus d'Extraction de Connaissances à partir de Bases de Données (ECBD) et sur une application en pharmacogénomique. Les données relatives à ce domaine sont hétérogènes, complexes, et distribuées dans diverses bases de données, ce qui rend cruciale l'étape préliminaire de préparation et d'intégration des données à fouiller. Je propose pour guider cette étape une approche originale d'intégration de données qui s'appuie sur une représentation des connaissances du domaine sous forme de deux ontologies en logiques de description : SNP-Ontology et SO-Pharm. Cette approche a été implémentée grâce aux technologies du Web sémantique et conduit au peuplement d'une base de connaissances pharmacogénomique. Le fait que les données à fouiller soient alors disponibles dans une base de connaissances entraîne de nouvelles potentialités pour le processus d'extraction de connaissances. Je me suis d'abord intéressé au problème de la sélection des données les plus pertinentes à fouiller en montrant comment la base de connaissances peut être exploitée dans ce but. Ensuite j'ai décrit et appliqué à la pharmacogénomique, une méthode qui permet l'extraction de connaissances directement à partir d'une base de connaissances. Cette méthode appelée Analyse des Assertions de Rôles (ou AAR) permet d'utiliser des algorithmes de fouille de données sur un ensemble d'assertions de la base de connaissances pharmacogénomique et d'expliciter des connaissances nouvelles et pertinentes qui y étaient enfouies. intégration de données sélection de données représentation des connaissances ontologie base de connaissances logiques de descriptions SNP pharmacogénomique
215	Processeur base de données MAGE : aspect matériel Navaux, Philippe 27 November 1979 (has links) (PDF) . projet MAGE M.A.G.E bases de données données SGBD processeurs CASSM RAP RARES TREFLE Data Base Computer systèmes distribués mémoire interface SMD accès PBD-MAGE registre tables formats normes SMD disques
216	Co-évolution dans les Réseaux Epistémiques<br />- Un exemple de reconstruction en sciences sociales Roth, Camille 19 November 2005 (has links) (PDF) Des agents produisant, manipulant et échangeant des connaissances constituent un système complexe socio-sémantique, dont l'étude représente un défi à la fois théorique, dans la perspective d'étendre la naturalisation des sciences sociales, et pratique, avec des applications permettant aux agents de connaître la dynamique du système dans lequel ils évoluent.<br /><br />Cette thèse se situe dans le cadre de ce programme de recherche. Parallèlement et plus largement, nous nous intéressons à la question de la reconstruction en sciences sociales. La reconstruction est un problème inverse comprenant deux volets complémentaires: (i) la déduction d'observations de haut-niveau à partir de phénomènes de bas-niveau; et (ii) la reproduction de l'évolution des observations de haut-niveau à partir de la dynamique des objets de bas-niveau.<br /><br />Nous affirmons que plusieurs aspects significatifs de la structure d'une communauté de savoirs sont principalement produits par la dynamique d'un réseau épistémique où co-évoluent agents et concepts. En particulier, nous résolvons le premier volet du problème de la reconstruction en utilisant des treillis de Galois afin de recréer des taxonomies de communautés de savoirs à partir de simples relations entre agents et concepts; nous obtenons de fait une description historique se rapportant à la progression des champs, leur déclin, leur spécialisation ou leurs interactions (fusion ou scission). Nous micro-fondons ensuite la structure de ces communautés de savoirs en exhibant et en estimant empiriquement des processus d'interaction au niveau des agents, en co-évolution avec les concepts au sein du réseau épistémique, qui rendent compte de la morphogenèse et de l'émergence de plusieurs faits stylisés structurels de haut-niveau - il s'agit là du deuxième volet.<br /><br />Nous défendons finalement un point de vue épistémologique concernant la méthodologique générale de reconstruction d'un système complexe qui appuie notre choix d'un cadre co-évolutionnaire. systèmes complexes cognition sociale reconstruction épistémologie appliquée treillis de Galois taxonomies réseaux sociaux dynamiques sociologie mathématique co-évolution culturelle scientométrie
217	CARACTÉRISATION DE LA QUALITÉ SONORE DE L'ENVIRONNEMENT URBAIN : UNE APPROCHE PHYSIQUE ET PERCEPTIVE BASÉE SUR L'IDENTIFICATION DES SOURCES SONORES Defreville, Boris 15 December 2005 (has links) (PDF) Le bruit dans nos villes est perçu comme une question de qualité de vie. Il est généralement évalué par la mesure de son niveau sonore. Si cette mesure est représentative d'environnements bruyants caractérisés par des flots continus de véhicules, elle s'avère insuffisante pour caractériser la « couleur » d'une ambiance sonore où différentes sources coexistent. C'est ainsi que la présente étude se propose d'examiner la qualité d'ambiances sonores urbaine du point de vue de leur composition, c'est-à-dire des sources sonores occurrentes., la finalité étant la mise au point d'une méthode d'évaluation automatique d'un environnement sonore urbain.<br />La première partie met en évidence le fait que celles-ci ne sont pas toutes perçues de la même manière et qu'en conséquence leurs évaluations métrologiques doivent être adaptées. Ce travail permet de proposer un indicateur lié au désagrément sonore ; en fonction du lieu, cet indicateur utilise la force sonore de la séquence, mais il prend toujours en compte les caractéristiques des différentes sources émergentes.<br />La deuxième partie de l'étude propose deux méthodes pour la mesure automatique de cet indicateur à travers l'identification des sources. Ces outils représentent, in fine, une aide à la gestion d'un environnement sonore de quartier. Acoustique Psychoacoustique Qualité sonore Ambiance sonore Sources sonores Force sonore Perception auditive Représentations mentales Tests auditifs Environnement sonore Environnement urbain Identification automatique Taxinomie Bases de données Ville Parc Rue de quartier Marché
218	Approche quantitative de la réponse écologique des espèces végétales forestières à l'échelle de la France Coudun, Christophe 22 June 2005 (has links) (PDF) L'objectif de ce travail est de déterminer l'intérêt des bases de données présentant un nombre important de relevés floristiques et écologiques complets pour étudier de façon quantitative le comportement écologique des espèces végétales forestières sur de vastes territoires.<br />Les données utilisées sont celles d'EcoPlant, développée à l'Ecole Nationale du Génie Rural des Eaux et des Forêts (ENGREF, Nancy) pour stocker des milliers de relevés phytoécologiques complets (relevés floristiques et caractéristiques climatiques et édaphiques précises), réalisés dans les forêts de France. La définition de 54 courbes de réponse théoriques d'espèces végétales vis-à-vis du pH, et la création de jeux artificiels de données binaires de taille variable pour essayer de re-créer les courbes de réponse théoriques, ont permis de montrer qu'il est difficile de modéliser de manière fiable le comportement des espèces peu fréquentes avec la régression logistique. En effet, nous montrons que 50 à 100 occurrences d'une espèce représentent un seuil minimal pour déterminer précisément l'optimum, l'amplitude et la probabilité maximale de la courbe de réponse écologique des espèces avec la régression logistique, ce qui justifie la nécessité de travailler avec de larges bases de données.<br />Pour tester la stabilité du comportement écologique des espèces sur de vastes territoires, nous avons comparé la réponse au pH du sol de 46 herbacées forestières entre le nord-est et le nord-ouest de la France, et de 21 herbacées forestières entre les Vosges et le Jura. En contexte de plaine ou de montagne, la majorité des espèces étudiées n'ont pas révélé de différences régionales marquées en terme d'optimum ou d'amplitude écologiques vis-à-vis du pH de l'horizon A du sol. Les quelques différences régionales observées ont été expliquées dans les deux cas par des conditions de compétition différentes dans chaque région. Nous concluons que l'étude de la réponse écologique peut s'effectuer sur de vastes territoires tels que la France, à condition que les conditions de compétition ne soient pas trop différentes selon les régions.<br />Une caractéristique majeure de la base EcoPlant est de stocker des informations édaphiques et climatiques, couplée à des relevés floristiques effectués sur les mêmes sites. L'étude conjointe de la réponse écologique des espèces végétales vis-à-vis de facteurs climatiques et édaphiques a rarement été menée, puisque la majorité des études étudient la réponse climatique des espèces végétales. Nous illustrons l'importance de prendre en compte des variables édaphiques de nutrition dans les modèles de niche écologique et de distribution géographique des plantes terrestres, par la modélisation de l'écologie et de la distribution de l'Erable champêtre (Acer campestre L.) dans les forêts françaises.<br />L'ensemble des résultats met en évidence l'intérêt des bases de données importantes et écologiquement complètes telles qu'EcoPlant pour approfondir la connaissance des différentes dimensions de la niche écologique des espèces à l'échelle de vastes territoires. Bases de données phytoécologiques EcoPlant plantes forestières niche réalisée régression logistique courbes de réponse optimum écologique amplitude écologique simulations numériques compétition pH cartographie prédictive aire de répartition Acer campestre France
219	Quelques modèles et méthodes pour l'étude de la cognition Courrieu, Pierre 19 October 2011 (has links) (PDF) Dossier de travaux incluant un échantillon de 12 publications sur les thèmes suivants: - Perception des lettres - Modèles de codage de données - Modèles de codage d'images - Réseaux de neurones et apprentissage supervisé - Méthodes de calcul des paramètres de modèles - Méthodes de validation de modèles et bases de données comportementales perception visuelle reconnaissance de formes modélisation numérique codage de données réseaux de neurones apprentissage supervisé approximation des fonctions validation de modèles bases de données comportementales
220	Data Mining : algorithmes d'extraction et de réduction des règles d'association dans les bases de données Pasquier, Nicolas 31 January 2000 (has links) (PDF) L'extraction de connaissances dans les bases de données, également appelé data mining, désigne le processus non trivial permettant d'extraire des informations et des connaissances utiles qui sont enfouies dans les bases de données, les entrepôts de données (data warehouse) ou autres sources de données. Les recherches en ce domaine sont motivées par la croissance très rapide des volumes de données stockées et le potentiel de telles informations pour l'aide à la décision dans de nombreux domaines. Dans ce mémoire, nous traitons du problème de la génération efficace des règles d'association. Une règle d'association est une implication conditionnelle entre ensembles d'attributs binaires appelés items. Dans l'ensemble des travaux existants, ce problème est décomposé en deux sous-problèmes qui sont la recherche des ensembles fréquents d'items et la génération des règles d'association à partir de ces ensembles. Le premier sous-problème a une complexité exponentielle dans la taille de la relation en entrée et nécessite de parcourir à plusieurs reprises la totalité de la relation. L'extraction des ensembles fréquents d'items constitue donc la phase la plus coûteuse en termes de temps d'exécution et d'espace mémoire pour les algorithmes d'extraction des règles d'association. Nous proposons une nouvelle sémantique pour le problème de l'extraction des règles d'association basée sur la connexion de Galois d'une relation binaire finie. Utilisant cette sémantique, nous démontrons que les ensembles fermés fréquents d'items constituent une base, c'est à dire un ensemble générateur non redondant, pour les ensembles fréquents d'items et les règles d'association. Nous proposons deux nouveaux algorithmes, nommés Close et A-Close, permettant l'extraction des ensembles fermés fréquents d'items, à partir desquels les ensembles fréquents d'items et les règles d'association peuvent être dérivés sans accéder au jeu de données. Les résultats expérimentaux démontrent que ces algorithmes permettent de réduire les temps d'extraction des règles d'association dans le cas de jeux de données constitués de données denses ou corrélées. Utilisant la sémantique définie, nous proposons d'améliorer la pertinence et l'utilité des règles d'association extraites en limitant l'extraction à des bases pour les règles d'association. Nous adaptons pour cela les bases pour les règles d'implication définies en analyse de données et nous définissons de nouvelles bases constituées des règles non redondantes d'antécédents minimaux et de conséquences maximales à partir des ensembles fermés fréquents. Nous proposons également des algorithmes efficaces de génération de ces bases. [INFO:INFO_OH] Computer Science/Other data mining connexion de Galois opérateurs de fermeture règles d'association bases pour les règles d'association

Search results