Global ETD Search

71	Comparaison de la prise en charge de la dépression chez le sujet âgé et l'adulte non âgé par l'utilisation de systèmes administratifs automatisés. Sanglier, Thibaut 15 December 2011 (has links) (PDF) Les bases de données des plans d'assurance maladie permettent de reconstruire l'évolution des patients dans le système de soins sans influencer le comportement du prescripteur ou du patient. Les troubles dépressifs sont largement étudiés en population générale, ils ont cependant fait l'objet d'une attention tardive chez le sujet âgé. Malgré les singularités de la dépression chez les sujets âgés, les traitements demeurent efficaces dans cette population. L'objectif de ce travail était d'utiliser une base de données de remboursements afin de comparer la prise en charge de la dépression chez les sujets âgés de 65 ans et plus et les adultes plus jeunes. Nous avons comparé 6 316 sujets dépressifs âgés à 25 264 sujets dépressifs adultes plus jeunes, en termes d'initiation et de durée de traitement antidépresseur. Comparé à l'échantillon plus jeune, notre échantillon de sujets âgés est apparu sous-traité alors que les sujets âgés initiant un traitement semblaient mieux y adhérer. La présence de comorbidités favorisait l'initiation d'un traitement sans être associé à une durée de traitement différente. De plus, une amélioration du remboursement des médicaments dans notre population fut concomitante d'un allongement de la durée de traitement chez les sujets âgés. Ces résultats, supportés par d'autres études plus classiques, suggèrent que la déviation ? de données collectées à des fins autres que la recherche épidémiologique est une approche permettant d'étudier des cohortes de patients en conditions réelles de prescription, de décrire des groupes spécifiques de patients et de mesurer des expositions médicamenteuses ainsi que de potentiels impacts de politiques de santé. Adhésion Antidépresseurs Bases de données Dépression Persistance Pharmacoépidémiologie Psychothérapie Sujet âgé
72	Adressing scaling challenges in comparative genomics Golenetskaya, Natalia 09 September 2013 (has links) (PDF) La génomique comparée est essentiellement une forme de fouille de données dans des grandes collections de relations n-aires. La croissance du nombre de génomes sequencés créé un stress sur la génomique comparée qui croit, au pire géométriquement, avec la croissance en données de séquence. Aujourd'hui même des laboratoires de taille modeste obtient, de façon routine, plusieurs génomes à la fois - et comme des grands consortia attend de pouvoir réaliser des analyses tout-contre-tout dans le cadre de ses stratégies multi-génomes. Afin d'adresser les besoins à tous niveaux il est nécessaire de repenser les cadres algorithmiques et les technologies de stockage de données utilisés pour la génomique comparée. Pour répondre à ces défis de mise à l'échelle, dans cette thèse nous développons des méthodes originales basées sur les technologies NoSQL et MapReduce. À partir d'une caractérisation des sorts de données utilisés en génomique comparée et d'une étude des utilisations typiques, nous définissons un formalisme pour le Big Data en génomique, l'implémentons dans la plateforme NoSQL Cassandra, et évaluons sa performance. Ensuite, à partir de deux analyses globales très différentes en génomique comparée, nous définissons deux stratégies pour adapter ces applications au paradigme MapReduce et dérivons de nouveaux algorithmes. Pour le premier, l'identification d'événements de fusion et de fission de gènes au sein d'une phylogénie, nous reformulons le problème sous forme d'un parcours en parallèle borné qui évite la latence d'algorithmes de graphe. Pour le second, le clustering consensus utilisé pour identifier des familles de protéines, nous définissons une procédure d'échantillonnage itérative qui converge rapidement vers le résultat global voulu. Pour chacun de ces deux algorithmes, nous l'implémentons dans la plateforme MapReduce Hadoop, et évaluons leurs performances. Cette performance est compétitive et passe à l'échelle beaucoup mieux que les algorithmes existants, mais exige un effort particulier (et futur) pour inventer les algorithmes spécifiques. [INFO:INFO_OH] Computer Science/Other Bioinformatique Fouille de données Bases de données distribuées Calcul distribué
73	Comprendre le Web caché Senellart, Pierre 12 December 2007 (has links) (PDF) Le Web caché (également appelé Web profond ou Web invisible), c'est-à-dire la partie du Web qui n'est pas directement accessible par des hyperliens, mais à travers des formulaires HTML ou des services Web, est d'une grande valeur, mais difficile à exploiter. Nous présentons un processus pour la découverte, l'analyse syntaxique et sémantique, et l'interrogation des services du Web caché, le tout de manière entièrement automatique. Nous proposons une architecture générale se basant sur un entrepôt semi-structuré de contenu imprécis (probabiliste). Nous fournissons une analyse détaillée de la complexité du modèle d'arbre probabiliste sous-jacent. Nous décrivons comment une combinaison d'heuristiques et de sondages du Web peut être utilisée pour comprendre la structure d'un formulaire HTML. Nous présentons une utilisation originale des champs aléatoires conditionnels (une méthode d'apprentissage supervisé) de manière non supervisée, sur une annotation automatique, imparfaite et imprécise, basée sur la connaissance du domaine, afin d'extraire l'information pertinente de pages de résultat HTML. Afin d'obtenir des relations sémantiques entre entrées et sorties d'un service du Web caché, nous étudions la complexité de l'obtention d'une correspondance de schémas à partir d'instances de bases de données, en se basant uniquement sur la présence des constantes dans ces deux instances. Nous décrivons enfin un modèle de représentation sémantique et d'indexation en compréhension de sources du Web caché, et débattons de la manière de traiter des requêtes de haut niveau à l'aide de telles descriptions. Web caché Web profond bases de données extraction d'informations complexité
74	Étude des performances de méthodes de groupement dynamiques dans les bases de données orientées objet Darmont, Jérôme 18 January 1999 (has links) (PDF) Ce travail s'inscrit dans le domaine de l'évaluation des performances des Systèmes de Gestion de Bases de Données Orientés Objets (SGBDOO). Ces systèmes rencontrent depuis leur origine des problèmes de performance pour s'imposer face aux générations<br />antérieures de SGBD (principalement les systèmes relationnels, qui sont utilisés depuis les années 70 et parfaitement optimisés).<br /><br />Diverses méthodes sont employées pour améliorer ces performances, telles que le groupement d'objets (clustering, dans la terminologie anglo-saxonne). Cependant, ces techniques induisent une surcharge pour le système. Il est donc important de pouvoir évaluer leur impact réel sur les performances globales.<br /><br />Dans cette optique, une étude approfondie du domaine a permis de dégager les insuffisances majeures attribuables aux techniques d'évaluation de performance existantes (analyse mathématique, bancs d'essais, simulation). Nos propositions, le banc d'essais<br />OCB (Object Clustering Benchmark) et le modèle de simulation VOODB (Virtual Object-Oriented Database), ont pour objectif de remédier à ces problèmes en se positionnant comme des outils génériques, paramétrables et adaptés à l'étude du regroupement d'objets.<br /><br />Le modèle de simulation VOODB intègre le banc d'essais OCB. Il a été obtenu par l'application d'une méthodologie de modélisation ayant pour but de systématiser l'analyse des SGBDOO et de fournir des modèles fiables de ces systèmes. Son code a été spécifié<br />dans un environnement de simulation simple et performant que nous avons conçu pour l'occasion et baptisé DESP-C++.<br /><br />Une démarche de validation de nos outils a été conduite en mesurant les performances réelles du SGBDOO O2, du gestionnaire d'objets persistants Texas et de la stratégie dynamique de regroupement d'objets DSTC, grâce au banc d'essais OCB. Des évaluations de performance concernant ces systèmes ont également été effectuées avec le modèle de simulation VOODB. Les résultats des mesures sur les systèmes réels et les résultats de simulation ont été comparés et se sont avérés cohérents. Bases de données orientées objet Groupement d'objets Banc d'essais Modélisation Simulation
75	Nature, statut et traitements informatisés des<br />données en archéologie : les enjeux des systèmes<br />d'informations archéologiques Chaillou, Anne 19 June 2003 (has links) (PDF) En archéologie, les données, c'est-à-dire les vestiges avec les informations dont ils sont porteurs ainsi que les constructions intellectuelles dont ils sont l'objet, constituent le point clef de la recherche. L'enregistrement de ces données dans une structure logique permettant de les retrouver et de les comparer est nécessaire. L'arrivée de l'informatique en archéologie permet de systématiser cet archivage et de le rendre plus accessible. Les enjeux des bases de données seront d'assurer des recherches croisées entre différentes bases et une pérennité des données. Pour garantir ces enjeux, il faut homogénéiser les unités documentaires, les codes d'inventaires, la description et le vocabulaire utlisés pour celles-ci. Cette homogénéisation devrait être assurée dans un tronc commun qui regrouperait les données et éléments d'archivage minimaux nécessaires à la gestion des données. Une solution, fondée sur une étude comparative de bases existantes, est présentée dans cette thèse. [SHS] Humanities and Social Sciences Archéologie
76	Contribution à la définition d'une méthode de conception de bases de données à base ontologique Chakroun, Chedlia 02 October 2013 (has links) (PDF) Récemment, les ontologies ont été largement adoptées par différentes entreprises dans divers domaines. Elles sontdevenues des composantes centrales dans bon nombre d'applications. Ces modèles conceptualisent l'univers du discours auxmoyens de concepts primitifs et parfois redondants (calculés à partir de concepts primitifs). Au début, la relation entreontologies et base de données a été faiblement couplée. Avec l'explosion des données sémantiques, des solutions depersistance assurant une haute performance des applications ont été proposées. En conséquence, un nouveau type de base dedonnées, appelée base de données à base ontologique (BDBO) a vu le jour. Plusieurs types de BDBO ont été proposés, ilsutilisent différents SGBD. Chaque BDBO possède sa propre architecture et ses modèles de stockage dédiés à la persistancedes ontologies et de ses instances. A ce stade, la relation entre les bases de données et les ontologies devient fortementcouplée. En conséquence, plusieurs études de recherche ont été proposées sur la phase de conception physique des BDBO.Les phases conceptuelle et logique n'ont été que partiellement traitées. Afin de garantir un succès similaire au celui connupar les bases de données relationnelles, les BDBO doivent être accompagnées par des méthodologies de conception et desoutils traitant les différentes étapes du cycle de vie d'une base de données. Une telle méthodologie devrait identifier laredondance intégrée dans l'ontologie. Nos travaux proposent une méthodologie de conception dédiée aux bases de données àbase ontologique incluant les principales phases du cycle de vie du développement d'une base de données : conceptuel,logique, physique ainsi que la phase de déploiement. La phase de conception logique est réalisée grâce à l'incorporation desdépendances entre les concepts ontologiques. Ces dépendances sont semblables au principe des dépendances fonctionnellesdéfinies pour les bases de données relationnelles. En raison de la diversité des architectures des BDBO et la variété desmodèles de stockage utilisés pour stocker et gérer les données ontologiques, nous proposons une approche de déploiement àla carte. Pour valider notre proposition, une implémentation de notre approche dans un environnement de BDBO sousOntoDB est proposée. Enfin, dans le but d'accompagner l'utilisateur pendant le processus de conception, un outil d'aide à laconception des bases de données à partir d'une ontologie conceptuelle est présenté [SPI:OTHER] Engineering Sciences/Other Bases de données à bases ontologiques Dépendances Modélisation Méta-modélisation
77	Méthodes statistiques pour la fouille de données dans les bases de données de génomique / Statistical methods for data mining in genomics databases (Gene Set En- richment Analysis) Charmpi, Konstantina 03 July 2015 (has links) Cette thèse est consacrée aux tests statistiques, visant à comparer un vecteur de données numériques, indicées par l'ensemble des gènes du génome humain, à un certain ensemble de gènes, connus pour être associés par exemple à un type donné de cancer. Parmi les méthodes existantes, le test Gene Set Enrichment Analysis est le plus utilisé. Néanmoins, il a deux inconvénients. D'une part, le calcul des p-valeurs est coûteux et peu précis. D'autre part, il déclare de nombreux résultats significatifs, dont une majorité n'ont pas de sens biologique. Ces deux problèmes sont traités, par l'introduction de deux procédures statistiques nouvelles, les tests de Kolmogorov-Smirnov pondéré et doublement pondéré. Ces deux tests ont été appliqués à des données simulées et réelles, et leurs résultats comparés aux procédures existantes. Notre conclusion est que, au-delà leurs avantages mathématiques et algorithmiques, les tests proposés pourraient se révéler, dans de nombreux cas, plus informatifs que le test GSEA classique, et traiter efficacement les deux problèmes qui ont motivé leur construction. / Our focus is on statistical testing methods, that compare a given vector of numeric values, indexed by all genes in the human genome, to a given set of genes, known to be associated to a particular type of cancer for instance. Among existing methods, Gene Set Enrichment Analysis is the most widely used. However it has several drawbacks. Firstly, the calculation of p-values is very much time consuming, and insufficiently precise. Secondly, like most other methods, it outputs a large number of significant results, the majority of which are not biologically meaningful. The two issues are addressed here, by two new statistical procedures, the Weighted and Doubly Weighted Kolmogorov-Smirnov tests. The two tests have been applied both to simulated and real data, and compared with other existing procedures. Our conclusion is that, beyond their mathematical and algorithmic advantages, the WKS and DWKS tests could be more informative in many cases, than the classical GSEA test and efficiently address the issues that have led to their construction. Génomique Fouille de données Bases de données Tests statistiques Genomics Data mining Databases Statistical tests 510
78	Un cadre générique de découverte de motifs sous contraintes fondées sur des primitives Soulet, Arnaud 13 November 2006 (has links) (PDF) La découverte de motifs est une tâche centrale pour<br />l'extraction de connaissances dans les bases de données. Cette thèse<br />traite de l'extraction de motifs locaux sous contraintes. Nous<br />apportons un éclairage nouveau avec un cadre combinant des primitives<br />monotones pour définir des contraintes quelconques. La variété de ces<br />contraintes exprime avec précision l'archétype des motifs recherchés<br />par l'utilisateur au sein d'une base de données. Nous proposons alors<br />deux types d'approche d'extraction automatique et générique malgré les<br />difficultés algorithmiques inhérentes à cette tâche. Leurs efficacités<br />reposent principalement sur l'usage de conditions nécessaires pour<br />approximer les variations de la contrainte. D'une part, des méthodes<br />de relaxations permettent de ré-utiliser les nombreux algorithmes<br />usuels du domaines. D'autre part, nous réalisons des méthodes<br />d'extraction directes dédiées aux motifs ensemblistes pour les données<br />larges ou corrélées en exploitant des classes d'équivalences. Enfin,<br />l'utilisation de nos méthodes ont permi la découverte de phénomènes<br />locaux lors d'applications industrielles et médicales. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Fouille de données bases de données motifs locaux contraintes
79	Partitionnement dans les systèmes de gestion de données parallèles Liroz, Miguel 17 December 2013 (has links) (PDF) Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données.Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme.Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce.Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles.Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée Partitionnement de données Systèmes parallèles Bases de données parallèles MapReduce
80	Méthodes statistiques pour la fouille de données dans les bases de données de génomique / Statistical methods for data mining in genomics databases (Gene Set En- richment Analysis) Charmpi, Konstantina 03 July 2015 (has links) Cette thèse est consacrée aux tests statistiques, visant à comparer un vecteur de données numériques, indicées par l'ensemble des gènes du génome humain, à un certain ensemble de gènes, connus pour être associés par exemple à un type donné de cancer. Parmi les méthodes existantes, le test Gene Set Enrichment Analysis est le plus utilisé. Néanmoins, il a deux inconvénients. D'une part, le calcul des p-valeurs est coûteux et peu précis. D'autre part, il déclare de nombreux résultats significatifs, dont une majorité n'ont pas de sens biologique. Ces deux problèmes sont traités, par l'introduction de deux procédures statistiques nouvelles, les tests de Kolmogorov-Smirnov pondéré et doublement pondéré. Ces deux tests ont été appliqués à des données simulées et réelles, et leurs résultats comparés aux procédures existantes. Notre conclusion est que, au-delà leurs avantages mathématiques et algorithmiques, les tests proposés pourraient se révéler, dans de nombreux cas, plus informatifs que le test GSEA classique, et traiter efficacement les deux problèmes qui ont motivé leur construction. / Our focus is on statistical testing methods, that compare a given vector of numeric values, indexed by all genes in the human genome, to a given set of genes, known to be associated to a particular type of cancer for instance. Among existing methods, Gene Set Enrichment Analysis is the most widely used. However it has several drawbacks. Firstly, the calculation of p-values is very much time consuming, and insufficiently precise. Secondly, like most other methods, it outputs a large number of significant results, the majority of which are not biologically meaningful. The two issues are addressed here, by two new statistical procedures, the Weighted and Doubly Weighted Kolmogorov-Smirnov tests. The two tests have been applied both to simulated and real data, and compared with other existing procedures. Our conclusion is that, beyond their mathematical and algorithmic advantages, the WKS and DWKS tests could be more informative in many cases, than the classical GSEA test and efficiently address the issues that have led to their construction. Génomique Fouille de données Bases de données Tests statistiques Genomics Data mining Databases Statistical tests 510

Search results