Global ETD Search

161	Méthodologie d'évaluation de la cohérence inter-représentations pour l'intégration de bases de données spatiales. Une approche combinant l'utilisation de métadonnées et l'apprentissage automatique. Sheeren, David 20 May 2005 (has links) (PDF) A l'heure actuelle, la plupart des bases de données spatiales sont gérées de manière indépendante.<br />Cette indépendance pose différents problèmes : elle multiplie les efforts de maintenance et de mise à<br />jour, elle rend difficile la mise en œuvre d'analyses multi-niveaux et ne garantit pas une cohérence<br />entre les sources.<br />Une gestion conjointe de ces sources nécessite leur intégration qui permet de définir des liens<br />explicites entre les bases et d'en fournir une vision unifiée. Notre thèse s'inscrit dans ce cadre. Le sujet<br />que nous traitons porte en particulier sur la mise en correspondance des données et l'évaluation de la<br />cohérence inter-représentations. Nous cherchons à analyser automatiquement chaque différence de<br />représentation entre les données appariées afin d'en déduire si celle-ci résulte des critères de saisie<br />différents des bases ou d'erreurs de saisie. Cette évaluation vise à garantir une intégration cohérente<br />des données.<br />Pour étudier la conformité des représentations nous proposons d'exploiter les spécifications des<br />bases. Ces documents décrivent les règles de sélection et de modélisation des objets. Ils constituent<br />des métadonnées de référence pour juger si les représentations sont équivalentes ou incohérentes.<br />L'utilisation de ces documents est toutefois insuffisante. Les spécifications décrites en langue naturelle<br />peuvent être imprécises ou incomplètes. Dans ce contexte, les données des bases constituent une<br />seconde source de connaissances intéressante. L'analyse des correspondances à l'aide de techniques<br />d'apprentissage automatique permet d'induire des règles rendant possible la justification de la<br />conformité des représentations.<br />La méthodologie que nous proposons repose sur ces éléments. Elle se compose de deux méthodes :<br />MECO et MACO. La première est la Méthode d'Evaluation de la COhérence. Elle comprend plusieurs<br />étapes : l'enrichissement des données, le contrôle intra-base, l'appariement, le contrôle inter-bases et<br />l'évaluation finale. Chacune de ces étapes exploite des connaissances déduites des spécifications ou<br />induites des données par apprentissage automatique, en appliquant MACO (Méthode d'Acquisition de<br />connaissances pour l'évaluation de la COhérence). L'intérêt d'utiliser l'apprentissage est double. Outre<br />le fait qu'il permet d'acquérir des règles pour l'évaluation, il met en évidence l'écart toléré sur les<br />données par rapport aux spécifications papiers.<br />Notre approche a été mise en œuvre sur des bases de données de l'IGN présentant différents<br />niveaux de détail. [INFO:INFO_OH] Computer Science/Other multi-représentation appariement cohérence multi-échelles spécifications acquisition de connaissances apprentissage automatique métadonnées
162	Conception d'un système multidimensionnel d'information sur la qualité des données géospatiales Devillers, Rodolphe 24 November 2004 (has links) (PDF) L'information géographique est maintenant un produit de masse fréquemment manipulé par des utilisateurs non-experts en géomatique qui ont peu ou pas de connaissances de la qualité des données qu'ils utilisent. Ce contexte accroît significativement les risques de mauvaise utilisation des données et ainsi les risques de conséquence néfaste résultant de ces mauvaises utilisations. Cette thèse vise à fournir à des utilisateurs experts ou des experts en qualité une approche leur permettant d'évaluer la qualité des données et ainsi être à même de conseiller des utilisateurs non-experts dans leur utilisation des données. Cette approche se base sur une structuration des données de qualité dans une base de données multidimensionnelle et une communication dynamique et contextuelle utilisant des indicateurs de qualité affichés dans un système SOLAP (Spatial On-Line Analytical Processing) combiné à un système d'information géographique. SIG Systèmes d'information géographique qualité des données géospatiales bases de données spatiales incertitude aide à la prise de décision OLAP SOLAP métadonnées visualisation de la qualité
163	Création d'un environnement de gestion de base de données " en grille ". Application à l'échange de données médicales. De Vlieger, P. 12 July 2011 (has links) (PDF) La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source. L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique. grille informatique identification des patients bases de données distribuées dépistage des cancers
164	Le spectre d'absorption du dioxyde de carbone dans le proche infrarouge (1.4-1.7 µm) : Cavity Ring Down Spectroscopy, modélisation globale et bases de données Perevalov, Boris 11 February 2009 (has links) (PDF) Les spectres d'échantillons naturel et enrichi en 13C du dioxyde de carbone ont été enregistrés entre 5851 et 7045 cm-1 par CW-Cavity Ring Down Spectroscopy à très haute sensibilité. Environ 8000 transitions appartenant à huit isotopologues de CO2 (12C16O2, 13C16O2, 16O12C18O, 16O12C17O, 16O13C18O, 16O13C17O and 12C18O2) ont été mesurées avec une précision estimée de 1 × 10-3 cm-1. Les paramètres spectroscopiques ont été obtenus pour un total de 238 bandes, la plupart nouvellement observées. Un certain nombre de résonances ont été observées et identiﬁées. Les données expérimentales disponibles dans la littérature et celles obtenues au cours de cette thèse ont été utilisées pour améliorer les paramètres du modèle eﬀectif qui reproduit les positions avec un accord proche de leurs incertitudes expérimentales. Les intensités de 2039 et 952 raies ont été mesurées pour 13C16O2 et 12C16O2. Dans le cas de 12C16O2 la plupart des intensités mesurées appartiennent aux bandes perpendiculaires et "interdites". Ces données expérimentales, combinées à des données publiées, ont été utilisées pour améliorer les paramètres du moment dipolaire eﬀectif de ces deux isotopologues. L'ensemble de ces paramètres reproduit les intensités mesurées aux incertitudes expérimentales près. Quatre cas de résonance interpolyade ont été observés pour la première fois dans le cas de CO2. Cette thèse apporte une contribution importante aux bases de données spectroscopiques du dioxyde de carbone : CDSD et HITRAN. Les résultats obtenus ont été intégrés dans la base de données HITRAN qui fait référence pour la physique de l'atmosphère. Dioxyde de carbone CO2 infrarouge Cavity Ring Down Spectroscopy CRDS positions de raies intensités de raies bases de données spectroscopiques
165	Méthodes d'extraction de connaissances à partir de données modélisables par des graphes. Application à des problèmes de synthèse organique. Pennerath, Frédéric 02 July 2009 (has links) (PDF) Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d'intervalle entre graphes et adaptée à l'extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants. [INFO] Computer Science Fouille de données fouille de graphes recherche des motifs fréquents classification supervisée chémoinformatique
166	Efficient Content-based Retrieval in Parallel Databases of Images Manjarrez Sanchez, Jorge 26 October 2009 (has links) (PDF) Cette thèse porte sur le traitement des requêtes par similarité sur les données de haute dimensionnalité, notamment multimédias, et, parmi elles, les images plus particulièrement. Ces requêtes, notamment celles des k plus proches voisins (kNN), posent des problèmes de calcul de par la nature des données elles-mêmes et de la taille de la base des données. Nous avons étudié leurs performances quand une méthode de partitionnement est appliquée sur la base de données pour obtenir et exploiter des classes. Nous avons proposé une taille et un nombre optimaux de ces classes pour que la requête puisse être traitée en temps optimal et avec une haute précision. Nous avons utilisé la recherche séquentielle comme base de référence. Ensuite nous avons proposé des méthodes de traitement de requêtes parallèles sur une grappe de machines. Pour cela, nous avons proposé des méthodes d'allocation des données pour la recherche efficace des kNN en parallèle. Nous proposons de même, un nombre réduit de noeuds sur la grappe de machines permettant néanmoins des temps de recherche sous-linéaires et optimaux vis-à-vis des classes déterminées précédemment. Nous avons utilisé des donnés synthétiques et réelles pour les validations pratiques. Dans les deux cas, nous avons pu constater des temps de réponse et une qualité des résultats supérieurs aux méthodes existantes, lesquelles, au-delà d'un faible nombre des dimensions, deviennent inefficaces. Gestion de données multimédias données multidimensionnelles bases de données classification partitionnement de données
167	Parallélisme et équilibrage de charges dans le traitement de la jointure sur des architectures distribuées. Al Hajj Hassan, Mohamad 16 December 2009 (has links) (PDF) L'émergence des applications de bases de données dans les domaines tels que le data warehousing, le data mining et l'aide à la décision qui font généralement appel à de très grands volumes de données rend la parallélisation des algorithmes des jointures nécessaire pour avoir un temps de réponse acceptable. Une accélération linéaire est l'objectif principal des algorithmes parallèles, cependant dans les applications réelles, elle est difficilement atteignable : ceci est dû généralement d'une part aux coûts de communications inhérents aux systèmes multi-processeur et d'autre part au déséquilibre des charges des différents processeurs. En plus, dans un environnement hétérogène multi-utilisateur, la charge des différents processeurs peut varier de manière dynamique et imprévisible. Dans le cadre de cette thèse, nous nous intéressons au traitement de la jointure et de la multi-jointure sur les architectures distribuées hétérogènes, les grilles de calcul et les systèmes de fichiers distribués. Nous avons proposé une variété d'algorithmes, basés sur l'utilisation des histogrammes distribués, pour traiter de manière efficace le déséquilibre des données, tout en garantissant un équilibrage presque parfait de la charge des différents processeurs même dans un environnement hétérogène et multi-utilisateur. Ces algorithmes sont basés sur une approche dynamique de redistribution des données permettant de réduire les coûts de communication à un minimum tout en traitant de manière très efficace le problème de déséquilibre des valeurs de l'attribut de jointure. L'analyse de complexité de nos algorithmes et les résultats expérimentaux obtenus montrent que ces algorithmes possèdent une accélération presque linéaire. [INFO] Computer Science Jointures parallèles Multi-jointure Les Grilles de calcul Les systèmes de fichiers distribués Déséquilibre des données Équilibrage dynamique de charges
168	Cubes Émergents pour l'analyse des renversements de tendances dans les bases de données multidimensionnelles Nedjar, Sébastien 23 November 2009 (has links) (PDF) Découvrir des renversements de tendances entre deux cubes de données offre aux utilisateurs une connaissance nouvelle et intéressante lors des fluctuations de l'univers réel modélisé : quelles sont les nouveautés ? Quelle tendance apparaît ou disparaît ? Nous introduisons le nouveau concept de Cube Émergent. Il capture les renversements de tendances en mettant en œuvre une contrainte d'émergence (conjonction de contrainte monotones et antimonotones). Les bordures, classiques en fouille de données, sont reprises pour le Cube Émergent. Dans un second temps, nous proposons un nouveau couple de bordures pour optimiser à la fois l'espace de stockage et le temps de calcul. Cette nouvelle représentation fournit une caractérisation simple de la taille du Cube Émergent aussi bien que des outils de classification et de navigation dans les cubes. La connexion entre les bordures classiques et celles proposées est formellement établie en utilisant le concept de cube transversal. Connaître la taille du Cube Émergent est d'un grand intérêt, en particulier pour ajuster au mieux la contrainte d'émergence sous-jacente. Cette problématique est traitée en étudiant une borne supérieure et en caractérisant la taille exacte du Cube Émergent. Deux stratégies sont proposées pour estimer rapidement cette taille : la première est basée sur une estimation analytique, sans accès à la base de données, la seconde s'appuie sur un comptage probabiliste utilisant les bordures proposées comme entrée de l'algorithme proche de l'optimal HYPERLOGLOG. Grâce à la particulière efficacité de cet algorithme, plusieurs itérations peuvent être réalisées pour calibrer au mieux la contrainte d'émergence. De plus, des nouvelles représentations réduites et sans perte d'information du Cube Émergent sont proposées en utilisant le concept de fermeture cubique. [INFO] Computer Science Olap bases de données fouille de données multidimensionnelles cube de données treillis cube bordures cube fermé cube quotient représentation réduite
169	AROMA : une méthode pour la découverte d'alignements orientés entre ontologies à partir de règles d'association David, Jérôme 08 November 2007 (has links) (PDF) Ce travail de thèse s'inscrit à l'intersection des deux domaines de recherche que sont l'extraction des connaissances dans les données (ECD) et de l'ingénierie des connaissances. Plus précisément, en nous appuyant sur la combinaison des travaux menés, d'une part sur l'alignement des ontologies, et d'autre part sur la fouille de règles d'association, nous proposons une nouvelle méthode d'alignement d'ontologies associées à des corpus textuels (taxonomies, hiérarchies documentaires, thésaurus, répertoires ou catalogues Web), appelée AROMA (\emph{Association Rule Matching Approach}).<br /><br />Dans la littérature, la plupart des travaux traitant des méthodes d'alignement d'ontologies ou de schémas s'appuient sur une définition intentionnelle des schémas et utilisent des relations basées sur des mesures de similarité qui ont la particularité d'être symétriques (équivalences). Afin d'améliorer les méthodes d'alignement, et en nous inspirant des travaux sur la découverte de règles d'association, des mesures de qualité associées, et sur l'analyse statistique implicative, nous proposons de découvrir des appariements asymétriques (implications) entre ontologies. Ainsi, la contribution principale de cette thèse concerne la conception d'une méthode d'alignement extensionnelle et orientée basée sur la découverte des implications significatives entre deux hiérarchies plantées dans un corpus textuel.<br />Notre méthode d'alignement se décompose en trois phases successives. La phase de prétraitement permet de préparer les ontologies à l'alignement en les redéfinissant sur un ensemble commun de termes extraits des textes et sélectionnés statistiquement. La phase de fouille extrait un alignement implicatif entre hiérarchies. La dernière phase de post-traitement des résultats permet de produire des alignements consistants et minimaux (selon un critère de redondance).<br /><br />Les principaux apports de cette thèse sont : (1) Une modélisation de l'alignement étendue pour la prise en compte de l'implication. Nous définissons les notions de fermeture et couverture d'un alignement permettant de formaliser la redondance et la consistance d'un alignement. Nous étudions également la symétricité et les cardinalités d'un alignement. (2) La réalisation de la méthode AROMA et d'une interface d'aide à la validation d'alignements. (3) Une extension d'un modèle d'évaluation sémantique pour la prise en compte de la présence d'implications dans un alignement. (4) L'étude du comportement et de la performance d'AROMA sur différents types de jeux de tests (annuaires Web, catalogues et ontologies au format OWL) avec une sélection de six mesures de qualité.<br /><br />Les résultats obtenus sont prometteurs car ils montrent la complémentarité de notre méthode avec les approches existantes. Alignement d'ontologies Ingénierie des Connaissances fouille de données règle d'association Web Sémantique mesures de qualité
170	Villes et réseaux de transport : des interactions dans la longue durée (France, Europe, États-Unis) Bretagnolle, Anne 17 June 2009 (has links) (PDF) Entre les villes et les réseaux de transport s'établissent des relations particulièrement complexes, qui mélangent les niveaux d'échelle et croisent des temporalités multiples. Remontant aussi loin que le permettent les données, abordant des pays aux histoires contrastées, nous évoquons deux grands types d'articulations : d'une part, l'évolution des réseaux de transport permet un changement de dimension des villes et des systèmes de villes ; d'autre part, elle se traduit par une différenciation croissante des positions relatives des noeuds. Dans une première partie, nous analysons les transformations des contours et des dimensions des villes rendues possibles par l'évolution des transports urbains depuis la révolution industrielle, en témoignant des débats passionnants qui agitent les contemporains depuis deux siècles et les solutions envisagées et parfois adoptées par des organismes officiels pour suivre ces évolutions. Nous montrons que l'hétérogénéité très grande des définitions nationales de la ville en Europe prend sa source à la fin du 19ème siècle, lorsque certains pays font le choix des critères morpho-statistiques alors que d'autres gardent des approches juridiques et administratives. Dans une deuxième partie, nous nous appuyons sur une ontologie de la ville dans le temps long pour proposer des constructions de bases de données urbaines harmonisées pour la comparaison dynamique et internationale. Nos méthodes sont notamment fondées sur une modélisation de l'emprise spatiale des villes selon un rayon théorique correspondant, à chaque époque, au budget-temps moyen des navetteurs. Les résultats obtenus pour la France et les Etats-Unis révèlent l'impact du choix des délimitations sur les mesures du poids ou de la croissance des villes, et nous proposons des pistes pour construire des bases de données harmonisées pour les villes d'Europe. Dans la dernière partie, nous montrons que les grandes phases de transformation des systèmes de villes coïncident avec des innovations technologiques majeures dans les transports, même si des facteurs politiques et sociaux interviennent aussi (l'appréhension de territoires « nationaux », la perception d'un espace de plus en plus relativisé par la vitesse de déplacement). Dans les effets de dimensionnement des territoires par les réseaux rapides, nous soulignons l'importance d'un échelon régional, permettant, par des actions d'aménagement de grande ampleur, une structuration en réseau des zones centrales de l'économie-monde. Par des mesures d'accessibilité et de forme des réseaux, nous mettons en évidence des processus historiques d'adaptation mutuelle puis de co-évolution entre réseaux de transport et trame urbaine. Dans la phase de co-évolution, nous observons une différenciation croissante des positions relatives des lieux qui explique pour partie le processus de hiérarchisation des tailles de villes observable tant en Europe qu'aux Etats-Unis. Ville Réseaux de transport Vitesse Bases de données Hiérarchie Accessibilité Géographie urbaine Analyse spatiale Histoire France Europe Etats-Unis 17ème-20ème siècles

Search results