Global ETD Search

21	DOL - an Interoperable Document Server Melnik, Sergey, Rahm, Erhard, Sosna, Dieter 05 February 2019 (has links) We describe the design and expierences gained with the database and web-based document server DOL, which we developed at the University of Leipzig (http://dol.uni-leipzig.de). The server provides a central repository for a variety of fulltext documents. In Leipzig, it has been used since 1998 as a university-wide digital library for documents by local authors, in particular Ph.D. theses, master theses, research papers, lecture notes etc., offering a central access point to the university´s research results and educational material. Decentralized administration and different workflows are supported to met organizational and legal requirements of specific document types (e.g., Ph.D. theses). All documents are converted into several formats, and can be downloaded or viewed online in a page-wise fashion. The documents are searchable in a flexible way using fulltext and bibliographic queries. Moreover, a multi-level navigation interface is provided, supporting browsing along several dimentions. DOL is interoperable with global digital libraries such as NCSTRL and can be ported to the needs of different organisations. It is also in use at Stanford University. Informatics, Computer science, Databases info:eu-repo/classification/ddc/004 ddc:004
22	Training Selection for Tuning Entity Matching Köpcke, Hanna, Rahm, Erhard 06 February 2019 (has links) Entity matching is a crucial and difficult task for data integration. An effective solution strategy typically has to combine several techniques and to find suitable settings for critical configuration parameters such as similarity thresholds. Supervised (training-based) approaches promise to reduce the manual work for determining (learning) effective strategies for entity matching. However, they critically depend on training data selection which is a difficult problem that has so far mostly been addressed manually by human experts. In this paper we propose a training-based framework called STEM for entity matching and present different generic methods for automatically selecting training data to combine and configure several matching techniques. We evaluate the proposed methods for different match tasks and small- and medium-sized training sets. Informatics, Computer science, Databases info:eu-repo/classification/ddc/004 ddc:004
23	Qualitative topological relationships for objects with possibly vague shapes: implications on the specification of topological integrity constraints in transactional spatial databases and in spatial data warehouses Bejaoui, Lofti 25 May 2009 (has links) (PDF) Dans les bases de données spatiales actuellement mises en oeuvre, les phénomènes naturels sont généralement représentés par des géométries ayant des frontières bien délimitées. Une telle description de la réalité ignore le vague qui caractérise la forme de certains objets spatiaux (zones d'inondation, lacs, peuplements forestiers, etc.). La qualité des données enregistrées est donc dégradée du fait de ce décalage entre la réalitée et sa description. Cette thèse s'attaque à ce problème en proposant une nouvelle approche pour représenter des objets spatiaux ayant des formes vagues et caractériser leurs relations topologiques. Le modèle proposé, appelé QMM model (acronyme de Qualitative Min-Max model), utilise les notions d'extensions minimale et maximale pour représenter la partie incertaine d'un objet. Un ensemble d'adverbes permet d'exprimer la forme vague d'un objet (ex : a region with a partially broad boundary), ainsi que l'incertitude des relations topologiques entre deux objets (ex : weakly Contains, fairly Contains, etc.). Cette approche est moins fine que d'autres approches concurrentes (modélisation par sous-ensembles flous ou modélisation probabiliste). Mais elle nécessite un processus d'acquisition complexe des données. De plus elle est relativement simple à mettre en oeuvre avec les systèmes existants de gestion de bases de données. Cette approche est ensuite utilisée pour contrôler la qualité des données dans les bases de données spatiales et les entrepôts de données spatiales en spécifiant les contraintes d'intégrité basé sur les concepts du modèle QMM. Une extension du langage de contraintes OCL (Object Constraint Language) a été étudiée pour spécifier des contraintes topologiques impliquant des objets ayant des formes vagues. Un logiciel existant (outil OCLtoSQL développé à l'Université de Dresden) a été étendu pour permettre la génération automatique du code SQL d'une contrainte lorsque la base de données est gérée par un système relationnel. Une expérimentation de cet outil a été réalisée avec une base de données utilisée pour la gestion des épandages agricoles. Pour cette application, l'approche et l'outil sont apparus très efficients. Cette thèse comprend aussi une étude de l'intégration de bases de données spatiales hétérogènes lorsque les objets sont représentés avec le modèle QMM. Des résultats nouveaux ont été produits et des exemples d'application ont été explicités. Géomatique Géographie -- Logiciels Géographie -- Systèmes d'information Systèmes d'information géographique Cartographie -- Logiciels
24	l'évaluation de requêtes avec un délai constant Kazana, Wojciech 16 September 2013 (has links) (PDF) Cette thèse se concentre autour du problème de l'évaluation des requêtes. Étant donné une requête q et une base de données D, l'objectif est de calculer l'ensemble q(D) des nuplets résultant de l'évaluation de q sur D. Toutefois, l'ensemble q(D) peut être plus grand que la base de données elle-même car elle peut avoir une taille de la forme n^l où n est la taille de la base de données et l est l'arité de la requête. Calculer entièrement q(D) peut donc nécessiter plus que les ressources disponibles. L'objectif principal de cette thèse est une solution particulière à ce problème: une énumération de q(D) avec un délai constant. Intuitivement, cela signifie qu'il existe un algorithme avec deux phases: une phase de pré-traitement qui fonctionne en temps linéaire dans la taille de la base de données, suivie d'une phase d'énumération produisant un à un tous les éléments de q(D) avec un délai constant (indépendant de la taille de la base de données) entre deux éléments consécutifs. En outre, quatre autres problèmes sont considérés: le model-checking (où la requête q est un booléen), le comptage (où on veut calculer la taille \|q(D)\|), les tests (où on s'intéresse à un test efficace pour savoir si un uplet donné appartient au résultat de la requête) et la j-ième solution (où on veut accéder directement au j-ième élément de q(D)). Les résultats présentés dans cette thèse portent sur les problèmes ci-dessus concernant: - les requêtes du premier ordre sur les classes de structures de degré borné, - les requêtes du second ordre monadique sur les classes de structures de largeur d'arborescente bornée, - les requêtes du premier ordre sur les classes de structures avec expansion bornée. databases query enumeration first-order logic monadic second-order logic bounded expansion
25	Infrastructure P2P pour la Réplication et la Réconciliation des Données Tlili, Mounir 30 June 2011 (has links) (PDF) Dans notre thèse, nous nous intéressons à la construction d'une infrastructure Pair-à-Pair (P2P) pour la réconciliation des données des applications d'édition de texte collaborative. Cependant, cette tâche est difficile à réaliser étant donné le comportement dynamique des pairs. Au regard de l'état de l'art, le modèle des transformées opérationnelles (OT) est une approche typiquement utilisée pour la gestion de la réplication optimiste dans le contexte d'édition de texte distribuée. Toutefois, la plupart des solutions d'OT ne passent pas à l'échelle et ne sont pas adaptées aux réseaux P2P. Pour répondre à ce problème, nous proposons une nouvelle approche appelée P2P-LTR (Estampillage et Journalisation P2P pour la Réconciliation) pour la réconciliation des données à base d'OT, qui assure la cohérence à terme malgré la dynamicité et les cas de pannes. P2P-LTR offre un service de journalisation P2P et un service d'estampillage fiable et réparti fonctionnant sur un modèle de réseau à base de DHT. Dans notre approche, les mises à jour sont estampillées et stockées en P2P dans des journaux à forte disponibilité. Lors de la réconciliation, ces mises à jour sont récupérées selon un ordre total continu afin d'assurer la cohérence à terme. En outre, P2P-LTR traite les cas où les pairs peuvent rejoindre ou quitter le système pendant les opérations de mise à jour. Nous avons évalué les performances de P2P-LTR par simulation. Les résultats montrent l'efficacité et le passage à l'échelle de notre solution. Réplication Optimiste Réconciliation Système Pair-à-Pair DHT Edition Collaborative
26	Knowledge Representation meets DataBases for the sake of ontology-based data management Goasdoué, François 11 July 2012 (has links) (PDF) This Habilitation thesis outlines my research activities carried out as an Associate Professor at Univ. Paris-Sud and Inria Saclay Île-de-France. During this period, from 2003 to early 2012, my work was - and still is - at the interface between Knowledge Representation and Databases. I have mainly focused on ontology-based data management using the Semantic Web data models promoted by W3C: the Resource Description Framework (RDF) and the Web Ontology Language (OWL). In particular, my work has covered (i) the design, (ii) the optimization, and (iii) the decentralization of ontology-based data management techniques in these data models. This thesis briefly reports on the results obtained along these lines of research. Bases de données Logiques de description Intégration d'information Web Sémantique
27	Contribution à la conception, la réalisation et l'utilisation du système de bases de données Somine : gestion des mémoires, enseignement assisté par ordinateur Gaillard, Marcel 26 January 1976 (has links) (PDF) Les rencontres avec Monsieur* VIELLEDENT, Directeur de l'Ecole* Supérieure des Mines de Saint-Etienne, très intéressé par Les problèmes pédagogiques et avec Monsieur MAHL, Directeur du département informatique de cette école, ont contribué à définir les buts de notre recherche* : implémenter un système de banques de données accessibles à des utilisateurs "étudiants" (aide à l'enseignement) "ingénieurs et techniciens" (aide à la conception assistée par ordinateur) ou "gestionnaires" (aide à la gestion). Cet objectif fixé, nous avons étudié les réalisations françaises et étrangères dans ces domaines. Ainsi, une importante bibliographie a été consultée. Son analyse critique nous a conduits à préciser les grandes lignes de notre recherche. Ces éléments sont résumés dans la première partie (introduction générale) de ce mémoire qui montre comment notre travail s'est orienté suivant deux axes principaux a) La conception et l'implémentation d'un système de gestion de bases de données ( SOMINE ) b) Les recherches montrant comment ce système peut être appliqué à des domaines aussi divers que l'E.A.O., la C.A.O. ou l'optimisation de la structuration des informations. système de gestion de bases de données pédagogie structuration des informations E.A.O C.A.O
28	Extraction de connaissances : réunir volumes de données et motifs significatifs Masseglia, Florent 27 November 2009 (has links) (PDF) L'analyse et la fouille des données d'usages sont indissociables de la notion d'évolution dynamique. Considérons le cas des sites Web, par exemple. Le dynamisme des usages sera lié au dynamisme des pages qui les concernent. Si une page est créée, et qu'elle présente de l'intérêt pour les utilisateurs, alors elle sera consultée. Si la page n'est plus d'actualité, alors les consultations vont baisser ou disparaître. C'est le cas, par exemple, des pages Web de conférences scientifiques qui voient des pics successifs de consultation lorsque les appels à communications sont diffusés, puis le jour de la date limite d'envoi des résumés, puis le jour de la date limite d'envoi des articles. Dans ce mémoire d'habilitation à diriger des recherches, je propose une synthèse des travaux que j'ai dirigés ou co-dirigés, en me basant sur des extraits de publications issues de ces travaux. La première contribution concerne les difficultés d'un processus de fouille de données basé sur le support minimum. Ces difficultés viennent en particulier des supports très bas, à partir desquels des connaissances utiles commencent à apparaître. Ensuite, je proposerai trois déclinaisons de cette notion d'évolution dans l'analyse des usages : l'évolution en tant que connaissance (des motifs qui expriment l'évolution) ; l'évolution des données (en particulier dans le traitement des flux de données) ; et l'évolution des comportements malicieux et des techniques de défense. [INFO:INFO_LG] Computer Science/Learning Fouille de données Flux de données Motifs séquentiels Itemsets
29	Systèmes d'Information Scientifique : des modèles conceptuels aux annotations sémantiques Application au domaine de l'archéologie et des sciences du vivant Savonnet, Marinette 12 September 2013 (has links) (PDF) Les Systèmes d'Information Scientifique (SIS) sont des Systèmes d'Information (SI) dont le but est de produire de la connaissance et non pas de gérer ou contrôler une activité de production de biens ou de services comme les SI d'entreprise. Les SIS se caractérisent par des domaines de recherche fortement collaboratifs impliquant des équipes pluridisciplinaires et le plus souvent géographiquement éloignées, ils manipulent des données aux structures très variables dans le temps qui vont au-delà de la simple hétérogénéité : nuages de points issus de scanner 3D, modèles numériques de terrain, cartographie, publications, données issues de spectromètre de masse ou de technique de thermoluminescence, données attributaires en très grand volume, etc. Ainsi, contrairement aux bases de données d'entreprise qui sont modélisées avec des structures établies par l'activité qu'elles supportent, les données scientifiques ne peuvent pas se contenter de schémas de données pré-definis puisque la structure des données évolue rapidement de concert avec l'évolution de la connaissance. La gestion de données scientifiques nécessite une architecture de SIS ayant un niveau d'extensibilité plus élevé que dans un SI d'entreprise. Afin de supporter l'extensibilité tout en contrôlant la qualité des données mais aussi l'interopérabilité, nous proposons une architecture de SIS reposant sur : - des données référentielles fortement structurées, identifiables lors de la phase d'analyse et amenées à évoluer rarement ; - des données complémentaires multi-modèles (matricielles, cartographiques, nuages de points 3D, documentaires, etc.). Pour établir les liens entre les données complémentaires et les données référentielles, nous avons utilisé un unique paradigme, l'annotation sémantique. Nous avons proposé un modèle formel d'annotation à base ontologique pour construire des annotations sémantiques dont la cohérence et la consistance peuvent être contrôlées par une ontologie et des règles. Dans ce cadre, les annotations offrent ainsi une contextualisation des données qui permet de vérifier leur cohérence, par rapport à la connaissance du domaine. Nous avons dressé les grandes lignes d'une sémantique du processus d'annotation par analogie avec la sémantique des langages de programmation. Nous avons validé notre proposition, à travers deux collaborations pluridisciplinaires : - le projet ANR CARE (Corpus Architecturae Religiosae Europeae - IV-X saec. ANR-07- CORP-011) dans le domaine de l'archéologie. Son objectif était de développer un corpus numérique de documents multimédia sur l'évolution des monuments religieux du IVe au XIe siècle (http://care.tge-adonis.fr). Un assistant d'annotation a été développé pour assurer la qualité des annotations par rapport à la connaissance représentée dans l'ontologie. Ce projet a donné lieu au développement d'une extension sémantique pour MediaWiki ; - le projet eClims dans le domaine de la protéomique clinique. eClims est un composant clinique d'un LIMS (Laboratory Information Management System) développé pour la plate-forme de protéomique CLIPP. eClims met en oeuvre un outil d'intégration basé sur le couplage entre des modèles représentant les sources et le système protéomique, et des ontologies utilisées comme médiatrices entre ces derniers. Les différents contrôles que nous mettons en place garantissent la validité des domaines de valeurs, la complétude, la consistance des données et leur cohérence. Le stockage des annotations est assuré par une Base de Données orientées colonnes associée à une Base de Données relationnelles. Systèmes d'Information Scientifique annotation sémantique modélisation ontologie application archéologique application protéomique
30	Etude et implantation de l'extraction de requêtes fréquentes dans les bases de données multidimensionnelles. Dieng, Cheikh Tidiane 19 July 2011 (has links) (PDF) Au cours de ces dernières années, le problème de la recherche de requêtes fréquentes dans les bases de données est un problème qui a suscité de nombreuses recherches. En effet, beaucoup de motifs intéressants comme les règles d'association, des dépendances fonction- nelles exactes ou approximatives, des dépendances fonctionnelles conditionnelles exactes ou approximatives peuvent être découverts simplement, contrairement au méthodes clas- siques qui requièrent plusieurs transformations de la base pour extraire de tels motifs. Cependant, le problème de la recherche de requêtes fréquentes dans les bases de données relationnelles est un problème difficile car, d'une part l'espace de recherche est très grand (puisque égal à l'ensemble de toutes les requêtes pouvant être posées sur une base de données), et d'autre part, savoir si deux requêtes sont équivalentes (donc engendrant les calculs de support redondants) est un problème NP-Complet. Dans cette thèse, nous portons notre attention sur les requêtes de type Projection- Selection-Jointure (PSJ), et nous supposons que la base de données est définie selon un schéma étoile. Sous ces hypothèses, nous définissons une relation de pré-ordre (≤) entre les requêtes et nous montrons que : 1. La mesure de support est anti-monotone par rapport à ≤, et 2. En définissant, q ≡ q′ si et seulement si q ≤ q′ et q′ ≤ q, alors toutes les requêtes d'une même classe d'équivalence ont même support. Les principales contributions de cette thèse sont, d'une part d'étudier formellement les propriétés du pré-ordre et de la relation d'équivalence ci-dessus, et d'autre part, de pro- poser un algorithme par niveau de type Apriori pour rechercher l'ensemble des requêtes fréquentes d'une base de données définie sur un schéma étoile. De plus, cet algorithme a été implémenté et les expérimentations que nous avons réalisées montrent que, selon notre approche, le temps de calcul des requêtes fréquentes dans une base de données définie sur un schéma étoile reste acceptable, y compris dans le cas de grandes tables de faits. base de données fouilles de données requêtes motifs algorithme par niveau connaissances

Search results