Global ETD Search

11	Vers une prise en compte de plusieurs aspects des besoins d'information dans les modèles de la recherche documentaire : Propagation de métadonnées sur le World Wide Web Prime-Claverie, Camille 26 November 2004 (has links) (PDF) Dans cette thèse, qui s'inscrit dans le contexte général de la recherche d'information sur la Toile, nous abordons le problème de l'indexation (thématique et non thématique) des pages. En particulier, nous nous intéressons à leur typologie. Nous proposons une méthode de caractérisation des pages comprenant deux étapes. La première, l'extraction de corpus homogènes, vise à rapprocher des pages partageant des caractéristiques communes. La seconde, l'affectation semi-automatique de métadonnées au sein de chaque corpus homogène, est basée sur la propagation : au départ, seule une faible proportion des ressources sont qualifiées manuellement, leurs informations sont ensuite propagées aux autres ressources. Au niveau méthodologique, l'extraction des corpus homogènes est fondée sur l'analyse des liens hypertextes. Plus précisément, elle utilise le principe de "co-sitation". Ce principe est la transposition sur le Web de la méthode des co-citations bien connue en scientométrie. [INFO:INFO_WB] Computer Science/Web Web information corpus recherche documentaire Métadonnées co-sitation
12	Contribution à la modélisation des métadonnées associées aux documents multimédias et à leur enrichissement par l’usage / Contribution to the modeling of metadata associated to multimedia documents and to their enrichment through the usage Manzat, Ana-Maria 05 February 2013 (has links) De nos jours, ce ne sont pas que les collections multimédias qui deviennent de plus en plus volumineuses, mais aussi les métadonnées qui les décrivent. L’extraction des métadonnées est très coûteuse en consommation de ressources. Cela pose le problème de la gestion efficace de ces grands volumes de données, en minimisant cette consommation. Le fait que les utilisateurs sont en constante interaction avec les documents multimédias et les métadonnées complique encore plus cette gestion. Dans cette thèse, nous étudions le problème de la gestion de métadonnées en intégrant les interactions des utilisateurs à deux niveaux: dans le processus de création de métadonnées et dans leur enrichissement. La grande variété de standards et normes de métadonnées existants ne sont pas interopérables. Les solutions proposées à ce problème d’interopérabilité se sont focalisées sur la création d’ontologies qui décrivent les contenus multimédias du point de vue sémantique, sans forcément prendre en compte les standards de métadonnées et d’autres informations de plus bas niveau sur les documents. Pour résoudre ce problème nous proposons un format de métadonnées qui intègre les standards et normes les plus utilisés et qui est flexible et extensible en structure et en vocabulaire. Dans le cadre d’un système de gestion des contenus multimédias, le processus d’indexation est celui qui consomme le plus de ressources, à travers les algorithmes d’indexation qui extraient les métadonnées. Dans les systèmes classiques, cette indexation est accomplie avec un ensemble d’algorithmes d’indexation figé dans le temps, sans se soucier de la consommation des ressources ni de l’évolution des besoins de l’utilisateur. Pour prendre en compte les besoins que l’utilisateur spécifie dans sa requête, afin de n’extraire que les métadonnées nécessaires et ainsi limiter d’un côté le volume de métadonnées à gérer et de l’autre la consommation des ressources, nous proposons de répartir le processus d’indexation en deux phases: une fois à l’acquisition des contenus (indexation implicite), et une deuxième fois, si besoin, au moment de l’exécution de la requête de l’utilisateur (indexation explicite) en ayant recours à une liste d’algorithmes d’indexation déterminée principalement en fonction de la requête de l’utilisateur. L’utilisateur est de plus en plus pris en compte dans les systèmes multimédias à travers ses interactions avec le système et le document. Nous proposons d’aller plus loin dans la prise en compte de l’utilisateur, en considérant ses interactions avec les différentes parties du document mais aussi avec les métadonnées qui décrivent le document. Cela a été réalisé à travers l’extension du format de métadonnées proposée, par l’ajout d une température à chaque élément du format, qui varie dans le temps, étant calculée en fonction de la façon dont l’utilisateur interagit avec le document, mais aussi avec les métadonnées dans une période de temps. Nous avons validé nos propositions dans deux domaines différents: la vidéo surveillance et le commerce électronique. Le projet LINDO nous a permis la validation du format des métadonnées et de la sélection des algorithmes d’indexation dans le cadre de l’indexation explicite, dans le cadre de la vidéo surveillance. Dans le domaine du commerce électronique, nous avons exploité les interactions des utilisateurs réels avec un site de vente en ligne pour calculer la température des métadonnées associées aux pages du site pendant une période de deux mois. Nous avons utilisé cette température pour réaliser le reclassement des résultats obtenus pour une requête de l’utilisateur. Nous avons réalisé un test utilisateur sur une vingtaine de personnes. [...] / Nowadays, not only multimedia collections become larger, but also the metadata describing them. The metadata extraction is the most ressource consumming process in the management of multimedia collections. This raises the problem of the efficient management of these large data volumes while minimizing ressource consumption. Users’ constant interactions with multimedia documents and metadata complicate this management process. In this thesis, we adress this problem of metadata management by integrating users’ interactions at two levels: in the process of metadata creation and in their enrichment. The existing metadata standards are heterogenous and not interoperable. The proposed solutions for this interoperability problem focused on creating ontologies that describe the multimedia contents from a semantic point of view, without necessarily taking into account metadata standards and other low level information. To solve this problem, we propose a metadata format that integrates the most widely used metadata standards and which is flexible and extensible in structure and vocabulary. In a multimedia management system, the indexing process is the most resource consumming, through the indexing algorithms that extract metadata. In conventional systems, the indexing is accomplished with a fixed set of indexing algorithms, without considering the resource consumption and users’ changing needs. To take into account the user’s needs, specified in his query, in ordre to extract only the necessary metadata and thus, on one side, to limit the metadata volume and on the other to reduce the resource consumption, we propose to split the indexing process into two phases: first time, at the contents acquisition time (i.e., implicit indexation), and, a second time, if necessary, at the query execution time (i.e., explicit indexation), employing a list of indexing algorithms determined mainly according to the user’s query. The users are more and more taken into account in multimedia systems through their interactions with the system and the documents. We propose to go further in this consideration, by taking into account users’interactions with different parts of the document, and also with the document’s metadata. This was achieved through the extention of the proposed metadata format, by associating a temperature to each metadata element. This temperature is calculated according to the users’ interactions with the document and with the metadata, in a time period. We have validated our proposals in two different domains: vidéosurveillance and e-commerce. The LINDO project has allowed us to validate the metadata format and indexing algorithms selection in the context of explicit indexation, for a video surceillance use case. For the e-commerce, we have used an online shopping site and the interactions of its real users, for a two months period, to calculate the temperature of the metadata associated to the web pages describing the site’s products. We have used this temperature for reranking the results obtained for a user’s query. We conducted a user study with twenty people, which shows that, for some users’ queries, the results reranking helps the users to find faster the desired information. This thesis has addressed the problem of taking into account the user in the multimedia documents management by: (1 )proposing a model metadata that integrates the most used metadata standards; (2) spliting the multimedia indexing in two steps ( implicit and explicit indexation); (3) enriching the metadata according to the users’ interactions with the system, the multimedia documents and the metadata. Documents et métadonnées multimédias Processus d’indexation Usage Interactions des utilisateurs Température Multimedia documents Multimedia metadata Indexing process Usage Users’ interactions Temperature
13	La gestion des données d'autorité archivistiques dans le cadre du Web de données Chardonnens, Anne 15 December 2020 (has links) (PDF) Dans un contexte archivistique en transition, marqué par l'évolution des normes internationales de description archivistique et le passage vers une logique de graphes d'entités, cette thèse se concentre plus spécifiquement sur la gestion des données d'autorité relatives à des personnes physiques. Elle vise à explorer comment le secteur des archives peut bénéficier du développement du Web de données pour favoriser une gestion soutenable de ses données d'autorité :de leur création à leur mise à disposition, en passant par leur maintenance et leur interconnexion avec d'autres ressources.La première partie de la thèse est dédiée à un état de l'art englobant tant les récentes évolutions des normes internationales de description archivistique que le développement de l'écosystème Wikibase. La seconde partie vise à analyser les possibilités et les limites d'une approche faisant appel au logiciel libre Wikibase. Cette seconde partie s'appuie sur une étude empirique menée dans le contexte du Centre d'Études et de Documentation Guerre et Sociétés Contemporaines (CegeSoma). Elle permet de tester les perspectives dont disposent des institutions possédant des ressources limitées et n'ayant pas encore adopté la logique du Web de données. Par le biais de jeux de données relatifs à des personnes liées à la Seconde Guerre mondiale, elle dissèque les différentes étapes conduisant à leur publication sous forme de données ouvertes et liées. L'expérience menée en seconde partie de thèse montre comment une base de connaissance mue par un logiciel tel que Wikibase rationalise la création de données d'autorité structurées multilingues. Des exemples illustrent la façon dont ces entités peuvent ensuite être réutilisées et enrichies à l'aide de données externes dans le cadre d'interfaces destinées au grand public. Tout en soulignant les limites propres à l'utilisation de Wikibase, cette thèse met en lumière ses possibilités, en particulier dans le cadre de la maintenance des données. Grâce à son caractère empirique et aux recommandations qu'elle formule, cette recherche contribue ainsi aux efforts et réflexions menés dans le cadre de la transition des métadonnées archivistiques. / The subject of this thesis is the management of authority records for persons. The research was conducted in an archival context in transition, which was marked by the evolution of international standards of archival description and a shift towards the application of knowledge graphs. The aim of this thesis is to explore how the archival sector can benefit from the developments concerning Linked Data in order to ensure the sustainable management of authority records. Attention is not only devoted to the creation of the records and how they are made available but also to their maintenance and their interlinking with other resources.The first part of this thesis addresses the state of the art of the developments concerning the international standards of archival description as well as those regarding the Wikibase ecosystem. The second part presents an analysis of the possibilities and limits associated with an approach in which the free software Wikibase is used. The analysis is based on an empirical study carried out with data of the Study and Documentation Centre War and Contemporary Society (CegeSoma). It explores the options that are available to institutions that have limited resources and that have not yet implemented Linked Data. Datasets that contain information of people linked to the Second World War were used to examine the different stages involved in the publication of data as Linked Open Data.The experiment carried out in the second part of the thesis shows how a knowledge base driven by software such as Wikibase streamlines the creation of multilingual structured authority data. Examples illustrate how these entities can then be reused and enriched by using external data in interfaces aimed at the general public. This thesis highlights the possibilities of Wikibase, particularly in the context of data maintenance, without ignoring the limitations associated with its use. Due to its empirical nature and the formulated recommendations, this thesis contributes to the efforts and reflections carried out within the framework of the transition of archival metadata. / Doctorat en Information et communication / info:eu-repo/semantics/nonPublished Information et communication linked data Web sémantique archivistique maintenance métadonnées entity linking authority record
14	Cohérence à terme fiable avec des types de données répliquées / Dependable eventual consistency with replicated data types Zawirski, Marek 14 January 2015 (has links) Les bases de données répliquées cohérentes à terme récentes encapsulent la complexité de la concurrence et des pannes par le biais d'une interface supportant la cohérence causale, protégeant l'application des problèmes d'ordre, et/ou des Types de Données Répliqués (RDTs), assurant une sémantique convergente des mises-à-jour concurrentes en utilisant une interface objet. Cependant, les algorithmes fiables pour les RDTs et la cohérence causale ont un coût en terme de taille des métadonnées. Cette thèse étudie la conception de tels algorithmes avec une taille de métadonnées minimisée et leurs limites. Notre première contribution est une étude de la complexité des métadonnées des RDTs. Les nombreuses implémentations existantes impliquent un important surcoût en espace de stockage. Nous concevons un ensemble optimisé et un registre RDTs avec un surcoût des métadonnées réduit au nombre de répliques. Nous démontrons également les bornes inférieures de la taille des métadonnées pour six RDTs, prouvant ainsi l'optimalité de quatre implémentations. Notre seconde contribution est le design de SwiftCloud, une base de données répliquée causalement cohérente d'objets RDTs pour les applications côté client. Nous concevons des algorithmes qui supportent un grand nombre de répliques partielles côté client, s'appuyant sur le cloud, tout en étant tolérant aux fautes et avec une faible taille de métadonnées. Nous démontrons comment supporter la disponibilité (y compris la capacité à basculer entre des centre de données lors d'une erreur), la cohérence et le passage à l'échelle (petite taille de métadonnées, parallélisme) au détriment d'un léger retard dans l'actualisation des données. / Eventually consistent replicated databases offer excellent responsiveness and fault-tolerance, but expose applications to the complexity of concurrency andfailures. Recent databases encapsulate these problems behind a stronger interface, supporting causal consistency, which protects the application from orderinganomalies, and/or Replicated Data Types (RDTs), which ensure convergent semantics of concurrent updates using object interface. However, dependable algorithms for RDT and causal consistency come at a cost in metadata size. This thesis studies the design of such algorithms with minimized metadata, and the limits of the design space. Our first contribution is a study of metadata complexity of RDTs. RDTs use metadata to provide rich semantics; many existing RDT implementations incur high overhead in storage space. We design optimized set and register RDTs with metadata overhead reduced to the number of replicas. We also demonstrate metadata lower bounds for six RDTs, thereby proving optimality of four implementations. Our second contribution is the design of SwiftCloud, a replicated causally-consistent RDT object database for client-side applications. We devise algorithms to support high numbers of client-side partial replicas backed by the cloud, in a fault-tolerant manner, with small metadata. We demonstrate how to support availability and consistency, at the expense of some slight data staleness; i.e., our approach trades freshness for scalability (small metadata, parallelism), and availability (ability to fail-over between data centers). We validate our approach with experiments involving thousands of client replicas. Cohérence à terme Cohérence causale Types de données répliquées Fiabilité Métadonnées minimisées Passage à l'échelle Replicated databases Causal consistency Scalability 005.73
15	LORESA : un système de recommandation d'objets d'apprentissage basé sur les annotations sémantiques Benlizidia, Sihem January 2007 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal. Objets d'apprentissage Learning objects Web sémantique Semantic Web Ontologies Ontologies Systèmes de recommandation Recommender systems Métadonnées Metadata Annotations sémantiques Semantic annotations Entrepôts d'objets d'apprentissage Learning objects repositories
16	La preuve par métadonnées Dicecca, Christopher 11 1900 (has links) L’entrée en vigueur de la Loi concernant le cadre juridique des technologies de l’information (ci-après la Loi), est la concrétisation de la prise en compte par le droit, de la preuve technologique. La notion de document technologique est à la fois centrale dans la Loi et dans le Code civil du Québec. Il s’est parfaitement intégré aux divers moyens de preuve du Code civil. Nous allons nous intéresser à cette notion qu’est le document technologique, mais davantage à ses éléments structurants, les métadonnées. Nous allons nous pencher sur la notion, ses origines et ses domaines de prédilection, faisant d’elles, un objet a priori essentiellement technologique, avant de les envisager dans un contexte de preuve. Nous allons voir quel potentiel probatoire les métadonnées représentent, à l’appui d’un document technologique. Enfin, nous nous interrogerons sur leur rôle probatoire autour des notions de copie-transfert et des obligations posées par la Loi, afin que ces deux modes de reproduction des document, puissent légalement tenir lieu du document original, soit la certification et la documentation. / The entry into force of the Act to establish a legal framework for information technology (hereafter «the Law») symbolises the embodiment of technological evidence into law. The notion of technological document is central to this Law. It is perfectly integrated to the different means of evidence in the Civil code. We will of course look at the notion of technological document, but even more so at its structuring element, metadata. We will study the notion, the origin and core areas of metadata. Metadata, an essentially technological element, will be studied within the context of evidence law. We will see what probationary potential metadata can offer in support of a technological document. Finally, we will examine the role of metadata within the copy-transfer concept and obligations imposed by the Law to legally be used as original document, certification and documentation. Métadonnées preuve document technologique copie transfert transmission certification notaire documentation metadata evidence copy technology-based notary document
17	Réseaux Bayésiens pour fusion de données statiques et temporelles / Bayesian networks for static and temporal data fusion Rahier, Thibaud 11 December 2018 (has links) La prédiction et l'inférence sur des données temporelles sont très souvent effectuées en utilisant uniquement les séries temporelles. Nous sommes convaincus que ces tâches pourraient tirer parti de l'utilisation des métadonnées contextuelles associées aux séries temporelles, telles que l'emplacement, le type, etc. Réciproquement, les tâches de prédiction et d'inférence sur les métadonnées pourraient bénéficier des informations contenues dans les séries temporelles. Cependant, il n'existe pas de méthode standard pour modéliser conjointement les données de séries temporelles et les métadonnées descriptives. De plus, les métadonnées contiennent fréquemment des informations hautement corrélées ou redondantes et peuvent contenir des erreurs et des valeurs manquantes.Nous examinons d’abord le problème de l’apprentissage de la structure graphique probabiliste inhérente aux métadonnées en tant que réseau Bayésien. Ceci présente deux avantages principaux: (i) une fois structurées en tant que modèle graphique, les métadonnées sont plus faciles à utiliser pour améliorer les tâches sur les données temporelles et (ii) le modèle appris permet des tâches d'inférence sur les métadonnées uniquement, telles que l'imputation de données manquantes. Cependant, l'apprentissage de la structure de réseau Bayésien est un défi mathématique conséquent, impliquant un problème d'optimisation NP-difficile. Pour faire face à ce problème, nous présentons un algorithme d'apprentissage de structure sur mesure, inspiré de nouveaux résultats théoriques, qui exploite les dépendances (quasi)-déterministes généralement présentes dans les métadonnées descriptives. Cet algorithme est testé sur de nombreux jeux de données de référence et sur certains jeux de métadonnées industriels contenant des relations déterministes. Dans les deux cas, il s'est avéré nettement plus rapide que l'état de la l'art, et a même trouvé des structures plus performantes sur des données industrielles. De plus, les réseaux Bayésiens appris sont toujours plus parcimonieux et donc plus lisibles.Nous nous intéressons ensuite à la conception d'un modèle qui inclut à la fois des (méta)données statiques et des données temporelles. En nous inspirant des modèles graphiques probabilistes pour les données temporelles (réseaux Bayésiens dynamiques) et de notre approche pour la modélisation des métadonnées, nous présentons une méthodologie générale pour modéliser conjointement les métadonnées et les données temporelles sous forme de réseaux Bayésiens hybrides statiques-dynamiques. Nous proposons deux algorithmes principaux associés à cette représentation: (i) un algorithme d'apprentissage qui, bien qu'optimisé pour les données industrielles, reste généralisable à toute tâche de fusion de données statiques et dynamiques, et (ii) un algorithme d'inférence permettant les d'effectuer à la fois des requêtes sur des données temporelles ou statiques uniquement, et des requêtes utilisant ces deux types de données.%Nous fournissons ensuite des résultats sur diverses applications inter-domaines telles que les prévisions, le réapprovisionnement en métadonnées à partir de séries chronologiques et l’analyse de dépendance d’alarmes en utilisant les données de certains cas d’utilisation difficiles de Schneider Electric.Enfin, nous approfondissons certaines des notions introduites au cours de la thèse, et notamment la façon de mesurer la performance en généralisation d’un réseau Bayésien par un score inspiré de la procédure de validation croisée provenant de l’apprentissage automatique supervisé. Nous proposons également des extensions diverses aux algorithmes et aux résultats théoriques présentés dans les chapitres précédents, et formulons quelques perspectives de recherche. / Prediction and inference on temporal data is very frequently performed using timeseries data alone. We believe that these tasks could benefit from leveraging the contextual metadata associated to timeseries - such as location, type, etc. Conversely, tasks involving prediction and inference on metadata could benefit from information held within timeseries. However, there exists no standard way of jointly modeling both timeseries data and descriptive metadata. Moreover, metadata frequently contains highly correlated or redundant information, and may contain errors and missing values.We first consider the problem of learning the inherent probabilistic graphical structure of metadata as a Bayesian Network. This has two main benefits: (i) once structured as a graphical model, metadata is easier to use in order to improve tasks on temporal data and (ii) the learned model enables inference tasks on metadata alone, such as missing data imputation. However, Bayesian network structure learning is a tremendous mathematical challenge, that involves a NP-Hard optimization problem. We present a tailor-made structure learning algorithm, inspired from novel theoretical results, that exploits (quasi)-determinist dependencies that are typically present in descriptive metadata. This algorithm is tested on numerous benchmark datasets and some industrial metadatasets containing deterministic relationships. In both cases it proved to be significantly faster than state of the art, and even found more performant structures on industrial data. Moreover, learned Bayesian networks are consistently sparser and therefore more readable.We then focus on designing a model that includes both static (meta)data and dynamic data. Taking inspiration from state of the art probabilistic graphical models for temporal data (Dynamic Bayesian Networks) and from our previously described approach for metadata modeling, we present a general methodology to jointly model metadata and temporal data as a hybrid static-dynamic Bayesian network. We propose two main algorithms associated to this representation: (i) a learning algorithm, which while being optimized for industrial data, is still generalizable to any task of static and dynamic data fusion, and (ii) an inference algorithm, enabling both usual tasks on temporal or static data alone, and tasks using the two types of data.%We then provide results on diverse cross-field applications such as forecasting, metadata replenishment from timeseries and alarms dependency analysis using data from some of Schneider Electric’s challenging use-cases.Finally, we discuss some of the notions introduced during the thesis, including ways to measure the generalization performance of a Bayesian network by a score inspired from the cross-validation procedure from supervised machine learning. We also propose various extensions to the algorithms and theoretical results presented in the previous chapters, and formulate some research perspectives. Apprentissage automatique Réseaux Bayesiens Métadonnées Séries temporelles Modèles graphiques Apprentissage de structure Machine Learning Bayesian networks Metadata Time series Graphical models Structure learning 510
18	Contribution au catalogage dynamique des manuscrits arabes anciens numérisés / Contribution to dynamic cataloguing of the old Arabic digitized-manuscripts Soualah, Mohamed 27 November 2015 (has links) Les manuscrits arabes sont une source d'information inestimable. Trois millions de ces œuvres se trouvent éparpillées à travers le monde. Une prise de conscience réelle sur la préservation de ces œuvres s'est vue naître, ces dernières années, à travers le monde. Beaucoup de projets de numérisation de manuscrits arabes anciens ont été mis en œuvre. Mais, la numérisation est-elle suffisante ? Le véritable but recherché est une diffusion de masse, car rien n'est mieux préservé qu'une ressource partagée. Toutefois, il faut y trouver un moyen d'y accéder facilement. Les bibliothèques sont les lieux de prédilection de sauvegarde et de rangement de manuscrits. Elles ont développé un outil d'accès aux manuscrits qu'elles ont toujours maîtrisé et convenablement mis en œuvre ; il s'agit du catalogue, un support d'utilisation simple et intuitif. Toutes ces œuvres se voient répertoriées selon des protocoles de catalogage non uniformisés, différents d'une institution à une autre, mais pour l'essentiel, utilisant des entrées standards (Auteur, titre de l'œuvre, Sujet). L'idée est de venir au secours du catalogueur qui peine à lui seul à cataloguer autant d'œuvres, sans oublier les différentes difficultés rencontrées tels que le type de calligraphie et l'état du manuscrit. Par conséquent, une autre question se pose à savoir, comment faudrait-il s'y prendre ? A ce niveau se dresse une problématique cruciale, qui consiste à trouver le meilleur moyen d'accès aux images des manuscrits numérisés. En effet, trois solutions d'accessibilité aux manuscrits numérisés sont possibles :• La première consiste en un accès aux manuscrits numérisés en mode image ; cela signifie l'exploitation directe de l'image du manuscrit numérisé par des outils d'indexation appropriés.• La seconde se donne pour objectif de convertir intégralement le manuscrit en texte, ce qui reviendrait à traiter le manuscrit numérisé comme un document texte ordinaire. Par conséquent, l'usage de la recherche d'information deviendra un outil incontournable.• La troisième solution fait appel à un outil efficace utilisé dans les bibliothèques. Il s'agit du catalogue. Le principe de cette solution est élémentaire. Il repose sur l'interrogation du catalogue. L'affichage du manuscrit répondant favorablement à une requête se fait suite au choix de l'utilisateur. Notre travail de recherche ne se positionne pas dans le choix de la meilleure solution parmi les trois sus-citées, nous nous donnons pour objectif de procéder à l'étude des trois modèles de solutions et de procéder à l'évaluation de chaque modèle pour l'optimisation de l'accès en ligne aux manuscrits arabes anciens numérisés... / Arabic manuscripts are a very important source of information. Three million of them are scattered throughout the world. Nowadays, a real awareness rises throughout the world to preserve the old manuscripts.Many digitization projects of old Arabic manuscripts were implemented. But, is this sufficient for the manuscripts preservation? The main goal is the massive diffusion of these resources, because nothing is better preserved than a shared resource. However, it is necessary to make them accessible.Libraries are the most suitable places for storing manuscripts. They have developed an interesting tool for the manuscripts online access: It is about a catalogue, a simple and intuitive user support.the whole of the manuscripts are listed throughout a non-standardized cataloging protocol, which differ from an institution to another, but most of them use standard entries like the "Author", "title" and "subject".The problematic is about finding a way how to help a cataloguer who struggle alone to catalog the manuscripts, which present several problems concerning their state and their calligraphy? Therefore, the answer will be about how to make it.Thus, first we are asked to find a best way to access images of the digitized Arabic manuscripts. Indeed, we can quote three methods to access digitized manuscripts:• The first one consists of accessing to manuscripts in image mode. This is done by images processing with using of suitable indexing tools.• The second one aim to fully convert the manuscript into a text mode, then the manuscript will be processed as textual document. Thus, the information retrieval will be used.• The third solution uses an effective library tool which is the catalogue. The principle of this solution is basic. First, the user makes his query to the catalogue. The latter displays the results, and then the user selects the suitable one.The goal of our research is not to make choice between these three methods to access to digitized manuscripts. Our objective is to use these methods, evaluate them in order to optimize the online access to digitized Arabic manuscripts...... Manuscrits arabes anciens Catalogage dynamique Métadonnées Annotations Transcription Accès en ligne multilingue Numérisation Old Arabic manuscripts Cataloguing Metadata Annotations Transcription Multilingual online access Digitization
19	Le cycle de vie de l'objet pédagogique et de ses métadonnées Catteau, Olivier 02 December 2008 (has links) (PDF) Pour permettre à de multiples acteurs de concevoir, réaliser, partager et améliorer un objet pédagogique (OP) spécifique en utilisant un vivier de connaissances qui stocke et indexe ses évolutions successives, une représentation des différentes étapes suivies par un OP et ses métadonnées au cours de son cycle de vie doit être établie. Différentes initiatives internationales traitant de ce problème sont étudiées et permettent de relever des différences significatives dans la terminologie utilisée et le séquencement des étapes. Nous en déduisons une représentation générique qui peut être appliquée dans n'importe quelle situation. L'étude des standards de la formation en ligne qui traitent de la description des OP permettent de suggérer des éléments de métadonnées et des vocabulaires complémentaires pour une prise en compte de notre représentation générique. Des mécanismes de propagation, d'extraction et de génération de métadonnées sont mis en place pour faciliter l'indexation. Plusieurs services sont proposés pour suivre le cycle de vie :<br />- une représentation des relations qui utilise des techniques de visualisation de l'information pour rechercher des OP et fournir aux utilisateurs une vue générale de la progression de la production ;<br />- un service de gestion des commentaires qui offre aux enseignants et aux apprenants l'opportunité d'exploiter, d'exprimer et de partager des évaluations et des suggestions d'utilisation d'OP dans le système adéquat au moment où elles sont pertinentes ;<br />- un service de gestion des évolutions qui sensibilise les enseignants et les responsables de cours aux divergences qui apparaissent entre les OP importés dans les plates-formes pédagogiques et leurs évolutions et dépendances qui sont stockées dans des viviers hétérogènes.<br />Cette approche, basée sur des objets pédagogiques de forte granularité, a été expérimentée au sein du campus numérique International E-Mi@ge. [INFO:INFO_OH] Computer Science/Other objet pédagogique cycle de vie métadonnées indexation partage réutilisation industrialisation de la formation standard norme
20	Méthodologie d'évaluation de la cohérence inter-représentations pour l'intégration de bases de données spatiales. Une approche combinant l'utilisation de métadonnées et l'apprentissage automatique. Sheeren, David 20 May 2005 (has links) (PDF) A l'heure actuelle, la plupart des bases de données spatiales sont gérées de manière indépendante.<br />Cette indépendance pose différents problèmes : elle multiplie les efforts de maintenance et de mise à<br />jour, elle rend difficile la mise en œuvre d'analyses multi-niveaux et ne garantit pas une cohérence<br />entre les sources.<br />Une gestion conjointe de ces sources nécessite leur intégration qui permet de définir des liens<br />explicites entre les bases et d'en fournir une vision unifiée. Notre thèse s'inscrit dans ce cadre. Le sujet<br />que nous traitons porte en particulier sur la mise en correspondance des données et l'évaluation de la<br />cohérence inter-représentations. Nous cherchons à analyser automatiquement chaque différence de<br />représentation entre les données appariées afin d'en déduire si celle-ci résulte des critères de saisie<br />différents des bases ou d'erreurs de saisie. Cette évaluation vise à garantir une intégration cohérente<br />des données.<br />Pour étudier la conformité des représentations nous proposons d'exploiter les spécifications des<br />bases. Ces documents décrivent les règles de sélection et de modélisation des objets. Ils constituent<br />des métadonnées de référence pour juger si les représentations sont équivalentes ou incohérentes.<br />L'utilisation de ces documents est toutefois insuffisante. Les spécifications décrites en langue naturelle<br />peuvent être imprécises ou incomplètes. Dans ce contexte, les données des bases constituent une<br />seconde source de connaissances intéressante. L'analyse des correspondances à l'aide de techniques<br />d'apprentissage automatique permet d'induire des règles rendant possible la justification de la<br />conformité des représentations.<br />La méthodologie que nous proposons repose sur ces éléments. Elle se compose de deux méthodes :<br />MECO et MACO. La première est la Méthode d'Evaluation de la COhérence. Elle comprend plusieurs<br />étapes : l'enrichissement des données, le contrôle intra-base, l'appariement, le contrôle inter-bases et<br />l'évaluation finale. Chacune de ces étapes exploite des connaissances déduites des spécifications ou<br />induites des données par apprentissage automatique, en appliquant MACO (Méthode d'Acquisition de<br />connaissances pour l'évaluation de la COhérence). L'intérêt d'utiliser l'apprentissage est double. Outre<br />le fait qu'il permet d'acquérir des règles pour l'évaluation, il met en évidence l'écart toléré sur les<br />données par rapport aux spécifications papiers.<br />Notre approche a été mise en œuvre sur des bases de données de l'IGN présentant différents<br />niveaux de détail. [INFO:INFO_OH] Computer Science/Other multi-représentation appariement cohérence multi-échelles spécifications acquisition de connaissances apprentissage automatique métadonnées

Search results