L’émergence des technologies de l’information et de la communication (TIC) au début des années 1990, notamment internet, a permis de produire facilement des données et de les diffuser au reste du monde. L’essor des bases de données, le développement des outils applicatifs et la réduction des coûts de stockage ont conduit à l’augmentation quasi exponentielle des quantités de données au sein de l’entreprise. Plus les données sont volumineuses, plus la quantité d’interrelations entre données augmente. Le grand nombre de corrélations (visibles ou cachées) entre données rend les données plus entrelacées et complexes. Les données sont aussi plus hétérogènes, car elles peuvent venir de plusieurs sources et exister dans de nombreux formats (texte, image, audio, vidéo, etc.) ou à différents degrés de structuration (structurées, semi-structurées, non-structurées). Les systèmes d’information des entreprises actuelles contiennent des données qui sont plus massives, complexes et hétérogènes. L’augmentation de la complexité, la globalisation et le travail collaboratif font qu’un projet industriel (conception de produit) demande la participation et la collaboration d’acteurs qui viennent de plusieurs domaines et de lieux de travail. Afin d’assurer la qualité des données, d’éviter les redondances et les dysfonctionnements des flux de données, tous les acteurs doivent travailler sur un référentiel commun partagé. Dans cet environnement de multi-utilisation de données, chaque utilisateur introduit son propre point de vue quand il ajoute de nouvelles données et informations techniques. Les données peuvent soit avoir des dénominations différentes, soit ne pas avoir des provenances vérifiables. Par conséquent, ces données sont difficilement interprétées et accessibles aux autres acteurs. Elles restent inexploitées ou non exploitées au maximum afin de pouvoir les partager et/ou les réutiliser. L’accès aux données (ou la recherche de données), par définition est le processus d’extraction des informations à partir d’une base de données en utilisant des requêtes, pour répondre à une question spécifique. L’extraction des informations est une fonction indispensable pour tout système d’information. Cependant, cette dernière n’est jamais facile car elle représente toujours un goulot majeur d’étranglement pour toutes les organisations (Soylu et al. 2013). Dans l’environnement de données complexes, hétérogènes et de multi-utilisation de données, fournir à tous les utilisateurs un accès facile et simple aux données devient plus difficile pour deux raisons : - Le manque de compétences techniques. Pour formuler informatiquement une requête complexe (les requêtes conjonctives), l’utilisateur doit connaitre la structuration de données, c’est-à-dire la façon dont les données sont organisées et stockées dans la base de données. Quand les données sont volumineuses et complexes, ce n’est pas facile d’avoir une compréhension approfondie sur toutes les dépendances et interrelations entre données, même pour les techniciens du système d’information. De plus, cette compréhension n’est pas forcément liée au savoir et savoir-faire du domaine et il est donc, très rare que les utilisateurs finaux possèdent les compétences suffisantes. - Différents points de vue des utilisateurs. Dans l’environnement de multi-utilisation de données, chaque utilisateur introduit son propre point de vue quand il ajoute des nouvelles données et informations techniques. Les données peuvent être nommées de manières très différentes et les provenances de données ne sont pas suffisamment fournies. / The emergence of Information and Comunication Technologies (ICT) in the early 1990s, especially the Internet, made it easy to produce data and disseminate it to the rest of the world. The strength of new Database Management System (DBMS) and the reduction of storage costs have led to an exponential increase of volume data within entreprise information system. The large number of correlations (visible or hidden) between data makes them more intertwined and complex. The data are also heterogeneous, as they can come from many sources and exist in many formats (text, image, audio, video, etc.) or at different levels of structuring (structured, semi-structured, unstructured). All companies now have to face with data sources that are more and more massive, complex and heterogeneous.technical information. The data may either have different denominations or may not have verifiable provenances. Consequently, these data are difficult to interpret and accessible by other actors. They remain unexploited or not maximally exploited for the purpose of sharing and reuse. Data access (or data querying), by definition, is the process of extracting information from a database using queries to answer a specific question. Extracting information is an indispensable function for any information system. However, the latter is never easy but it always represents a major bottleneck for all organizations (Soylu et al. 2013). In the environment of multiuse of complex and heterogeneous, providing all users with easy and simple access to data becomes more difficult for two reasons : - Lack of technical skills : In order to correctly formulate a query a user must know the structure of data, ie how the data is organized and stored in the database. When data is large and complex, it is not easy to have a thorough understanding of all the dependencies and interrelationships between data, even for information system technicians. Moreover, this understanding is not necessarily linked to the domain competences and it is therefore very rare that end users have sufficient theses such skills. - Different user perspectives : In the multi-use environment, each user introduces their own point of view when adding new data and technical information. Data can be namedin very different ways and data provenances are not sufficiently recorded. Consequently, they become difficultly interpretable and accessible by other actors since they do not have sufficient understanding of data semantics. The thesis work presented in this manuscript aims to improve the multi-use of complex and heterogeneous data by expert usiness actors by providing them with a semantic and visual access to the data. We find that, although the initial design of the databases has taken into account the logic of the domain (using the entity-association model for example), it is common practice to modify this design in order to adapt specific techniques needs. As a result, the final design is often a form that diverges from the original conceptual structure and there is a clear distinction between the technical knowledge needed to extract data and the knowledge that the expert actors have to interpret, process and produce data (Soylu et al. 2013). Based on bibliographical studies about data management tools, knowledge representation, visualization techniques and Semantic Web technologies (Berners-Lee et al. 2001), etc., in order to provide an easy data access to different expert actors, we propose to use a comprehensive and declarative representation of the data that is semantic, conceptual and integrates domain knowledge closeed to expert actors.
Identifer | oai:union.ndltd.org:theses.fr/2017COMP2365 |
Date | 15 June 2017 |
Creators | Pham, Cong Cuong |
Contributors | Compiègne, Durupt, Alexandre, Matta, Nada |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0023 seconds