• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2047
  • 972
  • 289
  • 8
  • 3
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 3280
  • 1468
  • 668
  • 664
  • 573
  • 552
  • 371
  • 317
  • 293
  • 275
  • 275
  • 248
  • 223
  • 214
  • 212
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Traitement de données ambigues dans un système de base de données. Application aux bases de données démographiques

Chiaramella, Yves 26 June 1981 (has links) (PDF)
.
62

Extension et interrogation de résumés de flux de données

Gabsi, Nesrine 31 May 2011 (has links) (PDF)
Au cours de ces dernières années, un nouvel environnement s'est développé dans lequel les données doivent être collectées et traitées instantanément dès leur arrivée. La gestion de cette volumétrie nécessite la mise en place d'un nouveau modèle et de nouvelles techniques de traitements de l'information. Il s'agit du traitement des flux de données. Ces derniers ont la particularité d'être continus, évolutifs, volumineux et ne peuvent être stockés, dans leur intégralité, en tant que données persistantes. Plusieurs travaux de recherche se sont intéressés à cette problématique ce qui a engendré l'apparition des systèmes de gestion de flux de données (SGFD). Ces systèmes permettent d'exprimer des requêtes continues qui s'évaluent au fur et à mesure sur un flux ou sur des fenêtres (sous ensembles finis du flux). Toutefois, dans certaines applications, de nouveaux besoins peuvent apparaître après le passage des données. Dans ce cas, le système ne peut répondre aux requêtes posées car toutes les données n'appelant aucun traitement sont définitivement perdues. Il est ainsi nécessaire de conserver un résumé du flux de données. De nombreux algorithmes de résumé ont été développés. Le choix d'une méthode de résumé particulière dépend de la nature des données à traiter et de la problématique à résoudre. Dans ce manuscrit, nous nous intéressons en premier lieu à l'élaboration d'un résumé généraliste permettant de créer un compromis entre la vitesse de construction du résumé et la qualité du résumé conservé. Nous présentons une nouvelle approche de résumé qui se veut performance face à des requêtes portant sur des données du passé lointain. Nous nous focalisons par la suite sur l'exploitation et l'accès aux évènements du flux conservés dans ces résumés. Notre objectif consiste à intégrer les structures de résumés généralistes dans l'architecture des SGFD existantes de façon à étendre le champ de requêtes possibles. A cet effet, l'évaluation des requêtes qui font appel aux données du passé lointain d'un flux (i.e. données expirées de la mémoire du SGFD) serait possible au même titre que les requêtes posées sur le passé proche d'un flux de données. Nous présentons deux approches permettant d'atteindre cet objectif. Ces approches se différencient par le rôle que détient le module de résumé lors de l'évaluation d'une requêtes.
63

Impact d'un modèle de covariance d'erreur de prévision basé sur les fonctions de sensibilité dans un 3D-VAR

Lupu, Cristina January 2006 (has links) (PDF)
Les fonctions de sensibilité dites a posteriori permettent de caractériser des corrections aux conditions initiales qui peuvent réduire significativement l'erreur de prévision à une échéance donnée (typiquement 24 ou 48 heures). L'erreur est ici définie par l'écart à une analyse de vérification et la fonction de sensibilité ne peut donc être calculée qu'a posteriori. De telles structures dépendent de la nature de l'écoulement et ne sont pas prises en compte dans le modèle de covariance d'erreur de prévision stationnaire utilisé dans un système d'assimilation de données variationnelle 3D (3D-Var) comme celui du Centre Météorologique Canadien (CMC). Pour remédier à ceci, Hello et Bouttier (2001) ont introduit une formulation différente des covariances d'erreur de prévision qui permet d'inclure les fonctions de structure basées sur des fonctions de sensibilité a priori définissant la structure de changements aux conditions initiales qui ont le plus d'impact sur une prévision d'échéance donnée. Dans ce cas, l'amplitude de cette correction est déterminée en s'ajustant aux observations disponibles. Dans ce projet, une formulation différente est proposée et comparée à celle de Hello et Bouttier (2001). L'algorithme, appelé 3D-Var adapté, est tout d'abord présenté et analysé dans le cadre plus simple d'une analyse variationnelle 1D (1D-Var) pour être ensuite introduit dans le 3D-Var du CMC. L'impact du changement apporté a été étudié en utilisant les fonctions de sensibilité a posteriori associées à une prévision manquée sur la côte est de l'Amérique du Nord. En mesurant globalement l'erreur de prévision, la fonction de sensibilité indique qu'il est nécessaire d'apporter des corrections à l'analyse sur différentes régions du globe. Pour le 3D-Var adapté, ceci conduit à une fonction de structure non localisée et l'amplitude de la correction est caractérisée par un seul paramètre défini par l'ensemble des observations disponibles. En comparant aux prévisions issues du 3D-Var opérationnel ou de l'analyse de sensibilité, la prévision issue de l'analyse du 3D-Var adapté est améliorée par rapport à celle du 3D-Var conventionel mais nettement moins que celle issue de l'analyse de sensibilité. Par contre, le 3D-Var adapté améliore l'ajustement de l'analyse aux observations alors que l'analyse de sensibilité le dégrade. En localisant la mesure de l'erreur de prévision sur la région correspondant au système météorologique du cas étudié sur la côte est de l'Amérique du Nord, la fonction de sensibilité est maintenant localisée sur une région mieux délimitée (dite région sensible). Il est également possible de varier la fenêtre temporelle utilisée pour définir la fonction de sensibilité. L'impact sur la qualité de l'analyse et des prévisions résultantes a été étudié autant pour l'analyse de sensibilité que pour le 3D-Var adapté. Les résultats montrent que la définition d'une fonction de structure appropriée pour un système d'assimilation vise à simultanément concorder aux observations disponibles et améliorer la qualité des prévisions. Les résultats obtenus montrent que l'utilisation des fonctions de sensibilité comme fonctions de structures n'est pas immédiate. Bien que limitées à un seul cas, nos expériences indiquent certaines pistes intéressantes pour définir des fonctions de sensibilité pouvant être utilisées comme fonctions de structures. Ces idées pourraient s'appliquer également aux fonctions de sensibilité a priori.
64

Une approche matérialisée basée sur les vues pour l'intégration de documents XML

Ahmad, Houda 26 June 2009 (has links) (PDF)
Les données semi-structurées occupent une place croissante dans l'évolution du Web par le biais du langage XML. La gestion de telles données ne s'appuie pas sur un schéma pré-dé fini, comme dans le cas de données structurées, gérées par exemple par le modèle relationnel. Le schéma de chaque document est auto-contenu dans le document même, et des documents similaires peuvent être représentés par des schémas différents. C'est pourquoi les algorithmes et les techniques d'intégration et d'interrogation de telles sources de données sont souvent plus complexes que ceux défi nis pour l'intégration et l'interrogation de sources de données structurées. L'objectif de notre travail est l'intégration de données XML en utilisant les principes d'Osiris, un prototype de SGBD-BC, dont le concept central est celui de vue. Dans ce système, une famille d'objets est défi nie par une hiérarchie de vues, où chaque vue est défi nie par ses vues mères, ses attributs et contraintes propres. Osiris appartient à la famille des logiques de description, la vue minimale d'une famille d'objets étant assimilée à un concept primitif et ses autres vues à des concepts définis. Un objet d'une famille satisfait certaines de ses vues. Pour chaque famille d'objets, Osiris construit, par analyse des contraintes dé finies dans toutes ses vues, un espace de classement n-dimensionnel. Cet espace sert de support au classement d'objets et aussi à leur indexation. Dans cette thèse nous avons étudié l'apport des principales fonctionnalités d'Osiris - classement, indexation et optimisation sémantique des requêtes à l'intégration de documents XML. Pour cela nous produisons un schéma cible (XML schema abstrait), qui représente un schéma Osiris ; chaque document satisfaisant un schéma source (XML schema concret) est réécrit en termes du schéma cible avant de subir l'extraction des valeurs de ses entités. Les objets correspondant à ces entités sont alors classés et indexés. Le mécanisme d'optimisation sémantique des requêtes d'Osiris peut dès lors être utilisé pour extraire les objets d'intérêt pour une requête. Nous avons réalisé un prototype, nommé OSIX (Osiris-based System for the Integration of XML sources) et nous l'avons appliqué à l'intégration et l'interrogation de documents XML simulant les données d'un hôpital.
65

Partitionnement dans les systèmes de gestion de données parallèles

Liroz, Miguel 17 December 2013 (has links) (PDF)
Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données.Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme.Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce.Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles.Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée
66

Forage de données de bases administratives en santé

Najjar, Ahmed 24 April 2018 (has links)
Les systèmes de santé actuels sont de plus en plus informatisés et dotés de systèmes de collecte et de stockage des données. Une énorme quantité des données est ainsi stockée dans les bases de données médicales. Les bases de données, conçues à des fins administratives ou de facturation, sont alimentées de nouvelles données à chaque fois que le patient fait appel au système de soins de santé. Cette spécificité rend ces bases de données une source riche en information et extrêmement intéressante et utile. Elles rassemblent ainsi toutes les données de prestation de soins et pourraient permettre de construire et de dévoiler les processus de soins des patients. Toutefois, malgré cet intérêt évident que représente ces banques de données administratives, elles sont jusqu’à date sous-exploitées par les chercheurs. Nous proposons donc dans cette thèse une approche de découverte de connaissances qui à partir des données administratives brutes permet de détecter des patrons des trajectoires de soins des patients. Nous avons tout d’abord proposé un algorithme capable de regrouper des objets complexes qui représentent les services médicaux. Ces objets sont caractérisés par un mélange de variables numériques, catégorielles et catégorielles multivaluées. Nous proposons pour cela d’extraire des espaces de projection pour les variables multivaluées et de modifier le calcul de la distance entre les objets afin de prendre ces projections en compte. La deuxième nouveauté consiste à la proposition d’un modèle de mélange en deux étapes, capable de regrouper ces objets. Ce modèle fait appel à la distribution gaussienne pour les variables numériques, multinomiales pour les variables catégorielles et aux modèles cachés de Markov (HMM) pour les variables multivaluées. Nous obtenons ainsi deux algorithmes capables de regrouper des objets complexes caractérisés par un mélange de variables. Par la suite, une approche de découverte de patrons des trajectoires de soins a été mise en place. Cette approche comporte plusieurs étapes. La première est l’étape de prétraitement qui permet de construire et de générer les ensembles des services médicaux. Ainsi, on obtient trois ensembles des services médicaux : un pour les séjours hospitaliers, un pour les consultations et un pour les visites. La deuxième étape est l’étape de modélisation et regroupement des processus de soins comme une succession des étiquettes des services médicaux. Ces processus sont complexes et ils nécessitent une méthode sophistiquée de regroupement. Nous proposons ainsi un algorithme de regroupement basé sur les HMM. Finalement, une approche de visualisation et d’analyse des patrons des trajectoires est proposée pour exploiter les modèles découverts. L’ensemble de ces étapes forment le processus de découvertes des patrons des trajectoires à partir des bases de données administratives en santé. Nous avons appliqué cette approche aux bases de données sur la prestation des soins pour les personnes âgées de 65 ans et plus souffrant d’insuffisance cardiaque et habitant à la province de Québec. Ces données sont extraites de trois bases de données : la banque de données MED-ÉCHO du MSSS, la banque de la RAMQ et la base contenant les données concernant les certificats de décès. Les résultats issus de ce projet ont montré l’efficacité de notre approche et de nos algorithmes en détectant des patrons spéciaux qui peuvent aider les administrateurs de soins de santé à mieux gérer les soins de santé. / Current health systems are increasingly equipped with data collection and storage systems. Therefore, a huge amount of data is stored in medical databases. Databases, designed for administrative or billing purposes, are fed with new data whenever the patient uses the healthcare system. This specificity makes these databases a rich source of information and extremely interesting. These databases can unveil the constraints of reality, capturing elements from a great variety of real medical care situations. So, they could allow the conception and modeling the medical treatment process. However, despite the obvious interest of these administrative databases, they are still underexploited by researchers. In this thesis, we propose a new approach of the mining for administrative data to detect patterns from patient care trajectories. Firstly, we have proposed an algorithm able to cluster complex objects that represent medical services. These objects are characterized by a mixture of numerical, categorical and multivalued categorical variables. We thus propose to extract one projection space for each multivalued variable and to modify the computation of the distance between the objects to consider these projections. Secondly, a two-step mixture model is proposed to cluster these objects. This model uses the Gaussian distribution for the numerical variables, multinomial for the categorical variables and the hidden Markov models (HMM) for the multivalued variables. Finally, we obtain two algorithms able to cluster complex objects characterized by a mixture of variables. Once this stage is reached, an approach for the discovery of patterns of care trajectories is set up. This approach involves the followed steps: 1. preprocessing that allows the building and generation of medical services sets. Thus, three sets of medical services are obtained: one for hospital stays, one for consultations and one for visits. 2. modeling of treatment processes as a succession of labels of medical services. These complex processes require a sophisticated method of clustering. Thus, we propose a clustering algorithm based on the HMM. 3. creating an approach of visualization and analysis of the trajectory patterns to mine the discovered models. All these steps produce the knowledge discovery process from medical administrative databases. We apply this approach to databases for elderly patients over 65 years old who live in the province of Quebec and are suffering from heart failure. The data are extracted from the three databases: the MSSS MED-ÉCHO database, the RAMQ bank and the database containing death certificate data. The obtained results clearly demonstrated the effectiveness of our approach by detecting special patterns that can help healthcare administrators to better manage health treatments.
67

Création d'un jeu de données synthétiques pour des données de santé

Ouffy, Oumaima 18 January 2023 (has links)
Les données récoltées sur des individus sont souvent difficiles à partager avec les chercheurs et à publier à cause des informations confidentielles qu'elles contiennent. Une solution qu'on peut faire pour faciliter l'accès à ces données est de créer un jeu de données synthétiques à partager avec les chercheurs. Ce jeu de données aurait les mêmes caractéristiques du jeu de données originales mais ne permettrait pas de révéler les informations confidentielles sur les participants. Nous étudions dans ce mémoire les enjeux techniques liés à la création des jeux de données synthétiques dans le domaine de la santé. Il faut notamment s'assurer que les modèles statistiques utilisés pour générer des données synthétiques soient assez flexibles pour bien modéliser les corrélations entre les variables collectées, tout en s'assurant de ne pas sur-ajuster ces modèles, ce qui pourrait nuire à la protection de la confidentialité. Le travail s'articulera autour de la création d'un jeu synthétique pour un sous-ensemble des données collectées par le Consortium d'identification précoce de la maladie d'Alzheimer - Québec (CIMA-Q), pour qui le partage des données à la communauté de recherche sur la maladie d'Alzheimer canadienne et internationale est un objectif important. / Data collected on individuals is often difficult to share with researchers and publish because of the confidential information it contains. A possible solution to facilitate the access to this data is to create a synthetic data set to share with researchers. This dataset would have the same characteristics of the original dataset but would not reveal the confidential information about the participants. We study here the technical issues related to the creation of such synthetic datasets in the health field. In particular, it must be ensured that the statistical models used are flexible enough to properly model the correlations between the variables collected, while making sure not to over-adjust them, which could harm the protection of confidentiality. The work will focus on the creation of a synthetic data for a subset of the data collected by the Consortium of Early Identification of Alzheimer's disease - Quebec (CIMA-Q), for whom the sharing of data with the community of Canadian and international Alzheimer's disease research is an important goal.
68

Plateforme visuelle pour l'intégration de données faiblement structurées et incertaines / A visual platform to integrate poorly structured and unknown data

Da Silva Carvalho, Paulo 19 December 2017 (has links)
Nous entendons beaucoup parler de Big Data, Open Data, Social Data, Scientific Data, etc. L’importance qui est apportée aux données en général est très élevée. L’analyse de ces données est importante si l’objectif est de réussir à en extraire de la valeur pour pouvoir les utiliser. Les travaux présentés dans cette thèse concernent la compréhension, l’évaluation, la correction/modification, la gestion et finalement l’intégration de données, pour permettre leur exploitation. Notre recherche étudie exclusivement les données ouvertes (DOs - Open Data) et plus précisément celles structurées sous format tabulaire (CSV). Le terme Open Data est apparu pour la première fois en 1995. Il a été utilisé par le groupe GCDIS (Global Change Data and Information System) (États-Unis) pour encourager les entités, possédant les mêmes intérêts et préoccupations, à partager leurs données [Data et System, 1995]. Le mouvement des données ouvertes étant récent, il s’agit d’un champ qui est actuellement en grande croissance. Son importance est actuellement très forte. L’encouragement donné par les gouvernements et institutions publiques à ce que leurs données soient publiées a sans doute un rôle important à ce niveau. / We hear a lot about Big Data, Open Data, Social Data, Scientific Data, etc. The importance currently given to data is, in general, very high. We are living in the era of massive data. The analysis of these data is important if the objective is to successfully extract value from it so that they can be used. The work presented in this thesis project is related with the understanding, assessment, correction/modification, management and finally the integration of the data, in order to allow their respective exploitation and reuse. Our research is exclusively focused on Open Data and, more precisely, Open Data organized in tabular form (CSV - being one of the most widely used formats in the Open Data domain). The first time that the term Open Data appeared was in 1995 when the group GCDIS (Global Change Data and Information System) (from United States) used this expression to encourage entities, having the same interests and concerns, to share their data [Data et System, 1995]. However, the Open Data movement has only recently undergone a sharp increase. It has become a popular phenomenon all over the world. Being the Open Data movement recent, it is a field that is currently growing and its importance is very strong. The encouragement given by governments and public institutions to have their data published openly has an important role at this level.
69

La mise en registre automatique des surfaces acquises à partir d'objets déformables

Cao, Van Toan 24 April 2018 (has links)
La mise en registre 3D (opération parfois appelée alignement) est un processus de transformation d’ensembles de données 3D dans un même système de coordonnées afin d’en aligner les éléments communs. Deux ensembles de données alignés ensemble peuvent être les scans partiels des deux vues différentes d’un même objet. Ils peuvent aussi être deux modèles complets, générés à des moments différents, d’un même objet ou de deux objets distincts. En fonction des ensembles de données à traiter, les méthodes d’alignement sont classées en mise en registre rigide ou non-rigide. Dans le cas de la mise en registre rigide, les données sont généralement acquises à partir d’objets rigides. Le processus de mise en registre peut être accompli en trouvant une seule transformation rigide globale (rotation, translation) pour aligner l’ensemble de données source avec l’ensemble de données cible. Toutefois, dans le cas non-rigide, où les données sont acquises à partir d’objets déformables, le processus de mise en registre est plus difficile parce qu’il est important de trouver à la fois une transformation globale et des déformations locales. Dans cette thèse, trois méthodes sont proposées pour résoudre le problème de mise en registre non-rigide entre deux ensembles de données (représentées par des maillages triangulaires) acquises à partir d’objets déformables. La première méthode permet de mettre en registre deux surfaces se chevauchant partiellement. La méthode surmonte les limitations des méthodes antérieures pour trouver une grande déformation globale entre deux surfaces. Cependant, cette méthode est limitée aux petites déformations locales sur la surface afin de valider le descripteur utilisé. La seconde méthode est s’appuie sur le cadre de la première et est appliquée à des données pour lesquelles la déformation entre les deux surfaces est composée à la fois d’une grande déformation globale et de petites déformations locales. La troisième méthode, qui se base sur les deux autres méthodes, est proposée pour la mise en registre d’ensembles de données qui sont plus complexes. Bien que la qualité que elle fournit n’est pas aussi bonne que la seconde méthode, son temps de calcul est accéléré d’environ quatre fois parce que le nombre de paramètres optimisés est réduit de moitié. L’efficacité des trois méthodes repose sur des stratégies via lesquelles les correspondances sont déterminées correctement et le modèle de déformation est exploité judicieusement. Ces méthodes sont mises en oeuvre et comparées avec d’autres méthodes sur diverses données afin d’évaluer leur robustesse pour résoudre le problème de mise en registre non-rigide. Les méthodes proposées sont des solutions prometteuses qui peuvent être appliquées dans des applications telles que la mise en registre non-rigide de vues multiples, la reconstruction 3D dynamique, l’animation 3D ou la recherche de modèles 3D dans des banques de données. / Three-dimensional registration (sometimes referred to as alignment or matching) is the process of transforming many 3D data sets into the same coordinate system so as to align overlapping components of these data sets. Two data sets aligned together can be two partial scans from two different views of the same object. They can also be two complete models of an object generated at different times or even from two distinct objects. Depending on the generated data sets, the registration methods are classified into rigid registration or non-rigid registration. In the case of rigid registration, the data is usually acquired from rigid objects. The registration process can be accomplished by finding a single global rigid transformation (rotation, translation) to align the source data set with the target data set. However, in the non-rigid case, in which data is acquired from deformable objects, the registration process is more challenging since it is important to solve for both the global transformation and local deformations. In this thesis, three methods are proposed to solve the non-rigid registration problem between two data sets (presented in triangle meshes) acquired from deformable objects. The first method registers two partially overlapping surfaces. This method overcomes some limitations of previous methods to solve large global deformations between two surfaces. However, the method is restricted to small local deformations on the surface in order to validate the descriptor used. The second method is developed from the framework of the first method and is applied to data for which the deformation between the two surfaces consists of both large global deformation and small local deformations. The third method, which exploits both the first and second method, is proposed to solve more challenging data sets. Although the quality of alignment that is achieved is not as good as the second method, its computation time is accelerated approximately four times since the number of optimized parameters is reduced by half. The efficiency of the three methods is the result of the strategies in which correspondences are correctly determined and the deformation model is adequately exploited. These proposed methods are implemented and compared with other methods on various types of data to evaluate their robustness in handling the non-rigid registration problem. The proposed methods are also promising solutions that can be applied in applications such as non-rigid registration of multiple views, 3D dynamic reconstruction, 3D animation or 3D model retrieval.
70

Etude des projections de données comme support interactif de l’analyse visuelle de la structure de données de grande dimension / Study of multidimensional scaling as an interactive visualization to help the visual analysis of high dimensional data

Heulot, Nicolas 04 July 2014 (has links)
Acquérir et traiter des données est de moins en moins coûteux, à la fois en matériel et en temps, mais encore faut-il pouvoir les analyser et les interpréter malgré leur complexité. La dimensionnalité est un des aspects de cette complexité intrinsèque. Pour aider à interpréter et à appréhender ces données le recours à la visualisation est indispensable au cours du processus d’analyse. La projection représente les données sous forme d’un nuage de points 2D, indépendamment du nombre de dimensions. Cependant cette technique de visualisation souffre de distorsions dues à la réduction de dimension, ce qui pose des problèmes d’interprétation et de confiance. Peu d’études ont été consacrées à la considération de l’impact de ces artefacts, ainsi qu’à la façon dont des utilisateurs non-familiers de ces techniques peuvent analyser visuellement une projection. L’approche soutenue dans cette thèse repose sur la prise en compte interactive des artefacts, afin de permettre à des analystes de données ou des non-experts de réaliser de manière fiable les tâches d’analyse visuelle des projections. La visualisation interactive des proximités colore la projection en fonction des proximités d’origine par rapport à une donnée de référence dans l’espace des données. Cette technique permet interactivement de révéler les artefacts de projection pour aider à appréhender les détails de la structure sous-jacente aux données. Dans cette thèse, nous revisitons la conception de cette technique et présentons ses apports au travers de deux expérimentations contrôlées qui étudient l’impact des artefacts sur l’analyse visuelle des projections. Nous présentons également une étude de l’espace de conception d’une technique basée sur la métaphore de lentille et visant à s’affranchir localement des problématiques d’artefacts de projection. / The cost of data acquisition and processing has radically decreased in both material and time. But we also need to analyze and interpret the large amounts of complex data that are stored. Dimensionality is one aspect of their intrinsic complexity. Visualization is essential during the analysis process to help interpreting and understanding these data. Projection represents data as a 2D scatterplot, regardless the amount of dimensions. However, this visualization technique suffers from artifacts due to the dimensionality reduction. Its lack of reliability implies issues of interpretation and trust. Few studies have been devoted to the consideration of the impact of these artifacts, and especially to give feedbacks on how non-expert users can visually analyze projections. The main approach of this thesis relies on an taking these artifacts into account using interactive techniques, in order to allow data scientists or non-expert users to perform a trustworthy visual analysis of projections. The interactive visualization of the proximities applies a coloring of the original proximities relatives to a reference in the data-space. This interactive technique allows revealing projection artifacts in order to help grasping details of the underlying data-structure. In this thesis, we redesign this technique and we demonstrate its potential by presenting two controlled experiments studying the impact of artifacts on the visual analysis of projections. We also present a design-space based on the lens metaphor, in order to improve this technique and to locally visualize a projection free of artifacts issues.

Page generated in 0.0307 seconds