• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 7
  • 1
  • Tagged with
  • 17
  • 17
  • 11
  • 9
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Statistical methods for robust analysis of transcriptome data by integration of biological prior knowledge / Méthodes statistiques pour une analyse robuste du transcriptome à travers l'intégration d'a priori biologique

Jeanmougin, Marine 16 November 2012 (has links)
Au cours de la dernière décennie, les progrès en Biologie Moléculaire ont accéléré le développement de techniques d'investigation à haut-débit. En particulier, l'étude du transcriptome a permis des avancées majeures dans la recherche médicale. Dans cette thèse, nous nous intéressons au développement de méthodes statistiques dédiées au traitement et à l'analyse de données transcriptomiques à grande échelle. Nous abordons le problème de sélection de signatures de gènes à partir de méthodes d'analyse de l'expression différentielle et proposons une étude de comparaison de différentes approches, basée sur plusieurs stratégies de simulations et sur des données réelles. Afin de pallier les limites de ces méthodes classiques qui s'avèrent peu reproductibles, nous présentons un nouvel outil, DiAMS (DIsease Associated Modules Selection), dédié à la sélection de modules de gènes significatifs. DiAMS repose sur une extension du score-local et permet l'intégration de données d'expressions et de données d'interactions protéiques. Par la suite, nous nous intéressons au problème d'inférence de réseaux de régulation de gènes. Nous proposons une méthode de reconstruction à partir de modèles graphiques Gaussiens, basée sur l'introduction d'a priori biologique sur la structure des réseaux. Cette approche nous permet d'étudier les interactions entre gènes et d'identifier des altérations dans les mécanismes de régulation, qui peuvent conduire à l'apparition ou à la progression d'une maladie. Enfin l'ensemble de ces développements méthodologiques sont intégrés dans un pipeline d'analyse que nous appliquons à l'étude de la rechute métastatique dans le cancer du sein. / Recent advances in Molecular Biology have led biologists toward high-throughput genomic studies. In particular, the investigation of the human transcriptome offers unprecedented opportunities for understanding cellular and disease mechanisms. In this PhD, we put our focus on providing robust statistical methods dedicated to the treatment and the analysis of high-throughput transcriptome data. We discuss the differential analysis approaches available in the literature for identifying genes associated with a phenotype of interest and propose a comparison study. We provide practical recommendations on the appropriate method to be used based on various simulation models and real datasets. With the eventual goal of overcoming the inherent instability of differential analysis strategies, we have developed an innovative approach called DiAMS, for DIsease Associated Modules Selection. This method was applied to select significant modules of genes rather than individual genes and involves the integration of both transcriptome and protein interactions data in a local-score strategy. We then focus on the development of a framework to infer gene regulatory networks by integration of a biological informative prior over network structures using Gaussian graphical models. This approach offers the possibility of exploring the molecular relationships between genes, leading to the identification of altered regulations potentially involved in disease processes. Finally, we apply our statistical developments to study the metastatic relapse of breast cancer.
2

Optimisation combinatoire et extraction de connaissances sur données hétérogènes et temporelles : application à l’identification de parcours patients / Combinatorial optimization and knowledge extraction on heterogeneous and temporal data : application to patients profiles discovery

Vandromme, Maxence 30 May 2017 (has links)
Les données hospitalières présentent de nombreuses spécificités qui rendent difficilement applicables les méthodes de fouille de données traditionnelles. Dans cette thèse, nous nous intéressons à l'hétérogénéité de ces données ainsi qu'à leur aspect temporel. Dans le cadre du projet ANR ClinMine et d'une convention CIFRE avec la société Alicante, nous proposons deux nouvelles méthodes d'extraction de connaissances adaptées à ces types de données. Dans la première partie, nous développons l'algorithme MOSC (Multi-Objective Sequence Classification) pour la classification supervisée sur données hétérogènes, numériques et temporelles. Cette méthode accepte, en plus des termes binaires ou symboliques, des termes numériques et des séquences d'événements temporels pour former des ensembles de règles de classification. MOSC est le premier algorithme de classification supportant simultanément ces types de données. Dans la seconde partie, nous proposons une méthode de biclustering pour données hétérogènes, un problème qui n'a à notre connaissance jamais été exploré. Cette méthode, HBC (Heterogeneous BiClustering), est étendue pour supporter les données temporelles de différents types : événements temporels et séries temporelles irrégulières. HBC est utilisée pour un cas d'étude sur un ensemble de données hospitalières, dont l'objectif est d'identifier des groupes de patients ayant des profils similaires. Les résultats obtenus sont cohérents et intéressants d'un point de vue médical ; et amènent à la définition de cas d'étude plus précis. L'intégration dans une solution logicielle est également engagée, avec une version parallèle de HBC et un outil de visualisation des résultats. / Hospital data exhibit numerous specificities that make the traditional data mining tools hard to apply. In this thesis, we focus on the heterogeneity associated with hospital data and on their temporal aspect. This work is done within the frame of the ANR ClinMine research project and a CIFRE partnership with the Alicante company. In this thesis, we propose two new knowledge discovery methods suited for hospital data, each able to perform a variety of tasks: classification, prediction, discovering patients profiles, etc.In the first part, we introduce MOSC (Multi-Objective Sequence Classification), an algorithm for supervised classification on heterogeneous, numeric and temporal data. In addition to binary and symbolic terms, this method uses numeric terms and sequences of temporal events to form sets of classification rules. MOSC is the first classification algorithm able to handle these types of data simultaneously. In the second part, we introduce HBC (Heterogeneous BiClustering), a biclustering algorithm for heterogeneous data, a problem that has never been studied so far. This algorithm is extended to support temporal data of various types: temporal events and unevenly-sampled time series. HBC is used for a case study on a set of hospital data, whose goal is to identify groups of patients sharing a similar profile. The results make sense from a medical viewpoint; they indicate that relevant, and sometimes new knowledge is extracted from the data. These results also lead to further, more precise case studies. The integration of HBC within a software is also engaged, with the implementation of a parallel version and a visualization tool for biclustering results.
3

Extraction de motifs séquentiels dans des données séquentielles multidimensionnelles et hétérogènes : une application à l'analyse de trajectoires de patients / Mining heterogeneous multidimensional sequential data : An application to the analysis of patient healthcare trajectories

Egho, Elias 02 July 2014 (has links)
Tous les domaines de la science et de la technologie produisent de gros volume de données hétérogènes. L'exploration de tels volumes de données reste toujours un défi. Peu de travaux ciblent l'exploration et l'analyse de données séquentielles multidimensionnelles et hétérogènes. Dans ce travail, nous proposons une contribution à la découverte de connaissances dans les données séquentielles hétérogènes. Nous étudions trois axes de recherche différents: (i) l'extraction de motifs séquentiels, (ii) la classification et (iii) le clustering des données séquentielles. Tout d'abord, nous généralisons la notion de séquence multidimensionnelle en considérant la structure complexe et hétérogène. Nous présentons une nouvelle approche MMISP pour extraire des motifs séquentiels à partir de données séquentielles multidimensionnelles et hétérogènes. MMISP génère un grand nombre de motifs séquentiels comme cela est généralement le cas pour toues les algorithmes d'énumération des motifs. Pour surmonter ce problème, nous proposons une nouvelle façon de considérer les séquences multidimensionnelles hétérogènes en les associant à des structures de patrons. Nous développons une méthode pour énumérer seulement les motifs qui respectent certaines contraintes. La deuxième direction de recherche est la classification de séquences multidimensionnelles et hétérogènes. Nous utilisons l'analyse formelle de concept (AFC) comme une méthode de classification. Nous montrons l'intérêt des treillis de concepts et de l'indice de stabilité pour classer les séquences et pour choisir quelques groupes intéressants de séquences. La troisième direction de recherche dans cette thèse est préoccupé par le regroupement des données séquentielles multidimensionnelles et hétérogènes. Nous nous basons sur la notion de sous-séquences communes pour définir une mesure de similarité permettant d'évaluer la proximité entre deux séquences formées d'une liste d'ensemble d'items. Nous utilisons cette mesure de similarité pour construire une matrice de similarité entre les séquences et pour les segmenter en plusieurs groupes. Dans ce travail, nous présentons les résultats théoriques et un algorithme de programmation dynamique permettant de compter efficacement toutes les sous-séquences communes à deux séquences sans énumérer toutes les séquences. Le système résultant de cette recherches a été appliqué pour analyser et extraire les trajectoires de soins de santé des patients en cancérologie. Les données sont issues d' une base de données médico-administrative incluant des informations sur des patients hospitalisent en France. Le système permet d'identifier et de caractériser des épisodes de soins pour des ensembles spécifiques de patients. Les résultats ont été discutés et interprétés avec les experts du domaine / All domains of science and technology produce large and heterogeneous data. Although a lot of work was done in this area, mining such data is still a challenge. No previous research work targets the mining of heterogeneous multidimensional sequential data. This thesis proposes a contribution to knowledge discovery in heterogeneous sequential data. We study three different research directions: (i) Extraction of sequential patterns, (ii) Classification and (iii) Clustering of sequential data. Firstly we generalize the notion of a multidimensional sequence by considering complex and heterogeneous sequential structure. We present a new approach called MMISP to extract sequential patterns from heterogeneous sequential data. MMISP generates a large number of sequential patterns as this is usually the case for pattern enumeration algorithms. To overcome this problem, we propose a novel way of considering heterogeneous multidimensional sequences by mapping them into pattern structures. We develop a framework for enumerating only patterns satisfying given constraints. The second research direction is in concern with the classification of heterogeneous multidimensional sequences. We use Formal Concept Analysis (FCA) as a classification method. We show interesting properties of concept lattices and of stability index to classify sequences into a concept lattice and to select some interesting groups of sequences. The third research direction in this thesis is in concern with the clustering of heterogeneous multidimensional sequential data. We focus on the notion of common subsequences to define similarity between a pair of sequences composed of a list of itemsets. We use this similarity measure to build a similarity matrix between sequences and to separate them in different groups. In this work, we present theoretical results and an efficient dynamic programming algorithm to count the number of common subsequences between two sequences without enumerating all subsequences. The system resulting from this research work was applied to analyze and mine patient healthcare trajectories in oncology. Data are taken from a medico-administrative database including all information about the hospitalizations of patients in Lorraine Region (France). The system allows to identify and characterize episodes of care for specific sets of patients. Results were discussed and validated with domain experts
4

Nouvelles contributions du boosting en apprentissage automatique

Suchier, Henri-Maxime 21 June 2006 (has links) (PDF)
L'apprentissage automatique vise la production d'une hypothèse modélisant un concept à partir d'exemples, dans le but notamment de prédire si de nouvelles observations relèvent ou non de ce concept. Parmi les algorithmes d'apprentissage, les méthodes ensemblistes combinent des hypothèses de base (dites ``faibles'') en une hypothèse globale plus performante.<br /><br />Le boosting, et son algorithme AdaBoost, est une méthode ensembliste très étudiée depuis plusieurs années : ses performances expérimentales remarquables reposent sur des fondements théoriques rigoureux. Il construit de manière adaptative et itérative des hypothèses de base en focalisant l'apprentissage, à chaque nouvelle itération, sur les exemples qui ont été difficiles à apprendre lors des itérations précédentes. Cependant, AdaBoost est relativement inadapté aux données du monde réel. Dans cette thèse, nous nous concentrons en particulier sur les données bruitées, et sur les données hétérogènes.<br /><br />Dans le cas des données bruitées, non seulement la méthode peut devenir très lente, mais surtout, AdaBoost apprend par coeur les données, et le pouvoir prédictif des hypothèses globales générées, s'en trouve extrêmement dégradé. Nous nous sommes donc intéressés à une adaptation du boosting pour traiter les données bruitées. Notre solution exploite l'information provenant d'un oracle de confiance permettant d'annihiler les effets dramatiques du bruit. Nous montrons que notre nouvel algorithme conserve les propriétés théoriques du boosting standard. Nous mettons en pratique cette nouvelle méthode, d'une part sur des données numériques, et d'autre part, de manière plus originale, sur des données textuelles.<br /><br />Dans le cas des données hétérogènes, aucune adaptation du boosting n'a été proposée jusqu'à présent. Pourtant, ces données, caractérisées par des attributs multiples mais de natures différentes (comme des images, du son, du texte, etc), sont extrêmement fréquentes sur le web, par exemple. Nous avons donc développé un nouvel algorithme de boosting permettant de les utiliser. Plutôt que de combiner des hypothèses boostées indépendamment, nous construisons un nouveau schéma de boosting permettant de faire collaborer durant l'apprentissage des algorithmes spécialisés sur chaque type d'attribut. Nous prouvons que les décroissances exponentielles des erreurs sont toujours assurées par ce nouveau modèle, aussi bien d'un point de vue théorique qu'expérimental.
5

Décompositions tensorielles et factorisations de calculs intensifs appliquées à l'identification de modèles de comportement non linéaire / Tensor decompositions and factorizations of intensive computing applied to the calibration of nonlinear constitutive material laws

Olivier, Clément 14 December 2017 (has links)
Cette thèse développe une méthodologie originale et non intrusive de construction de modèles de substitution applicable à des modèles physiques multiparamétriques.La méthodologie proposée permet d’approcher en temps réel, sur l’ensemble du domaine paramétrique, de multiples quantités d’intérêt hétérogènes issues de modèles physiques.Les modèles de substitution sont basés sur des représentations en train de tenseurs obtenues lors d'une phase hors ligne de calculs intensifs.L'idée essentielle de la phase d'apprentissage est de construire simultanément les approximations en se basant sur un nombre limité de résolutions du modèle physique lancées à la volée.L'exploration parcimonieuse du domaine paramétrique couplée au format compact de train de tenseurs permet de surmonter le fléau de la dimension.L'approche est particulièrement adaptée pour traiter des modèles présentant un nombre élevé de paramètres définis sur des domaines étendus.Les résultats numériques sur des lois élasto-viscoplastiques non linéaires montrent que des modèles de substitution compacts en mémoire qui approchent précisément les différentes variables mécaniques dépendantes du temps peuvent être obtenus à des coûts modérés.L'utilisation de tels modèles exploitables en temps réel permet la conception d'outils d'aide à la décision destinés aux experts métiers dans le cadre d'études paramétriques et visent à améliorer la procédure de calibration des lois matériaux. / This thesis presents a novel non-intrusive methodology to construct surrogate models of parametric physical models.The proposed methodology enables to approximate in real-time, over the entire parameter space, multiple heterogeneous quantities of interest derived from physical models.The surrogate models are based on tensor train representations built during an intensive offline computational stage.The fundamental idea of the learning stage is to construct simultaneously all tensor approximations based on a reduced number of solutions of the physical model obtained on the fly.The parsimonious exploration of the parameter space coupled with the compact tensor train representation allows to alleviate the curse of dimensionality.The approach accommodates particularly well to models involving many parameters defined over large domains.The numerical results on nonlinear elasto-viscoplastic laws show that compact surrogate models in terms of memory storage that accurately predict multiple time dependent mechanical variables can be obtained at a low computational cost.The real-time response provided by the surrogate model for any parameter value allows the implementation of decision-making tools that are particularly interesting for experts in the context of parametric studies and aim at improving the procedure of calibration of material laws.
6

Analyse non-paramétrique des politiques de maintenance basée sur des données des durées de vie hétérogènes / Non-parametric analysis of Maintenance policies based on heterogeneous lifetimes data

Sidibe, Ibrahima dit Bouran 16 May 2014 (has links)
Dans la littérature, plusieurs travaux ont été développés autour de la modélisation, l’analyse et la mise en place de politiques de maintenance pour les équipements sujets à des défaillances aléatoires. Ces travaux occultent souvent les réalités industrielles par des hypothèses telles que la connaissance a priori des distributions paramétriques des durées de vie et l’homogénéité des conditions d’exploitation des équipements. Ces hypothèses sont restrictives et constituent une source de biais parce qu’elles conditionnent l’analyse statistique des politiques de maintenance. Dans ce présent travail de thèse, de telles hypothèses sont relaxées pour permettre la prise en compte et la mise en valeurs des informations dérivant directement des données de durées vie issues de l’exploitation de l’équipement et ce sans passer par un modèle paramétrique intermédiaire. L’objectif de ce travail de thèse consiste alors en le développement de modèles statistiques et d’outils efficaces pour l’analyse des politiques de maintenance basées sur les données de durées de vie hétérogènes. Nous proposons en effet une démarche complète d’analyse de stratégies de maintenance en partant des données de durées de vie jusqu’à l’obtention des politiques optimales de maintenance en passant par une phase d’estimation des lois de probabilité. Les politiques de maintenance considérées sont appliques à des équipements usagés évoluant dans des environnements d’exploitation distingués par leur niveau de sévérité. Dans ce contexte, un modèle mathématique est proposé permettant d’évaluer et d’analyser théoriquement les coûts unitaires d’une stratégie de maintenance particulière dite de type âge. Cette analyse a permis d’établir les conditions nécessaires et suffisantes garantissant un âge optimal de remplacement préventif de l’équipement. Les coûts unitaires de maintenance sont complètement estimés par la méthode du Noyau de Parzen. Cette méthode d’estimation est non-paramétrique et définie par une fonction noyau et un paramètre de lissage. Il est également montré, dans nos travaux de recherche, que cet estimateur garantit une faible propagation des erreurs induites par le paramètre de lissage. Les résultats obtenus par la méthode du Noyau de Parzen sont proches des valeurs théoriques avec un faible coefficient de variation. Des extensions de la première politique de maintenance sont également proposées et étudiées. Ce travail de thèse s’achève par la proposition d’une approche permettant de mesurer et d’analyser le risque induit par le report d’une maintenance préventive. Ce risque est analysé à travers une fonction risque proposée / In the reliability literature, several researches works have been developed to deal with modeling, analysis and implementation of maintenance policies for equipments subject to random failures. The majority of these works are based on common assumptions among which the distribution function of the equipment lifetimes is assumed to be known. Furthermore, the equipment is assumed to experience only one operating environment. Such assumptions are indeed restrictive and may introduce a bias in the statistical analysis of the distribution function of the equipment lifetimes which in turn impacts optimization of maintenance policies. In the present research work, these two particular assumptions are relaxed. This relaxation allows to take into account of information related to conditions where the equipment is being operating and to focus on the statistical analysis of maintenance policies without using an intermediate parametric lifetimes distribution. The objective of this thesis consists then on the development of efficient statistical models and tools for managing the maintenance of equipments whose lifetimes distribution is unknown and defined through the heterogeneous lifetimes data. Indeed, this thesis proposes a framework for maintenance strategies determination, from lifetimes data acquisition toward the computation of optimal maintenance policies. The maintenance policies considered are assumed to be performed on used equipments. These later are conduct to experience their missions within different environments each of which is characterized by a degree of severity. In this context, a first mathematical model is proposed to evaluate costs induced by maintenance strategies. The analysis of these costs helps to establish the necessary and sufficient conditions to ensure the existence of an optimal age to perform the preventive maintenance. The maintenance costs are fully estimated by using the Kernel method. This estimation method is non-parametric and defined by two parameters, namely the kernel function and the smoothing parameter. The variability of maintenance costs estimator is deeply analyzed according to the smoothing parameter of Kernel method. From these analyses, it is shown that Kernel estimator method ensures a weak propagation of the errors due to the computation of smoothing parameter. In addition, several simulations are made to estimate the optimal replacement age. These simulations figure out that the numerical results from the Kernel method are close to the theoretical values with a weak coefficient of variation. Two probabilistic extensions of the first mathematical model are proposed and theoretically discussed. To deal with the problem of delayed preventive maintenance, an approach is proposed and discussed. The proposed approach allows evaluating the risk that could induce the delay taken to perform a preventive maintenance at the required optimal date. This approach is based on risk analysis conduct on the basis of a proposed risk function
7

Conceptual design of shapes by reusing existing heterogeneous shape data through a multi-layered shape description model and for VR applications / Design conceptuel de formes par exploitation de données hétérogènes au sein d’un modèle de description de forme multi-niveaux et pour des applications de RV

Li, Zongcheng 28 September 2015 (has links)
Les récentes avancées en matière de systèmes d'acquisition et de modélisation ont permis la mise à disposition d'une très grande quantité de données numériques (e.g. images, vidéos, modèles 3D) dans différents domaines d'application. En particulier, la création d'Environnements Virtuels (EVs) nécessite l'exploitation de données nu-mériques pour permettre des simulations et des effets proches de la réalité. Malgré ces avancées, la conception d'EVs dédiés à certaines applications requiert encore de nombreuses et parfois laborieuses étapes de modélisation et de traitement qui impliquent plusieurs experts (e.g. experts du domaine de l'application, experts en modélisation 3D et programmeur d'environnements virtuels, designers et experts communication/marketing). En fonction de l'application visée, le nombre et le profil des experts impliqués peuvent varier. Les limitations et difficultés d'au-jourd'hui sont principalement dues au fait qu'il n'existe aucune relation forte entre les experts du domaine qui ont des besoins, les experts du numérique ainsi que les outils et les modèles qui prennent part au processus de déve-loppement de l'EV. En fait, les outils existants focalisent sur des définitions souvent très détaillées des formes et ne sont pas capables de supporter les processus de créativité et d'innovation pourtant garants du succès d'un pro-duit ou d'une application. De plus, la grande quantité de données numériques aujourd'hui accessible n'est pas réellement exploitée. Clairement, les idées innovantes viennent souvent de la combinaison d'éléments et les don-nées numériques disponibles pourraient être mieux utilisées. Aussi, l'existence de nouveaux outils permettant la réutilisation et la combinaison de ces données serait d'une grande aide lors de la phase de conception conceptuelle de formes et d'EVs. Pour répondre à ces besoins, cette thèse propose une nouvelle approche et un nouvel outil pour la conception conceptuelle d'EVs exploitant au maximum des ressources existantes, en les intégrant et en les combinant tout en conservant leurs propriétés sémantiques. C'est ainsi que le Modèle de Description Générique de Formes (MDGF) est introduit. Ce modèle permet la combinaison de données multimodales (e.g. images et maillages 3D) selon trois niveaux : Conceptuel, Intermédiaire et Données. Le niveau Conceptuel exprime quelles sont les différentes parties de la forme ainsi que la façon dont elles sont combinées. Chaque partie est définie par un Elément qui peut être soit un Composant soit un Groupe de Composants lorsque ceux-ci possèdent des carac-téristiques communes (e.g. comportement, sens). Les Eléments sont liés par des Relations définies au niveau Con-ceptuel là où les experts du domaine interagissent. Chaque Composant est ensuite décrit au niveau Données par sa Géométrie, sa Structure et ses informations Sémantiques potentiellement attachées. Dans l'approche proposée, un Composant est une partie d'image ou une partie d'un maillage triangulaire 3D. Quatre Relations sont proposées (fusion, assemblage, shaping et localisation) et décomposées en un ensemble de Contraintes qui contrôlent la po-sition relative, l'orientation et le facteur d'échelle des Composants au sein de la scène graphique. Les Contraintes sont stockées au niveau Intermédiaire et agissent sur des Entités Clés (e.g. points, des lignes) attachées à la Géo-métrie ou à la Structure des Composants. Toutes ces contraintes sont résolues en minimisant une fonction énergie basée sur des grandeurs physiques. Les concepts du MDGF ont été implémentés et intégrés au sein d'un outil de design conceptuel développé par l'auteur. Différents exemples illustrent le potentiel de l'approche appliquée à différents domaines d'application. / Due to the great advances in acquisition devices and modeling tools, a huge amount of digital data (e.g. images, videos, 3D models) is becoming now available in various application domains. In particular, virtual envi-ronments make use of those digital data allowing more attractive and more effectual communication and simula-tion of real or not (yet) existing environments and objects. Despite those innovations, the design of application-oriented virtual environment still results from a long and tedious iterative modeling and modification process that involves several actors (e.g. experts of the domain, 3D modelers and VR programmers, designers or communica-tions/marketing experts). Depending of the targeted application, the number and the profiles of the involved actors may change. Today's limitations and difficulties are mainly due to the fact there exists no strong relationships between the expert of the domain with creative ideas, the digitally skilled actors, the tools and the shape models taking part to the virtual environment development process. Actually, existing tools mainly focus on the detailed geometric definition of the shapes and are not suitable to effectively support creativity and innovation, which are considered as key elements for successful products and applications. In addition, the huge amount of available digital data is not fully exploited. Clearly, those data could be used as a source of inspiration for new solutions, being innovative ideas frequently coming from the (unforeseen) combination of existing elements. Therefore, the availability of software tools allowing the re-use and combination of such digital data would be an effective support for the conceptual design phase of both single shapes and VR environments. To answer those needs, this thesis proposes a new approach and system for the conceptual design of VRs and associated digital assets by taking existing shape resources, integrating and combining them together while keeping their semantic meanings. To support this, a Generic Shape Description Model (GSDM) is introduced. This model allows the combination of multimodal data (e.g. images and 3D meshes) according to three levels: conceptual, intermediate and data levels. The conceptual level expresses what the different parts of a shape are, and how they are combined together. Each part of a shape is defined by an Element that can either be a Component or a Group of Components when they share common characteristics (e.g. behavior, meaning). Elements are linked with Relations defined at the Concep-tual level where the experts in the domain are acting and exchanging. Each Component is then further described at the data level with its associated Geometry, Structure and potentially attached Semantics. In the proposed ap-proach, a Component is a part of an image or a part of a 3D mesh. Four types of Relation are proposed (merging, assembly, shaping and location) and decomposed in a set of Constraints which control the relative position, orien-tation and scaling of the Components within the 3D viewer. Constraints are stored at the intermediate level and are acting on Key Entities (such as points, a lines, etc.) laying on the Geometry or Structure of the Components. All these constraints are finally solved while minimizing an additional physically-based energy function. At the end, most of the concepts of GSDM have been implemented and integrated into a user-oriented conceptual design tool totally developed by the author. Different examples have been created using this tool demonstrating the potential of the approach proposed in this document.
8

Modèles, langage et outils pour la réutilisation de profils d'apprenants

Eyssautier-Bavay, Carole 26 May 2008 (has links) (PDF)
Cette thèse en informatique se place dans le domaine des Environnements Informatiques pour l'Apprentissage Humain. Durant une activité d'apprentissage, de nombreuses informations peuvent être recueillies et interprétées pour constituer un profil, en termes de connaissances, compétences, conceptions ou comportements d'un apprenant ou d'un groupe d'apprenants. Ces profils peuvent différer de part leur intention pédagogique, leur contenu, leur structuration, leur présentation. Par ailleurs, les acteurs de la situation d'apprentissage concernés par ces profils sont divers.<br /><br />Il n'existe pas à l'heure actuelle de solution technique permettant de réutiliser ces profils hétérogènes. Cette thèse cherche donc à proposer des modèles et des outils permettant la réutilisation pour les différents acteurs de profils d'apprenants créés par d'autres.<br /><br />Dans nos travaux, nous proposons le modèle de processus de gestion de profils REPro (Reuse of External Profiles). Pour permettre la réutilisation de profils hétérogènes, nous proposons de les réécrire selon un formalisme commun qui prend la forme d'un langage de modélisation de profils, le langage PMDL (Profiles MoDeling Language). Nous définissons ensuite un ensemble d'opérateurs permettant la transformation des profils ainsi harmonisés, ou de leur structure, tels que l'ajout d'éléments dans le profil, ou la création d'un profil de groupe à partir de profils individuels. Ces propositions ont été mises en œuvre au sein de l'environnement EPROFILEA du projet PERLEA (Profils d'Élèves Réutilisés pour L'Enseignant et l'Apprenant), avant d'être mises à l'essai auprès d'enseignants en laboratoire.
9

Fédération de données semi-structurées avec XML

Dang-Ngoc, Tuyet-Tram 18 June 2003 (has links) (PDF)
Contrairement aux données traditionnelles, les données semi-structurées sont irrégulières : des données peuvent manquer, des concepts similaires peuvent être représentés par différents types de données, et les structures même peuvent être mal connues. Cette absence de schéma prédéfini, permettant de tenir compte de toutes les données du monde extérieur, présente l'inconvénient de complexifier les algorithmes d'intégration des données de différentes sources. Nous proposons une architecture de médiation basée entièrement sur XML. L'objectif de cette architecture de médiation est de fédérer des sources de données distribuées de différents types. Elle s'appuie sur le langage XQuery, un langage fonctionnel conçu pour formuler des requêtes sur des documents XML. Le médiateur analyse les requêtes exprimées en XQuery et répartit l'exécution de la requête sur les différentes sources avant de recomposer les résultats. L'évaluation des requêtes doit se faire en exploitant au maximum les spécificités des données et permettre une optimisation efficace. Nous décrivons l'algèbre XAlgebre à base d'opérateurs conçus pour XML. Cette algèbre a pour but de construire des plans d'exécution pour l'évaluation de requêtes XQuery et traiter des tuples d'arbres XML. Ces plans d'exécution doivent pouvoir être modélisés par un modèle de coût et celui de coût minimum sera sélectionné pour l'exécution. Dans cette thèse, nous définissons un modèle de coût pour les données semi-structurées adapté à notre algèbre. Les sources de données (SGBD, serveurs Web, moteur de recherche) peuvent être très hétérogènes, elles peuvent avoir des capacités de traitement de données très différentes, mais aussi avoir des modèles de coût plus ou moins définis. Pour intégrer ces différentes informations dans l'architecture de médiation, nous devons déterminer comment communiquer ces informations entre le médiateur et les sources, et comment les intégrer. Pour cela, nous utilisons des langages basés sur XML comme XML-Schema et MathML pour exporter les informations de métadonnées, de formules de coûts et de capacité de sources. Ces informations exportées sont communiquées par l'intermédiaire d'une interface applicative nommée XML/DBC. Enfin, des optimisations diverses spécifiques à l'architecture de médiation doivent être considérées. Nous introduisons pour cela un cache sémantique basé sur un prototype de SGBD stockant efficacement des données XML en natif.
10

Gestion et visualisation de données hétérogènes multidimensionnelles : application PLM à la neuroimagerie / Management and visualisation oh heterogeneous multidimensional data : PLM application to neuroimaging

Allanic, Marianne 17 December 2015 (has links)
La neuroimagerie est confrontée à des difficultés pour analyser et réutiliser la masse croissante de données hétérogènes qu’elle produit. La provenance des données est complexe – multi-sujets, multi-analyses, multi-temporalités – et ces données ne sont stockées que partiellement, limitant les possibilités d’études multimodales et longitudinales. En particulier, la connectivité fonctionnelle cérébrale est analysée pour comprendre comment les différentes zones du cerveau travaillent ensemble. Il est nécessaire de gérer les données acquises et traitées suivant plusieurs dimensions, telles que le temps d’acquisition, le temps entre les acquisitions ou encore les sujets et leurs caractéristiques. Cette thèse a pour objectif de permettre l’exploration de relations complexes entre données hétérogènes, ce qui se décline selon deux axes : (1) comment gérer les données et leur provenance, (2) comment visualiser les structures de données multidimensionnelles. L’apport de nos travaux s’articule autour de trois propositions qui sont présentées à l’issue d’un état de l’art sur les domaines de la gestion de données hétérogènes et de la visualisation de graphes. Le modèle de données BMI-LM (Bio-Medical Imaging – Lifecycle Management) structure la gestion des données de neuroimagerie en fonction des étapes d’une étude et prend en compte le caractère évolutif de la recherche grâce à l’association de classes spécifiques à des objets génériques. L’implémentation de ce modèle au sein d’un système PLM (Product Lifecycle Management) montre que les concepts développés depuis vingt ans par l’industrie manufacturière peuvent être réutilisés pour la gestion des données en neuroimagerie. Les GMD (Graphes Multidimensionnels Dynamiques) sont introduits pour représenter des relations complexes entre données qui évoluent suivant plusieurs dimensions, et le format JGEX (Json Graph EXchange) a été créé pour permettre le stockage et l’échange de GMD entre applications. La méthode OCL (Overview Constraint Layout) permet l’exploration visuelle et interactive de GMD. Elle repose sur la préservation partielle de la carte mentale de l’utilisateur et l’alternance de vues complètes et réduites des données. La méthode OCL est appliquée à l’étude de la connectivité fonctionnelle cérébrale au repos de 231 sujets représentées sous forme de GMD – les zones du cerveau sont représentées par les nœuds et les mesures de connectivité par les arêtes – en fonction de l’âge, du genre et de la latéralité : les GMD sont obtenus par l’application de chaînes de traitement sur des acquisitions IRM dans le système PLM. Les résultats montrent deux intérêts principaux à l’utilisation de la méthode OCL : (1) l’identification des tendances globales sur une ou plusieurs dimensions et (2) la mise en exergue des changements locaux entre états du GMD. / Neuroimaging domain is confronted with issues in analyzing and reusing the growing amount of heterogeneous data produced. Data provenance is complex – multi-subjects, multi-methods, multi-temporalities – and the data are only partially stored, restricting multimodal and longitudinal studies. Especially, functional brain connectivity is studied to understand how areas of the brain work together. Raw and derived imaging data must be properly managed according to several dimensions, such as acquisition time, time between two acquisitions or subjects and their characteristics. The objective of the thesis is to allow exploration of complex relationships between heterogeneous data, which is resolved in two parts : (1) how to manage data and provenance, (2) how to visualize structures of multidimensional data. The contribution follow a logical sequence of three propositions which are presented after a research survey in heterogeneous data management and graph visualization. The BMI-LM (Bio-Medical Imaging – Lifecycle Management) data model organizes the management of neuroimaging data according to the phases of a study and takes into account the scalability of research thanks to specific classes associated to generic objects. The application of this model into a PLM (Product Lifecycle Management) system shows that concepts developed twenty years ago for manufacturing industry can be reused to manage neuroimaging data. GMDs (Dynamic Multidimensional Graphs) are introduced to represent complex dynamic relationships of data, as well as JGEX (Json Graph EXchange) format that was created to store and exchange GMDs between software applications. OCL (Overview Constraint Layout) method allows interactive and visual exploration of GMDs. It is based on user’s mental map preservation and alternating of complete and reduced views of data. OCL method is applied to the study of functional brain connectivity at rest of 231 subjects that are represented by a GMD – the areas of the brain are the nodes and connectivity measures the edges – according to age, gender and laterality : GMDs are computed through processing workflow on MRI acquisitions into the PLM system. Results show two main benefits of using OCL method : (1) identification of global trends on one or many dimensions, and (2) highlights of local changes between GMD states.

Page generated in 0.4445 seconds