Global ETD Search

11	Développement de méthodes d'intégration de données biologiques à l'aide d'Elasticsearch Ongaro-Carcy, Régis 22 February 2024 (has links) En biologie, les données apparaissent à toutes les étapes des projets, de la préparation des études à la publication des résultats. Toutefois, de nombreux aspects limitent leur utilisation. Le volume, la vitesse de production ainsi que la variété des données produites ont fait entrer la biologie dans une ère dominée par le phénomène des données massives. Depuis 1980 et afin d'organiser les données générées, la communauté scientifique a produit de nombreux dépôts de données. Ces dépôts peuvent contenir des données de divers éléments biologiques par exemple les gènes, les transcrits, les protéines et les métabolites, mais aussi d'autres concepts comme les toxines, le vocabulaire biologique et les publications scientifiques. Stocker l'ensemble de ces données nécessite des infrastructures matérielles et logicielles robustes et pérennes. À ce jour, de par la diversité biologique et les architectures informatiques présentes, il n'existe encore aucun dépôt centralisé contenant toutes les bases de données publiques en biologie. Les nombreux dépôts existants sont dispersés et généralement autogérés par des équipes de recherche les ayant publiées. Avec l'évolution rapide des technologies de l'information, les interfaces de partage de données ont, elles aussi, évolué, passant de protocoles de transfert de fichiers à des interfaces de requêtes de données. En conséquence, l'accès à l'ensemble des données dispersées sur les nombreux dépôts est disparate. Cette diversité d'accès nécessite l'appui d'outils d'automatisation pour la récupération de données. Lorsque plusieurs sources de données sont requises dans une étude, le cheminement des données suit différentes étapes. La première est l'intégration de données, notamment en combinant de multiples sources de données sous une interface d'accès unifiée. Viennent ensuite des exploitations diverses comme l'exploration au travers de scripts ou de visualisations, les transformations et les analyses. La littérature a montré de nombreuses initiatives de systèmes informatiques de partage et d'uniformisation de données. Toutefois, la complexité induite par ces multiples systèmes continue de contraindre la diffusion des données biologiques. En effet, la production toujours plus forte de données, leur gestion et les multiples aspects techniques font obstacle aux chercheurs qui veulent exploiter ces données et les mettre à disposition. L'hypothèse testée pour cette thèse est que l'exploitation large des données pouvait être actualisée avec des outils et méthodes récents, notamment un outil nommé Elasticsearch. Cet outil devait permettre de combler les besoins déjà identifiés dans la littérature, mais également devait permettre d'ajouter des considérations plus récentes comme le partage facilité des données. La construction d'une architecture basée sur cet outil de gestion de données permet de les partager selon des standards d'interopérabilité. La diffusion des données selon ces standards peut être autant appliquée à des opérations de fouille de données biologiques que pour de la transformation et de l'analyse de données. Les résultats présentés dans le cadre de ma thèse se basent sur des outils pouvant être utilisés par l'ensemble des chercheurs, en biologie mais aussi dans d'autres domaines. Il restera cependant à les appliquer et à les tester dans les divers autres domaines afin d'en identifier précisément les limites. / In biology, data appear at all stages of projects, from study preparation to publication of results. However, many aspects limit their use. The volume, the speed of production and the variety of data produced have brought biology into an era dominated by the phenomenon of "Big Data" (or massive data). Since 1980 and in order to organize the generated data, the scientific community has produced numerous data repositories. These repositories can contain data of various biological elements such as genes, transcripts, proteins and metabolites, but also other concepts such as toxins, biological vocabulary and scientific publications. Storing all of this data requires robust and durable hardware and software infrastructures. To date, due to the diversity of biology and computer architectures present, there is no centralized repository containing all the public databases in biology. Many existing repositories are scattered and generally self-managed by research teams that have published them. With the rapid evolution of information technology, data sharing interfaces have also evolved from file transfer protocols to data query interfaces. As a result, access to data set dispersed across the many repositories is disparate. This diversity of access requires the support of automation tools for data retrieval. When multiple data sources are required in a study, the data flow follows several steps, first of which is data integration, combining multiple data sources under a unified access interface. It is followed by various exploitations such as exploration through scripts or visualizations, transformations and analyses. The literature has shown numerous initiatives of computerized systems for sharing and standardizing data. However, the complexity induced by these multiple systems continues to constrain the dissemination of biological data. Indeed, the ever-increasing production of data, its management and multiple technical aspects hinder researchers who want to exploit these data and make them available. The hypothesis tested for this thesis is that the wide exploitation of data can be updated with recent tools and methods, in particular a tool named Elasticsearch. This tool should fill the needs already identified in the literature, but also should allow adding more recent considerations, such as easy data sharing. The construction of an architecture based on this data management tool allows sharing data according to interoperability standards. Data dissemination according to these standards can be applied to biological data mining operations as well as to data transformation and analysis. The results presented in my thesis are based on tools that can be used by all researchers, in biology but also in other fields. However, applying and testing them in various other fields remains to be studied in order to identify more precisely their limits. Données volumineuses -- Gestion. Bases de données -- Gestion. Biologie -- Bases de données.
12	Compression dans les entrepôts de données pour l'amélioration des performances Garar, Djamel 01 1900 (has links) (PDF) Les entrepôts de données jouent un rôle important dans la collecte et l'archivage d'une grande masse d'informations. Ces dernières sont utilisées dans la gestion et la prise des décisions pour des affaires stratégiques de l'entreprise. Cependant, l'exécution des requêtes complexes dans une grande masse d'information dégrade les performances du système d'entrepôt de données, dont la vitesse d'exécution des requêtes. Une des techniques les plus répandues pour remédier au problème précédent est de mettre en place un algorithme de compression de données. En effet, la compression de données permet d'une part de réduire le volume de données d'une table et d'autre part de charger et de traiter beaucoup des données en mémoire centrale et évite l'accès fréquent au disque de l'ordinateur. Aujourd'hui, il existe plusieurs systèmes de gestion de base de données qui intègrent différents algorithmes de compression de données. La plupart de ces algorithmes convergent vers une technique commune basée sur l'utilisation d'un dictionnaire de données. Ce dernier permet d'enregistrer une valeur unique correspondante aux données répétitives trouvées dans la table de données. Notre recherche dans ce mémoire vise, premièrement, à exploiter les algorithmes de compressions en particulier l'algorithme de compression de base de données Oracle; deuxièmement, à proposer un nouveau prototype de compression de données inspiré de l'approche Oracle. Ce prototype introduit un nouveau concept d'un dictionnaire hiérarchique. Ce dernier est défini par une structure hiérarchique contenant un super dictionnaire de données relié à plusieurs dictionnaires de données. Le super dictionnaire a pour rôle d'enregistrer toutes les valeurs communes entre les dictionnaires. La mise en œuvre de ce nouveau prototype a pour but de développer les techniques de compression de données et d'améliorer les performances de l'entrepôt de données. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Entrepôt de données (ACM 98, H.2.7), Compression (ACM 98, E.4), Dictionnaires (ACM 98, H.3.1), Performances (ACM 98, K.6.2). Compression de données Entrepôt de données (Informatique) Évaluation de la performance
13	Probabilistic relational models learning from graph databases / Apprentissage des modèles probabilistes relationnels à partir des bases de données graphe El Abri, Marwa 02 October 2018 (has links) Historiquement, les Modèles Graphiques Probabilistes (PGMs) sont une solution d’apprentissage à partir des données incertaines et plates, appelées aussi données propositionnelles ou représentations attribut-valeur. Au début des années 2000, un grand intérêt a été adressé au traitement des données relationnelles présentant un grand nombre d’objets participant à des différentes relations. Les Modèles Probabilistes Relationnels (PRMs) présentent une extension des PGMs pour le contexte relationnel. Avec l’évolution rapide issue de l’internet, des innovations technologiques et des applications web, les données sont devenues de plus en plus variées et complexes. D’où l’essor du Big Data. Plusieurs types de bases de données ont été créés pour s’adapter aux nouvelles caractéristiques des données, dont les plus utilisés sont les bases de données graphe. Toutefois, tous les travaux d’apprentissage des PRMs sont consacrés à apprendre à partir des données bien structurées et stockées dans des bases de données relationnelles. Les bases de données graphe sont non structurées et n’obéissent pas à un schéma bien défini. Les arcs entre les noeuds peuvent avoir des différentes signatures. En effet, les relations qui ne correspondent pas à un modèle ER peuvent exister dans l'instance de base de données. Ces relations sont considérées comme des exceptions. Dans ce travail de thèse, nous nous intéressons à ce type de bases de données. Nous étudions aussi deux types de PRMs à savoir, Direct Acyclic Probabilistic Entity Relationship (DAPER) et chaines de markov logiques (MLNs). Nous proposons deux contributions majeures. Premièrement, Une approche d’apprentissage des DAPERs à partir des bases de données graphe partiellement structurées. Une deuxième approche consiste à exploiter la logique de premier ordre pour apprendre les DAPERs en utilisant les MLNs pour prendre en considération les exceptions qui peuvent parvenir lors de l’apprentissage. Nous menons une étude expérimentale permettant de comparer nos méthodes proposées avec les approches déjà existantes. / Historically, Probabilistic Graphical Models (PGMs) are a solution for learning from uncertain and flat data, also called propositional data or attributevalue representations. In the early 2000s, great interest was addressed to the processing of relational data which includes a large number of objects participating in different relations. Probabilistic Relational Models (PRMs) present an extension of PGMs to the relational context. With the rise of the internet, numerous technological innovations and web applications are driving the dramatic increase of various and complex data. Consequently, Big Data has emerged. Several types of data stores have been created to manage this new data, including the graph databases. Recently there has been an increasing interest in graph databases to model objects and interactions. However, all PRMs structure learning use wellstructured data that are stored in relational databases. Graph databases are unstructured and schema-free data stores. Edges between nodes can have various signatures. Since, relationships that do not correspond to an ER model could be depicted in the database instance. These relationships are considered as exceptions. In this thesis, we are interested by this type of data stores. Also, we study two kinds of PRMs namely, Direct Acyclic Probabilistic Entity Relationship (DAPER) and Markov Logic Networks (MLNs). We propose two significant contributions. First, an approach to learn DAPERs from partially structured graph databases. A second approach consists to benefit from first-order logic to learn DAPERs using MLN framework to take into account the exceptions that are dropped during DAPER learning. We are conducting experimental studies to compare our proposed methods with existing approaches. Bases de données graphe Données partiellement structurées
14	Étude du potentiel de OLAP pour supporter l'analyse spatio-temporelle Caron, Pierre-Yves 24 April 2018 (has links) Québec Université Laval, Bibliothèque 2014 Bases de données relationnelles Bases de données spatio-temporelles
15	Méthode de conception rapide d’architecture massivement parallèle sur puce : de la modélisation à l’expérimentation sur FPGA / A rapid design method of a massively parallel System on Chip : from modeling to FPGA implementation Baklouti Kammoun, Mouna 18 December 2010 (has links) Les travaux présentés dans cette thèse s’inscrivent dans le cadre des recherches menés sur la conception et implémentation des systèmes sur puce à hautes performances afin d’accélérer et faciliter la conception ainsi que la mise en œuvre des applications de traitement systématique à parallélisme de données massif. Nous définissons dans ce travail un système SIMD massivement parallèle sur puce nommé mppSoC : massively parallel processing System on Chip. Ce système est générique et paramétrique pour s’adapter à l’application. Nous proposons une démarche de conception rapide et modulaire pour mppSoC. Cette conception se base sur un assemblage de composants ou IPs. À cette fin, une bibliothèque mppSoCLib est mise en place. Le concepteur pourra directement choisir les composants nécessaires et définir les paramètres du système afin de construire une configuration SIMD répondant à ses besoins. Une chaîne de génération automatisée a été développée. Cette chaîne permet la génération automatique du code VHDL d’une configuration mppSoC modélisée à haut niveau d’abstraction (UML). Le code VHDL produit est directement simulable et synthétisable sur FPGA. Cette chaîne autorise la définition à un haut niveau d’abstraction d’une configuration adéquate à une application donnée. À partir de la simulation du code généré automatiquement, nous pouvons modifier la configuration dans une démarche d’exploration pour le moment semi-automatique. Nous validons mppSoC dans un contexte applicatif réel de traitement vidéo à base de FPGA. Dans ce même contexte, une comparaison entre mppSoC et d’autres systèmes montre les performances suffisantes et l’efficacité de mppSoC. / The main purpose of this PhD is to contribute to the design and implementation of high-performance Systems on Chip to accelerate and facilitate the design and execution of systematic data parallel applications. A massively parallel SIMD processing System-on-Chip named mppSoC is defined. This system is generic, parametric in order to be adapted to the application requirements. We propose a rapid and modular design method based on IP assembling to construct an mppSoC configuration. To this end, an IP library, mppSoCLib, is implemented. The designer can select the necessary components and define the parameters to implement the SIMD configuration satisfying his needs. An automated generation chain was developed. It allows the automatic generation of the corresponding VHDL code of an mppSoC configuration modeled at high abstraction level model (in UML). The generated code is simulable and synthetizable on FPGA. The developed chain allows the definition at a high abstraction level of an mppSoC configuration adequate for a given application. Based on the simulation of the automatically generated code, we can modify the SIMD configuration in a semi-automatic exploration process. We validate mppSoC in a real video application based on FPGA. In this same context, a comparison between mppSoC and other embedded systems shows the sufficient performance and effectiveness of mppSoC. Traitement de données intensif
16	Principe d'invariance pour processus de sommation multiparamétrique et applications Zemlys, Vaidotas 26 September 2008 (has links) A thèse a pour objet de prouver le principe d'invariance dans des espaces de Hölder pour le processus de sommation multiparamétrique et d'utiliser ce résultat en détection de rupture dans des données de panel. On caractérise d'abord la convergence en loi dans un espace de Hölder, du processus de sommation multiparamétrique dans le cas d'un champ aléatoire i.i.d. d'éléments aléatoires centrés et de carré intégrable d'un espace de Hilbert séparable, par la finitude d'un certain moment faible dont l'ordre croît avec l'exposant de Hölder, depuis deux lorsque l'exposant est nul, jusqu'à l'infini lorsque l'exposant est un demi. Ensuite on considère les tableaux triangulaires centrés à valeurs réelles. On propose une construction adaptative du processus de sommation qui coïncide avec la construction classique pour le cas d'un seul paramètre. On prouve le théorème limite central fonctionnel hölderien pour ce processus. Le processus limite est gaussien sous certaines conditions de régularité pour les variances du tableau triangulaire, le drap de Wiener n'étant qu'un cas particulier. Enfin on fournit des applications de ces résultats théoriques en construisant des statistiques de détection de rupture épidémique dans un ensemble de données multi-indexées. On construit un test de détection d'un changement d'espérance dans un rectangle épidémique, trouve sa loi limite et donne des conditions pour sa consistance. On adapte notre statistique pour la détection de rupture du coefficient dans les modèles classiques de régression pourpanel. / The thesis is devoted to proving invariance principle in Hëlder spaces for the multi-parameter summation process and then using this resull to construct the tests for detecting' structural breaks in panel data. First we characterize the weak convergence in Hëlder space of multi-parameter summation process in the case of Li.d. random field of square integrable centered random elements in the separable Hilbert space by the finiteness of the certain weak moment, whose order increases with the Hblder exponent, turning to two, when exponent is zero and ta infinity when exponent is one hait. Next we consider real valued centered triangular arrays. We propose adaptive construction of the summation process which coincides with classical construction for the one parameter case. We prove the functional central Iimit theorem for this process in Hëlder space. The limiting process is Gaussian under certain regularity condition for variances of the triangular array, Wlener sheet being the special case. Finally we provide sorne application of the theoretical results by constructing statistics for detecting the epidemic change in a given data with multi-dimensional indexes. We construct a test for detecting the change of the mean in a epidemic rectangle, find its asymptotic distribution and give the conditions for the consistency. We adapt our proposed statistic for detecting the change of the coefficient in the classical panel regression models. Processus de sommation Données longitudinales
17	Worst-case delay analysis of core-to-IO flows over many-cores architectures Abdallah, Laure 05 April 2017 (has links) (PDF) Many-core architectures are more promising hardware to design real-time systems than multi-core systems as they should enable an easier mastered integration of a higher number of applications, potentially of different level of criticalities. In embedded real-time systems, these architectures will be integrated within backbone Ethernet networks, as they mostly provide Ethernet controllers as Input/Output(I/O) interfaces. Thus, a number of applications of different level of criticalities could be allocated on the Network-on-Chip (NoC) and required to communicate with sensors and actuators. However, the worst-case behavior of NoC for both inter-core and core-to-I/O communications must be established. Several NoCs targeting hard real-time systems, made of specific hardware extensions, have been designed. However, none of these extensions are currently available in commercially available NoC-based many-core architectures, that instead rely on wormhole switching with round-robin arbitration. Using this switching strategy, interference patterns can occur between direct and indirect flows on many-cores. Besides, the mapping over the NoC of both critical and non-critical applications has an impact on the network contention these core-to-I/O communications exhibit. These core-to-I/O flows (coming from the Ethernet interface of the NoC) cross two networks of different speeds: NoC and Ethernet. On the NoC, the size of allowed packets is much smaller than the size of Ethernet frames. Thus, once an Ethernet frame is transmitted over the NoC, it will be divided into many packets. When all the data corresponding to this frame are received by the DDR-SDRAM memory on the NoC, the frame is removed from the buffer of the Ethernet interface. In addition, the congestion on the NoC, due to wormhole switching, can delay these flows. Besides, the buffer in the Ethernet interface has a limited capacity. Then, this behavior may lead to a problem of dropping Ethernet frames. The idea is therefore to analyze the worst case transmission delays on the NoC and reduce the delays of the core-to-I/O flows. In this thesis, we show that the pessimism of the existing Worst-Case Traversal Time (WCTT) computing methods and the existing mapping strategies lead to drop Ethernet frames due to an internal congestion in the NoC. Thus, we demonstrate properties of such NoC-based wormhole networks to reduce the pessimism when modeling flows in contentions. Then, we propose a mapping strategy that minimizes the contention of core-to-I/O flows in order to solve this problem. We show that the WCTT values can be reduced up to 50% compared to current state-of-the-art real-time packet schedulability analysis. These results are due to the modeling of the real impact of the flows in contention in our proposed computing method. Besides, experimental results on real avionics applications show significant improvements of core-to-I/O flows transmission delays, up to 94%, without significantly impacting transmission delays of core-to-core flows. These improvements are due to our mapping strategy that allocates the applications in such a way to reduce the impact of non-critical flows on critical flows. These reductions on the WCTT of the core-to-I/O flows avoid the drop of Ethernet frames. Algorithme et structure de données
18	Modélisation des bases de données multidimensionnelles : analyse par fonctions d'agrégation multiples Hassan, Ali 01 December 2014 (has links) Le résumé en français n'a pas été communiqué par l'auteur. / Le résumé en anglais n'a pas été communiqué par l'auteur.
19	Approche dirigée par les modèles pour l'implantation de bases de données massives sur des SGBD NoSQL Ait Brahim, Amal 31 October 2018 (has links) La transformation digitale des entreprises et plus largement celle de la société, entraine une évolution des bases de données (BD) relationnelles vers les BD massives. Dans les systèmes informatiques décisionnels actuels, les décideurs doivent pouvoir constituer des bases de données, les réorganiser puis en extraire l’information pertinente pour la prise de décision. Ces systèmes sont donc naturellement impactés par cette évolution où les données sont généralement stockées sur des systèmes NoSQL capables de gérer le volume, la variété et la vélocité. Nos travaux s’inscrivent dans cette mutation ; ils concernent plus particulièrement les mécanismes d’implantation d’une BD massive sur un SGBDNoSQL. Le point de départ du processus d’implantation est constitué d’un modèle contenant la description conceptuelle des données et des contraintes d’intégrité associées.Peu de travaux ont apporté des solutions automatiques complètes portant à la fois sur les structures de données et les contraintes d’intégrité. L’objectif de cette thèse est de proposer une démarche générale qui guide et facilite la tâche de transformation d’un modèle conceptuel en un modèle d’implantation NoSQL. Pour ceci, nous utilisons l’architecture MDA qui est une norme du consortium OMG pour le développement dirigé par les modèles.A partir d'un modèle conceptuel exprimé à l'aide du formalisme UML, notre démarche MDA applique deux processus unifiés pour générer un modèle d’implantation sur une plateforme NoSQL choisie par l’utilisateur : - Le processus de transformation d’un DCL, - Le processus de transformation des contraintes associées, Nos deux processus s’appuient sur :- Trois niveaux de modélisation : conceptuel, logique et physique, où le modèle logique correspond à une représentation générique compatible avec les quatre types de SGBD NoSQL : colonnes, documents, graphes et clé-valeur, - Des métamodèles permettant de vérifier la validité des modèles à chaque niveau, - Des normes de l’OMG pour formaliser l’entrée du processus et l’ensemble des règles de transformation. Afin de vérifier la faisabilité de notre solution, nous avons développé un prototype composé de deux modules. Le premier applique un ensemble de règles de transformation sur un modèle conceptuel et restitue un modèle NoSQL associé à un ensemble de directives d’assistance. Le second module complète le premier en intégrant les contraintes qui ne sont pas prises en compte dans le modèle physique généré. Nous avons montré également la pertinence de nos propositions grâce à une évaluation réalisée par des ingénieurs d’une société spécialisée dans le décisionnel. / Le résumé en anglais n'a pas été communiqué par l'auteur. Bases de données massives
20	Conception assistée d’entrepôts de données et de documents XML pour l’analyse OLAP / Aided design of data warehouses and XML documents for OLAP analysis Abdelhédi, Fatma 03 April 2014 (has links) Aujourd’hui, les entrepôts de données constituent un enjeu majeur pour les applications décisionnelles au sein des entreprises. Les sources d’un entrepôt, c’est à dire l’origine des données qui l’alimentent, sont diverses et hétérogènes : fichiers séquentiels, feuilles de tableur, bases de données relationnelles, documents du Web. La complexité est telle que les logiciels du marché ne répondent que partiellement aux attentes des décideurs lorsque ceux-ci souhaitent analyser les données. Nos travaux s’inscrivent donc dans le contexte des systèmes décisionnels qui intègrent tous types de données (principalement extraites de bases de données relationnelles et de bases de documents XML) et qui sont destinés à des décideurs. Ils visent à proposer des modèles, des méthodes et des outils logiciels pour élaborer et manipuler des entrepôts de données. Nos travaux ont plus précisément porté sur deux problématiques complémentaires : l’élaboration assistée d’un entrepôt de données ainsi que la modélisation et l’analyse OLAP de documents XML. / Today, data warehouses are a major issue for business intelligence applications within companies. Sources of a warehouse, i.e. the origin of data that feed, are diverse and heterogeneous sequential files, spreadsheets, relational databases, Web documents. The complexity is such that the software on the market only partially meets the needs of decision makers when they want to analyze the data. Therefore, our work is within the decision support systems context that integrate all data types (mainly extracted from relational databases and XML documents databases) for decision makers. They aim to provide models, methods and software tools to elaborate and manipulate data warehouses. Our work has specifically focused on two complementary issues: aided data warehouse and modeling and OLAP analysis of XML documents. Base de données décisionnelle

Search results