Global ETD Search

11	Accéler la préparation des données pour l'analyse du big data / Accelerating data preparation for big data analytics Tian, Yongchao 07 April 2017 (has links) Nous vivons dans un monde de big data, où les données sont générées en grand volume, grande vitesse et grande variété. Le big data apportent des valeurs et des avantages énormes, de sorte que l’analyse des données est devenue un facteur essentiel de succès commercial dans tous les secteurs. Cependant, si les données ne sont pas analysées assez rapidement, les bénéfices de big data seront limités ou même perdus. Malgré l’existence de nombreux systèmes modernes d’analyse de données à grande échelle, la préparation des données est le processus le plus long de l’analyse des données, n’a pas encore reçu suffisamment d’attention. Dans cette thèse, nous étudions le problème de la façon d’accélérer la préparation des données pour le big data d’analyse. En particulier, nous nous concentrons sur deux grandes étapes de préparation des données, le chargement des données et le nettoyage des données. Comme première contribution de cette thèse, nous concevons DiNoDB, un système SQL-on-Hadoop qui réalise l’exécution de requêtes à vitesse interactive sans nécessiter de chargement de données. Les applications modernes impliquent de lourds travaux de traitement par lots sur un grand volume de données et nécessitent en même temps des analyses interactives ad hoc efficaces sur les données temporaires générées dans les travaux de traitement par lots. Les solutions existantes ignorent largement la synergie entre ces deux aspects, nécessitant de charger l’ensemble des données temporaires pour obtenir des requêtes interactives. En revanche, DiNoDB évite la phase coûteuse de chargement et de transformation des données. L’innovation importante de DiNoDB est d’intégrer à la phase de traitement par lots la création de métadonnées que DiNoDB exploite pour accélérer les requêtes interactives. La deuxième contribution est un système de flux distribué de nettoyage de données, appelé Bleach. Les approches de nettoyage de données évolutives existantes s’appuient sur le traitement par lots pour améliorer la qualité des données, qui demandent beaucoup de temps. Nous ciblons le nettoyage des données de flux dans lequel les données sont nettoyées progressivement en temps réel. Bleach est le premier système de nettoyage qualitatif de données de flux, qui réalise à la fois la détection des violations en temps réel et la réparation des données sur un flux de données sale. Il s’appuie sur des structures de données efficaces, compactes et distribuées pour maintenir l’état nécessaire pour nettoyer les données et prend également en charge la dynamique des règles. Nous démontrons que les deux systèmes résultants, DiNoDB et Bleach, ont tous deux une excellente performance par rapport aux approches les plus avancées dans nos évaluations expérimentales, et peuvent aider les chercheurs à réduire considérablement leur temps consacré à la préparation des données. / We are living in a big data world, where data is being generated in high volume, high velocity and high variety. Big data brings enormous values and benefits, so that data analytics has become a critically important driver of business success across all sectors. However, if the data is not analyzed fast enough, the benefits of big data will be limited or even lost. Despite the existence of many modern large-scale data analysis systems, data preparation which is the most time-consuming process in data analytics has not received sufficient attention yet. In this thesis, we study the problem of how to accelerate data preparation for big data analytics. In particular, we focus on two major data preparation steps, data loading and data cleaning. As the first contribution of this thesis, we design DiNoDB, a SQL-on-Hadoop system which achieves interactive-speed query execution without requiring data loading. Modern applications involve heavy batch processing jobs over large volume of data and at the same time require efficient ad-hoc interactive analytics on temporary data generated in batch processing jobs. Existing solutions largely ignore the synergy between these two aspects, requiring to load the entire temporary dataset to achieve interactive queries. In contrast, DiNoDB avoids the expensive data loading and transformation phase. The key innovation of DiNoDB is to piggyback on the batch processing phase the creation of metadata, that DiNoDB exploits to expedite the interactive queries. The second contribution is a distributed stream data cleaning system, called Bleach. Existing scalable data cleaning approaches rely on batch processing to improve data quality, which are very time-consuming in nature. We target at stream data cleaning in which data is cleaned incrementally in real-time. Bleach is the first qualitative stream data cleaning system, which achieves both real-time violation detection and data repair on a dirty data stream. It relies on efficient, compact and distributed data structures to maintain the necessary state to clean data, and also supports rule dynamics. We demonstrate that the two resulting systems, DiNoDB and Bleach, both of which achieve excellent performance compared to state-of-the-art approaches in our experimental evaluations, and can help data scientists significantly reduce their time spent on data preparation. Big data Base de données Système distribué Nettoyage de données Big data Database Distributed system Data cleaning
12	Traitement et raisonnement distribués des flux RDF / Distributed RDF stream processing and reasoning Ren, Xiangnan 19 November 2018 (has links) Le traitement en temps réel des flux de données émanant des capteurs est devenu une tâche courante dans de nombreux scénarios industriels. Dans le contexte de l'Internet des objets (IoT), les données sont émises par des sources de flux hétérogènes, c'est-à-dire provenant de domaines et de modèles de données différents. Cela impose aux applications de l'IoT de gérer efficacement l'intégration de données à partir de ressources diverses. Le traitement des flux RDF est dès lors devenu un domaine de recherche important. Cette démarche basée sur des technologies du Web Sémantique supporte actuellement de nombreuses applications innovantes où les notions de temps réel et de raisonnement sont prépondérantes. La recherche présentée dans ce manuscrit s'attaque à ce type d'application. En particulier, elle a pour objectif de gérer efficacement les flux de données massifs entrants et à avoir des services avancés d’analyse de données, e.g., la détection d’anomalie. Cependant, un moteur de RDF Stream Processing (RSP) moderne doit prendre en compte les caractéristiques de volume et de vitesse rencontrées à l'ère du Big Data. Dans un projet industriel d'envergure, nous avons découvert qu'un moteur de traitement de flux disponible 24/7 est généralement confronté à un volume de données massives, avec des changements dynamiques de la structure des données et les caractéristiques de la charge du système. Pour résoudre ces problèmes, nous proposons Strider, un moteur de traitement de flux RDF distribué, hybride et adaptatif qui optimise le plan de requête logique selon l’état des flux de données. Strider a été conçu pour garantir d'importantes propriétés industrielles telles que l'évolutivité, la haute disponibilité, la tolérance aux pannes, le haut débit et une latence acceptable. Ces garanties sont obtenues en concevant l'architecture du moteur avec des composants actuellement incontournables du Big Data: Apache Spark et Apache Kafka. De plus, un nombre croissant de traitements exécutés sur des moteurs RSP nécessitent des mécanismes de raisonnement. Ils se traduisent généralement par un compromis entre le débit de données, la latence et le coût computationnel des inférences. Par conséquent, nous avons étendu Strider pour prendre en charge la capacité de raisonnement en temps réel avec un support d'expressivité d'ontologies en RDFS + (i.e., RDFS + owl:sameAs). Nous combinons Strider avec une approche de réécriture de requêtes pour SPARQL qui bénéficie d'un encodage intelligent pour les bases de connaissances. Le système est évalué selon différentes dimensions et sur plusieurs jeux de données, pour mettre en évidence ses performances. Enfin, nous avons exploré le raisonnement du flux RDF dans un contexte d'ontologies exprimés avec un fragment d'ASP (Answer Set Programming). La considération de cette problématique de recherche est principalement motivée par le fait que de plus en plus d'applications de streaming nécessitent des tâches de raisonnement plus expressives et complexes. Le défi principal consiste à gérer les dimensions de débit et de latence avec des méthologies efficaces. Les efforts récents dans ce domaine ne considèrent pas l'aspect de passage à l'échelle du système pour le raisonnement des flux. Ainsi, nous visons à explorer la capacité des systèmes distribuées modernes à traiter des requêtes d'inférence hautement expressive sur des flux de données volumineux. Nous considérons les requêtes exprimées dans un fragment positif de LARS (un cadre logique temporel basé sur Answer Set Programming) et proposons des solutions pour traiter ces requêtes, basées sur les deux principaux modèles d’exécution adoptés par les principaux systèmes distribuées: Bulk Synchronous Parallel (BSP) et Record-at-A-Time (RAT). Nous mettons en œuvre notre solution nommée BigSR et effectuons une série d’évaluations. Nos expériences montrent que BigSR atteint un débit élevé au-delà du million de triplets par seconde en utilisant un petit groupe de machines / Real-time processing of data streams emanating from sensors is becoming a common task in industrial scenarios. In an Internet of Things (IoT) context, data are emitted from heterogeneous stream sources, i.e., coming from different domains and data models. This requires that IoT applications efficiently handle data integration mechanisms. The processing of RDF data streams hence became an important research field. This trend enables a wide range of innovative applications where the real-time and reasoning aspects are pervasive. The key implementation goal of such application consists in efficiently handling massive incoming data streams and supporting advanced data analytics services like anomaly detection. However, a modern RSP engine has to address volume and velocity characteristics encountered in the Big Data era. In an on-going industrial project, we found out that a 24/7 available stream processing engine usually faces massive data volume, dynamically changing data structure and workload characteristics. These facts impact the engine's performance and reliability. To address these issues, we propose Strider, a hybrid adaptive distributed RDF Stream Processing engine that optimizes logical query plan according to the state of data streams. Strider has been designed to guarantee important industrial properties such as scalability, high availability, fault-tolerant, high throughput and acceptable latency. These guarantees are obtained by designing the engine's architecture with state-of-the-art Apache components such as Spark and Kafka. Moreover, an increasing number of processing jobs executed over RSP engines are requiring reasoning mechanisms. It usually comes at the cost of finding a trade-off between data throughput, latency and the computational cost of expressive inferences. Therefore, we extend Strider to support real-time RDFS+ (i.e., RDFS + owl:sameAs) reasoning capability. We combine Strider with a query rewriting approach for SPARQL that benefits from an intelligent encoding of knowledge base. The system is evaluated along different dimensions and over multiple datasets to emphasize its performance. Finally, we have stepped further to exploratory RDF stream reasoning with a fragment of Answer Set Programming. This part of our research work is mainly motivated by the fact that more and more streaming applications require more expressive and complex reasoning tasks. The main challenge is to cope with the large volume and high-velocity dimensions in a scalable and inference-enabled manner. Recent efforts in this area still missing the aspect of system scalability for stream reasoning. Thus, we aim to explore the ability of modern distributed computing frameworks to process highly expressive knowledge inference queries over Big Data streams. To do so, we consider queries expressed as a positive fragment of LARS (a temporal logic framework based on Answer Set Programming) and propose solutions to process such queries, based on the two main execution models adopted by major parallel and distributed execution frameworks: Bulk Synchronous Parallel (BSP) and Record-at-A-Time (RAT). We implement our solution named BigSR and conduct a series of evaluations. Our experiments show that BigSR achieves high throughput beyond million-triples per second using a rather small cluster of machines Big Data Web Sémantique Sparql Système Distribué Traitement de Flux Big Data Web semantic Sparql Distributed System Stream Processing
13	Stabilité des réseaux embarqués : interactions Puissance - Structure - Commande / Stability of Embarked Netword : power Interaction - Structure - Control Liutanakul, Pisit 25 January 2007 (has links) En raison des progrès réalisés dans l’architecture et le contrôle des convertisseurs statique, beaucoup d’applications électrotechniques se comportent comme des dispositifs fonctionnant à puissance constante. Cette propriété conduit à modéliser ces systèmes autour d’un point de fonctionnement par des résistances négatives. Se pose alors un problème de stabilité quand ils sont connectés à des sources d’énergie munies ou non d’une commande. Dans une première partie de la thèse, les différents outils basés sur des spécifications d’impédance sont introduits et appliqués à l’étude des systèmes à puissance distribuée. Deux exemples électrotechniques sont traités ; le premier étudie l’association filtre d’entrée hacheur DC/DC. La seconde traite l’association filtre d’entrée actionneur électromécanique. Dans une second partie de la thèse, pour assurer la stabilité de deux dispositifs électrotechnique mis en cascade, l’auteur propose d’utiliser une commande globale non linéaire permettant d’assurer à la fois la stabilité du système tout en minimisant la taille de ses éléments passifs. Pour assurer un contrôle découplé des différentes sorties ainsi que la stabilité du système, l’auteur utilise une linéarisation de type entrée/sortie. Un régulateur à structure variable de type glissant assure les propriétés de robustesse vis-à-vis des variations paramétriques du système. L’architecture de commande proposée permet alors une diminution significative des éléments de stockage d’énergie dans le système / Because of the high efficiency of the power electronic converters, ideal regulation of their outputs makes the converter appears as a constant power load seen by its front end power stage. So they can be modeled as a negative resistance around an operating point. As a result, when such a converter is connected to a controlled or uncontrolled power source subsystem, the risk of instability has to be unpacked. To study the stability issue taken by such a system, we have detailed in a first step how to prove the local stability of Distributed Power System. The impedance criterions which are used to analysis the stability of cascaded systems are described. These criterions are applied in the case of two power electronics applications. The first one corresponds to a DC/DC switching converter with its input filter. The second one deals with the stability issues of a system constituted by an input filter and an inverter-motor drive system. In the second part of the thesis, a non linear global control of a cascaded power electronic system is investigated in order to ensure the stability of the whole system with a minimization of its passive components. To uncouple the control of all the outputs variables and ensure the system stability, an I/O linearization technique is proposed. Thanks to the use of a sliding controller, the resulting control architecture is robust as regard to parameters variations and allows a significant diminution of the passive component size Stabilité Filtre d'entrée Spectroscopie d'impédance Système distribué Commande non linéaire Stability Input filter Power interaction Control Embarked Network
14	Une approche holistique combinant flux temps-réel et données archivées pour la gestion et le traitement d'objets mobiles : application au trafic maritime / A hybrid approach combining real-time and archived data for mobility analysis : application to maritime trafic Salmon, Loïc 17 January 2019 (has links) La numérisation de nos espaces de vie et de mobilités s’est largement accentuée durant la dernière décennie. La multiplication des capteurs de toute nature permettant de percevoir et de mesurer notre espace physique en est le levier principal. L’ensemble de ces systèmes produit aujourd’hui de grands volumes de données hétérogènes sans cesse croissants, ce qui soulève de nombreux enjeux scientifiques et d'ingénierie en termes de stockage et de traitement pour la gestion et l’analyse de mobilités. Les travaux dans le domaine d’analyse des données spatio-temporelles ont largement été orientés soit vers la fouille de données historiques archivées, soit vers le traitement continu. Afin d’éviter les écueils de plus en plus prégnants dus à l’augmentation de ces volumes de données et de leur vélocité (temps de traitement trop long, modèles conceptuellement plus adaptés, analyse approximative des données), nous proposons la conception d’une approche hybride distribuée permettant le traitement combiné de flux temps-réel et de données archivées. L’objectif de cette thèse est donc de développer un nouveau système de gestion et de traitement distribué pour l’analyse des mobilités en particulier maritimes. La solution proposée répond principalement à des contraintes de temps-réel, les données archivées et les informations qui en sont extraites permettant d'améliorer la qualité de réponse. Une proposition de paradigme d'événements est également développée pour permettre ce traitement hybride mais aussi pour caractériser et identifier plus facilement des comportements types d'objets mobiles. Enfin, une requête appliquée sur des zones de couverture de signal pour des objets mobiles a été étudiée et testée sur des données maritimes mettant en exergue le besoin d'une approche hybride pour le traitement de trajectoires. / Over the past few years, the rapid prolifération of sensors and devices recording positioning information regularly produces very large volumes of heterogeneous data. This leads to many research challenges as the storage, distribution, management,Processing and analysis of the large mobility data generated still needs to be solved. Current works related to the manipulation of mobility data have been directed towards either mining archived historical data or continuous processing of incoming data streams.The aim of this research is to design a holistic System whose objective is to provide a combined processing of real time data streams and archived data positions. The proposed solution is real-time oriented, historical data and informations extracted from them allowing to enhance quality of the answers to queries. A event paradigm is discussed to facilitate the hybrid approach and to identify typical moving objects behaviors. Finally, a query concerning signal coverage of moving objects has been studied and applied to maritime data showing the relevance of a hybrid approach to deal with moving object data processing. Objets mobiles Traitement temps-réel Bases de données spatio-temporelles Système distribué Moving objects Geostreaming Spatio-temporal databases Distribued systems 910.285
15	Le kanban actif pour assurer l'interopérabilité décisionnelle centralisé/distribué<br />Application à un industriel de l'ameublement Klein, Thomas 10 November 2008 (has links) (PDF) La thèse défendue est le résultat d'un partenariat entre d'une part le groupe Parisot, et plus particulièrement la société Parisot Meuble, et d'autre part l'équipe de recherche technologique TRACILOG du Centre de Recherche en Automatique de Nancy.<br />La typologie de la consommation en termes de biens et de services a évolué au cours des dernières années, avec notamment l'émergence du e-commerce. Si jusqu'alors les consommateurs se sont satisfaits de produits faiblement différenciés à bas coûts, la tendance est à la personnalisation, impliquant une augmentation de la diversité et des exigences du client final en termes de coûts, qualité, fonctionnalités et délais. Les systèmes de production ont généralement été conçus pour être efficaces dans un contexte de production de masse : ils doivent évoluer pour s'adapter à cette nouvelle typologie du marché. Ils doivent gagner en flexibilité pour être capable de répondre aux diverses demandes des clients. Il leur faut également être réactifs, afin de satisfaire rapidement les clients. Enfin, l'entreprise dans sa globalité doit devenir agile, capable de se reconfigurer en fonction des évolutions de son environnement ou de son marché (Nof et al, 2006), (Koren et al, 1999).<br />Les industries qui produisent en grande série des produits personnalisables, et notamment l'industrie du meuble, subissent également cette évolution : le nombre de références ne cesse d'augmenter et les volumes par référence diminuent. L'un des enjeux majeurs pour l'entreprise Parisot Meubles consiste à flexibiliser un outil industriel initialement dimensionné pour produire des quantités importantes de produits avec une faible différenciation, afin de répondre aux exigences des clients, tant en terme de diversification des produits que de qualité, coûts et délais. Les investissements dans les infrastructures de production étant récents et importants, les perspectives de flexibilisation doivent d'abord s'appuyer sur une évolution des structures de pilotage.<br />Les systèmes centralisés et hiérarchiques, initialement développés pour répondre à un marché de consommation de masse, ne permettent pas l'agilité du système de production. En effet, si de telles architectures se montrent performantes en régime nominal, de nombreux auteurs (Duffie et al, 1986)(Valckenaers et al, 1997) ont souligné leur manque de robustesse aux perturbations (gestion d'urgences commerciales, pannes, ruptures d'approvisionnements) et leur rigidité (pénibilité de la reconfiguration lors de l'introduction de nouveaux produits par exemple). Ce constat a conduit beaucoup d'entreprises à se tourner vers des stratégies de pilotage de type Juste-à-Temps, reposant sur une production tirée par la demande du client et un système de pilotage des flux physiques par le terrain, généralement à l'aide d'étiquettes (papier) kanban (Monden, 1981). S'ils apportent des solutions satisfaisant aux contraintes de réactivité, ces systèmes ne proposent pas une gestion optimale des flux, et rendent celle-ci complexe par la difficulté à disposer d'une vue globale de la situation.<br />Dans le but d'améliorer l'agilité des systèmes de production, les activités de recherche se sont orientées ces dernières années vers des systèmes de pilotage hybrides combinant un système de décision centralisé prédictif avec un horizon à moyen ou long terme et un système distribué où les décisions sont prises en temps réel à même le flux sur un horizon court terme. La qualité et la complémentarité des deux approches, centralisées et distribuées, laisse entrevoir des bénéfices considérables pour les architectures hybrides qui concilieraient les capacités d'optimisation globale des systèmes hiérarchiques avec la réactivité et la robustesse potentielle des systèmes hétérarchiques.<br />Par ailleurs, les développements récents dans le domaine des technologies infotroniques (RFID, réseaux de communication sans fil...) apportent les outils concrets permettant la mise en œuvre de systèmes automatisés de pilotage. Il devient réaliste d'imaginer que le « produit informant » puisse assurer la synchronisation du flux d'objets physiques du procédé et le flux des objets logiciels du système d'information représentant ce procédé. Mac Farlane (MacFarlane et al, 2003) a montré que l'instrumentation du produit et l'augmentation de la visibilité inhérente permettent un apport, tant pour les systèmes classiques de gestion de production que pour les systèmes émergents (Figure 4). D'abord, la collecte en temps-réel de données pertinentes sur l'état du flux de produits et de système de production permettent d'alimenter efficacement les outils centralisés (APS, ERP, MES), particulièrement consommateurs de données, dans le but d'assurer cohérence et optimisation globale du processus de production. Les technologies d'identification automatique permettent de résoudre le problème de synchronisation des flux physiques et d'informations adressée par Plossl en 1985 (Plossl, 1985). <br />L'instrumentation du produit représente également un moyen sûr d'assurer le lien matière-information et permet d'améliorer la visibilité sur le flux physique. La disponibilité d'informations à la fois sur le process et sur le produit lui-même amène à une amélioration de la visibilité (ou observabilité) dans l'espace des états de l'opération contrôlée (MacFarlane et al, 2003). L'Auto ID est donc un complément aux informations capteurs provenant directement du process. La possibilité d'information précise et en temps réel sur l'identité, le statut et les spécifications du produit aident à réduire les délais et les risques d'erreurs dans la gestion des stocks de matière première, les opérations de production et la gestion des produits finis.<br />Il devient alors réaliste d'imaginer le « produit actif », participant aux décisions concernant la fabrication, et de le considérer comme le pivot du système de pilotage, assurant la synchronisation et la cohérence entre un système centralisé assurant l'optimisation globale de la production au niveau de l'entreprise et l'ensemble des centres de décisions distribués en charge de l'exécution de la production (Figure 5). Comme énoncé par Valckenaers dans (Morel et al, 2007) : « These recent and ongoing developments finally promise to deliver the best of both worlds: the planning ability of centralized older solutions and the ability to cope with the real-factory dynamics of the self-organizing multi-agent systems ». Notamment, (Thomas et al, 2008) montre la pertinence du concept de contrôle par le produit dans un contexte de production pilotée en Juste-à-Temps, en permettant de maintenir une vision globale du système et d'assurer la cohérence des décisions prises localement.<br />Les enjeux actuels du domaine sont donc la proposition de cadres de modélisation et de développement de système de production agiles, la preuve du concept et de l'efficience de tels systèmes à l'échelle industrielle et le transfert par application sur des cas réels du monde industriel.<br />Au sein du CRAN, l'équipe projet « Systèmes Contrôlé par le Produit » étudie l'opportunité d'allouer au produit un rôle actif dans l'organisation, assurant le lien entre l'exécution de la production et le pôle « business » de l'entreprise. Notre travail a été mené conjointement avec la thèse de Rémi Pannequin (Pannequin, 2007) dont l'objet était de démontrer la validité du concept de produit actif, en développant une plateforme multi-agents de contrôle par le produit et une architecture d'émulation, et avec la thèse de Hind El Haouzi (sera soutenue en 2008), qui exploite ce concept pour synchroniser les flux d'un ligne principale d'assemblage avec des lignes secondaires (feeders), dans un contexte de production unitaire. Par rapport à ces deux thèses, notre contribution s'appuie sur l'infotronisation des flux physiques pour aider à la gestion des différents points de découplage par rapport à un objectif global, dans un contexte de production de gros volumes batchés. <br />Nos travaux ont pour but d'étudier les nouvelles opportunités apportées par les technologies d'identification dans le pilotage des flux de production, et plus particulièrement les technologies d'identification automatique dans un système de production contrôlé en kanban. Plus particulièrement, dans le cadre d'une thèse CIFRE, nous adressons la problématique de gestion des flux de produits au sein de l'entreprise Parisot Meubles.<br />Au cours de ce travail de thèse, nous avons étudié le système de production dans son ensemble (système physique et système de pilotage), afin d'identifier les problématiques industrielles de pilotage de la production propres à Parisot Meubles. De ces problématiques industrielles, nous avons induit une problématique plus générale de recherche. Nous avons ensuite pu valider les propositions par l'application au cas industriel réel.<br />Ce travail a porté sur une étude des opportunités apportées par les nouvelles technologies de l'information sur les processus de pilotage de la production, ainsi que la proposition d'un système d'aide à la décision de pilotage des flux sur le terrain. L'architecture proposée s'appuie sur l'infotronisation du flux de kanbans, qui deviennent des « kanbans actifs » et assurent l'interopérabilité et la synchronisation entre un système de décision centralisé et les différentes entités décisionnelles distribuées, afin de coordonner l'ensemble des décisions. Ces propositions ont été validées à l'aide d'une architecture d'émulation, permettant d'utiliser un système de pilotage dans les conditions réelles. Par ailleurs, certaines structures proposées ont pu être validées sur le système de production réel. <br />Les contributions de ce travail de thèse reposent sur :<br />• la proposition d'une architecture d'évaluation par émulation de systèmes de pilotage de la production, à une échelle industrielle, ainsi que la méthode de construction.<br />• La proposition d'un système d'aide au pilotage de la production permettant d'assurer la cohérence globale du système de décision. [SPI] Engineering Sciences Contrôle par le produit système centralisé système distribué système hybride interopérabilité décisionnelle juste-à-temps
16	Distributed Implementations of Component-based Systems with Prioritized Multiparty Interactions : Application to the BIP Framework. / Implantations distribuées de modèles à base de composants communicants par interactions multiparties avec priorités : application au langage BIP Quilbeuf, Jean 16 September 2013 (has links) Les nouveaux systèmes ont souvent recours à une implémentation distribuée du logiciel, pour des raisons d'efficacité et à cause de l'emplacement physique de certains capteurs et actuateurs. S'assurer de la correction d'un logiciel distribué est difficile car cela impose de considérer tous les enchevêtrements possibles des actions exécutées par des processus distincts. Cette thèse propose une méthode pour générer, à partir d'un modèle d'application haut niveau, une implémentation distribuée correcte et efficace. Le modèle de l'application comporte des composants communiquant au moyen d'interactions multiparties avec priorités. L'exécution d'une interaction multipartie, qui correspond à un pas de la sémantique, change de façon atomique l'état de tous les composants participant à l'interaction. On définit une implantation distribuée comme un ensemble de processus communiquant par envoi de message asynchrone. La principale difficulté est de produire une implémentation correcte et efficace des interactions multiparties avec priorités, en utilisant uniquement l'envoi de message comme primitive. La méthode se fonde sur un flot de conception rigoureux qui raffine progressivement le modèle haut niveau en un modèle bas niveau, à partir duquel le code pour une plateforme particulière est généré. Tous les modèles intermédiaires apparaissant dans le flot sont exprimés avec la même sémantique que le modèle original. À chaque étape du flot, les interactions complexes sont remplacés par des constructions utilisant des interactions plus simples. En particulier, le dernier modèle obtenu avant la génération du code ne contient que des interactions modélisant l'envoi de message. La correction de l'implémentation est obtenue par construction. L'utilisation des interactions multiparties comme primitives dans le modèle de l'application permet de réduire très significativement l'ensemble des états atteignables, par rapport à un modèle équivalent mais utilisant des primitives de communication plus simples. Les propriétés essentielles du système sont vérifiées à ce niveau d'abstraction. Chaque transformation constituante du flot de conception est suffisamment simple pour être complètement formalisée et prouvée, en termes d'équivalence observationelle ou d'équivalence de trace entre le modèles avant et après transformation. L'implémentation ainsi obtenue est correcte par rapport au modèle original, ce qui évite une coûteuse vérification a posteriori. Concernant l'efficacité, la performance de l'implémentation peut être optimisée en choisissant les paramètres adéquats pour les transformations, ou en augmentant la connaissance des composants. Cette dernière solution requiert une analyse du modèle de départ afin de calculer la connaissance qui est réutilisée pour les étapes ultérieures du flot de conception. Les différentes transformations et optimisations constituant le flot de conception ont été implémentées dans le cadre de BIP. Cette implémentation a permis d'évaluer les différentes possibilités ainsi que l'influence des différents paramètres, sur la performance de l'implémentation obtenue avec plusieurs exemples. Le code généré utilise les primitives fournies par les sockets POSIX, MPI ou les pthreads pour envoyer des messages entre les processus. / Distributed software is often required for new systems, because of efficiency and physical distribution and sensors and actuators. Ensuring correctness of a distributed implementation is hard due to the interleaving of actions belonging to distinct processes. This thesis proposes a method for generating a correct and efficient distributed implementation from a high-level model of an application. The input model is described as a set of components communicating through prioritized multiparty interactions. Such primitives change the state of all components involved in an interaction during a single atomic execution step. We assume that a distributed implementation is a set of processes communicating through asynchronous message-passing. The main challenge is to produce a correct and efficient distributed implementation of prioritized multiparty interactions, relying only on message-passing. The method relies on a rigorous design flow refining the high-level model of the application into a low-level model, from which code for a given platform is generated. All intermediate models appearing in the flow are expressed using the same semantics as the input model. Complex interactions are replaced with constructs using simpler interactions at each step of the design flow. In particular, the last model obtained before code generation contains only interactions modeling asynchronous message passing. The correctness of the implementation is obtained by construction. Using multiparty interaction reduces drastically the set of reachable states, compared to an equivalent model expressed with lower level primitives. Essential properties of the system are checked at this abstraction level. Each transformation of the design flow is simple enough to be fully formalized and proved by showing observational equivalence or trace equivalence between the input and output models. The obtained implementation is correct with respect to the original model, which avoids an expensive a posteriori verification. Performance can be optimized through adequate choice of the transformation parameters, or by augmenting the knowledge of components. The latter solution requires to analyze the original model to compute the knowledge, that is reused at subsequent steps of the decentralization. The various transformations and optimizations constituting the design flow have been implemented using the BIP framework. The implementation has been used to evaluate the different possibilities, as well the influence of parameters of the design flow, on several examples. The generated code uses either Unix sockets, MPI or pthreads primitives for communication between processes. Système distribué Composants Correct-par-construction BIP Priorités Distributed System Component-based Correct-by-construction BIP Priority 004
17	Détection d'évènements complexes dans les flux d'évènements massifs / Complex event detection over large event streams Braik, William 15 May 2017 (has links) La détection d’évènements complexes dans les flux d’évènements est un domaine qui a récemment fait surface dans le ecommerce. Notre partenaire industriel Cdiscount, parmi les sites ecommerce les plus importants en France, vise à identifier en temps réel des scénarios de navigation afin d’analyser le comportement des clients. Les objectifs principaux sont la performance et la mise à l’échelle : les scénarios de navigation doivent être détectés en moins de quelques secondes, alorsque des millions de clients visitent le site chaque jour, générant ainsi un flux d’évènements massif.Dans cette thèse, nous présentons Auros, un système permettant l’identification efficace et à grande échelle de scénarios de navigation conçu pour le eCommerce. Ce système s’appuie sur un langage dédié pour l’expression des scénarios à identifier. Les règles de détection définies sont ensuite compilées en automates déterministes, qui sont exécutés au sein d’une plateforme Big Data adaptée au traitement de flux. Notre évaluation montre qu’Auros répond aux exigences formulées par Cdiscount, en étant capable de traiter plus de 10,000 évènements par seconde, avec une latence de détection inférieure à une seconde. / Pattern detection over streams of events is gaining more and more attention, especially in the field of eCommerce. Our industrial partner Cdiscount, which is one of the largest eCommerce companies in France, aims to use pattern detection for real-time customer behavior analysis. The main challenges to consider are efficiency and scalability, as the detection of customer behaviors must be achieved within a few seconds, while millions of unique customers visit the website every day,thus producing a large event stream. In this thesis, we present Auros, a system for large-scale an defficient pattern detection for eCommerce. It relies on a domain-specific language to define behavior patterns. Patterns are then compiled into deterministic finite automata, which are run on a BigData streaming platform. Our evaluation shows that our approach is efficient and scalable, and fits the requirements of Cdiscount. Détection d’évènements complexes Évènements Big Data Traitement de flux Système distribué Complex Event Processing Events Big Data Stream Processing Distributed System
18	Microclouds : an approach for a network-aware energy-efficient decentralised cloud / Microclouds : une approche pour un cloud décentralisé prenant en compte les ressources réseau et efficace en énergie Cuadrado-Cordero, Ismael 09 February 2017 (has links) L'architecture actuelle du cloud, reposant sur des datacenters centralisés, limite la qualité des services offerts par le cloud du fait de l'éloignement de ces datacenters par rapport aux utilisateurs. En effet, cette architecture est peu adaptée à la tendance actuelle promouvant l'ubiquité du cloud computing. De plus, la consommation énergétique actuelle des data centers, ainsi que du cœur de réseau, représente 3% de la production totale d'énergie, tandis que selon les dernières estimations, seulement 42,3% de la population serait connectée. Dans cette thèse, nous nous intéressons à deux inconvénients majeurs des clouds centralisés: la consommation d'énergie ainsi que la faible qualité de service offerte. D'une part, du fait de son architecture centralisée, le cœur de réseau consomme plus d'énergie afin de connecter les utilisateurs aux datacenters. D'autre part, la distance entre les utilisateurs et les datacenters entraîne une utilisation accrue du réseau mondial à large bande, menant à des expériences utilisateurs de faible qualité, particulièrement pour les applications interactives. Une approche semi-centralisée peut offrir une meilleur qualité d'expérience aux utilisateurs urbains dans des réseaux clouds mobiles. Pour ce faire, cette approche confine le traffic local au plus proche de l'utilisateur, tout en maintenant les caractéristiques centralisées s’exécutant sur les équipements réseaux et utilisateurs. Dans cette thèse, nous proposons une nouvelle architecture de cloud distribué, basée sur des "microclouds". Des "microclouds" sont créés de manière dynamique, afin que les ressources utilisateurs provenant de leurs ordinateurs, téléphones ou équipements réseaux puissent être mises à disposition dans le cloud. De ce fait, les microclouds offrent un système dynamique, passant à l'échelle, tout en évitant d’investir dans de nouvelles infrastructures. Nous proposons également un exemple d'utilisation des microclouds sur un cas typique réel. Par simulation, nous montrons que notre approche permet une économie d'énergie pouvant atteindre 75%, comparée à une approche centralisée standard. En outre, nos résultats indiquent que cette architecture passe à l'échelle en terme du nombre d'utilisateurs mobiles, tout en offrant une bien plus faible latence qu'une architecture centralisée. Pour finir, nous analysons comment inciter les utilisateurs à partager leur ressources dans les clouds mobiles et proposons un nouveau mécanisme d'enchère adapté à l'hétérogénéité et la forte dynamicité de ces systèmes. Nous comparons notre solution aux autres mécanismes d’enchère existants dans des cas d'utilisations typiques au sein des clouds mobiles, et montrons la pertinence de notre solution. / The current datacenter-centralized architecture limits the cloud to the location of the datacenters, generally far from the user. This architecture collides with the latest trend of ubiquity of Cloud computing. Also, current estimated energy usage of data centers and core networks adds up to 3% of the global energy production, while according to latest estimations only 42,3% of the population is connected. In the current work, we focused on two drawbacks of datacenter-centralized Clouds: Energy consumption and poor quality of service. On the one hand, due to its centralized nature, energy consumption in networks is affected by the centralized vision of the Cloud. That is, backbone networks increase their energy consumption in order to connect the clients to the datacenters. On the other hand, distance leads to increased utilization of the broadband Wide Area Network and poor user experience, especially for interactive applications. A distributed approach can provide a better Quality of Experience (QoE) in large urban populations in mobile cloud networks. To do so, the cloud should confine local traffic close to the user, running on the users and network devices. In this work, we propose a novel distributed cloud architecture based on microclouds. Microclouds are dynamically created and allow users to contribute resources from their computers, mobile and network devices to the cloud. This way, they provide a dynamic and scalable system without the need of an extra investment in infrastructure. We also provide a description of a realistic mobile cloud use case, and the adaptation of microclouds on it. Through simulations, we show an overall saving up to 75% of energy consumed in standard centralized clouds with our approach. Also, our results indicate that this architecture is scalable with the number of mobile devices and provide a significantly lower latency than regular datacenter-centralized approaches. Finally, we analyze the use of incentives for Mobile Clouds, and propose a new auction system adapted to the high dynamism and heterogeneity of these systems. We compare our solution to other existing auctions systems in a Mobile Cloud use case, and show the suitability of our solution. Informatique dans les nuages Efficacité énergétique Système distribué Réseau Cloud computing Energy-Efficiency Edge Distributed system Network-Aware
19	Secured trust and reputation system : analysis of malicious behaviors and optimization / Gestion de la confiance et de la réputation sécurisée : analyse des attaques possibles et optimisation Bradai, Amira 29 September 2014 (has links) Les mécanismes de réputation offrent un moyen nouveau et efficace pour assurer le niveau nécessaire de confiance qui est indispensable au bon fonctionnement de tout système critique. Ce fonctionnement consiste à collecter les informations sur l’historique des participants et rendent public leur réputation. Le système guide les décisions en tenant compte de ces informations et ainsi faire des choix plussécurisés. Des mécanismes de réputation en ligne sont présents dans la plupart des sites e-commerce disponibles aujourd’hui. Les systèmes existants ont été conçus avec l’hypothèse que les utilisateurs partagent les informations honnêtement. Mais, beaucoup de systèmes de réputation sont en général un sujet d’attaque par les utilisateurs malveillants. L’attaque peut affecter la coopération, l’agrégation et l’´évaluation. Certains utilisateurs veulent utiliser les ressources du réseau, mais ne veulent pas contribuer en retour. Autres manipulent les évaluations de la confiance et donnent une mauvaise estimation. Nous avons vu récemment de plus en plus que ça devient évident que certains utilisateurs manipulent stratégiquement leurs évaluations et se comportent d’une façon malhonnête. Pour une protection adéquate contre ces utilisateurs, un système sécurisé pour la gestion de la réputation est nécessaire. Dans notre système, une entité centrale existe et peut agréger les informations. Cependant, Les réseaux pair à pair n’ont pas de contrôle central ou un référentiel ce qui rend la tâche plus difficile. Ainsi, le système de gestion de la réputation doit effectuer toutes les tâches de manière distribuée. Lorsque ce genre des systèmes est mis en œuvre, les pairs essaient de plus en plus de manipuler les informations. Cette thèse décrit les moyens pour rendre les mécanismes de réputation plus sécurisé en analysant les risques et en fournissant un mécanisme de défense. Différents types de comportements malveillants existent et pour chacun d’eux, nous présentons une analyse complète, des simulations et un exemple d’utilisation réel / Reputation mechanisms offer a novel and effective way of ensuring the necessary level of trust which is essential to the functioning of any critical system. They collect information about the history (i.e., past transactions) of participants and make public their reputation. Prospective participants guide their decisions by considering reputation information, and thus make more informative choices. Online reputation mechanisms enjoy huge success. They are present in most e-commerce sites available today, and are seriously taken into consideration by human users. Existing reputation systems were conceived with the assumption that users will share feedback honestly. But, such systems like those in peer to peer are generally compromise of malicious users. This leads to the problem in cooperation, aggregation and evaluation. Some users want to use resources from network but do not want to contribute back to the network. Others manipulate the evaluations of trust and provide wrong estimation. We have recently seen increasing evidence that some users strategically manipulate their reports and behave maliciously. For proper protecting against those users, some kind of reputation management system is required. In some system, a trusted third entity exists and can aggregate the information. However, Peer-to-peer networks don’t have any central control or repository. Large size of distributed and hybrid networks makes the reputation management more challenging task. Hence reputation management system should perform all the tasks in distributed fashion. When these kinds of systems are implemented, peers try to deceive them to take maximum advantage. This thesis describes ways of making reputation mechanisms more trustworthy and optimized by providing defense mechanism and analysis. Different kinds of malicious behaviors exist and for each one, we present a complete analysis, simulation and a real use case example in distributed and non-distributed way Gestion de la confiance Gestion de la réputation Système distribué Théorie des jeux Modèle byzantin Trust management Reputation system Distributed system Game theory Byzantine model
20	A distributed and scalable architecture for real time volumetric reconstruction of arbitrary shapes exploiting inter-frame redundancy / Une architecture distribuée et modulable exploitant la redondance temporelle pour la reconstruction volumétrique et temps réels d’objets de forme arbitraire Ruiz, Diego 06 May 2008 (has links) The three-dimensional structure of the world makes 3D as the natural evolution of a huge panel of applications. Many different 3D reconstruction algorithms have been implemented to meet different application needs. We target immersive applications. The reconstructed models of users and objects are inserted in 3D virtual environments creating the mixed reality, which is rendered on spatially immersive displays. The user sees its model on the projection walls, allowing him to interact with elements of the virtual world. Immersion requires small latency, high reconstruction rates and non-invasive systems. Furthermore, we choose to reconstruct arbitrary shapes with a geometric method. The review of the state of the art shows that all the acquisition devices cannot be connected to a single computer performing real time reconstruction. The system needs a cluster of computers and a strategy to share information between them. We present a distributed and scalable architecture for real time reconstruction of arbitrary shapes exploiting inter-frame redundancy. The architecture is composed of acquisition nodes and master nodes. Each acquisition node reconstructs partial models from its attached cameras and sends non-redundant information to its master. Each master node merges several partial models. The output of several masters can be merged by another master. We exploit the properties of volumetric algorithms, i.e. an efficient exploitation of inter-frame redundancy and an efficient merging of partial models, to increase performances. We test our volumetric architecture with an innovative implementation of the visual hull. We use a label that codes simultaneously occupancy, subdivision of space and visibility allowing each camera to see only part of the volume of interest. We test our system on a particular implementation of the framework composed of eight cameras and twelve cores, two per acquisition node and four for the master. We achieve fifteen reconstructions per second and less than 100 ms latency from segmentation to the display of the reconstructed model. System performances have been measured on sequences of more than 20 000 frames with unconstrained user’s movements. The system computes a fair approximation of the user in all situations. / La structure tridimensionnelle du monde fait de la 3D l’évolution naturelle d’un grand nombre d’applications. De nombreux algorithmes de reconstruction différents ont été développés pour satisfaire les besoins de différents types d’applications. On cible les applications immersives: Les modèles reconstruits de l’utilisateur ainsi que des objets qu’il porte sont insérés dans des environnements virtuels créant ainsi la réalité mixte. Cette dernière est affichée ce qui permet à l’utilisateur d’interagir avec des éléments virtuels. Le caractère immersif de l’application requiert une reconstruction temps réel à faible latence. Qui plus est, on désire la reconstruction de modèles de formes arbitraires à l’aide de méthodes géométriques. L’état de l’art montre que les différentes caméras ne peuvent pas être connectées à un seul ordinateur responsable de la reconstruction 3D. L’application requiert un cluster d’ordinateurs et une méthode étudiée afin de répartir la charge de travail et d’optimiser les performances. J’ai développé au cours de ma thèse une architecture volumétrique distribuée pour reconstruire des objets de forme arbitraire en temps réel et avec faible latence. Le système exploite les propriétés des algorithmes volumétriques pour améliorer les performances. Il est composé de deux types de nœuds: acquisition et fusion. Les nœuds de type acquisition reconstruisent des modèles partiels et envoient des informations non redondantes aux nœuds de type fusion. Chaque nœud fusion est responsable de la création d’un modèle global à partir de plusieurs modèles partiels. Grâce aux algorithmes développés, chaque étape de fusion rassemble les informations de plusieurs modèles partiels tout en ayant un impact faible sur la latence totale du système. L’architecture a été testée avec une implémentation particulière du Visual Hull permettant une disposition plus libre des caméras. Ces dernières ne doivent plus observer l’entièreté du volume d’intérêt. Chaque partie de l’utilisateur est modélisée grâce aux caméras qui l’observent. Notre système dispose de quatre nœuds d’acquisitions dual core et d’un nœud de fusion dual CPU dual core. On reconstruit quinze modèles par seconde avec une latence inférieure à 100 ms mesurée depuis la segmentation jusqu’au rendu. Quelques soient les mouvements de l’utilisateur et les objets qu’il manipule, le système est capable de le modéliser. Système distribué 3D Reconstruction Model free Distributed Inter-frame redundancy Volumetric Reconstruction 3D Volumétrique Temps réel Formes arbitraires Redondance temporelle Real time

Search results