Global ETD Search

41	Méthode de conception de systèmes temps réels embarqués multi-coeurs en milieu automobile / Methodology of designing embedded real-time multi-core systems in automotive Klikpo, Enagnon Cédric 13 March 2018 (has links) La complexité croissante des applications embarquées dans les voitures modernes augmente le besoin de puissance de calcul. Pour répondre à ce besoin, le standard automobile AUTOSAR introduit l'utilisation de plates-formes multi-cœurs. Cependant, l'utilisation du multi-cœurs pour des applications temps-réel critique automobile soulève plusieurs problématiques. Notamment, il faut respecter la spécification fonctionnelle et garantir de manière déterministe les échanges de données entre cœurs. Dans cette thèse, nous considérons des systèmes multi-périodiques spécifiés et validés fonctionnellement avec des modèles Matlab/Simulink. Ainsi, nous avons développé un framework pour déployer des applications Matlab/Simulink sur AUTOSAR multi-cœurs afin de garantir le déterminisme fonctionnel et temporel tout en exploitant au mieux le parallélisme. Notre contribution a porté sur trois axes. Premièrement nous avons identifié les mécanismes d'échanges de données imposés dans le modèle fonctionnel Matlab/Simulink. Nous avons montré que ces mécanismes pouvaient s'exprimer en utilisant le formalisme des Synchronous Dataflow Graph (SDFG). Ce modèle est un excellent outil d'analyse pour exploiter le parallélisme car il est très populaire dans la littérature et largement étudié pour le déploiement d'applications flow de données sur plateforme multi/many-cœurs. Par la suite, nous avons développé des méthodes pour réaliser le flux de données exprimés par le SDFG dans un ordonnancement temps-réel préemptif. Ces méthodes utilisent des résultats théoriques sur les SDFGs pour garantir les contraintes de précédence de manière déterministe sans utiliser des mécanismes de synchronisation bloquants. De cette sorte, nous garantissons à la fois le déterminisme fonctionnel et temporel des applications. Finalement, nous caractérisons l'impact des contraintes de flux de données sur l'ordonnancement des tâches. Nous proposons une technique de partitionnement qui minimise cet impact. Nous montrons alors que cette technique favorise la construction d'un partitionnement et d'un ordonnancement lorsqu'elle est utilisée pour initialiser des algorithmes de recherche et d'optimisation heuristiques. / The increasing complexity of embedded applications in modern cars has increased the need of computing power. To meet this need, the European automotive standard AUTOSAR has introduced the use of \multicore platforms. However, \multicore platform for critical automotive applications raises several issues. In particular, it is necessary to respect the functional specification and to guarantee deterministically the data exchanges between cores. In this thesis, we consider multi-periodic systems specified and validated with \mat. So, we developed a framework to deploy \mat applications on AUTOSAR \multicore. This framework guarantees the functional and temporal determinism and exploits the parallelism. Our contribution is threefold. First, we identify the communication mechanisms in \mat. Then, we prove that the dataflow in a multi-periodic \mat system is modeled by a SDFG. The SDFG formalism is an excellent analysis tool to exploit the parallelism. In fact, it is very popular in the literature and it is widely studied for the deployment of dataflow applications on multi/many-core. Then, we develop methods to realize the dataflow expressed by the SDFG in a preemptive \rt scheduling. These methods use theoretical results on SDFGs to guarantee deterministic precedence constraints without using blocking synchronization mechanisms. As such, both the functional and temporal determinism are guaranteed. Finally, we characterize the impact of dataflow requirements on tasks. We propose a partitioning technique that minimizes this impact. We show that this technique promotes the construction of a partitioning and a feasible scheduling when it is used to initiate multi-objective research and optimization algorithms. %As such, we reduce the number of design iterations and shorten the design time. AUTOSAR MATLAB/SIMULINK SDF>G Flux de données Multi-cœurs Ordonnancement temps-réel AUTOSAR Model based design Synchrous dataflow graph 004.3
42	Interopérabilité des systèmes distribués produisant des flux de données sémantiques au profit de l'aide à la prise de décision / Interoperability of distributed systems producing semantic data stream for decision-making Belghaouti, Fethi 26 January 2017 (has links) Internet est une source infinie de données émanant de sources telles que les réseaux sociaux ou les capteurs (domotique, ville intelligente, véhicule autonome, etc.). Ces données hétérogènes et de plus en plus volumineuses, peuvent être gérées grâce au web sémantique, qui propose de les homogénéiser et de les lier et de raisonner dessus, et aux systèmes de gestion de flux de données, qui abordent essentiellement les problèmes liés au volume, à la volatilité et à l’interrogation continue. L’alliance de ces deux disciplines a vu l’essor des systèmes de gestion de flux de données sémantiques RSP (RDF Stream Processing systems). L’objectif de cette thèse est de permettre à ces systèmes, via de nouvelles approches et algorithmes à faible coût, de rester opérationnels, voire plus performants, même en cas de gros volumes de données en entrée et/ou de ressources système limitées.Pour atteindre cet objectif, notre thèse s’articule principalement autour de la problématique du : "Traitement de flux de données sémantiques dans un contexte de systèmes informatiques à ressources limitées". Elle adresse les questions de recherche suivantes : (i) Comment représenter un flux de données sémantiques ? Et (ii) Comment traiter les flux de données sémantiques entrants, lorsque leurs débits et/ou volumes dépassent les capacités du système cible ?Nous proposons comme première contribution une analyse des données circulant dans les flux de données sémantiques pour considérer non pas une succession de triplets indépendants mais plutôt une succession de graphes en étoiles, préservant ainsi les liens entre les triplets. En utilisant cette approche, nous avons amélioré significativement la qualité des réponses de quelques algorithmes d’échantillonnage bien connus dans la littérature pour le délestage des flux. L’analyse de la requête continue permet d’optimiser cette solution en repèrant les données non pertinentes pour être délestées les premières. Dans la deuxième contribution, nous proposons un algorithme de détection de motifs fréquents de graphes RDF dans les flux de données RDF, appelé FreGraPaD (Frequent RDF Graph Patterns Detection). C’est un algorithme en une passe, orienté mémoire et peu coûteux. Il utilise deux structures de données principales un vecteur de bits pour construire et identifier le motif de graphe RDF assurant une optimisation de l’espace mémoire et une table de hachage pour le stockage de ces derniers. La troisième contribution de notre thèse consiste en une solution déterministe de réduction de charge des systèmes RSP appelée POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). Elle utilise des opérateurs booléens très peu coûteux, qu’elle applique aux deux motifs binaires construits de la donnée et de la requête continue pour déterminer et éjecter celle qui est non-pertinente. Elle garantit un rappel de 100%, réduit la charge du système et améliore son temps de réponse. Enfin, notre quatrième contribution est un outil de compression en ligne de flux RDF, appelé Patorc (Pattern Oriented Compression for RSP systems). Il se base sur les motifs fréquents présents dans les flux qu’il factorise. C’est une solution de compression sans perte de données dont l’interrogation sans décompression est très envisageable. Les solutions apportées par cette thèse permettent l’extension des systèmes RSP existants en leur permettant le passage à l’échelle dans un contexte de Bigdata. Elles leur permettent ainsi de manipuler un ou plusieurs flux arrivant à différentes vitesses, sans perdre de leur qualité de réponse et tout en garantissant leur disponibilité au-delà même de leurs limites physiques. Les résultats des expérimentations menées montrent que l’extension des systèmes existants par nos solutions améliore leurs performances. Elles illustrent la diminution considérable de leur temps de réponse, l’augmentation de leur seuil de débit de traitement en entrée tout en optimisant l’utilisation de leurs ressources systèmes / Internet is an infinite source of data coming from sources such as social networks or sensors (home automation, smart city, autonomous vehicle, etc.). These heterogeneous and increasingly large data can be managed through semantic web technologies, which propose to homogenize, link these data and reason above them, and data flow management systems, which mainly address the problems related to volume, volatility and continuous querying. The alliance of these two disciplines has seen the growth of semantic data stream management systems also called RSP (RDF Stream Processing Systems). The objective of this thesis is to allow these systems, via new approaches and "low cost" algorithms, to remain operational, even more efficient, even for large input data volumes and/or with limited system resources.To reach this goal, our thesis is mainly focused on the issue of "Processing semantic data streamsin a context of computer systems with limited resources". It directly contributes to answer the following research questions : (i) How to represent semantic data stream ? And (ii) How to deal with input semantic data when their rates and/or volumes exceed the capabilities of the target system ?As first contribution, we propose an analysis of the data in the semantic data streams in order to consider a succession of star graphs instead of just a success of andependent triples, thus preserving the links between the triples. By using this approach, we significantly impoved the quality of responses of some well known sampling algoithms for load-shedding. The analysis of the continuous query allows the optimisation of this solution by selection the irrelevant data to be load-shedded first. In the second contribution, we propose an algorithm for detecting frequent RDF graph patterns in semantic data streams.We called it FreGraPaD for Frequent RDF Graph Patterns Detection. It is a one pass algorithm, memory oriented and "low-cost". It uses two main data structures : A bit-vector to build and identify the RDF graph pattern, providing thus memory space optimization ; and a hash-table for storing the patterns.The third contribution of our thesis consists of a deterministic load-shedding solution for RSP systems, called POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). It uses very low-cost boolean operators, that we apply on the built binary patterns of the data and the continuous query inorder to determine which data is not relevant to be ejected upstream of the system. It guarantees a recall of 100%, reduces the system load and improves response time. Finally, in the fourth contribution, we propose Patorc (Pattern Oriented Compression for RSP systems). Patorc is an online compression toolfor RDF streams. It is based on the frequent patterns present in RDF data streams that factorizes. It is a data lossless compression solution whith very possible querying without any need to decompression.This thesis provides solutions that allow the extension of existing RSP systems and makes them able to scale in a bigdata context. Thus, these solutions allow the RSP systems to deal with one or more semantic data streams arriving at different speeds, without loosing their response quality while ensuring their availability, even beyond their physical limitations. The conducted experiments, supported by the obtained results show that the extension of existing systems with the new solutions improves their performance. They illustrate the considerable decrease in their engine’s response time, increasing their processing rate threshold while optimizing the use of their system resources Flux de données sémantiques Donnée liées Big data SPARQL continu Détection de motifs fréquents Compression Echantillonnage Semantic data streams Linked Data Big data Continuous SPARQL Frequent patterns detection Compression Sampling
43	Spatial representation of vague shape phenomena and their dynamics from sensor network data : a decentralized approach based on fuzzy logic Ntankouo Njila, Roger Cesarié 28 July 2023 (has links) Titre de l'écran-titre (visionné le 24 juillet 2023) / Les flux de données de capteurs constituent de nos jours un mécanisme fondamental fournissant aux systèmes d'information et d'aide à la décision, des données d'observation sur les phénomènes d'intérêt. Ces flux de données de capteurs sont largement utilisés pour de nombreuses applications telles que la surveillance industrielle, les interventions en cas de catastrophe, les accidents radioactifs, le contrôle de la qualité de l'air, et bien d'autres applications. La modélisation et le calcul quasi instantané d'informations spatiotemporelles sur de tels phénomènes environnementaux dynamiques sont nécessaires pour une meilleure compréhension desdits phénomènes et une prise de décision plus efficace. La plupart des approches de modélisation des phénomènes continus sont développées en supposant que les limites de tels phénomènes sont nettes, alors que de nombreux phénomènes environnementaux tels que la poussière, le bruit ou la pollution par les gaz ou les incendies de forêt ont des limites spatiales vagues. Par conséquent, il n'est généralement pas possible de détecter directement les limites des phénomènes surveillés à partir des mesures des capteurs, car ces derniers sont soit dispersés de manière aléatoire sur la zone surveillée, soit ils suivent un modèle particulier dont la localisation coïncide rarement avec les limites des phénomènes surveillés. La faible portée spatiale des observations faites par les capteurs amplifie le niveau d'imprécision spatiale qui caractérise les données des réseaux de capteurs. Par conséquent, une collaboration exempte de toute ambigüité sémantique est requise entre capteurs connectés au sein du réseau en vue d'inférer les connaissances décrivant la géométrie des phénomènes, et éventuellement les agréger pour une meilleure prise de décision. Dans un contexte de raisonnement spatial décentralisé au sein des réseaux de capteurs, assurer une collaboration transparente entre les capteurs qui peuvent être hétérogènes, permettrait de résoudre ce double niveau d'imprécision spatiale que présentent les données de réseaux de capteurs, afin de produire une meilleure représentation des phénomènes et observer leur dynamique et les interactions spatiales qui y ont lieu. L'objectif global de cette thèse est de proposer une approche de raisonnement spatial décentralisée à base de sémantique et de logique floue pour la représentation et les calculs spatiaux relatifs aux phénomènes de forme vague à partir des données du réseau de capteurs. Pour atteindre cet objectif, les objectifs spécifiques suivants ont été considérés : 1) assurer l'extraction d'objets spatiaux de type fuzzy-crisp composés d'un noyau et d'une partie conjecture, représentant les phénomènes dont les limites ne sont pas franches, à partir des données de réseaux de capteurs, 2) assurer le raisonnement et la modélisation de la dynamique d'un phénomène de forme spatiale floue décrit par des flux de données de réseau de capteurs à travers la détection décentralisée des frontières spatiotemporelles et de leur évolution ; et enfin 3) développer une approche de calcul, de modélisation et d'analyse des relations topologiques qui ont lieu entre phénomènes dont la géométrie est vague à partir d'observations au sein de réseaux de capteurs. Le développement d'une base de connaissances qui intègre la sémantique des données de capteurs, des domaines d'application, et d'objets spatiaux de type fuzzy-crisp représentant les phénomènes dont les limites sont vagues, constitue l'étape fondamentale garantissant un raisonnement sémantique décentralisé au sein des réseaux de capteurs. En plus des règles sémantiques découlant de cette base de connaissance, constituant le moteur de raisonnement des capteurs, l'usage des règles à base logique floue trivalente permet aux capteurs de statuer sur leur position relative aux frontières des phénomènes suivis et de construire leur géométrie. L'intégration de règles de raisonnement établies suivant le formalisme Event-Calculus permet aux capteurs d'inférer sur les changements affectant les limites du phénomène observé et de statuer sur sa dynamique spatiotemporelle. La détection simultanée de deux phénomènes par un capteur, peut être utilisée comme indice d'intersection de l'étendue des deux phénomènes dans la position dudit capteur. L'usage d'un modèle d'intersection intégrant les cinq parties topologiques comprenant le noyau, la conjecture et la zone extérieure et leurs frontières des objets spatiaux de type fuzzy-crisp a permis de caractériser efficacement les 44 cas de relations topologiques qui peuvent avoir lieu entre deux objets spatiaux simples de type fuzzy-crisp. Le développement de prototypes implémentés à l'aide du logiciel Netlogo pour différentes études de cas présentant des scénarios d'applications, ont été utilisées pour illustrer et évaluer la validité des approches proposées. Cette évaluation a présenté des résultats satisfaisants tant pour la modélisation de phénomènes de forme vague (représentation spatiale de pollution sonore lors du passage d'un train en zone urbaine), que pour l'analyse de la dynamique des phénomènes (évolution d'un feu de brousse) et des relations spatiales floues (relations topologiques entre un feu de brousse et une aire forestière) décrites par les données collectées par des réseaux de capteurs. / Sensor data streams are nowadays a fundamental mechanism providing information and decision systems with observational data on the phenomena of interest. These sensor data streams are widely used in many applications such as intrusion monitoring, manufacturing, disaster response, radioactive accidents, air quality monitoring, among others. Real time or near-instantaneous modelling and computation of spatiotemporal information on such dynamic environmental phenomena is necessary for a better understanding of the phenomena and more efficient decision-making. Most modelling approaches for continuous phenomena are developed assuming that the boundaries of such phenomena are sharp, whereas many environmental phenomena such as dust, noise or gas pollution or forest fires have vague spatial boundaries. Also, it is usually not possible to directly detect the boundaries of the monitored phenomena from the sensor measurements, because the sensors are either randomly scattered over the monitored area or follow a particular pattern whose location rarely coincides with the limits of the monitored phenomena. The small spatial range of observations made by sensors amplifies the level of spatial inaccuracy that characterizes data from sensor networks. Therefore, a collaboration free from any semantic ambiguity is required between sensors connected within the network in order to infer knowledge describing the geometry of phenomena, and possibly aggregate them for better decision-making. In a context of decentralized spatial reasoning within sensor networks, ensuring transparent collaboration between sensors, which may be heterogeneous, would make it possible to resolve this double level of spatial imprecision presented by sensor network data, in order to produce a better representation of observed phenomena, their dynamics and the spatial interactions that take place there. The overall objective of this thesis is to propose a decentralized spatial reasoning approach based on semantics and fuzzy logic for spatial modelling and calculations related to waveform phenomena from sensor network data. To achieve this objective, the following specific objectives were considered: 1) ensure the extraction of space objects of fuzzy-crisp type composed of a nucleus and a conjecture part, representing the phenomena whose limits are not clear , from sensor network data, 2) modeling and reasoning about the dynamics of vague shape continuous phenomena described by sensor network data streams in a decentralized spatial Computing approach, from detected spatiotemporal boundaries and their evolution, 3) develop an approach for computing, modelling and analyzing the topological relationships that take place between phenomena whose geometry is vague from observations within sensor networks. The development of a knowledge base which includes the semantics of sensor data, application domains, and that of fuzzy-crisp spatial model representing phenomena with vague boundaries, is a fundamental step to ensure seamless collaboration among sensors for decentralized semantic reasoning in sensor networks. In addition to the semantic rules derived from built knowledge base, sensors reasoning engine uses trivalent fuzzy logic rules to infer on their relative position as border nodes to monitored phenomena and to build their geometry. The integration of reasoning rules established on the basis of the Event-Calculus formalism enables sensors to infer on the changes affecting the boundaries of the observed phenomenon and also on its spatiotemporal dynamics. The simultaneous detection of two phenomena by a sensor can be used as an index of the intersection of the extent of the two phenomena at the position of the sensor. The use of an intersection model integrating the five topological parts including the core, the conjecture and the outer zone and their boundaries of the fuzzy-crisp spatial objects allowed to efficiently characterize the 44 cases of topological relations that can take place between two simple fussy-crisp spatial objects. The development of prototypes implemented with the Netlogo software which is a multi-agent system was used for different case studies of application scenario, in order to illustrate and evaluate the validity of the proposed solutions. This evaluation presented satisfactory results both for the modelling of vague phenomena (spatial representation of noise pollution around the railway in an urban area), and for the analysis of the dynamics of the phenomena from sensor network data (evolution of a bushfire) and of the fuzzy topological relations (topological relations between a bushfire and a forest area) described by the data collected sensor networks. Réseaux de capteurs. Raisonnement spatial qualitatif. Analyse spatiale (Statistique) Informatique sensible au contexte. Systèmes spatiaux -- Rendement. Systèmes d'information -- Sémantique. Logique floue. Flux de données (Informatique)
44	Approximation of OLAP queries on data warehouses / Approximation aux requêtes OLAP sur les entrepôts de données Cao, Phuong Thao 20 June 2013 (has links) Nous étudions les réponses proches à des requêtes OLAP sur les entrepôts de données. Nous considérons les réponses relatives aux requêtes OLAP sur un schéma, comme les distributions avec la distance L1 et rapprocher les réponses sans stocker totalement l'entrepôt de données. Nous présentons d'abord trois méthodes spécifiques: l'échantillonnage uniforme, l'échantillonnage basé sur la mesure et le modèle statistique. Nous introduisons également une distance d'édition entre les entrepôts de données avec des opérations d'édition adaptées aux entrepôts de données. Puis, dans l'échange de données OLAP, nous étudions comment échantillonner chaque source et combiner les échantillons pour rapprocher toutes requêtes OLAP. Nous examinons ensuite un contexte streaming, où un entrepôt de données est construit par les flux de différentes sources. Nous montrons une borne inférieure de la taille de la mémoire nécessaire aux requêtes approximatives. Dans ce cas, nous avons les réponses pour les requêtes OLAP avec une mémoire finie. Nous décrivons également une méthode pour découvrir les dépendances statistique, une nouvelle notion que nous introduisons. Nous recherchons ces dépendances en basant sur l'arbre de décision. Nous appliquons la méthode à deux entrepôts de données. Le premier simule les données de capteurs, qui fournissent des paramètres météorologiques au fil du temps et de l'emplacement à partir de différentes sources. Le deuxième est la collecte de RSS à partir des sites web sur Internet. / We study the approximate answers to OLAP queries on data warehouses. We consider the relative answers to OLAP queries on a schema, as distributions with the L1 distance and approximate the answers without storing the entire data warehouse. We first introduce three specific methods: the uniform sampling, the measure-based sampling and the statistical model. We introduce also an edit distance between data warehouses with edit operations adapted for data warehouses. Then, in the OLAP data exchange, we study how to sample each source and combine the samples to approximate any OLAP query. We next consider a streaming context, where a data warehouse is built by streams of different sources. We show a lower bound on the size of the memory necessary to approximate queries. In this case, we approximate OLAP queries with a finite memory. We describe also a method to discover the statistical dependencies, a new notion we introduce. We are looking for them based on the decision tree. We apply the method to two data warehouses. The first one simulates the data of sensors, which provide weather parameters over time and location from different sources. The second one is the collection of RSS from the web sites on Internet. OLAP Réponses proches de la requête Échange de données OLAP Flux de données Distance d'édition Algorithme d'échantillonnage Dépendances statistiques Modèle statistique OLAP Approximate query answering OLAP data exchange Streaming data Edit distance Sampling algorithm Statistical dependencies Statistical model
45	Constructive Visualization : A token-based paradigm allowing to assemble dynamic visual representation for non-experts / La visualisation constructive : un paradigme de design de visualisation qui permet d'assembler des représentations visuel dynamique pour des personnes non expertes Huron, Samuel 29 September 2014 (has links) Durant les 20 dernières années, la recherche en visualisation d’informations (InfoVis) a permis l’émergence de nouvelles techniques et méthodes qui permettent d’assister l’analyse de données intensives pour la science, l’industrie, et les gouvernements. Cependant, la plupart de ces travaux de recherches furent orientés sur des données statiques pour des utilisateurs experts.Dernièrement, des évolutions technologique et sociétales ont eu pour effet de rendre les données de plus en plus dynamiques et accessibles pour une population plus diverse. Par exemple des flux de données tels que les emails, les mises à jours de statuts sur les réseaux sociaux, les flux RSS, les systèmes de gestion de versions, et bien d’autres. Ces nouveaux types de données sont utilisés par une population qui n’est pas forcément entraînée ou éduquée à utiliser des visualisations de données. La plupart de ces personnes sont des utilisateurs occasionnels, d’autres utilisent très souvent ces données dans leurs travaux. Dans les deux cas, il est probable que ces personnes n’aient pas reçu de formation formelle en visualisation de données.Ces changements technologiques et sociétaux ont généré une multitude de nouveaux défis, car la plupart des techniques de visualisations sont conçues pour des experts et des bases de données statiques. Peu d’études ont été conduites pour explorer ces défis. Dans ce rapport de thèse, j’adresse la question suivante : « Peut-on permettre à des utilisateurs non-experts de créer leur propre visualisation et de contribuer à l’analyse de flux de données ? »La première étape pour répondre à cette question est d’évaluer si des personnes non formées à la visualisation d’informations ou aux « data sciences » peuvent effectuer des tâches d’analyse de données dynamiques utiles, en utilisant un système de visualisation adapté pour supporter cette tâche. Dans la première partie de cette dissertation, je présente différents scénarios et systèmes, qui permettent à des utilisateurs non-experts (de 20 à 300 ou 2000 à 700 000 personnes) d’utiliser la visualisation d’informations pour analyser des données dynamiques.Un autre problème important est le manque de principes génériques de design pour l’encodage visuel de visualisations d’informations dynamiques. Dans cette dissertation, je conçois, définis, et explore un espace de design pour représenter des donnés dynamiques pour des utilisateurs non-experts. Cette espace de design est structuré par des jetons graphiques représentant des éléments de données qui permettent de construire dans le temps différentes visualisations, tant classiques que nouvelles.Dans cette thèse, je propose un nouveau paradigme de conception (design) pour faciliter la réalisation de visualisation d’informations par les utilisateurs non-experts. Ce paradigme est inspiré par des théories établies en psychologie du développement, tout autant que par des pratiques passées et présentes de création de visualisation à partir d’objets tangibles. Je décris tout d’abord les composants et processus de bases qui structurent ce paradigme. Ensuite, j’utiliserai cette description pour étudier si et comment des utilisateur non-experts sont capables de créer, discuter, et mettre à jour leurs propres visualisations. Cette étude nous permettra de réviser notre modèle précédent et de fournir une première exploration des phénomènes relatifs à la création d’encodages visuels par des utilisateurs non-experts sans logiciel. En résumé, cette thèse contribue à la compréhension des visualisations dynamiques pour des utilisateurs non-experts. / During the past two decades, information visualisation (InfoVis) research has created new techniques and methods to support data- intensive analyses in science, industry and government. These have enabled a wide range of analyses tasks to be executed, with tasks varying in terms of the type and volume of data involved. However, the majority of this research has focused on static datasets, and the analysis and visualisation tasks tend to be carried out by trained expert users. In more recent years, social changes and technological advances have meant that data have become more and more dynamic, and are consumed by a wider audience. Examples of such dynamic data streams include e-mails, status updates, RSS 1 feeds, versioning systems, social networks and others. These new types of data are used by populations that are not specifically trained in information visualization. Some of these people might consist of casual users, while others might consist of people deeply involved with the data, but in both cases, they would not have received formal training in information visualization. For simplicity, throughout this dissertation, I refer to the people (casual users, novices, data experts) who have not been trained in information visualisation as non-experts.These social and technological changes have given rise to multiple challenges because most existing visualisation models and techniques are intended for experts, and assume static datasets. Few studies have been conducted that explore these challenges. In this dissertation, with my collaborators, I address the question: Can we empower non-experts in their use of visualisation by enabling them to contribute to data stream analysis as well as to create their own visualizations?The first step to answering this question is to determine whether people who are not trained in information visualisation and the data sciences can conduct useful dynamic analysis tasks using a visualisation system that is adapted to support their tasks. In the first part of this dissertation I focus on several scenarios and systems where different sized crowds of InfoVis non-experts users (20 to 300 and 2 000 to 700 000 people) use dynamic information visualisation to analyse dynamic data.Another important issue is the lack of generic design principles for the visual encoding of dynamic visualization. In this dissertation I design, define and explore a design space to represent dynamic data for non-experts. This design space is structured by visual tokens representing data items that provide the constructive material for the assembly over time of different visualizations, from classic represen- tations to new ones. To date, research on visual encoding has been focused on static datasets for specific tasks, leaving generic dynamic approaches unexplored and unexploited.In this thesis, I propose construction as a design paradigm for non-experts to author simple and dynamic visualizations. This paradigm is inspired by well-established developmental psychological theory as well as past and existing practices of visualisation authoring with tangible elements. I describe the simple conceptual components and processes underlying this paradigm, making it easier for the human computer interaction community to study and support this process for a wide range of visualizations. Finally, I use this paradigm and tangible tokens to study if and how non-experts are able to create, discuss and update their own visualizations. This study allows us to refine our previous model and provide a first exploration into how non-experts perform a visual mapping without software. In summary, this thesis contributes to the understanding of dynamic visualisation for non-expert users. Construction Visualisation dynamique Données dynamiques Flux de données Utilisateur non expert Encodage visuel Création Analyse visuelle Tweet Visualisation d'informations Social TV Conception Construction Dynamic visualisation Dynamic data Data stream Non expert user Visual mapping Authoring Visual analytic Tweet Informations visualisation Social TV Design
46	Développement de méthodes d'analyse de données en ligne / Development of methods to analyze data steams Bar, Romain 29 November 2013 (has links) On suppose que des vecteurs de données de grande dimension arrivant en ligne sont des observations indépendantes d'un vecteur aléatoire. Dans le second chapitre, ce dernier, noté Z, est partitionné en deux vecteurs R et S et les observations sont supposées identiquement distribuées. On définit alors une méthode récursive d'estimation séquentielle des r premiers facteurs de l'ACP projetée de R par rapport à S. On étudie ensuite le cas particulier de l'analyse canonique, puis de l'analyse factorielle discriminante et enfin de l'analyse factorielle des correspondances. Dans chacun de ces cas, on définit plusieurs processus spécifiques à l'analyse envisagée. Dans le troisième chapitre, on suppose que l'espérance En du vecteur aléatoire Zn dont sont issues les observations varie dans le temps. On note Rn = Zn - En et on suppose que les vecteurs Rn forment un échantillon indépendant et identiquement distribué d'un vecteur aléatoire R. On définit plusieurs processus d'approximation stochastique pour estimer des vecteurs directeurs des axes principaux d'une analyse en composantes principales (ACP) partielle de R. On applique ensuite ce résultat au cas particulier de l'analyse canonique généralisée (ACG) partielle après avoir défini un processus d'approximation stochastique de type Robbins-Monro de l'inverse d'une matrice de covariance. Dans le quatrième chapitre, on considère le cas où à la fois l'espérance et la matrice de covariance de Zn varient dans le temps. On donne finalement des résultats de simulation dans le chapitre 5 / High dimensional data are supposed to be independent on-line observations of a random vector. In the second chapter, the latter is denoted by Z and sliced into two random vectors R et S and data are supposed to be identically distributed. A recursive method of sequential estimation of the factors of the projected PCA of R with respect to S is defined. Next, some particular cases are investigated : canonical correlation analysis, canonical discriminant analysis and canonical correspondence analysis ; in each case, several specific methods for the estimation of the factors are proposed. In the third chapter, data are observations of the random vector Zn whose expectation En varies with time. Let Rn = Zn - En be and suppose that the vectors Rn form an independent and identically distributed sample of a random vector R. Stochastic approximation processes are used to estimate on-line direction vectors of the principal axes of a partial principal components analysis (PCA) of ~Z. This is applied next to the particular case of a partial generalized canonical correlation analysis (gCCA) after defining a stochastic approximation process of the Robbins-Monro type to estimate recursively the inverse of a covariance matrix. In the fourth chapter, the case when both expectation and covariance matrix of Zn vary with time n is considered. Finally, simulation results are given in chapter 5 Big Data Flux de données Analyse en composantes principales (ACP) ACP projetée Analyse canonique généralisée (ACG) Approximation stochastique Big data Data streams Principal components analysis (PCA) Projected PCA Stochastic approximation 519.5
47	Sustainable Declarative Monitoring Architecture : Energy optimization of interactions between application service oriented queries and wireless sensor devices : Application to Smart Buildings / Architecture de monitoring déclaratif durable : Optimisation énergétique des interactions entre requêtes applicatives orientées service et réseau de capteurs sans fil : Application aux bâtiments intelligents Pinarer, Ozgun 15 December 2017 (has links) La dernière décennie a montré un intérêt croissant pour les bâtiments intelligents. Les bâtiments traditionnels sont les principaux consommateurs d’une partie importante des ressources énergétiques, d'où le besoin de bâtiments intelligents a alors émergé. Ces nouveaux bâtiments doivent être conçus selon des normes de construction durables pour consommer moins. Ces bâtiments intelligents sont devenus l’un des principaux domaines d’application des environnements pervasifs. En effet, une infrastructure basique de construction de bâtiment intelligent se compose notamment d’un ensemble de capteurs sans fil. Les capteurs basiques permettent l’acquisition, la transmission et la réception de données. La consommation d’énergie élevée de l’ensemble de ces appareils est un des problèmes les plus difficiles et fait donc l’objet d’études dans ce domaine de la recherche. Les capteurs sont autonomes en termes d’énergie. Etant donné que la consommation d’énergie a un fort impact sur la durée de vie du service, il existe plusieurs approches dans la littérature. Cependant, les approches existantes sont souvent adaptées à une seule application de surveillance et reposent sur des configurations statiques pour les capteurs. Dans cette thèse, nous contribuons à la définition d’une architecture de surveillance déclaratif durable par l’optimisation énergétique des interactions entre requêtes applicative orientées service et réseau de capteurs sans fil. Nous avons choisi le bâtiment intelligent comme cas d’application et nous étudions donc un système de surveillance d’un bâtiment intelligent. Du point de vue logiciel, un système de surveillance peut être défini comme un ensemble d’applications qui exploitent les mesures des capteurs en temps réel. Ces applications sont exprimées dans un langage déclaratif sous la forme de requêtes continues sur les flux de données des capteurs. Par conséquent, un système de multi-applications nécessite la gestion de plusieurs demandes de flux de données suivant différentes fréquences d’acq/tx de données pour le même capteur sans fil, avec des exigences dynamiques requises par les applications. Comme une configuration statique ne peut pas optimiser la consommation d’énergie du système, nous proposons une approche intitulée Smart-Service Stream-oriented Sensor Management (3SoSM) afin d’optimiser les interactions entre les exigences des applications et l’environnement des capteurs sans fil, en temps réel. 3SoSM offre une configuration dynamique des capteurs pour réduire la consommation d’énergie tout en satisfaisant les exigences des applications en temps réel. Nous avons conduit un ensemble d’expérimentations effectuées avec un simulateur de réseau de capteurs sans fil qui ont permis de valider notre approche quant à l’optimisation de la consommation d’énergie des capteurs, et donc l’augmentation de la durée de vie de ces capteurs, en réduisant notamment les communications non nécessaires. / Recent researches and analysis reports declare that high energy consumption of buildings is major problem in developed countries. As a result, they show concretely that building energy management systems (BEMS) and deployed wireless sensor network environments are important for energy efficiency of building operations. In the literature, existing smart building management systems focus on energy consumption of the building, hardware deployed inside/outside of the building and network communication issues. They adopt static configurations for wireless sensor devices and proposed models are fitted to a single application. In this study, we propose a sustainable declarative monitoring architecture that focus on the energy optimisation of interactions between application service oriented queries and wireless sensor devices. We consider the monitoring system as a set of applications that exploit sensor measures in real time such as HVAC automation and control systems, real time supervision, security. These applications can be configured dynamically by the users or by the supervisor. In our approach, we take a data point of view: applications are declaratively expressed as a set of continuous queries on the sensor data stream. To achieve our objective of energy aware optimization of the monitoring architecture, we formalize sensor device configuration and fit data acquisition and data transmission to actual applications requirements. We present a complete monitoring architecture and an algorithm that handles dynamic sensor configuration. We introduce a platform that covers physical and also simulated wireless sensor devices. Télécommunications Communication sans fil Environnement pervasif Réseau de capteurs sans fil Gestion de flux de données Traitement de requête continue Telecommunications Wireless communication Pervasif environment Wireless sensor network Data stream management Continuous query processor 621.384 507 2
48	Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'informations changeant au cours du temps Kassab, Randa 11 May 2009 (has links) (PDF) De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps.<br /><br />L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données. <br /><br />Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples. [INFO] Computer Science apprentissage automatique réseaux de neurones détection de nouveauté flux de données dérive de concept filtrage basé sur le contenu modélisation utilisateur
49	Détection d'anomalies à la volée dans des flux de données de grande dimension Bellas, Anastasios 28 January 2014 (has links) (PDF) Le thème principal de cette thèse est d'étudier la détection d'anomalies dans des flux de données de grande dimension avec une application spécifique au \emph{Health Monitoring} des moteurs d'avion. Dans ce travail, on considère que le problème de la détection d'anomalies est un problème d'apprentissage non supervisée. Les données modernes, notamment celles issues de la surveillance des systèmes industriels sont souvent des flux d'observations de grande dimension, puisque plusieurs mesures sont prises à de hautes fréquences et à un horizon de temps qui peut être infini. De plus, les données peuvent contenir des anomalies (pannes) du système surveillé. La plupart des algorithmes existants ne peuvent pas traiter des données qui ont ces caractéristiques. Nous introduisons d'abord un algorithme de clustering probabiliste offline dans des sous-espaces pour des données de grande dimension qui repose sur l'algorithme d'espérance-maximisation (EM) et qui est, en plus, robuste aux anomalies grâce à la technique du trimming. Ensuite, nous nous intéressons à la question du clustering probabiliste online de flux de données de grande dimension en développant l'inférence online du modèle de mélange d'analyse en composantes principales probabiliste. Pour les deux méthodes proposées, nous montrons leur efficacité sur des données simulées et réelles, issues par exemple des moteurs d'avion. Enfin, nous développons une application intégrée pour le Health Monitoring des moteurs d'avion dans le but de détecter des anomalies de façon dynamique. Le système proposé introduit des techniques originales de détection et de visualisation d'anomalies reposant sur les cartes auto-organisatrices. Des résultats de détection sont présentés et la question de l'identification des anomalies est aussi discutée. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Classification détection d'anomalies données de grande dimension flux de données trimming clustering online mélange de PPCA online cartes auto-organisatrices moteurs d'avions Health Monitoring
50	Développement de méthodes d'analyse de données en ligne Bar, Romain 29 November 2013 (has links) (PDF) On suppose que des vecteurs de données de grande dimension arrivant en ligne sont des observations indépendantes d'un vecteur aléatoire. Dans le second chapitre, ce dernier, noté Z, est partitionné en deux vecteurs R et S et les observations sont supposées identiquement distribuées. On définit alors une méthode récursive d'estimation séquentielle des r premiers facteurs de l'ACP projetée de R par rapport à S. On étudie ensuite le cas particulier de l'analyse canonique, puis de l'analyse factorielle discriminante et enfin de l'analyse factorielle des correspondances. Dans chacun de ces cas, on définit plusieurs processus spécifiques à l'analyse envisagée. Dans le troisième chapitre, on suppose que l'espérance θn du vecteur aléatoire Zn dont sont issues les observations varie dans le temps. On note Zn_tilde = Zn − θn et on suppose que les vecteurs Zn_tilde forment un échantillon indépendant et identiquement distribué d'un vecteur aléatoire Z_tilde. On définit plusieurs processus d'approximation stochastique pour estimer des vecteurs directeurs des axes principaux d'une analyse en composantes principales (ACP) partielle de Z_tilde. On applique ensuite ce résultat au cas particulier de l'analyse canonique généralisée (ACG) partielle après avoir défini un processus d'approximation stochastique de type Robbins-Monro de l'inverse d'une matrice de covariance. Dans le quatrième chapitre, on considère le cas où à la fois l'espérance et la matrice de covariance de Zn varient dans le temps. On donne finalement des résultats de simulation dans le chapitre 5. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Big Data flux de données Analyse en composantes principales (ACP) ACP projetée analyse canonique généralisée (ACG) approximation stochastique

Search results