Global ETD Search

311	Secret sharing approaches for secure data warehousing and on-line analysis in the cloud / Approches de partage de clés secrètes pour la sécurisation des entrepôts de données et de l’analyse en ligne dans le nuage Attasena, Varunya 22 September 2015 (has links) Les systèmes d’information décisionnels dans le cloud Computing sont des solutions de plus en plus répandues. En effet, ces dernières offrent des capacités pour l’aide à la décision via l’élasticité des ressources pay-per-use du Cloud. Toutefois, les questions de sécurité des données demeurent une des principales préoccupations notamment lorsqu'il s’agit de traiter des données sensibles de l’entreprise. Beaucoup de questions de sécurité sont soulevées en terme de stockage, de protection, de disponibilité, d'intégrité, de sauvegarde et de récupération des données ainsi que des transferts des données dans un Cloud public. Les risques de sécurité peuvent provenir non seulement des fournisseurs de services de cloud computing mais aussi d’intrus malveillants. Les entrepôts de données dans les nuages devraient contenir des données sécurisées afin de permettre à la fois le traitement d'analyse en ligne hautement protégé et efficacement rafraîchi. Et ceci à plus faibles coûts de stockage et d'accès avec le modèle de paiement à la demande. Dans cette thèse, nous proposons deux nouvelles approches pour la sécurisation des entrepôts de données dans les nuages basées respectivement sur le partage vérifiable de clé secrète (bpVSS) et le partage vérifiable et flexible de clé secrète (fVSS). L’objectif du partage de clé cryptée et la distribution des données auprès de plusieurs fournisseurs du cloud permet de garantir la confidentialité et la disponibilité des données. bpVSS et fVSS abordent cinq lacunes des approches existantes traitant de partage de clés secrètes. Tout d'abord, ils permettent le traitement de l’analyse en ligne. Deuxièmement, ils garantissent l'intégrité des données à l'aide de deux signatures interne et externe. Troisièmement, ils aident les utilisateurs à minimiser le coût de l’entreposage du cloud en limitant le volume global de données cryptées. Sachant que fVSS fait la répartition des volumes des données cryptées en fonction des tarifs des fournisseurs. Quatrièmement, fVSS améliore la sécurité basée sur le partage de clé secrète en imposant une nouvelle contrainte : aucun groupe de fournisseurs de service ne peut contenir suffisamment de volume de données cryptées pour reconstruire ou casser le secret. Et cinquièmement, fVSS permet l'actualisation de l'entrepôt de données, même si certains fournisseurs de services sont défaillants. Pour évaluer l'efficacité de bpVSS et fVSS, nous étudions théoriquement les facteurs qui influent sur nos approches en matière de sécurité, de complexité et de coût financier dans le modèle de paiement à la demande. Nous validons également expérimentalement la pertinence de nos approches avec le Benchmark schéma en étoile afin de démontrer son efficacité par rapport aux méthodes existantes. / Cloud business intelligence is an increasingly popular solution to deliver decision support capabilities via elastic, pay-per-use resources. However, data security issues are one of the top concerns when dealing with sensitive data. Many security issues are raised by data storage in a public cloud, including data privacy, data availability, data integrity, data backup and recovery, and data transfer safety. Moreover, security risks may come from both cloud service providers and intruders, while cloud data warehouses should be both highly protected and effectively refreshed and analyzed through on-line analysis processing. Hence, users seek secure data warehouses at the lowest possible storage and access costs within the pay-as-you-go paradigm.In this thesis, we propose two novel approaches for securing cloud data warehouses by base-p verifiable secret sharing (bpVSS) and flexible verifiable secret sharing (fVSS), respectively. Secret sharing encrypts and distributes data over several cloud service providers, thus enforcing data privacy and availability. bpVSS and fVSS address five shortcomings in existing secret sharing-based approaches. First, they allow on-line analysis processing. Second, they enforce data integrity with the help of both inner and outer signatures. Third, they help users minimize the cost of cloud warehousing by limiting global share volume. Moreover, fVSS balances the load among service providers with respect to their pricing policies. Fourth, fVSS improves secret sharing security by imposing a new constraint: no cloud service provide group can hold enough shares to reconstruct or break the secret. Five, fVSS allows refreshing the data warehouse even when some service providers fail. To evaluate bpVSS' and fVSS' efficiency, we theoretically study the factors that impact our approaches with respect to security, complexity and monetary cost in the pay-as-you-go paradigm. Moreover, we also validate the relevance of our approaches experimentally with the Star Schema Benchmark and demonstrate its superiority to related, existing methods. Entrepôts de données Analyse en ligne (OLAP) Infonuagique Partage de clés secrètes Confidentialité des données Disponibilité des données Intégrité des données Data Warehouses On-line analysis processing (OLAP) Cloud computing Secret sharing Data privacy Data availability Data integrity
312	Le droit et l'intelligence ambiante / The Law face to pervasive intelligence Aubert, Stéphane 07 December 2010 (has links) La RFId provoque une évolution dans les moyens d'identification. Exprimant dans un premier temps une logique issue du code à barres, sa mise en œuvre a eu pour finalité d'améliorer la traçabilité pour des raisons essentiellement sanitaires et logistiques. Cependant ce mode d'identification concerne, chaque jour davantage, les personnes physiques. Techniquement c'est au moyen de systèmes RFId que sont mis en œuvre les nouveaux passeports biométriques et cartes nationales d'identité électroniques. C'est également au moyen de ces systèmes que fonctionnent les titres de transport, ou encore les badges des salariés. L'identification est ainsi accrue dans sa précision, mais également dans sa réalisation dans l'espace, et dans le temps. La loi informatique et libertés permet aux personnes physiques de bénéficier d'une protection de leurs données personnelles. Dans le respect de cette loi, les responsables de traitements RFId, identifiant une personne physique, seront tenus de respecter un certain nombre d'obligations. Le recours au consentement des traitements, comme critère de légitimité, modifie l'équilibre du droit des données personnelles. Afin de garantir la protection la plus satisfaisante, de nouveaux moyens sont envisagés. Ceux-ci cherchent à intégrer des procédés techniques, ou encore à offrir à la personne le soin d'assurer elle-même la garantie de ses droits individuels. Le droit fait face, une nouvelle fois, à un défi issu des technologies de l'information et de la communication, dans le respect de ses attributions, et doit permettre qu'un équilibre soit maintenu entre les contraintes économiques et les droits individuels. / RFId implies an evolution of identification technicity. Although, at the beginning, issue of the logic which gave birth to the bar code, this finally developed into a system improving tracability in spheres such as sanitation and logistics. However, more and more each day, this method of identification affects individual, physical, people.It is through this technical progress,that RFId systems produced the new biometric passports and electronic national identity cards. This is also the case for transport vouchers and identity badges for staff, which function using the same systems.Identification precision is thus increased, as also the realisation of identity control at distance .The « informatique et libertés » law is purposed to guarantee people the protection of their private personal details.In order to conform to this law, people responsable for dealing with RFId, which identifies an individual, are constrained to respect a certain nu mber of obligations. Citing previous consent as a criteria of legitimacy, modifies the equilibrium of the law governing personal data .In order to guarantee a more satisfactory protection, new means are envisaged, including integration of technical procedures,or, perhaps, offering to the individual the possibility of guaranteeing his own rights. Once again, the Law has to face up to a new challenge, outcoming from information and communicatio techniques, whilst respecting the limits of its own attributions, and must maintain the equilibrium between economic constraints and individual liberties. RFid Libertés individuelles Données personnelles RFid Individual liberties Personnal data
313	La décomposition en polynôme du chaos pour l'amélioration de l'assimilation de données ensembliste en hydraulique fluviale El Moçayd, Nabil 01 March 2017 (has links) (PDF) Ce travail porte sur la construction d'un modèle réduit en hydraulique fluviale avec une méthode de décomposition en polynôme du chaos. Ce modèle réduit remplace le modèle direct afin de réduire le coût de calcul lié aux méthodes ensemblistes en quantification d'incertitudes et assimilation de données. Le contexte de l'étude est la prévision des crues et la gestion de la ressource en eau. Ce manuscrit est composé de cinq parties, chacune divisée en chapitres. La première partie présente un état de l'art des travaux en quantification des incertitudes et en assimilation de données dans le domaine de l'hydraulique ainsi que les objectifs de la thèse. On présente le cadre de la prévision des crues, ses enjeux et les outils dont on dispose pour prévoir la dynamique des rivières. On présente notamment la future mission SWOT qui a pour but de mesurer les hauteurs d'eau dans les rivières avec un couverture globale à haute résolution. On précise notamment l'apport de ces mesures et leur complémentarité avec les mesures in-situ. La deuxième partie présente les équations de Saint-Venant, qui décrivent les écoulements dans les rivières, ainsi qu'une discrétisation numérique de ces équations, telle qu'implémentée dans le logiciel Mascaret-1D. Le dernier chapitre de cette partie propose des simplifications des équations de Saint-Venant. La troisième partie de ce manuscrit présente les méthodes de quantification et de réduction des incertitudes. On présente notamment le contexte probabiliste de la quantification d'incertitudes et d'analyse de sensibilité. On propose ensuite de réduire la dimension d'un problème stochastique quand on traite de champs aléatoires. Les méthodes de décomposition en polynômes du chaos sont ensuite présentées. Cette partie dédiée à la méthodologie s'achève par un chapitre consacré à l'assimilation de données ensemblistes et à l'utilisation des modèles réduits dans ce cadre. La quatrième partie de ce manuscrit est dédiée aux résultats. On commence par identifier les sources d'incertitudes en hydraulique que l'on s'attache à quantifier et réduire par la suite. Un article en cours de révision détaille la validation d'un modèle réduit pour les équations de Saint-Venant en régime stationnaire lorsque l'incertitude est majoritairement portée par les coefficients de frottement et le débit à l'amont. On montre que les moments statistiques, la densité de probabilité et la matrice de covariances spatiales pour la hauteur d'eau sont efficacement et précisément estimés à l'aide du modèle réduit dont la construction ne nécessite que quelques dizaines d'intégrations du modèle direct. On met à profit l'utilisation du modèle réduit pour réduire le coût de calcul du filtre de Kalman d'Ensemble dans le cadre d'un exercice d'assimilation de données synthétiques de type SWOT. On s'intéresse précisément à la représentation spatiale de la donnée telle que vue par SWOT: couverture globale du réseau, moyennage spatial entre les pixels observés. On montre notamment qu'à budget de calcul donné les résultats de l'analyse d'assimilation de données qui repose sur l'utilisation du modèle réduit sont meilleurs que ceux obtenus avec le filtre classique. On s'intéresse enfin à la construction du modèle réduit en régime instationnaire. On suppose ici que l'incertitude est liée aux coefficients de frottement. Il s'agit à présent de juger de la nécessité du recalcul des coefficients polynomiaux au fil du temps et des cycles d'assimilation de données. Pour ce travail seul des données in-situ ont été considérées. On suppose dans un deuxième temps que l'incertitude est portée par le débit en amont du réseau, qui est un vecteur temporel. On procède à une décomposition de type Karhunen-Loève pour réduire la taille de l'espace incertain aux trois premiers modes. Nous sommes ainsi en mesure de mener à bien un exercice d'assimilation de données. Pour finir, les conclusions et les perspectives de ce travail sont présentées en cinquième partie. Hydrologie Polynômes du chaos Quantification des incertitudes Assimilation de données Hydraulique fluviale
314	L'interactome des domaines PDZ de Caenorhabditis elegans / Network of Caenorhabditis elegan's PDZ domains Lenfant, Nicolas 08 June 2010 (has links) Le domaine PDZ participe aux réseaux moléculaires à l’origine de fonctions cellulaires touchées lors de pathologies diverses. L’exploration de ce réseau par double hybride a permis d’attribuer de nouvelles fonctions putatives aux ligands protéiques des domaines PDZ du ver Caenorhabditis elegans. Les interactions ont laissé apparaitre une proportion inattendue de ligands atypiques interagissant par une séquence interne. Nous avons ensuite validé fonctionnellement in silico des groupes d’interactions de notre interactome qui forment des micro-réseaux co-exprimés par l’intégration de données de profils d’expression. Finalement, ce travail a permis la construction d’un outil exploratoire, le PIPE (PDZ Interacting Protein Explorer) qui permet de cribler l’ensemble des domaines PDZ du ver à la recherche d’interactions avec une protéine d’intérêt révélant déjà de nombreuses interactions supplémentaires entre domaines PDZ et ligands / PDZ domains allow the organization of molecular networks responsible for cellular functions essential for multicellularity as polarization or transduction of extracellular signals. Exploration of this network by two-hybrid revealed a functional diversity for ligands of Caenorhabditis elegans’s PDZ domains. New putative functions were being observed through GO-terms and an unexpected proportion of internal ligands appeared, confirmed by Co-IP. We then functionally validated in silico groups of interactions that form our interactome microarrays co-expressed by the integration of data from expression profiles. Finally, this work has enabled the construction of an exploratory tool, the PIPE (PDZ Interacting Protein Explorer) that allows screening of all PDZ domains looking for interactions with a protein of interest and had already showed many additional interactions between PDZ domains and ligands Domaine PDZ Interactome Integration des données Caenorhabditis Elegans Genomique Fonctionnelle
315	Données de tests non fonctionnels de l'ombre à la lumière : une approche multidimensionnelle pour déployer une base de données / On the Highlighting of Non-Functional Test Data : A Multidimensional Approach for Database Deployment Brahimi, Lahcene 03 July 2017 (has links) Le choix d'un système de gestion de bases de données (SGBD) et de plateforme d'exécution pour le déploiement est une tâche primordiale pour la satisfaction des besoins non-fonctionnels(comme la performance temporelle et la consommation d'énergie). La difficulté de ce choix explique la multitude de tests pour évaluer la qualité des bases de données (BD) développées.Cette évaluation se base essentiellement sur l'utilisation des métriques associées aux besoins non fonctionnels. En effet, une mine de tests existe couvrant toutes les phases de cycle de vie de conception d'une BD. Les tests et leurs environnements sont généralement publiés dans des articles scientifiques ou dans des sites web dédiés comme le TPC (Transaction Processing Council).Par conséquent, cette thèse contribue à la capitalisation et l'exploitation des tests effectués afin de diminuer la complexité du processus de choix. En analysant finement les tests, nous remarquons que chaque test porte sur les jeux de données utilisés, la plateforme d'exécution, les besoins non fonctionnels, les requêtes, etc. Nous proposons une démarche de conceptualisation et de persistance de toutes .ces dimensions ainsi que les résultats de tests. Cette thèse a donné lieu aux trois contributions. (1) Une conceptualisation basée sur des modélisations descriptive,prescriptive et ontologique pour expliciter les différentes dimensions. (2) Le développement d'un entrepôt de tests multidimensionnel permettant de stocker les environnements de tests et leurs résultats. (3) Le développement d'une méthodologie de prise de décision basée sur un système de recommandation de SGBD et de plateformes. / Choosing appropriate database management systems (DBMS) and/or execution platforms for given database (DB) is complex and tends to be time- and effort-intensive since this choice has an important impact on the satisfaction of non-functional requirements (e.g., temporal performance or energy consumption). lndeed, a large number of tests have been performed for assessing the quality of developed DB. This assessment often involves metrics associated with non-functional requirement. That leads to a mine of tests covering all life-cycle phases of the DB's design. Tests and their environments are usually published in scientific articles or specific websites such as Transaction Processing Council (TPC). Therefore, this thesis bas taken a special interest to the capitalization and the reutilization of performed tests to reduce and mastery the complexity of the DBMS/platforms selection process. By analyzing the test accurately, we identify that tests concem: the data set, the execution platform, the addressed non-functional requirements, the used queries, etc. Thus, we propose an approach of conceptualization and persistence of all dimensions as well as the results of tests. Conseguently, this thesis leads to the following contributions. (1) The design model based on descriptive, prescriptive and ontological concepts to raise the different dimensions. (2) The development of a multidimensional repository to store the test environments and their results. (3) The development of a decision making methodology based on a recommender system for DBMS and platforms selection. Database management system (DMS)
316	Utilisation des déformations spatiales en assimilation de données / Use of spatial deformation in data assimilation Legrand, Raphaël 10 December 2015 (has links) L'assimilation de données permet de construire un état initial du modèle (l'analyse) à partir de deux sources d'information : les observations disponibles et une prévision récente (l'ébauche). L'importance relative de chacune des sources dépend du modèle d'erreurs qui leur est attribué. Le modèle le plus commun en prévision numérique du temps (PNT) consiste à formuler l'erreur d'ébauche comme un incrément additif en amplitude et, avec une approche probabiliste, de spécifier sa fonction de densité de probabilité (PDF) par une Gaussienne spécifiée avec une moyenne nulle et une matrice de covariance B. Le premier problème abordé durant cette thèse est le manque de dépendance au flux des modélisations de B. Le deuxième est l'écartement à l'hypothèse Gaussienne notamment en présence d'erreurs de déplacement. La démarche suivie est d'utiliser des déformations spatiales dans un cadre ensembliste pour raffiner la modélisation des corrélations d'erreurs d'ébauche, et de corriger les erreurs de déplacement pour tenter de se rapprocher de l'hypothèse Gaussienne. La première partie du travail de thèse consiste à améliorer la modélisation de B, en prenant en compte objectivement l'anisotropie des corrélations d'erreurs d'ébauche à l'aide de déformations spatiales estimées statistiquement à partir d'un ensemble de prévisions générées avec un ensemble d'assimilation (EDA). Cette méthode statistique (ST) est appliquée à une simulation réelle du modèle global de Météo-France ARPEGE, et son efficacité est comparée à celle de la transformée géostrophique (GT) à l'aide de diagnostics d'anisotropie. Les résultats montrent que la ST est plus efficace que la GT avec une prise en compte plus systématique de l'anisotropie des corrélations spatiales. Dans une deuxième partie, une documentation de la non-Gaussianité (NG) des erreurs d'ébauche d'AROME, le modèle à échelle convective de Météo-France, est proposée. La NG des distributions d'erreurs d'ébauche, diagnostiquées à partir d'un EDA, est quantifiée par un indice uniquement basé sur leur asymétrie et leur aplatissement. La NG diagnostiquée a une forte dépendance spatiale et temporelle, avec des structures spatiales qui suivent les structures météorologiques. Le lien avec certains processus non-linéaires , liés par exemple à la présence de nuages, est notamment observé. Les diagnostics montrent également que le processus d'analyse réduit fortement la NG observée dans l'ébauche, et que la vorticité et la divergence sont les variables de contrôle de l'assimilation les moins Gaussiennes. Une des causes possibles de la NG étant la présence d'erreurs de déplacement, la troisième partie de ce travail de thèse s'attache à documenter les apports de ce modèle d'erreurs alternatif. Un algorithme d'estimation des erreurs de déplacements a tout d'abord été mis en place. Cet algorithme, qui s'inspire des méthodes d'estimation du flot optique, se base sur une approche variationnelle quasi-linéaire, quasi Gaussienne et multi-échelles. Le comportement de la méthode a été testé sur des cas idéalisés, puis sur des cas réels basés sur des prévisions AROME. Ceci permet d'envisager à l'avenir l'estimation statistique des principaux paramètres caractérisants ce type d' erreurs, ainsi que leur exploitation dans des algorithmes visant à corriger ces erreurs en amont de la correction d'amplitude. / Data assimilation provides initial conditions (the analysis) for the model from two sources of information: the available observations and a short term forecast (the background). The relative weights of both sources depend on the chosen error model. Usually, background errors are modeled as additive amplitude errors and, following a probabilistic approach, their probability density function (PDF) are modeled as Gaussians, specified with a zero mean and a covariance matrix B. For this PhD, the tackled issue are the lack of flow dependency of B and the non-Gaussianity (NG) frequently arising in numerical weather prediction (NWP), especially in case of displacement error. Using spatial deformation methods and ensemble of forecasts generated from an ensemble of data (EDA), the aim of this work is to refine the model of background error correlations, and to correct displacement errors as a possible way to get closer to the Gaussian hypothesis. A first part of this work is to improve the B modeling, by accounting objectively for the anisotropy of the background error correlations thanks to spatial deformation, which is statistically estimated from an EDA. This statistical method (ST) is applied to a real dataset of ARPEGE, the global model at Météo-France. The ST is compared to an other spatial warping method, the geostrophic transform (GT), and their efficiency are quantified by an anisotropy index. Results show a better efficiency of the ST than the GT, with a more systematic accounting of the anisotropy of the spatial background correlations. The second part of this work is a documentation of the NG for the background errors of AROME, the convective scale model at Météo-France. Distributions are diagnosed from an EDA, and their Gaussianity is quantified with a statistical index only based on two shape parameters, skewness and kurtosis. The diagnosed NG is spatially and temporally dependent, with large similarities between meteorological and NG structures. Links with nonlinear processes, linked for example to cloud covering, are observed. Diagnostics also show that the analysis step is largely decreasing the observed NG of the background, and that the most non-Gaussian variables in control space are vorticity and divergence. Since, a possible reason of the NG is the displacement errors, the third part of this PhD work aims at getting insight in the documentation of this alternative error model. First, a quasi-linear, quasi-Gaussian and multi-scale method, inspired from optical flow estimation methods, is derived. It has been tested on ideal case and on real cases based on AROME forecast fields. Future works may be, first, a statistical estimation of the main parameters characterizing this kind of error, and second, the use of this algorithm to correct displacement error upstream of the additive error correction. Assimilation de données Déformation spatiale Flot optique Covariances d'erreurs
317	Conception et implémentation semi-automatique des entrepôts de données : application aux données écologiques / Semi-automatic conception and implementation of data warehouses : application to ecological data Sautot, Lucile 09 October 2015 (has links) Cette thèse traite de la conception semi-automatique d'entrepôts de données et des cubes OLAP associés pour l'analyse de données écologiques.Les sciences biologiques, notamment l'écologie et l'agronomie, génèrent des données qui nécessitent un effort de collecte important : plusieurs années sont souvent nécessaires pour obtenir un jeu de données complets. De plus, les objets et les phénomènes étudiés par ces sciences sont complexes et nécessite l'enregistrement de nombreux paramètres pour être appréhendés. Enfin, le recueil de données complexes sur un temps long a pour conséquence un risque accru d’inconsistance au sein de ces données. Ainsi, ces sciences génèrent des données nombreuses, hétérogènes, voir inconsistantes.Il est donc intéressant de proposer aux scientifiques travaillant dans les sciences du vivant des systèmes d'information capable de stocker et de restituer leurs données, en particulier quand celles ci présentent un volume important. Parmi les outils existants, les outils de l'informatique décisionnelle, notamment les systèmes d'analyse en ligne (On-Line Analytical processing : OLAP), ont particulièrement retenu notre attention, car il s'agit de processus d'analyse de données sur de larges collections de données historiques (c'est-à-dire un entrepôt de données) afin d'offrir un support à la prise de décision. L'informatique décisionnelle propose des outils qui permettent à leurs utilisateurs d'explorer de larges volumes de données, dans le but de découvrir des modèles et des connaissances au sein de ces données, et ainsi d'éventuellement confirmer leurs hypothèses.Cependant, les systèmes OLAP sont des systèmes d'information complexes dont la mise en place nécessite des compétences avancées en informatique décisionnelle. Ainsi, bien qu'ils aient des caractéristiques intéressantes pour gérer et analyser des données multidimensionnelles, leur complexité les rend difficilement accessibles pour des utilisateurs potentiels, qui ne seraient pas des informaticiens professionnels.Dans la littérature, plusieurs travaux se sont penchés sur la conception automatique de schéma multidimensionnel, mais les exemples proposés par ces travaux concernaient des données classiques. Par ailleurs, d'autres articles traitent de la modélisation multidimensionnelle adaptée à des données complexes (inconsistance, données hétérogènes, intégration d'objets spatiaux, de textes, d'images au sein d'un entrepôt …) mais les méthodes proposées par ces travaux sont rarement automatique.C'est pourquoi l'objectif de ce travail de thèse est de proposer une méthode de conception d'entrepôt de données et des cubes OLAP associés la plus automatique possible. Cette méthode doit être capable de prendre en compte la complexité des données inhérente aux sciences biologiques.Pour tester les différents prototypes que nous avons proposé durant ce travail de thèse, nous avons disposé d'un jeu de données concernant l'abondance des oiseaux le long de la Loire. Ce jeu de données est structuré de la façon suivante : (1) nous disposons du recensement de 213 espèces d'oiseaux (décrites par un ensemble de facteurs qualitatifs, comme par exemple le régime alimentaire) en 198 points le long du fleuve pour 4 campagnes de recensement ; (2) chacun des 198 points est décrits par un ensemble de variables environnementales issues de différentes sources (relevés de terrain, images satellites, SIG). Ce sont ces variables environnementales qui posent le plus de questions en termes de modélisation multidimensionnelle. Ces données sont issues de différentes sources, parfois indépendantes des campagnes de recensement des oiseaux, et sont donc inconsistantes dans le temps et l'espace. De plus, ces données sont hétérogènes : elles peuvent se présenter sous forme de facteurs qualitatifs, quantitatifs ou encore d'objets spatiaux. Pour finir, ces données environnementales intègrent un grand nombre de facteurs (158 variables retenues) (...) / This thesis concerns the semi-automatic design of data warehouses and the associated OLAP cubes analyzing ecological data.The biological sciences, including ecology and agronomy, generate data that require an important collection effort: several years are often required to obtain a complete data set. Moreover, objects and phenomena studied by these sciences are complex and require many parameter recording to be understood. Finally, the collection of complex data over a long time results in an increased risk of inconsistency. Thus, these sciences generate numerous and heterogeneous data, which can be inconsistent. It is interesting to offer to scientists, who work in life sciences, information systems able to store and restore their data, particularly when those data have a significant volume. Among the existing tools, business intelligence tools, including online analytical systems (On-Line Analytical processing: OLAP), particularly caught our attention because it is data analysis process working on large historical collections (i.e. a data warehouse) to provide support to the decision making. The business intelligence offers tools that allow users to explore large volumes of data, in order to discover patterns and knowledge within the data, and possibly confirm their hypotheses.However, OLAP systems are complex information systems whose implementation requires advanced skills in business intelligence. Thus, although they have interesting features to manage and analyze multidimensional data, their complexity makes them difficult to manage by potential users, who would not be computer scientists.In the literature, several studies have examined the automatic multidimensional design, but the examples provided by theses works were traditional data. Moreover, other articles address the multidimensional modeling adapted to complex data (inconsistency, heterogeneous data, spatial objects, texts, images within a warehouse ...) but the proposed methods are rarely automatic. The aim of this thesis is to provide an automatic design method of data warehouse and OLAP cubes. This method must be able to take into account the inherent complexity of biological data. To test the prototypes, that we proposed in this thesis, we have prepared a data set concerning bird abundance along the Loire. This data set is structured as follows: (1) we have the census of 213 bird species (described with a set of qualitative factors, such as diet) in 198 points along the river for 4 census campaigns; (2) each of the 198 points is described by a set of environmental variables from different sources (land surveys, satellite images, GIS). These environmental variables address the most important issue in terms of multidimensional modeling. These data come from different sources, sometimes independent of bird census campaigns, and are inconsistent in time and space. Moreover, these data are heterogeneous: they can be qualitative factors, quantitative varaibles or spatial objects. Finally, these environmental data include a large number of attributes (158 selected variables) (...). Entrepôt de données OLAP Biodiversité Conception automatique Prototypage OLAP 005.7
318	Runtime mapping of dynamic dataflow applications on heterogeneous multiprocessor platforms / Déploiement à la volée d'appllications flot de données dynamiques sur plateforme multiprocesseurs hétérogène Ngo, Dinh Thanh 19 June 2015 (has links) La complexité et le nombre toujours plus grandissant des applications, notamment les standards vidéo, nécessite d’étudier des méthodes et outils pour leur déploiement sur des architectures elles aussi toujours plus complexes. En effet, afin d’atteindre les performances requises en matière de temps d’exécution ou consommation énergétique, les architectures modernes proposent des éléments de calculs hétérogènes, où chacun est spécialisé pour une fonction précise. Cette thèse s’appuie sur le modèle flot de données pour la spécification de l’application. Ce modèle permet d’exposer explicitement le parallélisme spatial et temporel de l’application à travers un réseau d’acteurs interconnectés par des canaux de type FIFO. Les acteurs, en charge du calcul, peuvent exhiber un comportement statique ou dynamique. Les derniers standards vidéo contraignent à s’appuyer sur les modèles dynamiques pour obtenir une spécification fonctionnelle. Les besoins de calcul sont alors dépendants des données à traiter. Le déploiement d’une application dynamique ne peut donc se faire à l’aide des approches statiques existantes dans la littérature. L’objectif de cette thèse est de proposer des algorithmes efficaces permettant de déployer à la volée une application flot de données dynamique sur une architecture multiprocesseurs hétérogène. La première contribution est un algorithme qui permet de trouver rapidement une solution de déploiement de l’application. La deuxième contribution est un algorithme basé sur les mouvements pour adapter en cours d’exécution le déploiement en réponse aux aspects dynamiques de l’application. / Modern multimedia applications are subject to an increasing complexity with widespread standards. This has led to the interest in dataflow approach that offers a powerful perspective on parallel com- putations at high level. In the meantime, the emergence of massively parallel architectures has revealed the trend towards heterogeneous Multi-Processor System-on-Chips (MPSoCs) to offer a better perfor- mance and energy tradeoff than their homogeneous counterparts. However, this also imposes challenges to the mapping of multimedia applications on such complex architectures. This thesis presents an adaptive methodology for mapping dataflow applications on heterogeneous MPSoCs. This thesis focuses on video decoders specified in RVC-CAL language, a dedicated dataflow language for video applications. Existing static approaches cannot capture all behaviors in dynamic dataflow applications. Thus, this requires to adapt the mapping according to the input data. The algorithm offers some adaptive parameters combined with our analyt- ical communication model to improve a performance while consider- ing load balancing. We evaluate our algorithms on a set of randomly generated benchmarks and real video decoders like MPEG4-SP and HEVC. Experimental results reveal that our mapping methodology is fast enough (in milliseconds) and the runtime remapping signifi- cantly improves the initial mapping. In the remapping process, we take the migration cost into account because the reconfiguration time also contributes to the overall performance. Architecture multiprocesseurs Flot de données Multi-Processors Systeme on Chips Dataflow 004.35
319	La visualisation d’information pour les données massives : une approche par l’abstraction de données / Information visualization for big data : a data abstraction approach Sansen, Joris 04 July 2017 (has links) L’évolution et la démocratisation des technologies ont engendré une véritable explosion de l’information et notre capacité à générer des données et le besoin de les analyser n’a jamais été aussi important. Pourtant, les problématiques soulevées par l’accumulation de données (stockage, temps de traitement, hétérogénéité, vitesse de captation/génération, etc. ) sont d’autant plus fortes que les données sont massives, complexes et variées. La représentation de l’information, de part sa capacité à synthétiser et à condenser des données, se constitue naturellement comme une approche pour les analyser mais ne résout pas pour autant ces problèmes. En effet, les techniques classiques de visualisation sont rarement adaptées pour gérer et traiter cette masse d’informations. De plus,les problèmes que soulèvent le stockage et le temps de traitement se répercutent sur le système d’analyse avec par exemple, la distanciation de plus en plus forte entre la donnée et l’utilisateur : le lieu où elle sera stockée et traitée et l’interface utilisateur servant à l’analyse. Dans cette thèse nous nous intéressons à ces problématiques et plus particulièrement à l’adaptation des techniques de visualisation d’informations pour les données massives. Pour cela, nous nous intéressons tout d’abord à l’information de relation entre éléments, comment est-elle véhiculée et comment améliorer cette transmission dans le contexte de données hiérarchisées. Ensuite, nous nous intéressons à des données multivariées,dont la complexité à un impact sur les calculs possibles. Enfin, nous présentons les approches mises en oeuvre pour rendre nos méthodes compatibles avec les données massives. / The evolution and spread of technologies have led to a real explosion of information and our capacity to generate data and our need to analyze them have never been this strong. Still, the problems raised by such accumulation (storage, computation delays, diversity, speed of gathering/generation, etc. ) is as strong as the data are big, complex and varied. Information visualization,by its ability to summarize and abridge data was naturally established as appropriate approach. However, it does not solve the problem raised by Big Data. Actually, classical visualization techniques are rarely designed to handle such mass of information. Moreover, the problems raised by data storage and computation time have repercussions on the analysis system. For example,the increasing distance between the data and the analyst : the place where the data is stored and the place where the user will perform the analyses arerarely close. In this thesis, we focused on these issues and more particularly on adapting the information visualization techniques for Big Data. First of all focus on relational data : how does the existence of a relation between entity istransmitted and how to improve this transmission for hierarchical data. Then,we focus on multi-variate data and how to handle their complexity for the required computations. Finally, we present the methods we designed to make our techniques compatible with Big Data. Visualisation d’information Exploration Données massives Données relationnelles Données multivariées Données hiérarchiques Graphes orientés pondérés Information visualization Data exploration Big data Relational data Multivariate data Hierarchical data Directed weighted graphs
320	The concept measurement, and integration of response shift phenomenon in Patient-Reported Outcomes data analyses : on certain methodological and statistical considerations. Vanier, Antoine 18 October 2016 (has links) Les données rapportées par les patients sont maintenant fréquemment utilisées en recherche biomédicale. Ces instruments permettent la mesure de concepts subjectifs tels que la qualité de vie, les niveaux d’anxiété, de douleur, de fatigue. L’interprétation d’une différence de score au cours du temps était basée sur l’hypothèse que le sens des concepts et échelles restai stable au cours du temps dans l’esprit des individus. Cette hypothèse semble aujourd’hui dépassée. L’auto-évaluation d’un concept est maintenant comprise comme contingente de la représentation subjective qu’à un sujet du dit concept, cette représentation pouvant changer au cours du temps, surtout après avoir vécu un évènement de santé : ce phénomène est connu comme le « response shift ». Depuis la fin des années 1990s, l’investigation de ce phénomène est devenue un sujet d’intérêt majeur en psychométrie. Si des développements ont vu le jour, ce sujet reste récent et donc accompagné de débats variés que ce soit sur le plan théorique ou méthodologique. Aussi, l’objectif général de cette thèse est d’investiguer certaines problématiques méthodologiques et statistiques liées au response shift. Ce manuscrit est composé de trois travaux principaux : un état de l’art et une synthèse des travaux conduits à un niveau international depuis que le response shift est étudié, une étude pilote des performances de la procédure d’Oort (une méthode populaire de détection de response shift) par simulations et un travail théorique sur les liens entre response shift et complexité sémantique des concepts mesurés et items utilisés. / Patient-Reported Outcomes are increasingly used in health-related research. These instruments allow the assessment of subjective concepts such as Health-Related Quality of Life, anxiety level, pain or fatigue. Initially, the interpretation of a difference in score over time was based on the assumption that the meaning of concepts and measurement scales remains stable in individuals’ minds over time. This assumption has been challenged. Indeed, the self-assessment of a concept is now understood as a contingency of the subjective meaning a subject has of this concept, which can change over time especially as a result of a salient medical event: the “response shift” phenomenon. Since the end of the 1990s, researches on response shift phenomenon has become of prime interest in the field of health-related research. If developments have been made, it is still a young field with various scientific debates on a theoretical, methodological and statistical level. Thus, the broad objective of this thesis is to investigate some methodological and statistical issues regarding response shift concept, detection and integration into PRO data analyses. The manuscript is composed of three main works: a state of the art and synthesis of the works conducted at an international level since response shift phenomenon is investigated, a pilot study investigating the statistical performances of the Oort’s Procedure (a popular method of response shift detection using Structural Equation Modeling) by simulations and a theoretical work about the links between response shift occurrence and semantic complexity of concepts measured and items used. Données rapportées par le patient Patient-Reported Outcomes

Search results