Global ETD Search

11	Développement d'une nouvelle approche d'extraction du réseau de surface à partir d'un nuage de points LiDAR massif basée sur la théorie de Morse Dahbi, Aymane 16 January 2024 (has links) Titre de l'écran-titre (visionné le 11 janvier 2024) / Aujourd'hui, la cartographie des réseaux hydrographiques est un sujet important pour la gestion et l'aménagement de l'espace forestier, la prévention contre les risques d'inondation, etc. Les données sources pour cartographier les cours d'eau sont des nuages de points obtenus par des lidars aéroportés. Cependant, les méthodes d'extraction des réseaux usuelles nécessitent des opérations de découpage, de rééchantillonnage et d'assemblage des résultats pour produire un réseau complet, altérant la qualité des résultats et limitant l'automatisation des traitements. Afin de limiter ces opérations, une nouvelle approche d'extraction est considérée. Cette approche propose de construire un réseau de crêtes et de talwegs à partir des points lidar, puis transforme ce réseau en réseau hydrographique. Notre recherche consiste à concevoir une méthode d'extraction robuste du réseau adaptée aux données massives. Ainsi, nous proposons d'abord une approche de calcul du réseau adaptée aux surfaces triangulées garantissant la cohérence topologique du réseau. Nous proposons ensuite une architecture s'appuyant sur des conteneurs pour paralléliser les calculs et ainsi traiter des données massives. / Nowadays, the mapping of hydrographic networks is an important subject for forestry management and planning, flood risk prevention, and so on. The source data for mapping watercourses are point clouds obtained by airborne lidars. However, conventional network extraction methods require cutting, resampling, and assembling the results to produce a complete network, thereby altering the quality of the results, and limiting the automation of processing. In order avoid these processing steps, a new computational approach is considered. This approach involves building a network of ridges and talwegs from lidar points, and then transforming this network into a hydrographic network. Our research consists in designing a robust network extraction method adapted to massive data. First, we propose a network calculation approach adapted to triangulated surfaces, guaranteeing the network's topological consistency. We then propose a container-based architecture for parallelizing computations to handle big data processing. Cartographie des cours d'eau. Données géospatiales -- Informatique. Cartographie -- Automatisation. Lasers en cartographie. Lidar. Théorie de Morse. Données volumineuses.
12	Protecting sensitive data using differential privacy and role-based access control Torabian, Hajaralsadat 23 April 2018 (has links) Dans le monde d'aujourd'hui où la plupart des aspects de la vie moderne sont traités par des systèmes informatiques, la vie privée est de plus en plus une grande préoccupation. En outre, les données ont été générées massivement et traitées en particulier dans les deux dernières années, ce qui motive les personnes et les organisations à externaliser leurs données massives à des environnements infonuagiques offerts par des fournisseurs de services. Ces environnements peuvent accomplir les tâches pour le stockage et l'analyse de données massives, car ils reposent principalement sur Hadoop MapReduce qui est conçu pour traiter efficacement des données massives en parallèle. Bien que l'externalisation de données massives dans le nuage facilite le traitement de données et réduit le coût de la maintenance et du stockage de données locales, elle soulève de nouveaux problèmes concernant la protection de la vie privée. Donc, comment on peut effectuer des calculs sur de données massives et sensibles tout en préservant la vie privée. Par conséquent, la construction de systèmes sécurisés pour la manipulation et le traitement de telles données privées et massives est cruciale. Nous avons besoin de mécanismes pour protéger les données privées, même lorsque le calcul en cours d'exécution est non sécurisé. Il y a eu plusieurs recherches ont porté sur la recherche de solutions aux problèmes de confidentialité et de sécurité lors de l'analyse de données dans les environnements infonuagique. Dans cette thèse, nous étudions quelques travaux existants pour protéger la vie privée de tout individu dans un ensemble de données, en particulier la notion de vie privée connue comme confidentialité différentielle. Confidentialité différentielle a été proposée afin de mieux protéger la vie privée du forage des données sensibles, assurant que le résultat global publié ne révèle rien sur la présence ou l'absence d'un individu donné. Enfin, nous proposons une idée de combiner confidentialité différentielle avec une autre méthode de préservation de la vie privée disponible. / In nowadays world where most aspects of modern life are handled and managed by computer systems, privacy has increasingly become a big concern. In addition, data has been massively generated and processed especially over the last two years. The rate at which data is generated on one hand, and the need to efficiently store and analyze it on the other hand, lead people and organizations to outsource their massive amounts of data (namely Big Data) to cloud environments supported by cloud service providers (CSPs). Such environments can perfectly undertake the tasks for storing and analyzing big data since they mainly rely on Hadoop MapReduce framework, which is designed to efficiently handle big data in parallel. Although outsourcing big data into the cloud facilitates data processing and reduces the maintenance cost of local data storage, it raises new problem concerning privacy protection. The question is how one can perform computations on sensitive and big data while still preserving privacy. Therefore, building secure systems for handling and processing such private massive data is crucial. We need mechanisms to protect private data even when the running computation is untrusted. There have been several researches and work focused on finding solutions to the privacy and security issues for data analytics on cloud environments. In this dissertation, we study some existing work to protect the privacy of any individual in a data set, specifically a notion of privacy known as differential privacy. Differential privacy has been proposed to better protect the privacy of data mining over sensitive data, ensuring that the released aggregate result gives almost nothing about whether or not any given individual has been contributed to the data set. Finally, we propose an idea of combining differential privacy with another available privacy preserving method. QA 76.05 UL 2016 Données volumineuses Infonuagique Sécurité informatique Droit à la vie privée
13	Les défis de la protection législative des éléments en lien avec le développement de l'intelligence artificielle embarquée dans la voiture autonome Vachon, Vanessa 11 March 2022 (has links) Le développement de l'intelligence artificielle embarquée dans la voiture autonome se positionne dans un contexte d'une économie du big data. Cela est particulier dans la mesure où un disfonctionnement ou un entrainement des algorithmes déficients pourrait avoir un impact tragique sur la sécurité routière. Afin d'entrainer ces algorithmes d'intelligence artificielle, il faut une énorme quantité de données. Ces données sont collectées de manière continue et dans l'espace publique. De ce fait, malgré que la donnée soit au centre de l'économie, qu'elle nécessite un investissement colossal et a un impact direct sur l'efficacité finale de l'intelligence artificielle, elle ne possède aucune protection législative actuellement au Canada. Néanmoins, différentes stratégies incluant des titres de propriété intellectuelle en lien avec le développement de l'intelligence artificielle permettent d'outrepasser ce manque législatif et de former un équilibre dans la course à la voiture autonome. / The development of artificial intelligence on board the autonomous car is positioned in the context of a big data economy. This is special insofar as a malfunction or training of deficient algorithms could have a tragic impact on road safety. In order to train these artificial intelligence algorithms, it takes a huge amount of data. These data are managed continuously and in the public space. As a result, despite the fact that data is at the center of the economy, that it requires a colossal investment and a direct impact on the final efficiency of artificial intelligence, it currently has no legislative protection in Canada. However, various strategies including intellectual property rights linked to the development of artificial intelligence make it possible to overcome this legislative lack and the old balance in the race for an autonomous car. Véhicules autonomes -- Droit. Télématique automobile -- Droit. Propriété intellectuelle -- Canada. Sécurité routière.
14	Le clustering en aide multicritère à la décision : théorie et applications OLTEANU, Alexandru Liviu 24 June 2013 (has links) (PDF) Le problème de la classification non supervisée (clustering) a été largement étudié dans le contexte de l'analyse de données, où la structure naturelle des données est dévoilée en groupant des objets similaires tout en séparant ceux qui ne le sont pas. L'Aide Multicritère à la Décision (AMCD) modélise les préférences de décideurs et les aide à choisir une solution appropriée parmi un ensemble d'alternatives. Dans ce contexte, les problématiques du choix, du tri et du rangement ont été largement étudiés, alors que celle du clustering l'a été bien moins. De plus, la plupart de ces approches de résolution en AMCD utilisent des mesures de similarité et n'exploitent pas l'information préférentielle supplémentaire qui est disponible. Dans cette thèse nous étudions ce problème du clustering en AMCD en faisant d'abord un parallèle entre l'analyse de données et l'AMCD pour ensuite proposer le problème de la classification non supervisée en AMCD. Différents modèles sont alors proposés pour résoudre ce problème, ainsi que des algorithmes de résolution, qui sont validés sur un grand nombre de problèmes générés artificiellement. Pour terminer, nous envisageons différentes applications via l'utilisation de différentes mesures descriptives des classes, ainsi que l'extension des algorithmes à des volumes de données importants. Une application est résolue à la fin de la thèse pour illustrer l'intérêt des outils proposés. Aide multicritère à la décision Classification non supervisée Clustering Meta-heuristiques Données volumineuses
15	CURARE : curating and managing big data collections on the cloud / CURARE : curation et gestion de collections de données volumineuses sur le cloud Kemp, Gavin 26 September 2018 (has links) L'émergence de nouvelles plateformes décentralisées pour la création de données, tel que les plateformes mobiles, les capteurs et l'augmentation de la disponibilité d'open data sur le Web, s'ajoute à l'augmentation du nombre de sources de données disponibles et apporte des données massives sans précédent à être explorées. La notion de curation de données qui a émergé se réfère à la maintenance des collections de données, à la préparation et à l'intégration d'ensembles de données (data set), les combinant avec une plateforme analytique. La tâche de curation inclut l'extraction de métadonnées implicites et explicites ; faire la correspondance et l'enrichissement des métadonnées sémantiques afin d'améliorer la qualité des données. La prochaine génération de moteurs de gestion de données devrait promouvoir des techniques avec une nouvelle philosophie pour faire face au déluge des données. Ils devraient aider les utilisateurs à comprendre le contenue des collections de données et à apporter une direction pour explorer les données. Un scientifique peut explorer les collections de données pas à pas, puis s'arrêter quand le contenu et la qualité atteignent des niveaux satisfaisants. Notre travail adopte cette philosophie et la principale contribution est une approche de curation des données et un environnement d'exploration que nous avons appelé CURARE. CURARE est un système à base de services pour curer et explorer des données volumineuses sur les aspects variété et variabilité. CURARE implémente un modèle de collection de données, que nous proposons, visant représenter le contenu structurel des collections des données et les métadonnées statistiques. Le modèle de collection de données est organisé sous le concept de vue et celle-ci est une structure de données qui pourvoit une perspective agrégée du contenu des collections des données et de ses parutions (releases) associées. CURARE pourvoit des outils pour explorer (interroger) des métadonnées et pour extraire des vues en utilisant des méthodes analytiques. Exploiter les données massives requière un nombre considérable de décisions de la part de l'analyste des données pour trouver quelle est la meilleure façon pour stocker, partager et traiter les collections de données afin d'en obtenir le maximum de bénéfice et de connaissances à partir de ces données. Au lieu d'explorer manuellement les collections des données, CURARE fournit de outils intégrés à un environnement pour assister les analystes des données à trouver quelle est la meilleure collection qui peut être utilisée pour accomplir un objectif analytique donné. Nous avons implémenté CURARE et expliqué comment le déployer selon un modèle d'informatique dans les nuages (cloud computing) utilisant des services de science des donnés sur lesquels les services CURARE sont branchés. Nous avons conçu des expériences pour mesurer les coûts de la construction des vues à partir des ensembles des données du Grand Lyon et de Twitter, afin de pourvoir un aperçu de l'intérêt de notre approche et notre environnement de curation de données / The emergence of new platforms for decentralized data creation, such as sensor and mobile platforms and the increasing availability of open data on the Web, is adding to the increase in the number of data sources inside organizations and brings an unprecedented Big Data to be explored. The notion of data curation has emerged to refer to the maintenance of data collections and the preparation and integration of datasets, combining them to perform analytics. Curation tasks include extracting explicit and implicit meta-data; semantic metadata matching and enrichment to add quality to the data. Next generation data management engines should promote techniques with a new philosophy to cope with the deluge of data. They should aid the user in understanding the data collections’ content and provide guidance to explore data. A scientist can stepwise explore into data collections and stop when the content and quality reach a satisfaction point. Our work adopts this philosophy and the main contribution is a data collections’ curation approach and exploration environment named CURARE. CURARE is a service-based system for curating and exploring Big Data. CURARE implements a data collection model that we propose, used for representing their content in terms of structural and statistical meta-data organised under the concept of view. A view is a data structure that provides an aggregated perspective of the content of a data collection and its several associated releases. CURARE provides tools focused on computing and extracting views using data analytics methods and also functions for exploring (querying) meta-data. Exploiting Big Data requires a substantial number of decisions to be performed by data analysts to determine which is the best way to store, share and process data collections to get the maximum benefit and knowledge from them. Instead of manually exploring data collections, CURARE provides tools integrated in an environment for assisting data analysts determining which are the best collections that can be used for achieving an analytics objective. We implemented CURARE and explained how to deploy it on the cloud using data science services on top of which CURARE services are plugged. We have conducted experiments to measure the cost of computing views based on datasets of Grand Lyon and Twitter to provide insight about the interest of our data curation approach and environment Données volumineuses Services cloud Big data Cloud services Data curation 004
16	Three essays on financial stability Gnagne, Jean Armand January 2018 (has links) Cette thèse s’intéresse à la stabilité ﬁnancière. Nous considérons plusieurs modèles économétriques visant à oﬀrir une meilleure compréhension des perturbations pouvant aﬀecter les systèmes bancaires et ﬁnanciers. L’objectif ici est de doter les institutions publiques et réglementaires d’un éventail plus large d’instruments de surveillance. Dans le premier chapitre, nous appliquons un modèle logit visant à identiﬁer les principaux déterminants des crises ﬁnancières. En plus des variables explicatives traditionnelles suggérées par la littérature, nous considérons une mesure des coûts de transactions (l’écart acheteur-vendeur) sur les marchés ﬁnanciers. Nos estimations indiquent que des coûts de transactions élevés sont généralement associés à des risques accrus de crises ﬁnancières. Dans un contexte où l’instauration d’une taxe sur les transactions ﬁnancières (TTF) ferait augmenter les coûts de transactions, nos résultats suggèrent que l’instauration d’une telle taxe pourrait accroître les probabilités de crises ﬁnancières. Dans le second chapitre, nous analysons la formation des risques ﬁnanciers dans un contexte où le nombre de données disponibles est de plus en plus élevé. Nous construisons des prédicteurs de faillites bancaires à partir d’un grand ensemble de variables macro-ﬁnancières que nous incorporons dans un modèle à variable discrète. Nous établissons un lien robuste et signiﬁcatif entre les variables issues du secteur immobilier et les faillites bancaires. Le troisième chapitre met l’emphase sur la prévision des créances bancaires en souﬀrance (nonperforming loans). Nous analysons plusieurs modèles proposés par la littérature et évaluons leur performance prédictive lorsque nous remplaçons les variables explicatives usuelles par des prédicteurs sectoriels construits à partir d’une grande base de données. Nous trouvons que les modèles basés sur ces composantes latentes prévoient les créances en souﬀrance mieux que les modèles traditionnels, et que le secteur immobilier joue à nouveau un rôle important. / The primary focus of this thesis is on ﬁnancial stability. More speciﬁcally, we investigate diﬀerent issues related to the monitoring and forecasting of important underlying systemic ﬁnancial vulnerabilities. We develop various econometric models aimed at providing a better assessment and early insights about the build-up of ﬁnancial imbalances. Throughout this work, we consider complementary measures of ﬁnancial (in)stability endowing hence the regulatory authorities with a deeper toolkit for achieving and maintaining ﬁnancial stability. In the ﬁrst Chapter, we apply a logit model to identify important determinants of ﬁnancial crises. Alongwiththetraditionalexplanatoryvariablessuggestedintheliterat ure, weconsider a measure of bid-ask spreads in the ﬁnancial markets of each country as a proxy for the likely eﬀect of a Securities Transaction Tax (STT) on transaction costs. One key contribution of this Chapter is to study the impact that a harmonized, area- wide tax, often referred to as Tobin Tax would have on the stability of ﬁnancial markets. Our results conﬁrm important ﬁndingsuncoveredintheliterature, butalsoindicatethathighertransactioncostsaregenerally associated with a higher risk of crisis. We document the robustness of this key result to possible endogeneity eﬀects and to the 2008−2009 global crisis episode. To the extent that a widely-based STT would increase transaction costs, our results therefore suggest that the establishment of this tax could increase the risk of ﬁnancial crises. In the second Chapter, we assess the build-up of ﬁnancial imbalances in a data-rich environment. Concretely, we concentrate on one key dimension of a sound ﬁnancial system by monitoring and forecasting the monthly aggregate commercial bank failures in the United States. We extract key sectoral predictors from a large set of macro-ﬁnancial variables and incorporate them in a hurdle negative binomial model to predict the number of monthly commercial bank failures. We ﬁnd a strong and robust relationship between the housing industry and bank failures. This evidence suggests that housing industry plays a key role in the buildup of vulnerability in the banking sector. Diﬀerent speciﬁcations of our model conﬁrm the robustness of our results. In the third Chapter, we focus on the modeling of non-performing loans (NPLs), one other dimension along with, ﬁnancial vulnerabilities are scrutinized. We apply diﬀerent models proposed in the recent literature for ﬁtting and forecasting U.S. banks non-performing loans (NPLs). We compare the performance of these models to those of similar models in which we replace traditional explanatory variables by key sectoral predictors all extracted from the large set of potential U.S. macro-ﬁnancial variables. We uncover that the latent-componentbased models all outperform the traditional models, suggesting then that practitioners and researchers could consider latent factors in their modeling of NPLs. Moreover, we also conﬁrm that the housing sector greatly impacts the evolution of non-performing loans over time. HB 31.5 UL 2018 Immobilier -- Aspect économique
17	Supporting multiple data stores based applications in cloud environments / Soutenir les applications utilisant des bases de données multiples dans un environnement Cloud Computing Sellami, Rami 05 February 2016 (has links) Avec l’avènement du cloud computing et des big data, de nouveaux systèmes de gestion de bases de données sont apparus, connus en général sous le vocable systèmes NoSQL. Par rapport aux systèmes relationnels, ces systèmes se distinguent par leur absence de schéma, une spécialisation pour des types de données particuliers (documents, graphes, clé/valeur et colonne) et l’absence de langages de requêtes déclaratifs. L’offre est assez pléthorique et il n’y a pas de standard aujourd’hui comme peut l’être SQL pour les systèmes relationnels. De nombreuses applications peuvent avoir besoin de manipuler en même temps des données stockées dans des systèmes relationnels et dans des systèmes NoSQL. Le programmeur doit alors gérer deux (au moins) modèles de données différents et deux (au moins) langages de requêtes différents pour pouvoir écrire son application. De plus, il doit gérer explicitement tout son cycle de vie. En effet, il a à (1) coder son application, (2) découvrir les services de base de données déployés dans chaque environnement Cloud et choisir son environnement de déploiement, (3) déployer son application, (4) exécuter des requêtes multi-sources en les programmant explicitement dans son application, et enfin le cas échéant (5) migrer son application d’un environnement Cloud à un autre. Toutes ces tâches sont lourdes et fastidieuses et le programmeur risque d’être perdu dans ce haut niveau d’hétérogénéité. Afin de pallier ces problèmes et aider le programmeur tout au long du cycle de vie des applications utilisant des bases de données multiples, nous proposons un ensemble cohérent de modèles, d’algorithmes et d’outils. En effet, notre travail dans ce manuscrit de thèse se présente sous forme de quatre contributions. Tout d’abord, nous proposons un modèle de données unifié pour couvrir l’hétérogénéité entre les modèles de données relationnelles et NoSQL. Ce modèle de données est enrichi avec un ensemble de règles de raffinement. En se basant sur ce modèle, nous avons défini notre algèbre de requêtes. Ensuite, nous proposons une interface de programmation appelée ODBAPI basée sur notre modèle de données unifié, qui nous permet de manipuler de manière uniforme n’importe quelle source de données qu’elle soit relationnelle ou NoSQL. ODBAPI permet de programmer des applications indépendamment des bases de données utilisées et d’exprimer des requêtes simples et complexes multi-sources. Puis, nous définissons la notion de bases de données virtuelles qui interviennent comme des médiateurs et interagissent avec les bases de données intégrées via ODBAPI. Ce dernier joue alors le rôle d’adaptateur. Les bases de données virtuelles assurent l’exécution des requêtes d’une façon optimale grâce à un modèle de coût et un algorithme de génération de plan d’exécution optimal que nous définis. Enfin, nous proposons une approche automatique de découverte de bases de données dans des environnements Cloud. En effet, les programmeurs peuvent décrire leurs exigences en termes de bases de données dans des manifestes, et grâce à notre algorithme d’appariement, nous sélectionnons l’environnement le plus adéquat à notre application pour la déployer. Ainsi, nous déployons l’application en utilisant une API générique de déploiement appelée COAPS. Nous avons étendue cette dernière pour pouvoir déployer les applications utilisant plusieurs sources de données. Un prototype de la solution proposée a été développé et mis en œuvre dans des cas d'utilisation du projet OpenPaaS. Nous avons également effectué diverses expériences pour tester l'efficacité et la précision de nos contributions / The production of huge amount of data and the emergence of Cloud computing have introduced new requirements for data management. Many applications need to interact with several heterogeneous data stores depending on the type of data they have to manage: traditional data types, documents, graph data from social networks, simple key-value data, etc. Interacting with heterogeneous data models via different APIs, and multiple data stores based applications imposes challenging tasks to their developers. Indeed, programmers have to be familiar with different APIs. In addition, the execution of complex queries over heterogeneous data models cannot, currently, be achieved in a declarative way as it is used to be with mono-data store application, and therefore requires extra implementation efforts. Moreover, developers need to master and deal with the complex processes of Cloud discovery, and application deployment and execution. In this manuscript, we propose an integrated set of models, algorithms and tools aiming at alleviating developers task for developing, deploying and migrating multiple data stores applications in cloud environments. Our approach focuses mainly on three points. First, we provide a unified data model used by applications developers to interact with heterogeneous relational and NoSQL data stores. This model is enriched by a set of refinement rules. Based on that, we define our query algebra. Developers express queries using OPEN-PaaS-DataBase API (ODBAPI), a unique REST API allowing programmers to write their applications code independently of the target data stores. Second, we propose virtual data stores, which act as a mediator and interact with integrated data stores wrapped by ODBAPI. This run-time component supports the execution of single and complex queries over heterogeneous data stores. It implements a cost model to optimally execute queries and a dynamic programming based algorithm to generate an optimal query execution plan. Finally, we present a declarative approach that enables to lighten the burden of the tedious and non-standard tasks of (1) discovering relevant Cloud environments and (2) deploying applications on them while letting developers to simply focus on specifying their storage and computing requirements. A prototype of the proposed solution has been developed and implemented use cases from the OpenPaaS project. We also performed different experiments to test the efficiency and accuracy of our proposals Cloud computing Données volumineuses Persistence polyglote NoSQL Bases de données relationnelles Requêtes de jointure Cloud computing Big data Polyglot persistence NoSQL Rdbms Join queries
18	Measuring public opinion using Big Data : applications in computational social sciences Temporão, Mickael 15 April 2019 (has links) La démocratie est fondée sur l’idée que les gouvernements sont sensibles à l’opinion des citoyens qu’ils sont élus pour représenter. Des mesures fiables de l’opinion publique sont requises afin de permettre aux élus de gouverner de manière efficace. Les sources traditionnelles d’information sur l’opinion publique se complexifient avec l’accroissement des modalités de communication et les changements culturels qui y sont associés. La diversification des technologies de l’information et de la communication ainsi que la forte baisse des taux de réponse aux enquêtes de sondages provoquent une crise de confiance dans les méthodes d’échantillonnage probabiliste classique. Une source d’information sur l’opinion publique de plus en plus riche, mais relativement peu exploitée, se présente sous la forme d’ensembles de données extraordinairement volumineuses et complexes, communément appelées Big Data. Ces données présentent de nombreux défis liés à l’inférence statistique, notamment parce qu’elles prennent généralement la forme d’échantillons non probabilistes. En combinant des avancées récentes en sciences sociales numériques, en statistiques et en technologie de l’information, cette thèse, constituée de trois articles, aborde certains de ces défis en développant de nouvelles approches, permettant l’extraction d’informations adaptées aux larges ensembles de données. Ces nouvelles approches permettent d’étudier l’opinion publique sous de nouveaux angles et ainsi de contribuer à des débats théoriques importants dans la littérature sur la recherche sur l’opinion publique en rassemblant les preuves empiriques nécessaires afin de tester des théories de la science politique qui n’avaient pas pu être abordées, jusqu’à présent, en raison du manque des données. Dans le premier article, sur le placement idéologique des utilisateurs sur les médias sociaux, nous développons un modèle permettant de prédire l’idéologie et l’intention de vote des utilisateurs sur les médias sociaux en se basant sur le jargon qu’ils emploient dans leurs interactions sur les plateformes de médias sociaux. Dans le second article, sur l’identité nationale au Canada, nous présentons une approche permettant d’étudier l’hétérogénéité de l’identité nationale en explorant la variance de l’attachement à des symboles nationaux parmi les citoyens à partir de données provenant d’un vaste sondage en ligne. Dans le troisième article portant sur les prédictions électorales, nous introduisons une approche se basant sur le concept de la sagesse des foules, qui facilite l’utilisation de données à grande échelle dans le contexte d’études électorales non-aléatoires afin de corriger les biais de sélection inhérents à de tels échantillons. Chacune de ces études améliore notre compréhension collective sur la manière dont les sciences sociales numériques peuvent accroître notre connaissance théorique des dynamiques de l’opinion publique et du comportement politique. / Democracy is predicated on the idea that governments are responsive to the publics which they are elected to represent. In order for elected representatives to govern effectively, they require reliable measures of public opinion. Traditional sources of public opinion research are increasingly complicated by the expanding modalities of communication and accompanying cultural shifts. Diversification of information and communication technologies as well as a steep decline in survey response rates is producing a crisis of confidence in conventional probability sampling. An increasingly rich, yet relatively untapped, source of public opinion takes the form of extraordinarily large, complex datasets commonly referred to as Big Data. These datasets present numerous challenges for statistical inference, not least of which is that they typically take the form of non-probability sample. By combining recent advances in social science, computer science, statistics, and information technology, this thesis, which combines three distinct articles, addresses some of these challenges by developing new and scalable approaches to facilitate the extraction of valuable insights from Big Data. In so doing, it introduces novel approaches to study public opinion and contributes to important theoretical debates within the literature on public opinion research by marshalling the empirical evidence necessary to test theories in political science that were previously unaddressed due to data scarcity. In our first article, Ideological scaling of social media users, we develop a model that predicts the ideology and vote intention of social media users by virtue of the vernacular that they employ in their interactions on social media platforms. In our second article, The symbolic mosaic, we draw from a large online panel survey in Canada to make inferences about the heterogeneous construction of national identities by exploring variance in the attachment to symbols among various publics. Finally, in our third article, Crowdsourcing the vote, we endeavour to draw on the wisdom of the crowd in large, non-random election studies as part of an effort to control for the selection bias inherent to such samples. Each of these studies makes a contribution to our collective understanding of how computational social science can advance theoretical knowledge of the dynamics of public opinion and political behaviour. JA 49.5 UL 2019 Sciences sociales numériques Données volumineuses Élections -- Prévision Médias sociaux -- Aspect politique Nationalisme -- Canada
19	Workload- and Data-based Automated Design for a Hybrid Row-Column Storage Model and Bloom Filter-Based Query Processing for Large-Scale DICOM Data Management / Conception automatisée basée sur la charge de travail et les données pour un modèle de stockage hybride ligne-colonne et le traitement des requêtes à l’aide de filtres de Bloom pour la gestion de données DICOM à grande échelle Nguyen, Cong-Danh 04 May 2018 (has links) Dans le secteur des soins de santé, les données d'images médicales toujours croissantes, le développement de technologies d'imagerie, la conservation à long terme des données médicales et l'augmentation de la résolution des images entraînent une croissance considérable du volume de données. En outre, la variété des dispositifs d'acquisition et la différence de préférences des médecins ou d'autres professionnels de la santé ont conduit à une grande variété de données. Bien que la norme DICOM (Digital Imaging et Communication in Medicine) soit aujourd'hui largement adoptée pour stocker et transférer les données médicales, les données DICOM ont toujours les caractéristiques 3V du Big Data: volume élevé, grande variété et grande vélocité. En outre, il existe une variété de charges de travail, notamment le traitement transactionnel en ligne (en anglais Online Transaction Processing, abrégé en OLTP), le traitement analytique en ligne (anglais Online Analytical Processing, abrégé en OLAP) et les charges de travail mixtes. Les systèmes existants ont des limites concernant ces caractéristiques des données et des charges de travail. Dans cette thèse, nous proposons de nouvelles méthodes efficaces pour stocker et interroger des données DICOM. Nous proposons un modèle de stockage hybride des magasins de lignes et de colonnes, appelé HYTORMO, ainsi que des stratégies de stockage de données et de traitement des requêtes. Tout d'abord, HYTORMO est conçu et mis en œuvre pour être déployé sur un environnement à grande échelle afin de permettre la gestion de grandes données médicales. Deuxièmement, la stratégie de stockage de données combine l'utilisation du partitionnement vertical et un stockage hybride pour créer des configurations de stockage de données qui peuvent réduire la demande d'espace de stockage et augmenter les performances de la charge de travail. Pour réaliser une telle configuration de stockage de données, l'une des deux approches de conception de stockage de données peut être appliquée: (1) conception basée sur des experts et (2) conception automatisée. Dans la première approche, les experts créent manuellement des configurations de stockage de données en regroupant les attributs des données DICOM et en sélectionnant une disposition de stockage de données appropriée pour chaque groupe de colonnes. Dans la dernière approche, nous proposons un cadre de conception automatisé hybride, appelé HADF. HADF dépend des mesures de similarité (entre attributs) qui prennent en compte les impacts des informations spécifiques à la charge de travail et aux données pour générer automatiquement les configurations de stockage de données: Hybrid Similarity (combinaison pondérée de similarité d'accès d'attribut et de similarité de densité d'attribut) les attributs dans les groupes de colonnes; Inter-Cluster Access Similarity est utilisé pour déterminer si deux groupes de colonnes seront fusionnés ou non (pour réduire le nombre de jointures supplémentaires); et Intra-Cluster Access La similarité est appliquée pour décider si un groupe de colonnes sera stocké dans une ligne ou un magasin de colonnes. Enfin, nous proposons une stratégie de traitement des requêtes adaptée et efficace construite sur HYTORMO. Il considère l'utilisation des jointures internes et des jointures externes gauche pour empêcher la perte de données si vous utilisez uniquement des jointures internes entre des tables partitionnées verticalement. De plus, une intersection de filtres Bloom (intersection of Bloom filters, abrégé en ) est appliqué pour supprimer les données non pertinentes des tables d'entrée des opérations de jointure; cela permet de réduire les coûts d'E / S réseau. (...) / In the health care industry, the ever-increasing medical image data, the development of imaging technologies, the long-term retention of medical data and the increase of image resolution are causing a tremendous growth in data volume. In addition, the variety of acquisition devices and the difference in preferences of physicians or other health-care professionals have led to a high variety in data. Although today DICOM (Digital Imaging and Communication in Medicine) standard has been widely adopted to store and transfer the medical data, DICOM data still has the 3Vs characteristics of Big Data: high volume, high variety and high velocity. Besides, there is a variety of workloads including Online Transaction Processing (OLTP), Online Analytical Processing (OLAP) and mixed workloads. Existing systems have limitations dealing with these characteristics of data and workloads. In this thesis, we propose new efficient methods for storing and querying DICOM data. We propose a hybrid storage model of row and column stores, called HYTORMO, together with data storage and query processing strategies. First, HYTORMO is designed and implemented to be deployed on large-scale environment to make it possible to manage big medical data. Second, the data storage strategy combines the use of vertical partitioning and a hybrid store to create data storage configurations that can reduce storage space demand and increase workload performance. To achieve such a data storage configuration, one of two data storage design approaches can be applied: (1) expert-based design and (2) automated design. In the former approach, experts manually create data storage configurations by grouping attributes and selecting a suitable data layout for each column group. In the latter approach, we propose a hybrid automated design framework, called HADF. HADF depends on similarity measures (between attributes) that can take into consideration the combined impact of both workload- and data-specific information to generate data storage configurations: Hybrid Similarity (a weighted combination of Attribute Access and Density Similarity measures) is used to group the attributes into column groups; Inter-Cluster Access Similarity is used to determine whether two column groups will be merged together or not (to reduce the number of joins); and Intra-Cluster Access Similarity is applied to decide whether a column group will be stored in a row or a column store. Finally, we propose a suitable and efficient query processing strategy built on top of HYTORMO. It considers the use of both inner joins and left-outer joins. Furthermore, an Intersection Bloom filter () is applied to reduce network I/O cost.We provide experimental evaluations to validate the benefits of the proposed methods over real DICOM datasets. Experimental results show that the mixed use of both row and column stores outperforms a pure row store and a pure column store. The combined impact of both workload-and data-specific information is helpful for HADF to be able to produce good data storage configurations. Moreover, the query processing strategy with the use of the can improve the execution time of an experimental query up to 50% when compared to the case where no is applied. DICOM Données volumineuses Données clairsemées HYTORMO Modèle de stockage hybride Stockage en lignes Stockage en colonnes Similarité hybride Filtre Bloom Intersection de filtres Bloom Joindre DICOM Big data Sparse datasets HYTORMO Hybrid storage model Row store Column store Hybrid similarity Bloom filter Intersection Bloom filter Join

Search results