Global ETD Search

1	La visualisation d’information à l’ère du Big Data : résoudre les problèmes de scalabilité par l’abstraction multi-échelle / Information Visualization in the Big Data era : tackling scalability issues using multiscale abstractions Perrot, Alexandre 27 November 2017 (has links) L’augmentation de la quantité de données à visualiser due au phénomène du Big Data entraîne de nouveaux défis pour le domaine de la visualisation d’information. D’une part, la quantité d’information à représenter dépasse l’espace disponible à l’écran, entraînant de l’occlusion. D’autre part, ces données ne peuvent pas être stockées et traitées sur une machine conventionnelle. Un système de visualisation de données massives doit permettre la scalabilité de perception et de performances. Dans cette thèse, nous proposons une solution à ces deux problèmes au travers de l’abstraction multi-échelle des données. Plusieurs niveaux de détail sont précalculés sur une infrastructure Big Data pour permettre de visualiser de grands jeux de données jusqu’à plusieurs milliards de points. Pour cela, nous proposons deux approches pour implémenter l’algorithme de canopy clustering sur une plateforme de calcul distribué. Nous présentons une application de notre méthode à des données géolocalisées représentées sous forme de carte de chaleur, ainsi qu’à des grands graphes. Ces deux applications sont réalisées à l’aide de la bibliothèque de visualisation dynamique Fatum, également présentée dans cette thèse. / With the advent of the Big Data era come new challenges for Information Visualization. First, the amount of data to be visualized exceeds the available screen space. Second, the data cannot be stored and processed on a conventional computer. To alleviate both of these problems, a Big Data visualization system must provide perceptual and performance scalability. In this thesis, we propose to use multi-scale abstractions as a solution to both of these issues. Several levels of detail can be precomputed using a Big Data Infrastructure in order to visualize big datasets up to several billion points. For that, we propose two approaches to implementing the canopy clustering algorithm for a distributed computation cluster. We present applications of our method to geolocalized data visualized through a heatmap, and big graphs. Both of these applications use the dynamic visualization library, which is also presented in this thesis Mégadonnées Partitionnement Visualisation Big Data Clustering Visualization
2	Place des mégadonnées et des technologies de l'Intelligence Artificielle dans les activités de communication des petites et moyennes entreprises au Canada El Didi, Dina 23 November 2022 (has links) Le développement des mégadonnées et des technologies de l'Intelligence Artificielle a donné naissance à une économie numérique contrôlée par les géants du web (GAFAM). Cette économie témoigne d’une certaine inégalité quant à l'accès et à la gestion des mégadonnées et des technologies de l'Intelligence Artificielle. La présente étude vise à explorer l'inégalité entre les grandes organisations et les petites et moyennes entreprises (PME) au sujet de l'accès et de l'utilisation des mégadonnées et des technologies de l'IA. Pour ce, il s'agit de répondre à la question suivante : « Comment les équipes de communication dans les PME, au Canada, envisagent l'usage et l'importance des mégadonnées et des technologies de l'IA pour leur travail ? » Le cadre théorique mobilisé dans ce travail de recherche est, d’un côté, la sociologie des usages qui aidera à comprendre et à analyser les usages des mégadonnées et des technologies de l'IA par les équipes de communication des PME ; d'un autre côté, l'approche narrative qui permettra de décrire les contextes de pratiques de ces usages. Nous avons eu recours à une méthode mixte. La méthode quantitative, via un questionnaire en ligne, a permis d'identifier la place qu'occupent ces technologies actuellement dans le travail régulier des professionnels de la communication des PME ainsi que les défis qu'ils affrontent pour la mise en place et l'utilisation de ces technologies. La méthode qualitative, via des entrevues semi-dirigées, a servi à mieux comprendre les contextes de pratiques où ces technologies sont utilisées ou pourraient être utilisées. Les résultats ont suggéré qu'il existe un écart entre les PME et les grandes organisations par rapport à l'exploitation et à l'utilisation de ces technologies. Cet écart est dû avant tout à certains défis tels que le manque de connaissances et d'expertise et le manque d'intérêt envers ces technologies. Cette inégalité pourrait être mitigée en mettant en place un plan de formation des gestionnaires afin de garantir des changements au niveau de la culture organisationnelle. Les résultats ont fait émerger l'importance de l'intervention humaine sans laquelle les idées générées par les mégadonnées et les technologies de l'IA risquent d'être biaisées. Ainsi, compte tenu des limites de cette étude exploratoire, elle a permis d'avancer les connaissances en faisant émerger quelques pistes de recherches futures en ce qui concerne les mégadonnées et les technologies de l'IA et leur importance pour les activités de communication dans les PME. Mégadonnées Intelligence Artificielle PME Communication Big Data
3	Méthodes de sondage pour les données massives / Sampling methods for big data Rebecq, Antoine 15 February 2019 (has links) Cette thèse présente trois parties liées à la théorie des sondages. La première partie présente deux résultats originaux de sondages qui ont eu des applications pratiques dans des enquêtes par sondage de l'Insee. Le premier article présente un théorème autorisant un plan de sondage stratifié constituant un compromis entre la dispersion des poids et l'allocation de précision optimale pour une variable d'intérêt spécifique. Les données d’enquête sont souvent utilisées pour estimer nombre de totaux ou modèles issus de variables exclues du design. La précision attendue pour ces variables est donc faible, mais une faible dispersion des poids permet de limiter les risques qu'une estimation dépendant d'une de ces variables ait une très mauvaise précision. Le second article concerne le facteur de repondération dans les estimateurs par calage. On propose un algorithme efficace capable de calculer les facteurs de poids les plus rapprochés autour de 1 tels qu'une solution au problème de calage existe. Cela permet de limiter les risques d'apparition d'unités influentes, particulièrement pour l'estimation sur des domaines. On étudie par simulations sur données réelles les propriétés statistiques des estimateurs obtenus. La seconde partie concerne l'étude des propriétés asymptotique des estimateurs sur données issues de sondage. Celles-ci sont difficiles à étudier en général. On présente une méthode originale qui établit la convergence faible vers un processus gaussien pour le processus empirique d'Horvitz-Thompson indexé par des classes de fonction, pour de nombreux algorithmes de sondage différents utilisés en pratique. Dans la dernière partie, on s'intéresse à des méthodes de sondage pour des données issues de graphes, qui ont des applications pratiques lorsque les graphes sont de taille telles que leur exploitation informatique est coûteuse. On détaille des algorithmes de sondage permettant d'estimer des statistiques d'intérêt pour le réseaux. Deux applications, à des données de Twitter puis à des données simulées, concluent cette partie. / This thesis presents three different parts with ties to survey sampling theory. In the first part, we present two original results that led to practical applications in surveys conducted at Insee (French official statistics Institute). The first chapter deals with allocations in stratified sampling. We present a theorem that proves the existence of an optimal compromise between the dispersion of the sampling weights and the allocation yielding optimal precision for a specific variable of interest. Survey data are commonly used to compute estimates for variables that were not included in the survey design. Expected precision is poor, but a low dispersion of the weights limits risks of very high variance for one or several estimates. The second chapter deals with reweighting factors in calibration estimates. We study an algorithm that computes the minimal bounds so that the calibration estimators exist, and propose an efficient way of resolution. We also study the statistical properties of estimates using these minimal bounds. The second part studies asymptotic properties of sampling estimates. Obtaining asymptotic guarantees is often hard in practice. We present an original method that establishes weak convergence for the Horvitz-Thompson empirical process indexed by a class of functions for a lot of sampling algorithms used in practice. In the third and last part, we focus on sampling methods for populations that can be described as networks. They have many applications when the graphs are so big that storing and computing algorithms on them are very costly. Two applications are presented, one using Twitter data, and the other using simulated data to establish guidelines to design efficient sampling designs for graphs. Mégadonnées Sondages Calage Réseaux Processus empirique Big data Sampling Calibration Networks Empirical process 510
4	Enrichissement des Modèles de Classification de Textes Représentés par des Concepts / Improving text-classification models using the bag-of-concept paradigm Risch, Jean-Charles 27 June 2017 (has links) La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie. / Most of text-classification methods use the ``bag of words” paradigm to represent texts. However Bloahdom and Hortho have identified four limits to this representation: (1) some words are polysemics, (2) others can be synonyms and yet differentiated in the analysis, (3) some words are strongly semantically linked without being taken into account in the representation as such and (4) certain words lose their meaning if they are extracted from their nominal group. To overcome these problems, some methods no longer represent texts with words but with concepts extracted from a domain ontology (Bag of Concept), integrating the notion of meaning into the model. Models integrating the bag of concepts remain less used because of the unsatisfactory results, thus several methods have been proposed to enrich text features using new concepts extracted from knowledge bases. My work follows these approaches by proposing a model-enrichment step using a domain ontology, I proposed two measures to estimate to belong to the categories of these new concepts. Using the naive Bayes classifier algorithm, I tested and compared my contributions on the Ohsumed corpus using the domain ontology ``Disease Ontology”. The satisfactory results led me to analyse more precisely the role of semantic relations in the enrichment step. These new works have been the subject of a second experiment in which we evaluate the contributions of the hierarchical relations of hypernymy and hyponymy. Classification de Textes Intelligence Artificielle Mégadonnées Apprentissage Automatique Visualisation de Données Text Classification Artificial Intelligence Big Data Machine Learning Data Visualization
5	MyGeneFriends : vers un nouveau rapport entre chercheurs et mégadonnées / MyGeneFriends : towards a new relationship between researchers and big data Allot, Alexis 09 October 2015 (has links) Ces dernières années, la biologie a subi une profonde mutation, impulsée notamment par les technologies à haut débit et la montée de la génomique personnalisée. L’augmentation massive et constante de l’information biologique qui en résulte offre de nouvelles opportunités pour comprendre la fonction et l’évolution des gènes et génomes à différentes échelles et leurs rôles dans les maladies humaines. Ma thèse s’est articulée autour de la relation entre chercheurs et information biologique, et j’ai contribué à (OrthoInspector) ou créé (Parsec, MyGeneFriends) des systèmes permettant aux chercheurs d’accéder, analyser, visualiser, filtrer et annoter en temps réel l’énorme quantité de données disponibles à l’ère post génomique. MyGeneFriends est un premier pas dans une direction passionnante, faire en sorte que ce ne soient plus les chercheurs qui aillent vers l’information, mais que l’information pertinente aille vers les chercheurs sous une forme adaptée, permettant l’accès personnalisé et efficace aux grandes quantités d’informations, la visualisation deces informations et leur interconnexion en réseaux. / In recent years, biology has undergone a profound evolution, mainly due to high through put technologies and the rise of personal genomics. The resulting constant and massive increase of biological data offers unprecedented opportunities to decipher the function and evolution of genes and genomes at different scales and their roles in human diseases. My thesis addressed the relationship between researchers and biological information, and I contributed to (OrthoInspector) or created (Parsec, MyGeneFriends) systems allowing researchers to access, analyze, visualize, filter and annotate in real time the enormous quantity of data available in the post genomic era. MyGeneFriends is a first step in an exciting new direction: where researchers no longer search forinformation, but instead pertinent information is brought to researchers in a suitable form, allowing personalized and efficient access to large amounts of information, visualization of this information,and their integration in networks. Génomique Réseaux sociaux Maladies Personnalisation Infrastructure web Mégadonnées Genomics Social networks Diseases Personalisation Web framework Bigdata 005.7 572.8 616
6	Méthode de valorisation comptable temps réel et big data : étude de cas appliquée à l'industrie papetière / Real time accounting and big data valuation method : case study applied to the paper industry Gayet, Amaury 10 January 2018 (has links) Contexte: La société IP Leanware est une start-up en pleine expansion. Créée en 2008, son C.A. a quadruplé en 4 ans et elle a implantée deux filiales (Brésil et Etats-Unis). Depuis, sa croissance est à deux chiffres (2015). Elle optimise la performance d’entreprises industrielles par un logiciel (BrainCube) qui identifie les conditions de sur-performance. La thèse, réalisée en CIFRE au sein du service R&D dirigé par Sylvain Rubat du Mérac, se situe à l’interface du contrôle de gestion, de la gestion de production et des systèmes d’information. Objectif : BrainCube gère des données descriptives massives des flux des processus de ses clients. Son moteur d’analyse identifie les situations de sur-performance et les diffusent en temps réel par des interfaces tactiles. BrainCube couple deux flux : informationnels et physiques. La mission est d'intégrer la variable économique. Une étude de la littérature montre qu’une évaluation simultanée en temps réel des flux physiques, informationnels et financiers, couplée à une amélioration continue des processus de production, n'est pas réalisée. Résultat : Une revue de la littérature étudie les pratiques et les méthodes du contrôle de gestion pour proposer une méthode temps réel adaptée aux spécificités de BrainCube. L'étude de cas, basée sur une recherche-ingénierique, propose une méthodologie de modélisation générique de la variable économique. Des modèles génériques décisionnels paramétrables sont proposés. Ils doivent faciliter l'usage d'une information temps réel à forte granularité. Les apports, limites et perspectives mettent en relief l'intérêt des travaux pour l'entreprise et les sciences de gestion. / Context: IP Leanware is a growing start-up. Created in 2008, its consolidated sales has quadrupled in 4 years and established two subsidiaries (Brazil and the United States). Since then, its growth has been two digits (2015). It optimizes the performance of industrial companies with software (BrainCube) that identifies overperformance conditions. The thesis, carried out in CIFRE within the R&D service led by Sylvain Rubat du Mérac, is located at the interface of management control, production management and information systems.Aim: BrainCube manages massive descriptive data of its customers' process flows. Its analysis engine identifies overperformance situations and broadcasts them in real time through tactile interfaces. BrainCube couples two flows: informational and physical. The mission is to integrate the economic variable. A literature study shows that simultaneous real-time evaluation of physical, informational and financial flows coupled with continuous improvement of production processes is not realized.Result: A literature review examines the practices and methods of management control to propose a real-time method adapted to the specificities of BrainCube. The case study, based on an engineering-research, proposes a generic modeling methodology of the economic variable. Configurable generic decision models are proposed. They must facilitate the use of real time information with high granularity. The contributions, limits and perspectives highlight the interest of works for the company and the management sciences. Contrôle de gestion Cas industriel Mégadonnées Temps réel Management de la connaissance Régulation des opérations Management control Industrial case Big data Real time Knowledge management Regulation of operations
7	Apprentissage automatique de caractéristiques audio : application à la génération de listes de lecture thématiques / Machine learning algorithms applied to audio features analysis : application in the automatic generation of thematic musical playlists Bayle, Yann 19 June 2018 (has links) Ce mémoire de thèse de doctorat présente, discute et propose des outils de fouille automatique de mégadonnées dans un contexte de classification supervisée musical.L'application principale concerne la classification automatique des thèmes musicaux afin de générer des listes de lecture thématiques.Le premier chapitre introduit les différents contextes et concepts autour des mégadonnées musicales et de leur consommation.Le deuxième chapitre s'attelle à la description des bases de données musicales existantes dans le cadre d'expériences académiques d'analyse audio.Ce chapitre introduit notamment les problématiques concernant la variété et les proportions inégales des thèmes contenus dans une base, qui demeurent complexes à prendre en compte dans une classification supervisée.Le troisième chapitre explique l'importance de l'extraction et du développement de caractéristiques audio et musicales pertinentes afin de mieux décrire le contenu des éléments contenus dans ces bases de données.Ce chapitre explique plusieurs phénomènes psychoacoustiques et utilise des techniques de traitement du signal sonore afin de calculer des caractéristiques audio.De nouvelles méthodes d'agrégation de caractéristiques audio locales sont proposées afin d'améliorer la classification des morceaux.Le quatrième chapitre décrit l'utilisation des caractéristiques musicales extraites afin de trier les morceaux par thèmes et donc de permettre les recommandations musicales et la génération automatique de listes de lecture thématiques homogènes.Cette partie implique l'utilisation d'algorithmes d'apprentissage automatique afin de réaliser des tâches de classification musicale.Les contributions de ce mémoire sont résumées dans le cinquième chapitre qui propose également des perspectives de recherche dans l'apprentissage automatique et l'extraction de caractéristiques audio multi-échelles. / This doctoral dissertation presents, discusses and proposes tools for the automatic information retrieval in big musical databases.The main application is the supervised classification of musical themes to generate thematic playlists.The first chapter introduces the different contexts and concepts around big musical databases and their consumption.The second chapter focuses on the description of existing music databases as part of academic experiments in audio analysis.This chapter notably introduces issues concerning the variety and unequal proportions of the themes contained in a database, which remain complex to take into account in supervised classification.The third chapter explains the importance of extracting and developing relevant audio features in order to better describe the content of music tracks in these databases.This chapter explains several psychoacoustic phenomena and uses sound signal processing techniques to compute audio features.New methods of aggregating local audio features are proposed to improve song classification.The fourth chapter describes the use of the extracted audio features in order to sort the songs by themes and thus to allow the musical recommendations and the automatic generation of homogeneous thematic playlists.This part involves the use of machine learning algorithms to perform music classification tasks.The contributions of this dissertation are summarized in the fifth chapter which also proposes research perspectives in machine learning and extraction of multi-scale audio features. Annotations musicales automatiques Apprentissage automatique et profond Classification supervisée Fouille de mégadonnées Psychoacoustique Traitement du signal audio numérique Big data mining Machine and deep learning Digital audio signal processing Music information retrieval Psychoacoustics Supervised classification
8	L’encadrement juridique de l’exploitation des mégadonnées dans le secteur privé au Québec Du Perron, Simon 01 1900 (has links) Les mégadonnées font partie de ces sujets dont on entend parler sans trop savoir ce qu’ils signifient précisément. Souvent associés au domaine de l’intelligence artificielle, ces volumineux ensembles de données sont à la base d’un nombre croissant de modèles d’affaires axés sur la valorisation des données numériques que nous générons au quotidien. Le présent mémoire cherche à démontrer que cette exploitation des mégadonnées par les entreprises ne s’effectue pas dans un vide juridique. Les mégadonnées ne peuvent être considérées comme un objet de droit en l’absence d’une définition formelle. Une revue de la littérature multidisciplinaire à leur sujet, invite à les concevoir comme un actif informationnel doté de cinq caractéristiques principales, soit leur volume, leur vélocité, leur variété, leur valeur et leur véracité. L’analyse de ces caractéristiques permet au juriste d’atteindre une compréhension suffisante de ce phénomène afin de l’aborder sous le prisme du droit positif. Suivant un exercice de qualification juridique, les mégadonnées émergent à la fois comme un bien meuble incorporel et comme un ensemble de documents technologiques portant divers renseignements dont certains peuvent être qualifiés de renseignements personnels. Le cadre juridique applicable à l’exploitation des mégadonnées s’articule donc autour de la protection législative de la vie privée informationnelle qui s’incarne à travers les lois en matière de protection des renseignements personnels. Cet encadrement est complété par certaines règles relatives à la gestion documentaire et au droit à l’égalité. Une manière efficace de présenter cet encadrement juridique est selon le cycle de vie des renseignements personnels au sein des mégadonnées. Ainsi, il appert que les principes issus de l’approche personnaliste et minimaliste du droit québécois à la protection des renseignements personnels s’appliquent tant bien que mal à la collecte des données numériques ainsi qu’à leur traitement par les entreprises. / Big data is one of those topics we keep hearing about without knowing exactly what it means. Often associated with the field of artificial intelligence, these large datasets are the backbone of a growing number of business models that focus on leveraging the digital data we generate on a daily basis. This Master’s thesis seeks to demonstrate that this exploitation of big data by businesses is not happening in a legal vacuum. Big data cannot be considered as an object of rights in the absence of a formal definition. A review of the multidisciplinary literature on the subject invites us to conceive them as an information asset with five main characteristics: volume, velocity, variety, value and veracity. The study of these characteristics allows the jurist to reach a sufficient understanding of the phenomenon in order to approach it through the lens of positive law. Following a legal qualification exercise, big data emerges both as intangible movable property and as a set of technological documents carrying various types of information, some of which can be qualified as personal information. The legal framework governing the exploitation of big data is therefore built around the legislative protection of informational privacy, which is embodied in privacy laws. This framework is complemented by certain rules relating to document management and the right to equality. An effective way to present this legal framework is according to the life cycle of personal information within big data. Thus, it appears that the principles stemming from the personalist and minimalist approach of Quebec's data protection law apply, albeit not without struggle, to the collection of digital data as well as their processing by businesses. mégadonnées données massives intelligence artificielle vie privée protection des renseignements personnels données personnelles sécurité informationnelle algorithmes big data artificial intelligence privacy data protection personal information profiling informational security business analytics
9	Law in the present future : approaching the legal imaginary of smart cities with science (and) fiction Therrien, Cristiano S. 02 1900 (has links) This doctoral research concerns smart cities, describing digital solutions and social issues related to their innovative technologies, adopted models, and major projects around the world. The many perspectives mentioned in it were identified by online tools used for the textual analysis of two databases that were built from relevant publications on the main subject by authors coming from media and academia. Expected legal elements emerged from the applied process, such as privacy, security, transparency, participation, accountability, and governance. A general review was produced on the information available about the public policies of Big Data in the two municipal cases of Rio de Janeiro and Montréal, and their regulation in the Brazilian and Canadian contexts. The combined approaches from science and literature were explored to reflect on the normative concerns represented by the global challenges and local risks brought by urban surveillance, climate change, and other neoliberal conditions. Cyberpunk Science Fiction reveals itself useful for engaging with the shared problems that need to be faced in the present time, all involving democracy. The results achieved reveal that this work was, in fact, about the complex network of practices and senses between (post)modern law and the imaginary of the future. / Cette recherche doctorale centrée sur les villes intelligentes met en évidence les solutions numériques et les questionnements sociétaux qui ont trait aux technologies innovantes, ainsi qu’aux principaux modèles et projets développés autour d’elles à travers le monde. Des perspectives multiples en lien avec ces développements ont été identifiées à l’aide d’outils en ligne qui ont permis l’analyse textuelle de deux bases de données comprenant des publications scientifiques et des écrits médiatiques. De ce processus analytique ont émergé des éléments juridiques relatifs aux questions de vie privée, de sécurité, de transparence, de participation, d’imputabilité et de gouvernance. De plus, à partir de ces informations a été réalisée une revue des politiques publiques relatives aux mégadonnées dans les villes de Rio de Janeiro et de Montréal, ainsi que des réglementations nationales du Canada et du Brésil en lien avec ce sujet. Finalement, à travers l’exploration d’écrits scientifiques et fictionnels de la littérature, les principaux enjeux normatifs soulevés localement et mondialement par la surveillance urbaine, les changements climatiques et les politiques néolibérales ont pu être mis à jour. Le courant cyberpunk de la science-fiction s’est avéré particulièrement utile pour révéler les principaux problèmes politiques, en lien avec la préservation de la démocratie, auxquelles sont confrontées nos sociétés présentement. Les résultats de la recherche démontrent finalement la présence d’un réseau de pratiques et de significations entre le droit (post)moderne et les représentations imaginaires du futur. analyse de texte droit postmoderne littérature cyberpunk mégadonnées Montréal politique publique Rio de Janeiro science-fiction science moderne ville intelligente Big Data Cyberpunk literature modern science postmodern law public policy science fiction smart city text analytics

Search results