Spelling suggestions: "subject:"connées lumineuses."" "subject:"connées lumineuse.""
1 |
Représentation et fouille de données volumineusesPrudhomme, Elie 17 June 2009 (has links)
Le stockage n'étant plus soumis à des contraintes de coût importantes, les systèmes d'information collectent une quantité croissante de données, souvent via des processus d'acquisition automatique. En parallèle, les objets d'intérêt sont devenus plus complexes. C'est le cas, par exemple, des images, du texte ou encore des puces à ADN. Pour leur analyse, les méthodes d'apprentissage doivent alors prendre en compte l'augmentation massive et conjointe du nombre d'exemples et d'attributs qui en résultent. Or, les outils classiques de l'apprentissage automatique ne sont pas toujours adaptés à ce changement de volumétrie tant au niveau de leur complexité algorithmique que pour appréhender la structure des données. Dans ce contexte de données volumineuses en apprentissage supervisé, nous nous sommes intéressés à l'extraction de deux catégories de connaissances, conjointement à la prédiction, la première relative à l'organisation des exemples entre eux et la seconde relative aux interactions qui existent entre les attributs. Pour nous intéresser aux relations entre les exemples, nous définissons le concept de représentation en apprentissage supervisé comme une modélisation et une visualisation des données à la fois du point de vue de la proximité entre les exemples et du lien entre la position des exemples et leur étiquette. Parmi les différents algorithmes recensés qui conduisent à l'obtention d'une telle représentation, nous retenons les cartes auto-organisatrices qui présentent la plus faible complexité algorithmique, ce qui les rend adaptées aux données volumineuses. L'algorithme des cartes auto-organisatrices étant nonsupervis é, nous proposons une adaptation à l'apprentissage supervisé par le biais des cartes étiquetées (Prudhomme et Lallich, 2005b). Nous montrons également qu'il est possible de valider statistiquement la qualité de la représentation obtenue par une telle carte (Prudhomme et Lallich, 2005a). Les statistiques que nous proposons sont corrélées avec le taux d'erreur en généralisation, ce qui permet de juger a priori de la qualité de la prédiction qui résulte de la carte. Néanmoins, la prédiction des cartes auto-organisatrices n'est pas toujours satisfaisante face à des données en grandes dimensions. Dans ce cas, nous avons recours aux méthodes ensemblistes. Ces méthodes agrègent la prédiction de plusieurs classifieurs simples. En créant une certaine diversité entre les prédictions de ces classifieurs, les méthodes ensemblistes améliorent la prédiction qui aurait été obtenue par un seul classifieur. Pour créer cette diversité, nous apprenons chaque classifieur simple (dans notre cas, des cartes auto-organisatrices) sur un sous-espace de l'espace d'apprentissage. La diversité est ainsi l'occasion de diminuer la dimensionnalité du problème. Afin de choisir au mieux les sous-espaces, nous nous sommes inspirés des connaissances théoriques disponibles sur la répartition de l'erreur en généralisation d'un ensemble. Nous avons alors proposé deux heuristiques. La première heuristique est non-supervisée. Elle repose sur l'interprétation des corrélations entre attributs pour déterminer les sous-espaces à apprendre (Prudhomme et Lallich, 2007). La seconde heuristique, au contraire, est supervisée. Elle optimise par un algorithme génétique une mesure de l'erreur d'un ensemble en fonction de l'erreur des classifieurs qui le composent (Prudhomme et Lallich, 2008b). Ces deux heuristiques conduisent à des ensembles de cartes (ou des comités de cartes) dont l'erreur en généralisation est plus faible que celle d'une carte seule apprise sur la totalité des attributs. Néanmoins, ils conduisent également à une multitude de représentations. Pour proposer une seule représentation à l'issue de l'apprentissage, nous introduisons la notion de stacking géographique. (...) / /
|
2 |
Bonnes pratiques en ingénierie de données en radio-oncologieCouture, Gabriel 12 November 2023 (has links)
Les travaux présentés dans ce mémoire visent à identifier et appliquer de bonnes pratiques quant à la gestion de données en santé, et plus précisément en radio-oncologie. Ce domaine comporte de nombreux défis en lien avec les données dont l'augmentation rapide du volume, de la variété et de la complexité des données. C'est pourquoi les développements en lien avec la gestion de données en santé doivent s'appuyer sur de bonnes pratiques d'ingénierie de données. Trois projets distincts en lien avec les données ont été abordés dans le cadre de ce mémoire. Le premier concerne l'automatisation de la collecte de données en radio-oncologie. Un pipeline a été développé afin d'obtenir quotidiennement les indices dosimétriques des traitements de curiethérapie de prostate faits dans la journée. Ces indices sont ensuite stockés dans une base de données dédiée à la recherche sur le cancer de la prostate. Ces indices peuvent être obtenus par deux algorithmes de calcul de DVH. Une comparaison a été faîte avec un jeu de données de 20 cas de curiethérapie HDR de prostate. Celle-ci a permis d'identifier des différences entre chacun des algorithmes. Le deuxième projet montre comment il est possible de concevoir des jeux de données massifs réutilisables dédiés aux analyses radiomiques. Des flots de travail permettant de conserver des données coûteuses générées dans le cadre d'analyses radiomiques ont été conceptualisés et implémentés. Ces flots, inspirés des principes FAIR, permettent d'assurer une meilleure traçabilité et de tendre vers des jeux de données réutilisables. Un flot qui permet à un spécialiste (ex. radio-oncologue) de tracer des segmentations a été implémenté et testé avec des logiciels libres, notamment le serveur DICOM Orthanc et 3D Slicer. Le dernier projet démontre l'apport de l'ingénierie de données en médecine personnalisée. Plus précisément, l'estimation des risques de cancer du sein pour des participantes à une étude d'envergure ont été obtenus par l'entremise de processus automatisés. Dans le cadre d'une étude sur le cancer du sein impliquant près de 2000 participantes, deux pipelines ont été développés. Le premier permet d'obtenir le risque de cancer du sein individuel des participantes en fonction de différents facteurs (habitudes de vie, historique familiale, marqueurs génétiques). Le deuxième pipeline génère des lettres personnalisées destinées aux participantes ainsi qu'à leur médecin traitant. Ces projets démontrent la pertinence de bonnes pratiques quant à la gestion de données en santé. L'ingénierie de données présentée dans ce mémoire aura permis d'automatiser plusieurs opérations en lien avec les données en plus de concevoir des jeux de données réutilisables. Cette bonne gestion de données pave la voie vers de nouvelles pratiques et rend les activités scientifiques en santé plus efficaces. / This work aims to identify and apply good practices in the management of health data, and more specifically in radiation oncology. This field has many data-related challenges including the rapidly increasing volume, variety and complexity of data. This is why developments related to health data management must be based on good data engineering practices. Three distinct data-related projects have been addressed in this thesis. The first concerns the automation of data collection in radiation oncology. A pipeline has been developed to obtain daily dosimetric indices of prostate brachytherapy treatments performed during the day. These indices are then stored in a database dedicated to prostate cancer research. These indices can be obtained by two DVH calculation algorithms. A comparison was made with a dataset of 20 HDR prostate brachytherapy cases. This made it possible to identify the differences of each of the algorithms. The second project shows how it is possible to design massive reusable datasets dedicated to radiomics analyses. Workflows to retain expensive data generated in radiomics analyzes have been conceptualized and implemented. These workflows, inspired by the FAIR principles, ensure better traceability and tend towards reusable data sets. A workflow that allows a specialist (e.g. radio-oncologist) to draw segmentations has been implemented and tested with free software, in particular with the DICOM server Orthanc and 3D Slicer. The last project demonstrates the contribution of data engineering in personalized medicine. Specifically, the breast cancer risk assessment of a large group of participants were obtained through automated processes. As part of a breast cancer study involving nearly 2000 participants, two data pipelines were developed. The first provides participants' individual breast cancer risk assessment based on various factors (lifestyles, family history, genetic markers). The second pipeline generates personalized newsletters for participants and their treating physician. These projects demonstrate the relevance of good practices in health data management. The data engineering presented in this thesis will have made it possible to automate several data related operations in addition to designing reusable data sets. This good data management paves the way for new practices and makes health science activities more efficient.
|
3 |
Elaboration d'un moteur de traitement des données spatiales massives vectorielles optimisant l'indexation spatialeEngélinus, Jonathan 24 April 2018 (has links)
Les données massives se situent au coeur de beaucoup d’enjeux scientifiques et sociétaux, et leur volume global ne cesse de croître. Il devient donc crucial de disposer de solutions permettant leur traitement et leur analyse. Hélas, alors qu’une majorité de ces données intègrent une composante spatiale vectorielle, peu de systèmes sont à même de gérer cette dernière. En outre, les rares prototypes qui s’y essaient respectent mal les standards ISO et les spécifications OGC et présentent des performances limitées. La présente recherche visait donc à déterminer comment gérer les données spatiales massives vectorielles de façon plus complète et efficiente. Il s’agissait en particulier de trouver une façon de les indexer avec une bonne scalabilité horizontale, d’assurer leur compatibilité avec la norme ISO-19125 et ses extensions, et de les rendre accessibles depuis les logiciels SIG. Il en résulte le système Elcano, une extension spatiale au système de gestion de données massives Spark qui fournit des performances accrues par rapport aux solutions du marché. / Big data are in the midst of many scientific and economic issues. Furthermore their volume is continuously increasing. As a result, the need for management and processing solutions has become critical. Unfortunately, while most of these data have a vectorial spatial component, almost none of the current systems are able to manage it. In addition, the few systems who try either do not respect the ISO standards and OGC specifications or show poor performances. The aim of this research was then to determine how to manage the vectorial massive data more completely and efficiently. The objective was to find a scalable way of indexing them, ensuring their compatibility with ISO-19125 and its extensions, and making them accessible from GIS. The result is the Elcano system. It is an extension of the massive data management system Spark which provides increased performance compared to current market solutions.
|
4 |
Une démarche de gestion stratégique et opérationnelle du changement dans le contexte de l'exploitation avancée de données massives internes aux organisationsGueye, Ndeye 17 July 2018 (has links)
L’objectif de ce mémoire est d’élaborer une démarche de gestion du changement destinée aux organisations qui souhaitent mettre en place les transformations nécessaires pour tirer parti des techniques d’exploitation avancée de données massives. Le domaine de transformation choisi dans le cadre de ce mémoire est l’exploitation des données internes à une organisation pour développer une maturité technologique et organisationnelle, notamment en ce qui concerne l’orientation-client de son modèle d’affaires. Cette évolution de maturité a pour but de suivre la transformation de la société actuelle, fortement influencée par le mouvement Big Data. La démarche proposée s’adresse à des organisations dont la maturité technologique et organisationnelle est éloignée de celle des compagnies leaders de cette transformation « digitale ». Nous proposons un cadre méthodologique stratégique et opérationnel permettant aux organisations d'effectuer les transformations de culture, d'organisation, de gestion et d'adoption de techniques pour se lancer dans l'exploitation avancée de leurs données internes qui sont en forts volumes et mal structurées. L'application pratique de notre cadre méthodologique est illustrée dans le cas d'une grande compagnie d'assurance canadienne sur une période de deux ans. Nous avons également réalisé un projet pilote de 9 mois visant à tester la phase de mise en oeuvre de la gestion stratégique du changement en exploitant les données-clients internes à cette compagnie d’assurance. Nous avons élaboré, raffiné et testé ces démarches en plusieurs itérations afin de proposer des méthodes détaillées, illustrées par des actions qui conduisent à des résultats concrets et qui mettent en évidence certains enjeux ou difficultés liés à l’adoption de ce type d’approches. À l’issu de notre projet, la démarche proposée a été adoptée par la compagnie à des fins d’opérationnalisation.
|
5 |
Conception et développement d'une solution de diffusion des données géospatiales massives 3D dans un contexte de gestion de risque d'inondationsBenchaabane, Fethi 12 November 2023 (has links)
Au Québec, chaque année, les inondations printanières présentent un défi majeur pour les autorités québécoises. Ainsi, l'élaboration de nouveaux outils et de nouvelles méthodes pour diffuser et visualiser des données massives spatiotemporelles 3D dynamiques d'inondation est très important afin de mieux comprendre et gérer les risques reliés aux inondations. Cette recherche s'intéresse à la diffusion de données géospatiales massives 3D (modèles de bâtiments 3D, arbres, modèles numériques d'élévation de terrain (MNE), données LiDAR, imageries aériennes, etc.) en relation avec les inondations. Le problème est qu'il n'existe pas, à travers la littérature, des systèmes de diffusion efficaces des données massives 3D adaptées aux besoins de cette recherche. En ce sens, notre objectif général consiste à développer un outil de diffusion des données géospatiales massives 3D qui sont des bâtiments 3D et des modèles de terrains de haute résolution à l'échelle de la province du Québec. Les défis de diffusion du flux de données massives, nous ramènent à considérer la technique de tuilage 3D pour convertir les données brutes en formats et structures vectoriels plus légers et adaptés à la diffusion comme la spécification "3D Tiles" pour tuiler les bâtiments 3D, les nuages de points LiDAR et d'autres modèles géoréférencés 3D et le maillage irrégulier, notamment les TIN, pour tuiler les modèles numériques de terrain. Aussi, l'utilisation des techniques de traitement parallèle permet de gérer efficacement les flux massifs de données et d'améliorer le temps de traitement permettant ainsi la scalabilité et la flexibilité des systèmes existants. A cet effet, deux pipelines de tuilage ont été développés. Le premier pipeline concerne la création des tuiles de bâtiments 3D selon la spécification "3D Tiles". Le deuxième est pour créer des tuiles de terrain basées sur des maillages irréguliers. Ces pipelines sont ensuite intégrés dans un système de traitement distribué basé sur des conteneurs Docker afin de paralléliser les processus de traitements. Afin de tester l'efficacité et la validité du système développé, nous avons testé ce système sur un jeux de données massif d'environ 2.5 millions bâtiments 3D situés au Québec. Ces expérimentations ont permis de valider et de mesurer l'efficacité du système proposé par rapport à sa capacité de se mettre à l'échelle (Scalabilité) pour prendre en charge, efficacement, les flux massifs de données 3D. Ces expérimentations ont aussi permis de mettre en place des démarches d'optimisation permettant une meilleure performance dans la production et la diffusion des tuiles 3D. / Every year, floods present a major challenge for Quebec authorities. Thus, the development of new tools and methods to disseminate and visualize massive 3D dynamic flood data is very important to better understand and manage flood-related risks. This research focuses on the streaming of massive 3D geospatial data (3D building models, trees, digital elevation models (DEM), LiDAR data, aerial imagery, etc.) related to flooding. The problem is that there is no efficient streaming systems in the literature for massive 3D data adapted to the needs of this research. In this sense, our general objective is to develop a tool for the streaming of massive 3D geospatial data which are 3D buildings and high-resolution terrain models at the scale of the province of Quebec. The challenges of streaming massive data lead us to adopt the 3D tiling technique to convert raw data into lighter vector formats and structures suitable for streaming such as the "3D Tiles" specification to tile 3D buildings, LiDAR point clouds and other 3D georeferenced models and irregular meshes, including TIN, to tile digital terrain models. Also, the use of parallel processing techniques allows efficient management of massive data flows and improve processing time allowing the scalability and the flexibility of existing systems. For this purpose, two tiling pipelines have been developed. The first pipeline is for creating 3D building tiles according to the "3D Tiles" specification. The second is for creating terrain tiles based on irregular meshes. These pipelines are then integrated into a distributed processing system based on Docker containers in order to parallelize the treatment processes. To test the efficiency and validity of the developed system, we tested this system on a massive dataset of about 2.5 million 3D buildings located in Quebec. These experiments allowed us to validate and measure the efficiency of the proposed system to be scalable in order to efficiently handle massive 3D data flows. These experiments also allowed to set up optimization approaches allowing a better performance in the production and the streaming of 3D tiles.
|
6 |
Développement de méthodes d'intégration de données biologiques à l'aide d'ElasticsearchOngaro-Carcy, Régis 22 February 2024 (has links)
En biologie, les données apparaissent à toutes les étapes des projets, de la préparation des études à la publication des résultats. Toutefois, de nombreux aspects limitent leur utilisation. Le volume, la vitesse de production ainsi que la variété des données produites ont fait entrer la biologie dans une ère dominée par le phénomène des données massives. Depuis 1980 et afin d'organiser les données générées, la communauté scientifique a produit de nombreux dépôts de données. Ces dépôts peuvent contenir des données de divers éléments biologiques par exemple les gènes, les transcrits, les protéines et les métabolites, mais aussi d'autres concepts comme les toxines, le vocabulaire biologique et les publications scientifiques. Stocker l'ensemble de ces données nécessite des infrastructures matérielles et logicielles robustes et pérennes. À ce jour, de par la diversité biologique et les architectures informatiques présentes, il n'existe encore aucun dépôt centralisé contenant toutes les bases de données publiques en biologie. Les nombreux dépôts existants sont dispersés et généralement autogérés par des équipes de recherche les ayant publiées. Avec l'évolution rapide des technologies de l'information, les interfaces de partage de données ont, elles aussi, évolué, passant de protocoles de transfert de fichiers à des interfaces de requêtes de données. En conséquence, l'accès à l'ensemble des données dispersées sur les nombreux dépôts est disparate. Cette diversité d'accès nécessite l'appui d'outils d'automatisation pour la récupération de données. Lorsque plusieurs sources de données sont requises dans une étude, le cheminement des données suit différentes étapes. La première est l'intégration de données, notamment en combinant de multiples sources de données sous une interface d'accès unifiée. Viennent ensuite des exploitations diverses comme l'exploration au travers de scripts ou de visualisations, les transformations et les analyses. La littérature a montré de nombreuses initiatives de systèmes informatiques de partage et d'uniformisation de données. Toutefois, la complexité induite par ces multiples systèmes continue de contraindre la diffusion des données biologiques. En effet, la production toujours plus forte de données, leur gestion et les multiples aspects techniques font obstacle aux chercheurs qui veulent exploiter ces données et les mettre à disposition. L'hypothèse testée pour cette thèse est que l'exploitation large des données pouvait être actualisée avec des outils et méthodes récents, notamment un outil nommé Elasticsearch. Cet outil devait permettre de combler les besoins déjà identifiés dans la littérature, mais également devait permettre d'ajouter des considérations plus récentes comme le partage facilité des données. La construction d'une architecture basée sur cet outil de gestion de données permet de les partager selon des standards d'interopérabilité. La diffusion des données selon ces standards peut être autant appliquée à des opérations de fouille de données biologiques que pour de la transformation et de l'analyse de données. Les résultats présentés dans le cadre de ma thèse se basent sur des outils pouvant être utilisés par l'ensemble des chercheurs, en biologie mais aussi dans d'autres domaines. Il restera cependant à les appliquer et à les tester dans les divers autres domaines afin d'en identifier précisément les limites. / In biology, data appear at all stages of projects, from study preparation to publication of results. However, many aspects limit their use. The volume, the speed of production and the variety of data produced have brought biology into an era dominated by the phenomenon of "Big Data" (or massive data). Since 1980 and in order to organize the generated data, the scientific community has produced numerous data repositories. These repositories can contain data of various biological elements such as genes, transcripts, proteins and metabolites, but also other concepts such as toxins, biological vocabulary and scientific publications. Storing all of this data requires robust and durable hardware and software infrastructures. To date, due to the diversity of biology and computer architectures present, there is no centralized repository containing all the public databases in biology. Many existing repositories are scattered and generally self-managed by research teams that have published them. With the rapid evolution of information technology, data sharing interfaces have also evolved from file transfer protocols to data query interfaces. As a result, access to data set dispersed across the many repositories is disparate. This diversity of access requires the support of automation tools for data retrieval. When multiple data sources are required in a study, the data flow follows several steps, first of which is data integration, combining multiple data sources under a unified access interface. It is followed by various exploitations such as exploration through scripts or visualizations, transformations and analyses. The literature has shown numerous initiatives of computerized systems for sharing and standardizing data. However, the complexity induced by these multiple systems continues to constrain the dissemination of biological data. Indeed, the ever-increasing production of data, its management and multiple technical aspects hinder researchers who want to exploit these data and make them available. The hypothesis tested for this thesis is that the wide exploitation of data can be updated with recent tools and methods, in particular a tool named Elasticsearch. This tool should fill the needs already identified in the literature, but also should allow adding more recent considerations, such as easy data sharing. The construction of an architecture based on this data management tool allows sharing data according to interoperability standards. Data dissemination according to these standards can be applied to biological data mining operations as well as to data transformation and analysis. The results presented in my thesis are based on tools that can be used by all researchers, in biology but also in other fields. However, applying and testing them in various other fields remains to be studied in order to identify more precisely their limits.
|
7 |
Traitements spatiaux dans un contexte de flux massifs de donnéesHotte, Sylvain 31 August 2018 (has links)
Au cours des dernières années, nous avons constaté une augmentation du volume d’information sous la forme de flux de données. Cette augmentation rend le traitement de ces flux par des méthodes traditionnelles non performant, voire impossible. De plus, la mise à jour rapide des informations suscite un intérêt grandissant pour leurs traitements en temps réel afin d’en tirer une plus grande valeur. Ces données massives étant souvent géoréférencées, il devient donc pertinent d’offrir des méthodes permettant d’effectuer des traitements spatiaux sur ces flux massifs de données. Cependant, le sujet des traitements spatiaux dans un contexte de flux massifs a très peu été abordé dans la recherche scientifique. Les études qui ont été faites traitaient toujours de flux massif de données en relation avec des données persistantes. Aucune recherche ne portait sur des traitements spatiaux ayant plusieurs flux massifs de données spatiales. La problématique est de déterminer des méthodes de traitements pour des opérateurs spatiaux dont les paramètres sont issus de flux massifs de données spatiales. Notre objectif général consiste à explorer les caractéristiques permettant l’élaboration de tels traitements et d’offrir des pistes de solution. Nos travaux de recherche ont fait ressortir les facteurs influençant l’adaptation des traitements spatiaux dans un contexte de traitement en parallèle de flux massif de données. Nous avons déterminé que les méthodes d’adaptation peuvent se décliner en classes sur la base des caractéristiques de l’opérateur spatial, mais aussi sur la nature des données et la façon dont elles sont rendues disponibles. Nous avons proposé des méthodes générales de traitement pour chacune des classes identifiées afin de guider les stratégies d’adaptations. Pour la classe dont le traitement d’opérateur binaire possède des opérandes issus de flux massifs, nous avons détaillé une méthode d’adaptation permettant l’utilisation d’opérateurs spatiaux. Afin de tester l’efficacité et la validité de la méthode proposée, nous avons appliqué cette méthode à un opérateur relationnel d’intersection et un opérateur d’analyse de proximité, soit les "k" plus proches voisins. Ces tests ont permis de vérifier la validité et de quantifier l’efficacité des méthodes proposée par rapport à l’évolution, ou scalabilité, horizontale du système (ajout du nombre de cœurs). Nos tests ont aussi permis de quantifier l’effet de la variation du niveau de partitionnement sur les performances du débit de traitement. Notre contribution permettra, nous l’espérons, de servir de point de départ pour l’adaptation d’opérateurs spatiaux plus complexes. / In recent years we have witnessed a significant volume increase of data streams. The traditional way of processing this information is rendered inefficient or even impossible by this high volume of data. There is an increase in the interest of real time data processing in order to derive greater value of the data. Since those data are often georeferenced, it becomes relevant to offer methods that enable spatial processing on big data streams. However, the subject of spatial processing in a context of Big Data stream has seldom been discussed in scientific research. All the studies that have been done so far involve persistent data and none of them deals with the case where two Big Data streams are in relation. The problem is therefore to determine how to adapt the processing of spatial operators when their parameters derive from two Big Spatial Data stream. Our general objective is to explore the characteristics that allow the development of such analysis and to offer potential solutions. Our research has highlighted the factors influencing the adaptation of spatial processing in a context of Big Data stream. We have determined that adaptation methods can be categorized in different categories according to the characteristics of the spatial operator but also on the characteristics of the data itself and how it is made available. We proposed general methods of spatial processing for each category in order to guide adaptation strategies. For one of these categories, where a binary operator has both operands coming from Big Data stream, we have detailed a method allowing the use of spatial operators. In order to test the effectiveness and validity of the proposed method, we applied this method to an intersection operator and to a proximity analysis operator, the "k" nearest neighbors. These tests made it possible to check the validity and to quantify the effectiveness of the proposed methods in relation to the system evolution or scalability, i.e. increasing the number of processing cores. Our tests also made it possible to quantify the effect of the variation of the partitioning level on the performances of the treatment flow. Our contribution will, hopefully, serves as a starting point for more complex spatial operator adaptation.
|
8 |
Utilisation des modèles de co-clustering pour l'analyse exploratoire des données / No English title availableGuigourès, Romain 04 December 2013 (has links)
Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l’ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L’approche MODL permet d’obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d’analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d’en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d’analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes.Enfin une application sur des comptes-rendus d’appels de l’opérateur Orange, collectés en Côte d’Ivoire, montre l’intérêt de l’approche et des outils d’analyse exploratoire dans un contexte industriel. / Co-clustering is a clustering technique aiming at simultaneously partitioning the rows and the columns of a data matrix. Among the existing approaches, MODL is suitable for processing huge data sets with several continuous or categorical variables. We use it as the baseline approach in this thesis. We discuss the reliability of applying such an approach on data mining problems like graphs partitioning, temporal graphs segmentation or curve clustering.MODL tracks very fine patterns in huge data sets, that makes the results difficult to study. That is why, exploratory analysis tools must be defined in order to explore them. In order to help the user in interpreting the results, we define exploratory analysis tools aiming at simplifying the results in order to make possible an overall interpretation, tracking the most interesting patterns, determining the most representative values of the clusters and visualizing the results. We investigate the asymptotic behavior of these exploratory analysis tools in order to make the connection with the existing approaches.Finally, we highlight the value of MODL and the exploratory analysis tools owing to an application on call detailed records from the telecom operator Orange, collected in Ivory Coast.
|
9 |
Analyse de données volumineuses dans le domaine du transport / Big data analysis in the field of transportationCarel, Léna 08 February 2019 (has links)
L'objectif de cette thèse est de proposer de nouvelles méthodologies à appliquer aux données du transport public. En effet, nous sommes entourés de plus en plus de capteurs et d'ordinateurs générant d'énormes quantités de données. Dans le domaine des transports publics, les cartes sans contact génèrent des données à chaque fois que nous les utilisons, que ce soit pour les chargements ou nos trajets. Dans cette thèse, nous utilisons ces données dans deux buts distincts. Premièrement, nous voulions être capable de détecter des groupes de passagers ayant des habitudes temporelles similaires. Pour ce faire, nous avons commencé par utilisé la factorisation de matrices non-négatives comme un outil de pré-traitement pour la classification. Puis nous avons introduit l'algorithme NMF-EM permettant une réduction de la dimension et une classification de manière simultanée pour un modèle de mélange de distributions multinomiales. Dans un second temps, nous avons appliqué des méthodes de régression à ces données afin d'être capable de fournir une fourchette de ces validations probables. De même, nous avons appliqué cette méthodologie à la détection d'anomalies sur le réseau. / The aim of this thesis is to apply new methodologies to public transportation data. Indeed, we are more and more surrounded by sensors and computers generating huge amount of data. In the field of public transportation, smart cards generate data about our purchases and our travels every time we use them. In this thesis, we used this data for two purposes. First of all, we wanted to be able to detect passenger's groups with similar temporal habits. To that end, we began to use the Non-negative Matrix Factorization as a pre-processing tool for clustering. Then, we introduced the NMF-EM algorithm allowing simultaneous dimension reduction and clustering on a multinomial mixture model. The second purpose of this thesis is to apply regression methods on these data to be able to forecast the number of check-ins on a network and give a range of likely check-ins. We also used this methodology to be able to detect anomalies on the network.
|
10 |
Développement d'une nouvelle approche d'extraction du réseau de surface à partir d'un nuage de points LiDAR massif basée sur la théorie de MorseDahbi, Aymane 16 January 2024 (has links)
Titre de l'écran-titre (visionné le 11 janvier 2024) / Aujourd'hui, la cartographie des réseaux hydrographiques est un sujet important pour la gestion et l'aménagement de l'espace forestier, la prévention contre les risques d'inondation, etc. Les données sources pour cartographier les cours d'eau sont des nuages de points obtenus par des lidars aéroportés. Cependant, les méthodes d'extraction des réseaux usuelles nécessitent des opérations de découpage, de rééchantillonnage et d'assemblage des résultats pour produire un réseau complet, altérant la qualité des résultats et limitant l'automatisation des traitements. Afin de limiter ces opérations, une nouvelle approche d'extraction est considérée. Cette approche propose de construire un réseau de crêtes et de talwegs à partir des points lidar, puis transforme ce réseau en réseau hydrographique. Notre recherche consiste à concevoir une méthode d'extraction robuste du réseau adaptée aux données massives. Ainsi, nous proposons d'abord une approche de calcul du réseau adaptée aux surfaces triangulées garantissant la cohérence topologique du réseau. Nous proposons ensuite une architecture s'appuyant sur des conteneurs pour paralléliser les calculs et ainsi traiter des données massives. / Nowadays, the mapping of hydrographic networks is an important subject for forestry management and planning, flood risk prevention, and so on. The source data for mapping watercourses are point clouds obtained by airborne lidars. However, conventional network extraction methods require cutting, resampling, and assembling the results to produce a complete network, thereby altering the quality of the results, and limiting the automation of processing. In order avoid these processing steps, a new computational approach is considered. This approach involves building a network of ridges and talwegs from lidar points, and then transforming this network into a hydrographic network. Our research consists in designing a robust network extraction method adapted to massive data. First, we propose a network calculation approach adapted to triangulated surfaces, guaranteeing the network's topological consistency. We then propose a container-based architecture for parallelizing computations to handle big data processing.
|
Page generated in 0.0675 seconds