Global ETD Search

11	Ballstering : un algorithme de clustering dédié à de grands échantillons / Ballstering : a clustering algorithm for large datasets Courjault-Rade, Vincent 17 April 2018 (has links) Ballstering appartient à la famille des méthodes de machine learning qui ont pour but de regrouper en classes les éléments formant la base de données étudiée et ce sans connaissance au préalable des classes qu'elle contient. Ce type de méthodes, dont le représentant le plus connu est k-means, se rassemblent sous le terme de "partitionnement de données" ou "clustering". Récemment un algorithme de partitionnement "Fast Density Peak Clustering" (FDPC) paru dans le journal Science a suscité un intérêt certain au sein de la communauté scientifique pour son aspect innovant et son efficacité sur des données distribuées en groupes non-concentriques. Seulement cet algorithme présente une complexité telle qu'il ne peut être aisément appliqué à des données volumineuses. De plus nous avons pu identifier plusieurs faiblesses pouvant nuire très fortement à la qualité de ses résultats, dont en particulier la présence d'un paramètre général dc difficile à choisir et ayant malheureusement un impact non-négligeable. Compte tenu de ces limites, nous avons repris l'idée principale de FDPC sous un nouvel angle puis apporté successivement des modifications en vue d'améliorer ses points faibles. Modifications sur modifications ont finalement donné naissance à un algorithme bien distinct que nous avons nommé Ballstering. Le fruit de ces 3 années de thèse se résume principalement en la conception de ce dernier, un algorithme de partitionnement dérivé de FDPC spécialement conçu pour être efficient sur de grands volumes de données. Tout comme son précurseur, Ballstering fonctionne en deux phases: une phase d'estimation de densité suivie d'une phase de partitionnement. Son élaboration est principalement fondée sur la construction d'une sous-procédure permettant d'effectuer la première phase de FDPC avec une complexité nettement amoindrie tout évitant le choix de dc qui devient dynamique, déterminé suivant la densité locale. Nous appelons ICMDW cette sous-procédure qui représente une partie conséquente de nos contributions. Nous avons également remanié certaines des définitions au cœur de FDPC et revu entièrement la phase 2 en s'appuyant sur la structure arborescente des résultats fournis par ICDMW pour finalement produire un algorithme outrepassant toutes les limitations que nous avons identifié chez FDPC. / Ballstering belongs to the machine learning methods that aim to group in classes a set of objects that form the studied dataset, without any knowledge of true classes within it. This type of methods, of which k-means is one of the most famous representative, are named clustering methods. Recently, a new clustering algorithm "Fast Density Peak Clustering" (FDPC) has aroused great interest from the scientific community for its innovating aspect and its efficiency on non-concentric distributions. However this algorithm showed a such complexity that it can't be applied with ease on large datasets. Moreover, we have identified several weaknesses that impact the quality results and the presence of a general parameter dc difficult to choose while having a significant impact on the results. In view of those limitations, we reworked the principal idea of FDPC in a new light and modified it successively to finally create a distinct algorithm that we called Ballstering. The work carried out during those three years can be summarised by the conception of this clustering algorithm especially designed to be effective on large datasets. As its Precursor, Ballstering works in two phases: An estimation density phase followed by a clustering step. Its conception is mainly based on a procedure that handle the first step with a lower complexity while avoiding at the same time the difficult choice of dc, which becomes automatically defined according to local density. We name ICMDW this procedure which represent a consistent part of our contributions. We also overhauled cores definitions of FDPC and entirely reworked the second phase (relying on the graph structure of ICMDW's intermediate results), to finally produce an algorithm that overcome all the limitations that we have identified. Partitionnement de données Apprentissage non-supervisé Apprentissage automatique Fouille de données Big data Densité Clustering Clustering Unsupervised learning Machine learning Big data Density peak Cluster
12	Low-dimensional modeling and control of shear flows using cluster analysis / Modélisation d'ordre réduit et contrôle d'écoulements cisaillés par partitionnement des données Kaiser, Eurika 03 December 2015 (has links) Une modélisation d'ordre réduit basée sur le partitionnement des données (cluster-based reduced-order modelling ou CROM) est développée pour identifier de manière non supervisée des mécanismes d'interaction non linéaires. La connaissance de ces mécanismes permet de pronostiquer la formation d’événements souhaitables ou non. L’approche proposée adopteun point de vue probabiliste en mettant à profit la linéarité de l’équation d’évolution de probabilité qui tient cependant compte d'éventuelles actions non linéaires des actionneurs. Le cadre est appliqué à l’attracteur de Lorenz, aux données numériques de la couche de mélange, à la turbulence tridimensionnelle du sillage d’un corps non profilé, d’un train, et aux données expérimentales d’un moteur à combustion.Pour ces exemples, le CROM permettait l'identification des quasi-attracteurs par exemple les deux régimes d’écoulement de la couche de mélange ou les états bimodaux du corps Ahmed . Les transitions principales entre ces quasi-attracteurs sont caractérisées par des regroupements de données appelé « flipper cluster ». L'identification de ces « flipper cluster » peut servir pour le contrôle des écoulements en utilisant le partitionnement des données obtenues par exemple de l'évolution temporelle de la traînée ou de la portance.Un contrôle en boucle fermé basé sur la CROM est appliqué à un écoulement le long d'une rampe courbée en vue de diminuer les extensions de la zone de recirculation par rapport à la meilleure excitation périodique en boucle ouverte. L'actionneur est mis en marche en fonction des regroupements préalablement observés. Le résultat est comparé à l’ensemble des lois de contrôle définies par toutes les combinaisons possibles des « on » et « of » par les regroupements de données. Bien quele contrôle basé sur la CROM ne permet pas de réduire la zone de recirculation par rapport à la réduction maximale en boucle ouverte, 28 % de l'apport d 'énergie nécessaire et 81 % pour une loi de contrôle particulière peuvent être économisé. / A cluster-based reduced-order modeling strategy is developed for the unsupervised identification of nonlinear flow mechanisms and precursors to desirable or undesirable events. The proposed approach assumes a probabilistic viewpoint taking advantage of the linearity of the evolution equation for the probability while including nonlinear actuation dynamics.The framework is applied to the Lorenz attractor, numerical data of the spatially evolving mixing layer, the three-dimensional turbulent wake of a bluf body, of a train, and experimental data of a combustion engine.For these examples, CROM has been shown to identify quasi-attractors such as the two shedding regimes of the mixing layer or the bimodal states of the Ahmed body; main transition processes between those quasiattractors are characterized by branching regions or flipper cluster; desirable phase space regions and possible actuation mechanisms areindicated by analysis of cluster features like drag and lift forces which can be further exploited for control purposes.In particular, a CROM-based feedback control is applied to a separating flow over a smooth ramp to examine whether the recirculation area can be diminished compared to the best open-loop periodic excitation by turning the actuation on or of depending on the applicable cluster. The CROMbased control is compared to the complete set of control laws defined byall possible combinations of 'on' and 'of' for the given set of clusters.While the recirculation area cannot be further decreased compared to the best open-loop forcing, a similar size can be achieved for 28% (CROMbased control) or 81% (one particular control law) savings in the control input energy. Contrôle d’écoulement Réduction de modèle Modèle de Markov Partitionnement des données Décollement Couche de mélange Flow control Reduced-Order modelling Markov model Cluster analysis Mixing layer Flow separation 532.051
13	Efficient Content-based Retrieval in Parallel Databases of Images Manjarrez Sanchez, Jorge 26 October 2009 (has links) (PDF) Cette thèse porte sur le traitement des requêtes par similarité sur les données de haute dimensionnalité, notamment multimédias, et, parmi elles, les images plus particulièrement. Ces requêtes, notamment celles des k plus proches voisins (kNN), posent des problèmes de calcul de par la nature des données elles-mêmes et de la taille de la base des données. Nous avons étudié leurs performances quand une méthode de partitionnement est appliquée sur la base de données pour obtenir et exploiter des classes. Nous avons proposé une taille et un nombre optimaux de ces classes pour que la requête puisse être traitée en temps optimal et avec une haute précision. Nous avons utilisé la recherche séquentielle comme base de référence. Ensuite nous avons proposé des méthodes de traitement de requêtes parallèles sur une grappe de machines. Pour cela, nous avons proposé des méthodes d'allocation des données pour la recherche efficace des kNN en parallèle. Nous proposons de même, un nombre réduit de noeuds sur la grappe de machines permettant néanmoins des temps de recherche sous-linéaires et optimaux vis-à-vis des classes déterminées précédemment. Nous avons utilisé des donnés synthétiques et réelles pour les validations pratiques. Dans les deux cas, nous avons pu constater des temps de réponse et une qualité des résultats supérieurs aux méthodes existantes, lesquelles, au-delà d'un faible nombre des dimensions, deviennent inefficaces. Gestion de données multimédias données multidimensionnelles bases de données classification partitionnement de données
14	Partitionnement dans les Systèmes de Gestion de Données Parallèles Liroz-Gistau, Miguel 17 December 2013 (has links) (PDF) Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données. Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme. Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce. Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles. Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée avec l'objectif de réduire la quantité de données qui devront être transférées dans la phase intermédiaire, connu aussi comme " shuffle ". Nous concevons et mettons en œuvre une stratégie qui, en capturant les relations entre les tuples d'entrée et les clés intermédiaires, obtient un partitionnement efficace qui peut être utilisé pour réduire de manière significative le surcharge de communications dans MapReduce. Partitionnement de données Systèmes parallèles Bases de données parallèles MapReduce
15	Suivi visuel multi-cibles par partitionnement de détections : application à la construction d'albums de visages Schwab, Siméon 08 July 2013 (has links) (PDF) Ce mémoire décrit mes travaux de thèse menés au sein de l'équipe ComSee (Computers that See) rattachée à l'axe ISPR (Image, Systèmes de Perception et Robotique) de l'Institut Pascal. Celle-ci a été financée par la société Vesalis par le biais d'une convention CIFRE avec l'Institut Pascal, subventionnée par l'ANRT (Association Nationale de la Recherche et de la Technologie). Les travaux de thèse s'inscrivent dans le cadre de l'automatisation de la fouille d'archives vidéo intervenant lors d'enquêtes policières. L'application rattachée à cette thèse concerne la création automatique d'un album photo des individus apparaissant sur une séquence de vidéosurveillance. En s'appuyant sur un détecteur de visages, l'objectif est de regrouper par identité les visages détectés sur l'ensemble d'une séquence vidéo. Comme la reconnaissance faciale en environnement non-contrôlé reste difficilement exploitable, les travaux se sont orientés vers le suivi visuel multi-cibles global basé détections. Ce type de suivi est relativement récent. Il fait intervenir un détecteur d'objets et traite la vidéo dans son ensemble (en opposition au traitement séquentiel couramment utilisé). Cette problématique a été représentée par un modèle probabiliste de type Maximum A Posteriori. La recherche de ce maximum fait intervenir un algorithme de circulation de flot sur un graphe, issu de travaux antérieurs. Ceci permet l'obtention d'une solution optimale au problème (défini par l'a posteriori) du regroupement des détections pour le suivi. L'accent a particulièrement été mis sur la représentation de la similarité entre les détections qui s'intègre dans le terme de vraisemblance du modèle. Plusieurs mesures de similarités s'appuyant sur différents indices (temps, position dans l'image, apparence et mouvement local) ont été testées. Une méthode originale d'estimation de ces similarités entre les visages détectés a été développée pour fusionner les différentes informations et s'adapter à la situation rencontrée. Plusieurs expérimentations ont été menées sur des situations complexes, mais réalistes, de scènes de vidéosurveillance. Même si les qualités des albums construits ne satisfont pas encore à une utilisation pratique, le système de regroupement de détections mis en œuvre au cours de cette thèse donne déjà une première solution. Grâce au point de vue partitionnement de données adopté au cours de cette thèse, le suivi multi-cibles développé permet une extension simple à du suivi autre que celui des visages. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre [SPI:OTHER] Engineering Sciences/Other Suivi multi-cibles visuel Partitionnement de données Détecteur de visages Construction d'album photo Vidéosurveillance
16	Suivi visuel multi-cibles par partitionnement de détections : application à la construction d'albums de visages / Visual tracking multi-target detections by partitioning : Application to construction albums of faces Schwab, Siméon 08 July 2013 (has links) Ce mémoire décrit mes travaux de thèse menés au sein de l'équipe ComSee (Computers that See) rattachée à l'axe ISPR (Image, Systèmes de Perception et Robotique) de l'Institut Pascal. Celle-ci a été financée par la société Vesalis par le biais d'une convention CIFRE avec l'Institut Pascal, subventionnée par l'ANRT (Association Nationale de la Recherche et de la Technologie). Les travaux de thèse s'inscrivent dans le cadre de l'automatisation de la fouille d'archives vidéo intervenant lors d'enquêtes policières. L'application rattachée à cette thèse concerne la création automatique d'un album photo des individus apparaissant sur une séquence de vidéosurveillance. En s'appuyant sur un détecteur de visages, l'objectif est de regrouper par identité les visages détectés sur l'ensemble d'une séquence vidéo. Comme la reconnaissance faciale en environnement non-contrôlé reste difficilement exploitable, les travaux se sont orientés vers le suivi visuel multi-cibles global basé détections. Ce type de suivi est relativement récent. Il fait intervenir un détecteur d'objets et traite la vidéo dans son ensemble (en opposition au traitement séquentiel couramment utilisé). Cette problématique a été représentée par un modèle probabiliste de type Maximum A Posteriori. La recherche de ce maximum fait intervenir un algorithme de circulation de flot sur un graphe, issu de travaux antérieurs. Ceci permet l'obtention d'une solution optimale au problème (défini par l'a posteriori) du regroupement des détections pour le suivi. L'accent a particulièrement été mis sur la représentation de la similarité entre les détections qui s'intègre dans le terme de vraisemblance du modèle. Plusieurs mesures de similarités s'appuyant sur différents indices (temps, position dans l'image, apparence et mouvement local) ont été testées. Une méthode originale d'estimation de ces similarités entre les visages détectés a été développée pour fusionner les différentes informations et s'adapter à la situation rencontrée. Plusieurs expérimentations ont été menées sur des situations complexes, mais réalistes, de scènes de vidéosurveillance. Même si les qualités des albums construits ne satisfont pas encore à une utilisation pratique, le système de regroupement de détections mis en œuvre au cours de cette thèse donne déjà une première solution. Grâce au point de vue partitionnement de données adopté au cours de cette thèse, le suivi multi-cibles développé permet une extension simple à du suivi autre que celui des visages. / This report describes my thesis work conducted within the ComSee (Computers That See) team related to the ISPR axis (ImageS, Perception Systems and Robotics) of Institut Pascal. It was financed by the Vesalis company via a CIFRE (Research Training in Industry Convention) agreement with Institut Pascal and publicly funded by ANRT (National Association of Research and Technology). The thesis was motivated by issues related to automation of video analysis encountered during police investigations. The theoretical research carried out in this thesis is applied to the automatic creation of a photo album summarizing people appearing in a CCTV sequence. Using a face detector, the aim is to group by identity all the faces detected throughout the whole video sequence. As the use of facial recognition techniques in unconstrained environments remains unreliable, we have focused instead on global multi-target tracking based on detections. This type of tracking is relatively recent. It involves an object detector and global processing of the video (as opposed to sequential processing commonly used). This issue has been represented by a Maximum A Posteriori probabilistic model. To find an optimal solution of Maximum A Posteriori formulation, we use a graph-based network flow approach, built upon third-party research. The study concentrates on the definition of inter-detections similarities related to the likelihood term of the model. Multiple similarity metrics based on different clues (time, position in the image, appearance and local movement) were tested. An original method to estimate these similarities was developed to merge these various clues and adjust to the encountered situation. Several experiments were done on challenging but real-world situations which may be gathered from CCTVs. Although the quality of generated albums do not yet satisfy practical use, the detections clustering system developed in this thesis provides a good initial solution. Thanks to the data clustering point of view adopted in this thesis, the proposed detection-based multi-target tracking allows easy transfer to other tracking domains. Suivi multi-cibles visuel Partitionnement de données Détecteur de visages Construction d'album photo Vidéosurveillance Visual multi-target tracking Data clustering Face detector Photo album generation CCTV
17	Using MapReduce to scale event correlation discovery for process mining / Utilisation de MapReduce pour le passage à l'échelle de la corrélation des événements métiers dans le contexte de fouilles de processus Reguieg, Hicham 19 February 2014 (has links) Le volume des données relatives à l'exécution des processus métiers augmente de manière significative dans l'entreprise. Beaucoup de sources de données comprennent les événements liés à l'exécution des mêmes processus dans différents systèmes ou applications. La corrélation des événements est la tâche de l'analyse d'un référentiel de journaux d'événements afin de trouver l'ensemble des événements qui appartiennent à la même trace d'exécution du processus métier. Il s'agit d'une étape clé dans la découverte des processus à partir de journaux d'événements d'exécution. La corrélation des événements est une tâche de calcul intensif dans le sens où elle nécessite une analyse approfondie des relations entre les événements dans des dépôts très grande et qui évolue de plus en plus, et l'exploration de différentes relations possibles entre ces événements. Dans cette thèse, nous présentons une technique d'analyse de données évolutives pour soutenir d'une manière efficace la corrélation des événements pour les fouilles des processus métiers. Nous proposons une approche en deux étapes pour calculer les conditions de corrélation et héritier entraîné des instances de processus de journaux d'événements en utilisant la plateforme MapReduce. Les résultats expérimentaux montrent que l'algorithme s'adapte parfaitement à de grands ensembles de données. / The volume of data related to business process execution is increasing significantly in the enterprise. Many of data sources include events related to the execution of the same processes in various systems or applications. Event correlation is the task of analyzing a repository of event logs in order to find out the set of events that belong to the same business process execution instance. This is a key step in the discovery of business processes from event execution logs. Event correlation is a computationally-intensive task in the sense that it requires a deep analysis of very large and growing repositories of event logs, and exploration of various possible relationships among the events. In this dissertation, we present a scalable data analysis technique to support efficient event correlation for mining business processes. We propose a two-stages approach to compute correlation conditions and their entailed process instances from event logs using MapReduce framework. The experimental results show that the algorithm scales well to large datasets. MapReduce Processus métiers Fouilles de processus Découverte de la logique de processus Corrélation des événements Partitionnement de données MapReduce Business Process Process Mining Process Discovery Event Correlation
18	Algorithmes d'apprentissage statistique pour l'analyse géométrique et topologique de données / Statistical learning algorithms for geometric and topological data analysis Bonis, Thomas 01 December 2016 (has links) Dans cette thèse, on s'intéresse à des algorithmes d'analyse de données utilisant des marches aléatoires sur des graphes de voisinage, ou graphes géométriques aléatoires, construits à partir des données. On sait que les marches aléatoires sur ces graphes sont des approximations d'objets continus appelés processus de diffusion. Dans un premier temps, nous utilisons ce résultat pour proposer un nouvel algorithme de partitionnement de données flou de type recherche de modes. Dans cet algorithme, on définit les paquets en utilisant les propriétés d'un certain processus de diffusion que l'on approche par une marche aléatoire sur un graphe de voisinage. Après avoir prouvé la convergence de notre algorithme, nous étudions ses performances empiriques sur plusieurs jeux de données. Nous nous intéressons ensuite à la convergence des mesures stationnaires des marches aléatoires sur des graphes géométriques aléatoires vers la mesure stationnaire du processus de diffusion limite. En utilisant une approche basée sur la méthode de Stein, nous arrivons à quantifier cette convergence. Notre résultat s'applique en fait dans un cadre plus général que les marches aléatoires sur les graphes de voisinage et nous l'utilisons pour prouver d'autres résultats : par exemple, nous arrivons à obtenir des vitesses de convergence pour le théorème central limite. Dans la dernière partie de cette thèse, nous utilisons un concept de topologie algébrique appelé homologie persistante afin d'améliorer l'étape de "pooling" dans l'approche "sac-de-mots" pour la reconnaissance de formes 3D. / In this thesis, we study data analysis algorithms using random walks on neighborhood graphs, or random geometric graphs. It is known random walks on such graphs approximate continuous objects called diffusion processes. In the first part of this thesis, we use this approximation result to propose a new soft clustering algorithm based on the mode seeking framework. For our algorithm, we want to define clusters using the properties of a diffusion process. Since we do not have access to this continuous process, our algorithm uses a random walk on a random geometric graph instead. After proving the consistency of our algorithm, we evaluate its efficiency on both real and synthetic data. We then deal tackle the issue of the convergence of invariant measures of random walks on random geometric graphs. As these random walks converge to a diffusion process, we can expect their invariant measures to converge to the invariant measure of this diffusion process. Using an approach based on Stein's method, we manage to obtain quantitfy this convergence. Moreover, the method we use is more general and can be used to obtain other results such as convergence rates for the Central Limit Theorem. In the last part of this thesis, we use the concept of persistent homology, a concept of algebraic topology, to improve the pooling step of the bag-of-words approach for 3D shapes. Graphes géométriques aléatoires Marches aléatoires Partitionnement de données flou Méthode de Stein Homologie persistante Sac-de-mots Random geometric graphs Random walks Soft clustering Stein's method Persistent homology Bag-of-words
19	Analyse d'image hyperspectrale / Hyperspectral Image Analysis Faivre, Adrien 14 December 2017 (has links) Les travaux de thèse effectués dans le cadre de la convention Cifre conclue entrele laboratoire de mathématiques de Besançon et Digital Surf, entreprise éditrice dulogiciel d’analyse métrologique Mountains, portent sur les techniques d’analyse hyperspectrale.Sujet en plein essor, ces méthodes permettent d’exploiter des imagesissues de micro-spectroscopie, et en particulier de spectroscopie Raman. Digital Surfambitionne aujourd’hui de concevoir des solutions logicielles adaptées aux imagesproduites par ces appareils. Ces dernières se présentent sous forme de cubes de valeurs,où chaque pixel correspond à un spectre. La taille importante de ces données,appelées images hyperspectrales en raison du nombre important de mesures disponiblespour chaque spectre, obligent à repenser certains des algorithmes classiquesd’analyse d’image.Nous commençons par nous intéresser aux techniques de partitionnement de données.L’idée est de regrouper dans des classes homogènes les différents spectres correspondantà des matériaux similaires. La classification est une des techniques courammentutilisée en traitement des données. Cette tâche fait pourtant partie d’unensemble de problèmes réputés trop complexes pour une résolution pratique : les problèmesNP-durs. L’efficacité des différentes heuristiques utilisées en pratique était jusqu’àrécemment mal comprise. Nous proposons des argument théoriques permettantde donner des garanties de succès quand les groupes à séparer présentent certainespropriétés statistiques.Nous abordons ensuite les techniques de dé-mélange. Cette fois, il ne s’agit plus dedéterminer un ensemble de pixels semblables dans l’image, mais de proposer une interprétationde chaque pixel comme un mélange linéaire de différentes signatures spectrales,sensées émaner de matériaux purs. Cette déconstruction de spectres compositesse traduit mathématiquement comme un problème de factorisation en matrices positives.Ce problème est NP-dur lui aussi. Nous envisageons donc certaines relaxations,malencontreusement peu convaincantes en pratique. Contrairement au problème declassification, il semble très difficile de donner de bonnes garanties théoriques sur laqualité des résultats proposés. Nous adoptons donc une approche plus pragmatique,et proposons de régulariser cette factorisation en imposant des contraintes sur lavariation totale de chaque facteur.Finalement, nous donnons un aperçu d’autres problèmes d’analyse hyperspectralerencontrés lors de cette thèse, problèmes parmi lesquels figurent l’analyse en composantesindépendantes, la réduction non-linéaire de la dimension et la décompositiond’une image par rapport à une librairie regroupant un nombre important de spectresde référence. / This dissertation addresses hyperspectral image analysis, a set of techniques enabling exploitation of micro-spectroscopy images. Images produced by these sensors constitute cubic arrays, meaning that every pixel in the image is actually a spectrum.The size of these images, which is often quite large, calls for an upgrade for classical image analysis algorithms.We start out our investigation with clustering techniques. The main idea is to regroup every spectrum contained in a hyperspectralimage into homogeneous clusters. Spectrums taken across the image can indeed be generated by similar materials, and hence display spectral signatures resembling each other. Clustering is a commonly used method in data analysis. It belongs nonetheless to a class of particularly hard problems to solve, named NP-hard problems. The efficiency of a few heuristics used in practicewere poorly understood until recently. We give theoretical arguments guaranteeing success when the groups studied displaysome statistical property.We then study unmixing techniques. The objective is no longer to decide to which class a pixel belongs, but to understandeach pixel as a mix of basic signatures supposed to arise from pure materials. The mathematical underlying problem is again NP-hard.After studying its complexity, and suggesting two lengthy relaxations, we describe a more practical way to constrain the problemas to obtain regularized solutions.We finally give an overview of other hyperspectral image analysis methods encountered during this thesis, amongst whomare independent component analysis, non-linear dimension reduction, and regression against a spectrum library. Traitement d'images Relaxation SDP Factorsation matrices positives Imagerie hyperspectrale Partitionnement des données Fractorisation par matrice des données Régularisation par la variation totale Hyperspectral imaging Image Analysis Clustering Non-negative matrix factorization Total variation regularization 510
20	Mesure et Analyse Statistique Tout Temps du Spectre du Rayonnement Solaire / All Weather Solar Spectrum Measurement and Statistical Analysis Tourasse, Guillaume 19 December 2016 (has links) Ce document présente la mise en place d’un système de mesure des éclairements énergétiques spectraux solaires pour tout type de temps, sur 4 plans. Les 4 spectromètres mesurent au total 900 spectres/min et produisent chacun un spectre/min moyen et son écart type. Entre 2014 et 2015, 700 000 spectres ont été enregistrés sur un domaine compris entre 400 et 1000 nm avec un pas ≤1 nm. Un échantillon de 145 000 spectres représentatifs du climat lyonnais a été sélectionné pour une analyse statistique. Pour ce faire, l’échantillon a été réduit par partitionnement à 1175 spectres. Son domaine spectral a été étendu de 280 à 1500 nm à l’aide du RTM SMARTS. Une ACP de cet échantillon extrapolé a permis d’en réduire la description à 3 composantes et ainsi de réviser le modèle des illuminants D de la CIE. Enfin, la relation entre composition spectrale et paramètres environnementaux ou colorimétriques ouvre une voie vers des modèles statistiques de génération de spectres du rayonnement solaire. / This manuscript presents the design and setup of an all-weather spectral irradiance measurement system on 4 planes. The 4 spectrometers measure a total of 900 spectra/min to produce every minute, a mean spectral irradiance and its standard deviation. Between 2014 and 2015, this system recorded 700,000 spectra, for wavelengths ranging between 400 and 1,000 nm with a step ≤1 nm. A sample of 145,000 spectra representative of the Lyon climate was selected for statistical analysis. For this purpose, the sample was reduced in size by partitioning it in 1,175 spectra. Its spectral domain was extended to 280-1,500 nm by extrapolating the spectra with curve fitting using the SMARTS2 RTM. A PCA of the extrapolated sample reduced its description to only 3 components; hence, allowing a revision of the CIE’s illuminant D series. Finally, the relation between spectral power distribution and environmental or colorimetric parameters opens a way towards statistical models for generating solar spectra. Mesure au sol Etalonnage Eclairements énergétiques spectraux Climatologie spectrale Représentativité climatique Partitionnement de données Extrapolation spectrale Analyse en composantes principales Illuminants D Paramètres météorologiques Colorimétrie Modèle statistique Tout temps Ground measurements Calibration Spectral irradiance Spectral Climatology Climatic Representativeness Cluster analysis Spectral extrapolation Principal component analysis D series of illuminants Meteorological parameters Colorimetry Statistical model All weather

Search results