Global ETD Search

1	A consistent test of independence between random vectors Boglioni Beaulieu, Guillaume 11 1900 (has links) Tester l’indépendance entre plusieurs vecteurs aléatoires est une question importante en statistique. Puisqu’il y a une infinité de manières par lesquelles une quantité aléatoire X peut dépendre d’une autre quantité aléatoire Y , ce n’est pas une question triviale, et plusieurs tests “classiques” comme Spearman [33], Wilks [40], Kendall [18] ou Puri and Sen [24] sont inefficaces pour détecter plusieurs formes de dépendance. De significatifs progrès dans ce domaine ont été réalisés récemment, par exemple dans Székely et al. [34], Gretton et al. [14] ou Heller et al. [15]. Cela dit, la majorité des tests disponibles détectent l’indépendance entre deux quantités aléatoires uniquement. L’indépendance par paires ne garantissant pas l’indépendance mutuelle, il est pertinent de développer des méthodes testant l’hypothèse d’indépendance mutuelle entre n’importe quel nombre de variables. Dans cette recherche nous proposons un test non-paramétrique et toujours convergent, applicable à un nombre quelconque de vecteurs aléatoires. Précisément, nous étendons la méthode décrite dans Heller et al. [15] de deux manières. Premièrement, nous proposons d’appliquer leur test aux rangs des observations, plutôt qu’aux observations elles-mêmes. Ensuite, nous étendons leur méthode pour qu’elle puisse tester l’indépendance entre un nombre quelconque de vecteurs. La distribution de notre statistique de test étant inconnue, nous utilisons une méthode de permutations pour calculer sa valeur-p. Des simulations sont menées pour obtenir la puissance du test, que nous comparons à celles d’autres test décrits dans Genest and Rémillard [10], Gretton et al. [14], Székely et al. [34], Beran et al. [3] et Heller et al. [15]. Nous investiguons divers exemples et dans plusieurs de ceux-ci la puissance de notre test est meilleure que celle des autres tests. En particulier, lorsque les variables aléatoires sont Cauchy notre test performe bien mieux que les autres. Pour le cas de vecteurs aléatoires strictement discrets, nous présentons une preuve que notre test est toujours convergent. / Testing for independence between random vectors is an important question in statistics. Because there is an infinite number of ways by which a random quantity X can be dependent of another random quantity Y , it is not a trivial question. It has been found that classical tests such has Spearman [33],Wilks [40], Kendall [18] or Puri and Sen [24] are ineffective to detect many forms of dependence. Recent, significant results on the topic include Székely et al. [35], Gretton et al. [14] or Heller et al. [15]. However, most of the available tests can only detect dependence between two random quantities. Because pairwise independence does not guarantee mutual independence, techniques testing the hypothesis of mutual independence between any number of random quantities are required. In this research we propose a non-parametric and universally consistent test of independence, applicable to any number of random vectors of any size. Precisely, we extend the procedure described in Heller et al. [15] in two ways. Firstly, we propose to use the ranks of the observations instead of the observations themselves. Secondly, we extend their method to test for independence between any number of random vectors. As the distribution of our test statistic is not known, a permutation method is used to compute p−values. Then, simulations are performed to obtain the power of the test. We compare the power of our new test to that of other tests, namely those in Genest and Rémillard [10], Gretton et al. [14], Székely et al. [34], Beran et al. [3] and Heller et al. [15]. Examples featuring random variables and random vectors are considered. For many examples investigated we find that our new test has similar or better power than that of the other tests. In particular, when the random variables are Cauchy, our new test outperforms the others. In the case of strictly discrete random vectors, we present a proof that our test is universally consistent. independence test multivariate data random vectors test d'indépendance données multivariées vecteurs aléatoires
2	Méthodes régularisées pour l’analyse de données multivariées en grande dimension : théorie et applications. / Regularized methods to study multivariate data in high dimensional settings : theory and applications. Perrot-Dockès, Marie 08 October 2019 (has links) Dans cette thèse nous nous intéressons au modèle linéaire général (modèle linéaire multivarié) en grande dimension. Nous proposons un nouvel estimateur parcimonieux des coefficients de ce modèle qui prend en compte la dépendance qui peut exister entre les différentes réponses. Cet estimateur est obtenu en estimant dans un premier temps la matrice de covariance des réponses puis en incluant cette matrice de covariance dans un critère Lasso. Les propriétés théoriques de cet estimateur sont étudiées lorsque le nombre de réponses peut tendre vers l’infini plus vite que la taille de l’échantillon. Plus précisément, nous proposons des conditions générales que doivent satisfaire les estimateurs de la matrice de covariance et de son inverse pour obtenir la consistance en signe des coefficients. Nous avons ensuite mis en place des méthodes, adaptées à la grande dimension, pour l’estimation de matrices de covariance qui sont supposées être des matrices de Toeplitz ou des matrices avec une structure par blocs, pas nécessairement diagonaux. Ces différentes méthodes ont enfin été appliquées à des problématiques de métabolomique, de protéomique et d’immunologie. / In this PhD thesis we study general linear model (multivariate linearmodel) in high dimensional settings. We propose a novel variable selection approach in the framework of multivariate linear models taking into account the dependence that may exist between the responses. It consists in estimating beforehand the covariance matrix of the responses and to plug this estimator in a Lasso criterion, in order to obtain a sparse estimator of the coefficient matrix. The properties of our approach are investigated both from a theoretical and a numerical point of view. More precisely, we give general conditions that the estimators of the covariance matrix and its inverse have to satisfy in order to recover the positions of the zero and non-zero entries of the coefficient matrix when the number of responses is not fixed and can tend to infinity. We also propose novel, efficient and fully data-driven approaches for estimating Toeplitz and large block structured sparse covariance matrices in the case where the number of variables is much larger than the number of samples without limiting ourselves to block diagonal matrices. These approaches are appliedto different biological issues in metabolomics, in proteomics and in immunology. Méthodes régularisées Données multivariées Grande dimension Regularized methods Covariance matrix High dimension
3	Traitement et analyse des processus stochastiques par EMD et ses extensions / No Komaty, Ali 28 November 2014 (has links) L’objectif de cette thèse est d’analyser le comportement de la décomposition modale empirique (EMD) et sa version multivariée (MEMD) dans le cas de processus stochastiques : bruit Gaussien fractionnaire (fGn) et processus symétrique alpha stable (SαS). Le fGn est un bruit large bande généralisant le cas du bruit blanc Gaussien et qui trouve des applications dans de nombreux domaines tels que le trafic internet, l’économie ou le climat. Par ailleurs, la nature «impulsive» d’un certain nombre de signaux (craquement des glaces, bruit des crevettes claqueuses, potentiel de champ local en neurosciences,…) est indéniable et le modèle Gaussien ne convient pas pour leur modélisation. La distribution SαS est une solution pour modéliser cette classe de signaux non-Gaussiens. L’EMD est un outil bien adapté au traitement et à l’analyse de ces signaux réels qui sont, en général, de nature complexe (non stationnaire,non linéaire). En effet, cette technique, pilotée par les données, permet la décomposition d’un signal en une somme réduite de composantes oscillantes, extraites de manière itérative, appelées modes empiriques ou IMFs (Intrinsic Mode Functions). Ainsi, nous avons montré que le MEMD s’organise spontanément en une structure de banc de filtres presque dyadiques. L'auto-similarité en termes de représentation spectrale des modes a aussi été établie. En outre, un estimateur de l’exposant de Hurst, caractérisant le fGn, a été construit et ses performances ont été comparées, en particulier à celles de l’approche ondelettes. Cette propriété de banc de filtres du MEMD a été vérifiée sur des données d'hydrodynamique navale (écoulement turbulent) et leur auto-similarité a été mise en évidence. De plus, l’estimation du coefficient de Hurst a mis en avant l’aspect longue dépendance (corrélation positive) des données. Enfin, l’aspect banc de filtres de l’EMD a été exploité à des fins de filtrage dans le domaine temporel en utilisant une mesure de similarité entre les densités de probabilités des modes extraits et celle du signal d’entrée. Pour éviter le problème du mode mixing de l'EMD standard, une approche de débruitage dans le domaine fréquentiel par une reconstruction complète des IMFs préalablement seuillées a été menée. L’ensemble des résultats a été validé par des simulations intensives (Monte Carlo) et sur des signaux réels. / The main contribution of this thesis is aimed towards understanding the behaviour of the empirical modes decomposition (EMD) and its extended versions in stochastic situations. Traitement du signal Processus stochastiques Décomposition modale empirique Données multivariées Débruitage Bruit Gaussien fractionnaire Banc de filtres Autosimilarité Distribution symétrique alpha-stable - 621.382 2
4	Classification de données multivariées multitypes basée sur des modèles de mélange : application à l'étude d'assemblages d'espèces en écologie Georgescu, Vera 17 December 2010 (has links) (PDF) En écologie des populations, les distributions spatiales d'espèces sont étudiées afin d'inférer l'existence de processus sous-jacents, tels que les interactions intra- et interspécifiques et les réponses des espèces à l'hétérogénéité de l'environnement. Nous proposons d'analyser les données spatiales multi-spécifiques sous l'angle des assemblages d'espèces, que nous considérons en termes d'abondances absolues et non de diversité des espèces. Les assemblages d'espèces sont une des signatures des interactions spatiales locales des espèces entre elles et avec leur environnement. L'étude des assemblages d'espèces peut permettre de détecter plusieurs types d'équilibres spatialisés et de les associer à l'effet de variables environnementales. Les assemblages d'espèces sont définis ici par classification non spatiale des observations multivariées d'abondances d'espèces. Les méthodes de classification basées sur les modèles de mélange ont été choisies afin d'avoir une mesure de l'incertitude de la classification et de modéliser un assemblage par une loi de probabilité multivariée. Dans ce cadre, nous proposons : 1. une méthode d'analyse exploratoire de données spatiales multivariées d'abondances d'espèces, qui permet de détecter des assemblages d'espèces par classification, de les cartographier et d'analyser leur structure spatiale. Des lois usuelles, telle que la Gaussienne multivariée, sont utilisées pour modéliser les assemblages, 2. un modèle hiérarchique pour les assemblages d'abondances lorsque les lois usuelles ne suffisent pas. Ce modèle peut facilement s'adapter à des données contenant des variables de types différents, qui sont fréquemment rencontrées en écologie, 3. une méthode de classification de données contenant des variables de types différents basée sur des mélanges de lois à structure hiérarchique (définies en 2.). Deux applications en écologie ont guidé et illustré ce travail : l'étude à petite échelle des assemblages de deux espèces de pucerons sur des feuilles de clémentinier et l'étude à large échelle des assemblages d'une plante hôte, le plantain lancéolé, et de son pathogène, l'oïdium, sur les îles Aland en Finlande [SDV] Life Sciences Assemblage d'espèces Coexistence Données mixtes Données multivariées spatiales Modèle gaussien latent Modèle hiérarchique Monte Carlo EM
5	Multifractal analysis for multivariate data with application to remote sensing / Analyse multifractale de données multivariées avec application à la télédétection Combrexelle, Sébastien 12 October 2016 (has links) La caractérisation de texture est centrale dans de nombreuses applications liées au traitement d’images. L’analyse de textures peut être envisagée dans le cadre mathématique de l’analyse multifractale qui permet d’étudier les fluctuations de la régularité ponctuelle de l’amplitude d’une image et fournit les outils pratiques pour leur évaluation grâce aux coefficients d’ondelettes ou aux coefficients dominants. Bien que mise à profit dans de nombreuses applications, l’analyse multifractale souffre à présent de deux limitations majeures. Premièrement, l’estimation des paramètres multifractaux reste délicate, notamment pour les images de petites tailles. Deuxièmement, l’analyse multifractale a été jusqu’à présent uniquement considérée pour l’analyse univariée d’images, alors que les données à étudier sont de plus en plus multivariées. L’objectif principal de cette thèse est la mise au point de contributions pratiques permettant de pallier ces limitations. La première limitation est abordée en introduisant un modèle statistique générique pour le logarithme des coefficients dominants, paramétrisé par les paramètres multifractaux d’intérêt. Ce modèle statistique permet de contrebalancer la variabilité résultant de l’analyse d’images de petite taille et de formuler l’estimation dans un cadre bayésien. Cette approche aboutit à des procédures d’estimation robustes et efficaces, que ce soit pour des images de petites ou grandes tailles. Ensuite, l’analyse multifractale d’images multivariées est traitée en généralisant ce cadre bayésien à des modèles hiérarchiques capables de prendre en compte l’hypothèse d’une évolution lente des propriétés multifractales d’images multi-temporelles ou multi-bandes. Ceci est réalisé en définissant des lois a priori reliant les propriétés dynamiques des paramètres multifractaux des différents éléments composant le jeu de données. Différents types de lois a priori sont étudiés dans cette thèse au travers de simulations numériques conduites sur des images multifractales multivariées synthétiques. Ce travail est complété par une étude du potentiel apport de l’analyse multifractale et de la méthodologie bayésienne proposée pour la télédétection à travers l’exemple de l’imagerie hyperspectrale. / Texture characterization is a central element in many image processing applications. Texture analysis can be embedded in the mathematical framework of multifractal analysis, enabling the study of the fluctuations in regularity of image intensity and providing practical tools for their assessment, the coefficients or wavelet leaders. Although successfully applied in various contexts, multi fractal analysis suffers at present from two major limitations. First, the accurate estimation of multifractal parameters for image texture remains a challenge, notably for small sample sizes. Second, multifractal analysis has so far been limited to the analysis of a single image, while the data available in applications are increasingly multivariate. The main goal of this thesis is to develop practical contributions to overcome these limitations. The first limitation is tackled by introducing a generic statistical model for the logarithm of wavelet leaders, parametrized by multifractal parameters of interest. This statistical model enables us to counterbalance the variability induced by small sample sizes and to embed the estimation in a Bayesian framework. This yields robust and accurate estimation procedures, effective both for small and large images. The multifractal analysis of multivariate images is then addressed by generalizing this Bayesian framework to hierarchical models able to account for the assumption that multifractal properties evolve smoothly in the dataset. This is achieved via the design of suitable priors relating the dynamical properties of the multifractal parameters of the different components composing the dataset. Different priors are investigated and compared in this thesis by means of numerical simulations conducted on synthetic multivariate multifractal images. This work is further completed by the investigation of the potential benefit of multifractal analysis and the proposed Bayesian methodology for remote sensing via the example of hyperspectral imaging. Analyse multifractale Données multivariées Transformée ondelette Coefficients dominants Estimation bayésienne Modèles hiérarchiques Multifractal analysis Multivariate data Wavelet transform Wavelet leaders Bayesian estimation Hierarchical models
6	Exploratory and predictive methods for multivariate time series data analysis in healthcare Aumon, Adrien Andréas 08 1900 (has links) Ce mémoire s'inscrit dans l'émergente globalisation de l'intelligence artificielle aux domaines de la santé. Par le biais de l'application d'algorithmes modernes d'apprentissage automatique à deux études de cas concrètes, l'objectif est d'exposer de manière rigoureuse et intelligible aux experts de la santé comment l'intelligence artificielle exploite des données cliniques à la fois multivariées et longitudinales à des fins de visualisation et de prognostic de populations de patients en situation d'urgence médicale. Nos résultats montrent que la récente méthode de réduction de la dimensionalité PHATE couplée à un algorithme de regroupement surpasse d'autres méthodes plus établies dans la projection en deux dimensions de trajectoires multidimensionelles et aide ainsi les experts à mieux visualiser l'évolution de certaines sous-populations. Nous mettons aussi en évidence l'efficacité des réseaux de neurones récurrents traditionnels et conditionnels dans le prognostic précoce de patients malades. Enfin, nous évoquons l'analyse topologique de données comme piste de solution adéquate aux problèmes usuels de données incomplètes et irrégulières auxquels nous faisons face inévitablement au cours de la seconde étude de cas. / This thesis aligns with the trending globalization of artificial intelligence in healthcare. Through two real-world applications of recent machine learning approaches, our fundamental goal is to rigorously and intelligibly expose to the domain experts how artificial intelligence uses clinical multivariate time series to provide visualizations and predictions related to populations of patients in an emergency condition. Our results demonstrate that the recent dimensionality reduction tool PHATE combined with a clustering algorithm outperforms other more established methods in projecting multivariate time series in two dimensions and thus help the experts visualize sub-populations' trajectories. We also highlight traditional and conditional recurrent neural networks' proficiency in the early prognosis of ill patients. Finally, we allude to topological data analysis as a suitable solution to common problems related to data irregularities and incompleteness we inevitably face in the second case study. Santé Apprentissage automatique Données multivariées longitudinales Visualisation Prognostic Healthcare Machine Learning Multivariate Time Series Visualization Prognosis
7	Méthodologie de traitement et d'analyse de signaux expérimentaux d'émission acoustique : application au comportement d'un élément combustible en situation accidentelle / Methodology of treatment and analysis of experimental acoustic emission signals : application to the behavior of a fuel element in accident situation Traore, Oumar Issiaka 15 January 2018 (has links) L’objectif de cette thèse est de contribuer à l’amélioration du processus de dépouillement d’essais de sûreté visant étudier le comportement d'un combustible nucléaire en contexte d’accident d’injection de réactivité (RIA), via la technique de contrôle par émission acoustique. Il s’agit notamment d’identifier clairement les mécanismes physiques pouvant intervenir au cours des essais à travers leur signature acoustique. Dans un premier temps, au travers de calculs analytiques et des simulation numériques conduites au moyen d’une méthode d’éléments finis spectraux, l’impact du dispositif d’essais sur la propagation des ondes est étudié. Une fréquence de résonance du dispositif est identifiée. On établit également que les mécanismes basses fréquences ne sont pas impactés par le dispositif d'essais. En second lieu, diverses techniques de traitement du signal (soustraction spectrale, analyse spectrale singulière, ondelettes. . . ) sont expérimentées, afin de proposer des outils permettant de traiter différent types de bruit survenant lors des essais RIA. La soustraction spectrale s’avère être la méthode la plus robuste aux changements de nature du bruit, avec un fort potentiel d’amélioration du rapport signal-à-bruit. Enfin, des méthodes d’analyse de données multivariées et d’analyse de données fonctionnelles ont été appliquées, afin de proposer un algorithme de classification statistique permettant de mieux comprendre la phénoménologie des accidents de type RIA et d’identifier les mécanismes physiques. Selon l’approche (multivariée ou fonctionnelle), les algorithmes obtenus permettent de reconnaître le mécanisme associé à une salve dans plus de 80% des cas. / The objective of the thesis is to contribute to the improvement of the monitoring process of nuclear safety experiments dedicated to study the behavior of the nuclear fuel in a reactivity initiated accident (RIA) context, by using the acoustic emission technique. In particular, we want to identify the physical mechanisms occurring during the experiments through their acoustic signatures. Firstly, analytical derivations and numerical simulations using the spectral finite element method have been performed in order to evaluate the impact of the wave travelpath in the test device on the recorded signals. A resonant frequency has been identified and it has been shown that the geometry and the configuration of the test device may not influence the wave propagation in the low frequency range. Secondly, signal processing methods (spectral subtraction, singular spectrum analysis, wavelets,…) have been explored in order to propose different denoising strategies according to the type of noise observed during the experiments. If we consider only the global SNR improvement ratio, the spectral subtraction method is the most robust to changes in the stochastic behavior of noise. Finally, classical multivariate and functional data analysis tools are used in order to create a machine learning algorithm dedicated to contribute to a better understanding of the phenomenology of RIA accidents. According to the method (multivariate or functional), the obtained algorithms allow to identify the mechanisms in more than 80 % of cases. Émission Acoustique Soustraction spectrale Analyse de données fonctionnelles Analyse de données multivariées Data mining Clustering Environnement nucléaire Modélisation numérique Acoustic emission Spectral subtraction Functional data analysis Multivariate data analysis Data mining Clustering Nuclear environment Numerical modeling 534
8	Health Impact Assessment : Quantifying and Modeling to Better Decide / Évaluation d'impact sur la santé : quantifier et modéliser pour mieux décider / Avaliação de Impacte na Saúde : Quantificar e Modelizar para Melhor Decidir Bacelar-Nicolau, Leonor 19 December 2017 (has links) L’Évaluation d’Impact sur la Santé (EIS) est un instrument de support à la décision, pour juger une politique quant aux effets potentiels sur la santé et leur distribution (équité). C’est encore souvent une approche qualitative.L’objectif principal est de montrer l’utilité de méthodologies statistiques quantitatives multivariées pour enrichir la pratique d’EIS, améliorant la compréhension des résultats par des professionnels non-statisticiens.Les futures réformes des systèmes de santé déplacent le centre d’évaluation des services de santé des fournisseurs aux citoyens (besoins, préférences, équité d’accès aux gains de santé), exploitant big data associant information de soins aux données sociales, économiques et de déterminants de santé. Des méthodologies statistiques et d’évaluation innovantes sont nécessaires à cette transformation.Les méthodes de data mining et data science, souvent complexes, peuvent gérer des résultats graphiques compréhensibles pour amplifier l’usage d’EIS, qui deviendrait ainsi un outil précieux d’évaluation de politiques publiques pour amener les citoyens au centre de la prise de décision. / Health Impact Assessment (HIA) is a decision-making support tool to judge a policy as to its potential effects and its distribution on a population’s health (equity). It’s still very often a qualitative approach.The main aim here is to show the usefulness of applying quantified multivariate statistical methodologies to enrich HIA practice, while making the decision-making process easier, by issuing understandable outputs even for non-statisticians.The future of healthcare reforms shifts the center of evaluation of health systems from providers to people’s individual needs and preferences, reducing health inequities in access and health outcomes, using big data linking information from providers to social and economic health determinants. Innovative statistical and assessment methodologies are needed to make this transformation.Data mining and data science methods, however complex, may lead to graphical outputs simple to understand by decision makers. HIA is thus a valuable tool to assure public policies are indeed evaluated while considering health determinants and equity and bringing citizens to the center of the decision-making process. / A Avaliação de Impacte na Saúde (AIS) é um instrumento de suporte à decisão para julgar política quanto aos seus efeitos potenciais e à sua distribuição na saúde de uma população (equidade). É geralmente ainda uma abordagem qualitativa.O principal objetivo é mostrar a utilidade das metodologias estatísticas quantitativas e multivariadas para enriquecer a prática de AIS, melhorando a compreensão dos resultados por profissionais não-estatísticos.As futuras reformas dos sistemas de saúde deslocam o centro da avaliação dos serviços de saúde dos prestadores para as necessidades e preferências dos cidadãos, reduzindo iniquidades no acesso à saúde e ganhos em saúde, usando big data que associam informação de prestadores a dados sociais e económicos de determinantes de saúde. São necessárias metodologias estatísticas e de avaliação inovadoras para esta transformação.Métodos de data mining e data science, mesmo complexos, podem gerar resultados gráficos compreensíveis para os decisores. A AIS é assim uma ferramenta valiosa para avaliar políticas públicas considerando determinantes de saúde, equidade e trazendo os cidadãos para o centro da tomada de decisão. Évaluation d’Impact sur la Santé Equité Analyse de Données Multivariées Modélisation Prise de décision Health Impact Assessment Equity Multivariate Data Analysis Modeling Decision-Making Avaliação de Impacte na Saúde Equidade Análise de Dados Multivariada Modelização Tomada de decisão 614.4 362.106 8 610.6
9	La visualisation d’information pour les données massives : une approche par l’abstraction de données / Information visualization for big data : a data abstraction approach Sansen, Joris 04 July 2017 (has links) L’évolution et la démocratisation des technologies ont engendré une véritable explosion de l’information et notre capacité à générer des données et le besoin de les analyser n’a jamais été aussi important. Pourtant, les problématiques soulevées par l’accumulation de données (stockage, temps de traitement, hétérogénéité, vitesse de captation/génération, etc. ) sont d’autant plus fortes que les données sont massives, complexes et variées. La représentation de l’information, de part sa capacité à synthétiser et à condenser des données, se constitue naturellement comme une approche pour les analyser mais ne résout pas pour autant ces problèmes. En effet, les techniques classiques de visualisation sont rarement adaptées pour gérer et traiter cette masse d’informations. De plus,les problèmes que soulèvent le stockage et le temps de traitement se répercutent sur le système d’analyse avec par exemple, la distanciation de plus en plus forte entre la donnée et l’utilisateur : le lieu où elle sera stockée et traitée et l’interface utilisateur servant à l’analyse. Dans cette thèse nous nous intéressons à ces problématiques et plus particulièrement à l’adaptation des techniques de visualisation d’informations pour les données massives. Pour cela, nous nous intéressons tout d’abord à l’information de relation entre éléments, comment est-elle véhiculée et comment améliorer cette transmission dans le contexte de données hiérarchisées. Ensuite, nous nous intéressons à des données multivariées,dont la complexité à un impact sur les calculs possibles. Enfin, nous présentons les approches mises en oeuvre pour rendre nos méthodes compatibles avec les données massives. / The evolution and spread of technologies have led to a real explosion of information and our capacity to generate data and our need to analyze them have never been this strong. Still, the problems raised by such accumulation (storage, computation delays, diversity, speed of gathering/generation, etc. ) is as strong as the data are big, complex and varied. Information visualization,by its ability to summarize and abridge data was naturally established as appropriate approach. However, it does not solve the problem raised by Big Data. Actually, classical visualization techniques are rarely designed to handle such mass of information. Moreover, the problems raised by data storage and computation time have repercussions on the analysis system. For example,the increasing distance between the data and the analyst : the place where the data is stored and the place where the user will perform the analyses arerarely close. In this thesis, we focused on these issues and more particularly on adapting the information visualization techniques for Big Data. First of all focus on relational data : how does the existence of a relation between entity istransmitted and how to improve this transmission for hierarchical data. Then,we focus on multi-variate data and how to handle their complexity for the required computations. Finally, we present the methods we designed to make our techniques compatible with Big Data. Visualisation d’information Exploration Données massives Données relationnelles Données multivariées Données hiérarchiques Graphes orientés pondérés Information visualization Data exploration Big data Relational data Multivariate data Hierarchical data Directed weighted graphs
10	Classification de données multivariées multitypes basée sur des modèles de mélange : application à l'étude d'assemblages d'espèces en écologie / Model-based clustering for multivariate and mixed-mode data : application to multi-species spatial ecological data Georgescu, Vera 17 December 2010 (has links) En écologie des populations, les distributions spatiales d'espèces sont étudiées afin d'inférer l'existence de processus sous-jacents, tels que les interactions intra- et interspécifiques et les réponses des espèces à l'hétérogénéité de l'environnement. Nous proposons d'analyser les données spatiales multi-spécifiques sous l'angle des assemblages d'espèces, que nous considérons en termes d'abondances absolues et non de diversité des espèces. Les assemblages d'espèces sont une des signatures des interactions spatiales locales des espèces entre elles et avec leur environnement. L'étude des assemblages d'espèces peut permettre de détecter plusieurs types d'équilibres spatialisés et de les associer à l'effet de variables environnementales. Les assemblages d'espèces sont définis ici par classification non spatiale des observations multivariées d'abondances d'espèces. Les méthodes de classification basées sur les modèles de mélange ont été choisies afin d'avoir une mesure de l'incertitude de la classification et de modéliser un assemblage par une loi de probabilité multivariée. Dans ce cadre, nous proposons : 1. une méthode d'analyse exploratoire de données spatiales multivariées d'abondances d'espèces, qui permet de détecter des assemblages d'espèces par classification, de les cartographier et d'analyser leur structure spatiale. Des lois usuelles, telle que la Gaussienne multivariée, sont utilisées pour modéliser les assemblages, 2. un modèle hiérarchique pour les assemblages d'abondances lorsque les lois usuelles ne suffisent pas. Ce modèle peut facilement s'adapter à des données contenant des variables de types différents, qui sont fréquemment rencontrées en écologie, 3. une méthode de classification de données contenant des variables de types différents basée sur des mélanges de lois à structure hiérarchique (définies en 2.). Deux applications en écologie ont guidé et illustré ce travail : l'étude à petite échelle des assemblages de deux espèces de pucerons sur des feuilles de clémentinier et l'étude à large échelle des assemblages d'une plante hôte, le plantain lancéolé, et de son pathogène, l'oïdium, sur les îles Aland en Finlande / In population ecology, species spatial patterns are studied in order to infer the existence of underlying processes, such as interactions within and between species, and species response to environmental heterogeneity. We propose to analyze spatial multi-species data by defining species abundance assemblages. Species assemblages are one of the signatures of the local spatial interactions between species and with their environment. Species assemblages are defined here by a non spatial classification of the multivariate observations of species abundances. Model-based clustering procedures using mixture models were chosen in order to have an estimation of the classification uncertainty and to model an assemblage by a multivariate probability distribution. We propose : 1. An exploratory tool for the study of spatial multivariate observations of species abundances, which defines species assemblages by a model-based clustering procedure, and then maps and analyzes the spatial structure of the assemblages. Common distributions, such as the multivariate Gaussian, are used to model the assemblages. 2. A hierarchical model for abundance assemblages which cannot be modeled with common distributions. This model can be easily adapted to mixed mode data, which are frequent in ecology. 3. A clustering procedure for mixed-mode data based on mixtures of hierarchical models. Two ecological case-studies guided and illustrated this work: the small-scale study of the assemblages of two aphid species on leaves of Citrus trees, and the large-scale study of the assemblages of a host plant, Plantago lanceolata, and its pathogen, the powdery mildew, on the Aland islands in south-west Finland Assemblage d'espèces Coexistence Données mixtes Données multivariées spatiales Modèle gaussien latent Modèle hiérarchique Monte Carlo EM Species assemblages Finite mixture models Coexistence Mixed mode data Multivariate data Latent gaussian model Hierarchical model Model-based clustering Spatial data

Search results