Global ETD Search

71	Trial design and analysis of endpoints in HIV vaccine trials / Schéma d’étude et analyses des données des essais vaccinaux du VIH Richert, Laura 28 October 2013 (has links) Des données complexes sont fréquentes dans les essais cliniques récents et nécessitent des méthodes statistiques adaptées. La recherche vaccinale du VIH est un exemple d’un domaine avec des données complexes et une absence de critères de jugement validés dans les essais précoces. Cette thèse d’Université concerne des recherches méthodologiques sur la conception et les aspects statistiques des essais cliniques vaccinaux du VIH, en particulier sur les critères de jugement d’immunogénicité et les schémas d’essai de phase I-II. A l’aide des données cytokiniques multiplex, nous illustrons les aspects méthodologiques spécifiques à une technique de mesure. Nous proposons ensuite des définitions de critères de jugement et des méthodes statistiques adéquates pour l'analyse des données d'immunogénicité multidimensionnelles. En particulier, nous montrons l’intérêt des scores multivariés non-paramétriques, permettant de résumer l’information à travers différents marqueurs d’immunogénicité et de faire des comparaisons inter- et intra-groupe. Dans l’objectif de contribuer à la conception méthodologique des nouveaux essais vaccinaux, nous présentons la construction d’un schéma d’essai optimisé pour le développement clinique précoce. En imbriquant les phases I et II d’évaluation clinique, ce schéma permet d’accélerer le développement de plusieurs stratégies vaccinales en parallèle. L’intégration d’une règle d’arrêt est proposée dans des perspectives fréquentistes et Bayesiennes. Les méthodes mises en avant dans cette thèse sont transposables à d’autres domaines d’application avec des données complexes, telle que les données d’imagerie ou les essais d’autres immunothérapies. / Complex data are frequently recored in recent clinical trials and require the use of appropriate statistical methods. HIV vaccine research is an example of a domaine with complex data and a lack of validated endpoints for early-stage clinical trials. This thesis concerns methodological research with regards to the design and analysis aspects of HIV vaccine trials, in particular the definition of immunogenicity endpoints and phase I-II trial designs. Using cytokine multiplex data, we illustrate the methodological aspects specific to a given assay technique. We then propose endpoint definitions and statistical methods appropriate for the analysis of multidimensional immunogenicity data. We show in particular the value of non-parametric multivariate scores, which allow for summarizing information across different immunogenicity markers and for making statistical comparisons between and within groups. In the aim of contributing to the design of new vaccine trials, we present the construction of an optimized early-stage HIV vaccine design. Combining phase I and II assessments, the proposed design allows for accelerating the clinical development of several vaccine strategies in parallel. The integration of a stopping rule is proposed from both a frequentist and a Bayesian perspective. The methods advocated in this thesis are transposable to other research domains with complex data, such as imaging data or trials of other immune therapies. Vaccin contre le VIH Marqueurs d’immunogénicité Données multidimensionnelles Variables résumées multivariées Critères de jugement Schémas d’essais cliniques optimisés HIV vaccine Immunogenicity markers Multidimensional data Multivariate summary measures Endpoint definitions Optimized clinical trial design
72	La visualisation d’information pour les données massives : une approche par l’abstraction de données / Information visualization for big data : a data abstraction approach Sansen, Joris 04 July 2017 (has links) L’évolution et la démocratisation des technologies ont engendré une véritable explosion de l’information et notre capacité à générer des données et le besoin de les analyser n’a jamais été aussi important. Pourtant, les problématiques soulevées par l’accumulation de données (stockage, temps de traitement, hétérogénéité, vitesse de captation/génération, etc. ) sont d’autant plus fortes que les données sont massives, complexes et variées. La représentation de l’information, de part sa capacité à synthétiser et à condenser des données, se constitue naturellement comme une approche pour les analyser mais ne résout pas pour autant ces problèmes. En effet, les techniques classiques de visualisation sont rarement adaptées pour gérer et traiter cette masse d’informations. De plus,les problèmes que soulèvent le stockage et le temps de traitement se répercutent sur le système d’analyse avec par exemple, la distanciation de plus en plus forte entre la donnée et l’utilisateur : le lieu où elle sera stockée et traitée et l’interface utilisateur servant à l’analyse. Dans cette thèse nous nous intéressons à ces problématiques et plus particulièrement à l’adaptation des techniques de visualisation d’informations pour les données massives. Pour cela, nous nous intéressons tout d’abord à l’information de relation entre éléments, comment est-elle véhiculée et comment améliorer cette transmission dans le contexte de données hiérarchisées. Ensuite, nous nous intéressons à des données multivariées,dont la complexité à un impact sur les calculs possibles. Enfin, nous présentons les approches mises en oeuvre pour rendre nos méthodes compatibles avec les données massives. / The evolution and spread of technologies have led to a real explosion of information and our capacity to generate data and our need to analyze them have never been this strong. Still, the problems raised by such accumulation (storage, computation delays, diversity, speed of gathering/generation, etc. ) is as strong as the data are big, complex and varied. Information visualization,by its ability to summarize and abridge data was naturally established as appropriate approach. However, it does not solve the problem raised by Big Data. Actually, classical visualization techniques are rarely designed to handle such mass of information. Moreover, the problems raised by data storage and computation time have repercussions on the analysis system. For example,the increasing distance between the data and the analyst : the place where the data is stored and the place where the user will perform the analyses arerarely close. In this thesis, we focused on these issues and more particularly on adapting the information visualization techniques for Big Data. First of all focus on relational data : how does the existence of a relation between entity istransmitted and how to improve this transmission for hierarchical data. Then,we focus on multi-variate data and how to handle their complexity for the required computations. Finally, we present the methods we designed to make our techniques compatible with Big Data. Visualisation d’information Exploration Données massives Données relationnelles Données multivariées Données hiérarchiques Graphes orientés pondérés Information visualization Data exploration Big data Relational data Multivariate data Hierarchical data Directed weighted graphs
73	Au-delà de la volumétrie en morphométrie basée sur les déformations : application au dimorphisme sexuel durant l'adolescence / Beyond volumetry in longitudinal deformation-based morphometry : application to sexual dimorphism during adolescence Hadj-Hamou, Mehdi 14 December 2016 (has links) L'analyse des changements morphologiques du cerveau dans des séries temporelles d'images est un sujet important en neuroimagerie. Bien que le développement des bases de données longitudinales ait aidé à réduire la variabilité inter-individu, il reste encore de nombreux biais qui doivent être évités lors de l'estimation des évolutions longitudinales. De plus, lorsque les changements intra-sujet sont très faibles par rapport à la variabilité inter-sujet, il est crucial de savoir si les méthodes existantes peuvent capturer sans biais les changements longitudinaux. Dans la plupart des études, les changements longitudinaux sont limités à leur composante volumétrique scalaire afin d'en faciliter l'analyse. Cependant, les changements cérébraux ne sont généralement pas uniquement volumétriques et dans ce cas multivarié, l'interprétation est alors plus difficile. Cette thèse adresse ces problèmes en suivant trois axes principaux. Premièrement, nous proposons une chaîne de traitement longitudinale reposant sur la morphométrie à partir de déformations et ayant pour but d'estimer de manière robuste les changements longitudinaux. Afin d’éviter de rajouter du biais, nous détaillons tout l'enchaînement des étapes de traitement. En plus de cette contribution, nous intégrons une modification de l'algorithme de recalage non-linéaire qui consiste à masquer le terme de similarité tout en conservant la symétrie de la formulation. Cette contribution augmente la robustesse des résultats vis-à-vis des artefacts d'intensité situés en bordure du cerveau et augmente ainsi la sensibilité de l'étude statistique réalisée sur les déformations longitudinales / Analysing the progression of brain morphological changes in time series of images is an important topic in neuroimaging. Although the development of longitudinal databases has helped reducing the inter-individual variability, there still exist numerous biases that need to be avoided when capturing longitudinal evolutions. Moreover, when the intra-subject changes are very small with respect to the inter-subject variability it is crucial to know if the available methods can capture the longitudinal change with no bias. In most of the studies, these longitudinal changes are limited to scalar volumetric changes in order to ease their analysis. However, one can observe that brain changes are not limited to volumetry. In this multivariate case, the interpretation is more difficult. This thesis addresses these problems along three main axes. First, we propose a longitudinal Deformation-based Morphometry processing pipeline to robustly estimate the longitudinal changes. We detail the whole sequencing of the processing steps as they are key to avoid adding bias. In addition to this contribution we integrate a modification to the non-linear registration algorithm by masking the similarity term while keeping the symmetry of the formulation. This change increases the robustness of the results with respect to intensity artifacts located in the brain boundaries and leads to increased sensitivity of the statistical study on the longitudinal deformations. The proposed processing pipeline is based on freely available software and tools so that it is fully reproducible Images longitudinales Évaluation Méthodes pour la volumétrie Recalage non-linéaire Chaîne de traitement Statistiques multivariées Comparaison de groupe Dimorphisme sexuel Longitudinal images Evaluation Volumetric methods Non-rigid registration Processing pipeline Multivariate statistics Group comparison Sexual dimorphism
74	Bringing methodological light to ecological processes : are ecological scales and constrained null models relevant solutions? / Apporter une lumière méthodologique aux processus écologiques : les échelles écologiques et les modèles nuls contraints sont-ils des solutions pertinentes? Clappe, Sylvie 14 December 2018 (has links) Les distributions d'espèces observées dans un environnement hétérogène résultent de plusieurs processus déterministes et stochastiques agissant comme des filtres pour contraindre la coexistence des espèces. L’action successive de ces processus a pour conséquence directe de structurer spatialement la composition des communautés et la variation de ces compositions (i.e., diversité bêta). Un des objectifs majeurs de l'écologie des communautés et métacommunautés consiste à identifier et quantifier les effets respectifs de ces différents processus sur la diversité bêta des communautés afin de mieux comprendre et prédire la distribution de la biodiversité. L'expérimentation étant difficilement possible, les processus responsables de la variation spatiale de la composition des communautés sont généralement inférés à partir des structures spatiales des distributions d’espèces observées dans la nature. La thèse s’inscrit dans ce contexte et vise à améliorer les outils de statistique multivariée permettant d’identifier et quantifier l'effet des processus écologiques structurant les communautés et métacommunautés. En particulier, il est proposé d’intégrer les échelles écologiques et les modèles nuls contraints pour étudier l’effet de l’environnement. La décomposition des relations trait-environnement dans les échelles spatiales et phylogénétiques permet une étude plus approfondie du filtrage environnemental en associant son échelle spatiale d’action au signal phylogénétique des traits sélectionnés pour capturer l’histoire évolutive associée au filtrage environnemental. L’interprétation en terme de processus évolutifs est néanmoins limitée et mériterait l’intégration de modèles nuls phylogénétiquement contraints pour une analyse plus fine. Dans la continuité, des modèles nuls spatialement contrains ont été développés et intégrés à deux analyses multivariées très largement utilisées en écologie des communautés (i.e., partitionnement de variation et test de Mantel) pour estimer et tester l’effet de l’environnement sur les assemblages d’espèces. Ces deux analyses présentaient une surestimation de leur statistique mesurée ainsi qu’un taux anormal de faux positifs lorsque les distributions d’espèces (via processus de dispersion limitée) et l’environnement étaient indépendamment spatialement structurés. L’intégration de modèles nuls spatialement contraints a permis d’ajuster à la fois les estimations et les tests de ces deux analyses illustrant ainsi le besoin d’utiliser des modèles nuls écologiquement contraints pour une identification et quantification correctes des processus écologiques / Species distributions observed in an heterogeneous environment result from multiple deterministic and stochastic processes acting as filters to constrain species co-existence. As a direct consequence, the successive actions of these processes spatially structure communities composition and the variation of these compositions (i.e., beta-diversity). One of the major objective in community and metacommunity ecology is to identify and quantify the respective effects of these different processes on communities beta-diversity to better understand and predict the distribution of biodiversity. Experiments being hardly possible, processes responsible for the spatial variation of communities composition are generally inferred from spatial patterns of species distributions observed in nature. In this context, the thesis aims at improving multivariate statistical tools conducted to identify and quantify the effects of ecological processes shaping communities and metacommunities. In particular, this thesis proposes to integrate ecological scales and constrained null models to study the effect of environment.Decomposing trait-environment relationships through spatial and phylogenetic scales allows to further study environmental filtering. The association of spatial scales involved in environmental filtering with the phylogenetic signals of traits allowed to capture the evolutive history related to environmental filtering. The interpretation in terms of evolutive processes is however limited and phylogenetically-constrained null models should be considered to improve the analysis. Following on from this work, spatially-constrained null models were developed and integrated into two multivariate analyses widely used in community ecology (i.e., variation partitioning and Mantel tests) to estimate and test the effect of environmental filtering on species assemblages. Both approaches presented overestimation of their computed statistic as well as high rates of false positive when species distributions (via limited dispersal) and environmental conditions were independently spatially structured. Integrating spatially-constrained null models allowed to adjust both their tests and the values of their statistic, as such demonstrating the need of using ecologically-constrained null models to correctly identify and quantify ecological processes.For future works, the thesis suggests that adopting a scaling approach to study ecological processes in addition to mechanistic null models could offer the possibility to distinguish processes from one another Écologie des communautés Tests d’hypothèses Analyses multivariées Partitionnement de variation Test de Mantel Quatrième coin Processus écologiques Modèles mécanistes Community ecology Hypothesis-testing Multivariate analyses Variation partitioning Mantel test Fourth-corner Environmental filtering Mechanistic models 570
75	Combinaison de l’Internet des objets, du traitement d’évènements complexes et de la classification de séries temporelles pour une gestion proactive de processus métier / Combining the Internet of things, complex event processing, and time series classification for a proactive business process management. Mousheimish, Raef 27 October 2017 (has links) L’internet des objets est au coeur desprocessus industriels intelligents grâce à lacapacité de détection d’évènements à partir dedonnées de capteurs. Cependant, beaucoup resteà faire pour tirer le meilleur parti de cettetechnologie récente et la faire passer à l’échelle.Cette thèse vise à combler le gap entre les fluxmassifs de données collectées par les capteurs etleur exploitation effective dans la gestion desprocessus métier. Elle propose une approcheglobale qui combine le traitement de flux dedonnées, l’apprentissage supervisé et/oul’utilisation de règles sur des évènementscomplexes permettant de prédire (et doncéviter) des évènements indésirables, et enfin lagestion des processus métier étendue par cesrègles complexes.Les contributions scientifiques de cette thèse sesituent dans différents domaines : les processusmétiers plus intelligents et dynamiques; letraitement d’évènements complexes automatisépar l’apprentissage de règles; et enfin et surtout,dans le domaine de la fouille de données deséries temporelles multivariéespar la prédiction précoce de risques.L’application cible de cette thèse est le transportinstrumenté d’oeuvres d’art / Internet of things is at the core ofsmart industrial processes thanks to its capacityof event detection from data conveyed bysensors. However, much remains to be done tomake the most out of this recent technologyand make it scale. This thesis aims at filling thegap between the massive data flow collected bysensors and their effective exploitation inbusiness process management. It proposes aglobal approach, which combines stream dataprocessing, supervised learning and/or use ofcomplex event processing rules allowing topredict (and thereby avoid) undesirable events,and finally business process managementextended to these complex rules. The scientificcontributions of this thesis lie in several topics:making the business process more intelligentand more dynamic; automation of complexevent processing by learning the rules; and lastand not least, in datamining for multivariatetime series by early prediction of risks. Thetarget application of this thesis is theinstrumented transportation of artworks. Traitement des événements complexes Fouille de séries temporelles Lassification précoce Séries temporelles multivariées Gestion des processus métiers Complex Event Processing Time Series Data Mining Early Classification Multivariate Time Series Business Process Management
76	Robust methods in multivariate time series / Méthodes robustes dans les séries chronologiques multivariées / Métodos robustos em séries temporais multivariadas Aranda Cotta, Higor Henrique 22 August 2019 (has links) Ce manuscrit propose de nouvelles méthodes d’estimation robustes pour les fonctions matricielles d’autocovariance et d’autocorrélation de séries chronologiques multivariées stationnaires pouvant présenter des valeurs aberrantes aléatoires additives. Ces fonctions jouent un rôle important dans l’identification et l’estimation des paramètres de modèles de séries chronologiques multivariées stationnaires. Nous proposons tout d'abord de nouveaux estimateurs des fonctions matricielles d’autocovariance et d’autocorrélation construits en utilisant une approche spectrale à l'aide du périodogramme matriciel. Comme dans le cas des estimateurs classiques des fonctions d’autocovariance et d’autocorrélation matricielles, ces estimateurs sont affectés par des observations aberrantes. Ainsi, toute procédure d'identification ou d'estimation les utilisant est directement affectée, ce qui entraîne des conclusions erronées. Pour atténuer ce problème, nous proposons l’utilisation de techniques statistiques robustes pour créer des estimateurs résistants aux observations aléatoires aberrantes. Dans un premier temps, nous proposons de nouveaux estimateurs des fonctions d’autocorvariance et d’autocorrélation de séries chronologiques univariées. Les domaines temporel et fréquentiel sont liés par la relation existant entre la fonction d’autocovariance et la densité spectrale. Le périodogramme étant sensible aux données aberrantes, nous obtenons un estimateur robuste en le remplaçant parle $M$-périodogramme. Les propriétés asymptotiques des estimateurs sont établies. Leurs performances sont étudiées au moyen de simulations numériques pour différentes tailles d’échantillons et différents scénarios de contamination. Les résultats empiriques indiquent que les méthodes proposées fournissent des valeurs proches de celles obtenues par la fonction d'autocorrélation classique quand les données ne sont pas contaminées et resistent à différents cénarios de contamination. Ainsi, les estimateurs proposés dans cette thèse sont des méthodes alternatives utilisables pour des séries chronologiques présentant ou non des valeurs aberrantes. Les estimateurs obtenus pour des séries chronologiques univariées sont ensuite étendus au cas de séries multivariées. Cette extension est simplifiée par le fait que le calcul du périodogramme croisé ne fait intervenir que les coefficients de Fourier de chaque composante de la série. Le $M$-périodogramme matriciel apparaît alors comme une alternative robuste au périodogramme matriciel pour construire des estimateurs robustes des fonctions matricielles d’autocovariance et d’autocorrélation. Les propriétés asymptotiques sont étudiées et des expériences numériques sont réalisées. Comme exemple d'application avec des données réelles, nous utilisons les fonctions proposées pour ajuster un modèle autoregressif par la méthode de Yule-Walker à des données de pollution collectées dans la région de Vitória au Brésil.Enfin, l'estimation robuste du nombre de facteurs dans les modèles factoriels de grande dimension est considérée afin de réduire la dimensionnalité. En présence de valeurs aberrantes, les critères d’information proposés par Bai & Ng (2002) tendent à surestimer le nombre de facteurs. Pour atténuer ce problème, nous proposons de remplacer la matrice de covariance standard par la matrice de covariance robuste proposée dans ce manuscrit. Nos simulations montrent qu'en l'absence de contamination, les méthodes standards et robustes sont équivalentes. En présence d'observations aberrantes, le nombre de facteurs estimés augmente avec les méthodes non robustes alors qu'il reste le même en utilisant les méthodes robustes. À titre d'application avec des données réelles, nous étudions des concentrations de polluant PM$_{10}$ mesurées dans la région de l'Île-de-France en France. / This manuscript proposes new robust estimation methods for the autocovariance and autocorrelation matrices functions of stationary multivariates time series that may have random additives outliers. These functions play an important role in the identification and estimation of time series model parameters. We first propose new estimators of the autocovariance and of autocorrelation matrices functions constructed using a spectral approach considering the periodogram matrix periodogram which is the natural estimator of the spectral density matrix. As in the case of the classic autocovariance and autocorrelation matrices functions estimators, these estimators are affected by aberrant observations. Thus, any identification or estimation procedure using them is directly affected, which leads to erroneous conclusions. To mitigate this problem, we propose the use of robust statistical techniques to create estimators resistant to aberrant random observations.As a first step, we propose new estimators of autocovariance and autocorrelation functions of univariate time series. The time and frequency domains are linked by the relationship between the autocovariance function and the spectral density. As the periodogram is sensitive to aberrant data, we get a robust estimator by replacing it with the $M$-periodogram. The $M$-periodogram is obtained by replacing the Fourier coefficients related to periodogram calculated by the standard least squares regression with the ones calculated by the $M$-robust regression. The asymptotic properties of estimators are established. Their performances are studied by means of numerical simulations for different sample sizes and different scenarios of contamination. The empirical results indicate that the proposed methods provide close values of those obtained by the classical autocorrelation function when the data is not contaminated and it is resistant to different contamination scenarios. Thus, the estimators proposed in this thesis are alternative methods that can be used for time series with or without outliers.The estimators obtained for univariate time series are then extended to the case of multivariate series. This extension is simplified by the fact that the calculation of the cross-periodogram only involves the Fourier coefficients of each component from the univariate series. Thus, the $M$-periodogram matrix is a robust periodogram matrix alternative to build robust estimators of the autocovariance and autocorrelation matrices functions. The asymptotic properties are studied and numerical experiments are performed. As an example of an application with real data, we use the proposed functions to adjust an autoregressive model by the Yule-Walker method to Pollution data collected in the Vitória region Brazil.Finally, the robust estimation of the number of factors in large factorial models is considered in order to reduce the dimensionality. It is well known that the values random additive outliers affect the covariance and correlation matrices and the techniques that depend on the calculation of their eigenvalues and eigenvectors, such as the analysis principal components and the factor analysis, are affected. Thus, in the presence of outliers, the information criteria proposed by Bai & Ng (2002) tend to overestimate the number of factors. To alleviate this problem, we propose to replace the standard covariance matrix with the robust covariance matrix proposed in this manuscript. Our Monte Carlo simulations show that, in the absence of contamination, the standard and robust methods are equivalent. In the presence of outliers, the number of estimated factors increases with the non-robust methods while it remains the same using robust methods. As an application with real data, we study pollutant concentrations PM$_{10}$ measured in the Île-de-France region of France. / Este manuscrito é centrado em propor novos métodos de estimaçao das funçoes de autocovariancia e autocorrelaçao matriciais de séries temporais multivariadas com e sem presença de observaçoes discrepantes aleatorias. As funçoes de autocovariancia e autocorrelaçao matriciais desempenham um papel importante na analise e na estimaçao dos parametros de modelos de série temporal multivariadas. Primeiramente, nos propomos novos estimadores dessas funçoes matriciais construıdas, considerando a abordagem do dominio da frequencia por meio do periodograma matricial, um estimador natural da matriz de densidade espectral. Como no caso dos estimadores tradicionais das funçoes de autocovariancia e autocorrelaçao matriciais, os nossos estimadores tambem sao afetados pelas observaçoes discrepantes. Assim, qualquer analise subsequente que os utilize é diretamente afetada causando conclusoes equivocadas. Para mitigar esse problema, nos propomos a utilizaçao de técnicas de estatistica robusta para a criaçao de estimadores resistentes as observaçoes discrepantes aleatorias. Inicialmente, nos propomos novos estimadores das funçoes de autocovariancia e autocorrelaçao de séries temporais univariadas considerando a conexao entre o dominio do tempo e da frequencia por meio da relaçao entre a funçao de autocovariancia e a densidade espectral, do qual o periodograma tradicional é o estimador natural. Esse estimador é sensivel as observaçoes discrepantes. Assim, a robustez é atingida considerando a utilizaçao do Mperiodograma. O M-periodograma é obtido substituindo a regressao por minimos quadrados com a M-regressao no calculo das estimativas dos coeficientes de Fourier relacionados ao periodograma. As propriedades assintoticas dos estimadores sao estabelecidas. Para diferentes tamanhos de amostras e cenarios de contaminaçao, a performance dos estimadores é investigada. Os resultados empiricos indicam que os métodos propostos provem resultados acurados. Isto é, os métodos propostos obtêm valores proximos aos da funçao de autocorrelaçao tradicional no contexto de nao contaminaçao dos dados. Quando ha contaminaçao, os M-estimadores permanecem inalterados. Deste modo, as funçoes de M-autocovariancia e de M-autocorrelaçao propostas nesta tese sao alternativas vi aveis para séries temporais com e sem observaçoes discrepantes. A boa performance dos estimadores para o cenario de séries temporais univariadas motivou a extensao para o contexto de séries temporais multivariadas. Essa extensao é direta, haja vista que somente os coeficientes de Fourier relativos à cada uma das séries univariadas sao necessarios para o calculo do periodograma cruzado. Novamente, a relaçao de dualidade entre o dominio da frequência e do tempo é explorada por meio da conexao entre a funçao matricial de autocovariancia e a matriz de densidade espectral de séries temporais multivariadas. É neste sentido que, o presente artigo propoe a matriz M-periodograma como um substituto robusto à matriz periodograma tradicional na criaçao de estimadores das funçoes matriciais de autocovariancia e autocorrelaçao. As propriedades assintoticas sao estudas e experimentos numéricos sao realizados. Como exemplo de aplicaçao à dados reais, nos aplicamos as funçoes propostas no artigo na estimaçao dos parâmetros do modelo de série temporal multivariada pelo método de Yule-Walker para a modelagem dos dados MP10 da regiao de Vitoria/Brasil. Finalmente, a estimaçao robusta dos numeros de fatores em modelos fatoriais aproximados de alta dimensao é considerada com o objetivo de reduzir a dimensionalidade. Ésabido que dados discrepantes afetam as matrizes de covariancia e correlaçao. Em adiçao, técnicas que dependem do calculo dos autovalores e autovetores dessas matrizes, como a analise de componentes principais e a analise fatorial, sao completamente afetadas. Assim, na presença de observaçoes discrepantes, o critério de informaçao proposto por Bai & Ng (2002) tende a superestimar o numero de fatores. [...] Séries chronologiques multivariées Robustesse Valeurs aberrantes Domaine temporel Domaine fréquentiel Multivariate time series Robustness Outliers Time domain Frequency domain Séries temporais multivariadas Robustez Observações discrepantes Domínio do tempo Domínio da frequência
77	Modélisation des modèles autorégressifs vectoriels avec variables exogènes et sélection d’indices Oscar, Mylène 05 1900 (has links) Ce mémoire porte sur l’étude des modèles autorégressifs avec variables exogènes et sélection d’indices. La littérature classique regorge de textes concernant la sélection d’indices dans les modèles autorégressifs. Ces modèles sont particulièrement utiles pour des données macroéconomiques mesurées sur des périodes de temps modérées à longues. Effectivement, la lourde paramétrisation des modèles complets peut souvent être allégée en utilisant la sélection d’indices aboutissant ainsi à des modèles plus parcimonieux. Les modèles à variables exogènes sont très intéressants dans le contexte où il est connu que les variables à l’étude sont affectées par d’autres variables, jouant le rôle de variables explicatives, que l’analyste ne veut pas forcément modéliser. Ce mémoire se propose donc d’étudier les modèles autorégressifs vectoriels avec variables exogènes et sélection d’indices. Ces modèles ont été explorés, entre autres, par Lütkepohl (2005), qui se contente cependant d’esquisser les développements mathématiques. Nous concentrons notre étude sur l’inférence statistique sous des conditions précises, la modélisation ainsi que les prévisions. Notre objectif est de comparer les modèles avec sélection d’indices aux modèles autorégressifs avec variables exogènes complets classiques. Nous désirons déterminer si l’utilisation des modèles avec sélection d’indices est marquée par une différence favorable au niveau du biais et de l’écart-type des estimateurs ainsi qu’au niveau des prévisions de valeurs futures. Nous souhaitons également comparer l’efficacité de la sélection d’indices dans les modèles autorégressifs ayant des variables exogènes à celle dans les modèles autorégressifs. Il est à noter qu’une motivation première dans ce mémoire est l’estimation dans les modèles autorégressifs avec variables exogènes à sous-ensemble d’indices. Dans le premier chapitre, nous présentons les séries temporelles ainsi que les diverses notions qui y sont rattachées. De plus, nous présentons les modèles linéaires classiques multivariés, les modèles à variables exogènes puis des modèles avec sélection d’indices. Dans le deuxième chapitre, nous exposons le cadre théorique de l’estimation des moindres carrés dans les modèles autorégressifs à sous-ensemble d’indices ainsi que le comportement asymptotique de l’estimateur. Ensuite, nous développons la théorie pour l’estimation des moindres carrés (LS) ainsi que la loi asymptotique des estimateurs pour les modèles autorégressifs avec sélection d’indices (SVAR) puis nous faisons de même pour les modèles autorégressifs avec variables exogènes et tenant compte de la sélection des indices (SVARX). Spécifiquement, nous établissons la convergence ainsi que la distribution asymptotique pour l’estimateur des moindres carrés d’un processus autorégressif vectoriel à sous-ensemble d’indices et avec variables exogènes. Dans le troisième chapitre, nous appliquons la théorie spécifiée précédemment lors de simulations de Monte Carlo. Nous évaluons de manière empirique les biais et les écarts-types des coefficients trouvés lors de l’estimation ainsi que la proportion de fois que le modèle ajusté correspond au vrai modèle pour différents critères de sélection, tailles échantillonnales et processus générateurs des données. Dans le quatrième chapitre, nous appliquons la théorie élaborée aux chapitres 1 et 2 à un vrai jeu de données provenant du système canadien d’information socioéconomique (CANSIM), constitué de la production mensuelle de fromage mozzarella, cheddar et ricotta au Canada, expliquée par les prix mensuels du lait de bovin non transformé dans les provinces de Québec, d’Ontario et de la Colombie-Britannique pour la période allant de janvier 2003 à juillet 2021. Nous ajustons ces données à un modèle autorégressif avec variables exogènes complet puis à un modèle autorégressif avec variables exogènes et sélection d’indices. Nous comparons ensuite les résultats obtenus avec le modèle complet à ceux obtenus avec le modèle restreint. Mots-clés : Processus autorégressif à sous-ensemble d’indices, variables exogènes, esti mation des moindres carrés, sélection de modèle, séries chronologiques multivariées, processus stochastiques, séries chronologiques. / This Master’s Thesis focuses on the study of subset autoregressive models with exoge nous variables. Many texts from the classical literature deal with the selection of indexes in autoregressive models. These models are particularly useful for macroeconomic data measured over moderate to long periods of time. Indeed, the heavy parameterization of full models can often be simplified by using the selection of indexes, thus resulting in more parsimonious models. Models with exogenous variables are very interesting in the context where it is known that the variables under study are affected by other variables, playing the role of explanatory variables, not necessarily modeled by the analyst. This Master’s Thesis therefore proposes to study vector subset autoregressive models with exogenous variables. These models have been explored, among others, by Lütkepohl (2005), who merely sketches proofs of the statistical properties. We focus our study on statistical inference under precise conditions, modeling and forecasting for these models. Our goal is to compare restricted models to full classical autoregressive models with exogenous variables. We want to determine whether the use of restricted models is marked by a favorable difference in the bias and standard deviation properties of the estimators as well as in forecasting future values. We also compare the efficiency of index selection in autoregressive models with exogenous variables to that in autoregressive models. It should be noted that a primary motivation in this Master’s Thesis is the estimation in subset autoregressive models with exogenous variables. In the first chapter, we present time series as well as the various concepts which are attached to them. In addition, we present the classical multivariate linear models, models with exogenous variables and then we present subset models. In the second chapter, we present the theoretical framework for least squares estimation in subset autoregressive models as well as the asymptotic behavior of the estimator. Then, we develop the theory for the estimation of least squares (LS) as well as the asymptotic distribution of the estimators for the subset autoregressive models (SVAR), and we do the same for the subset autoregressive models with exogenous variables (SVARX). Specifically, we establish the convergence as well as the asymptotic distribution for the least squares estimator of a subset autoregressive process with exogenous variables. In the third chapter, we apply the theory specified above in Monte Carlo simulations. We evaluate empirically the biases and the standard deviations of the coefficients found during the estimation as well as the proportion of times that the adjusted model matches the true model for different selection criteria, sample size and data generating processes. In the fourth chapter, we apply the theory developed in chapters 1 and 2 to a real dataset from the Canadian Socio-Economic Information System (CANSIM) consisting of the monthly production of mozzarella, cheddar and ricotta cheese in Canada, explained by the monthly prices of unprocessed bovine milk in the provinces of Quebec, Ontario and British Columbia from January 2003 to July 2021. We fit these data with a full autoregressive model with exogenous variables and then to a subset autoregressive model with exogenous variables. Afterwards, we compare the results obtained with the complete model to those obtained with the subset model. Keywords : Subset autoregressive process, exogenous variables, least squares estimation, model selection, multivariate time series, stochastic process, time series. Variables exogènes Estimation des moindres carrés Sélection de modèle Séries chronologiques multivariées Processus stochastiques Séries chronologiques Subset autoregressive process Exogenous variables Least squares estimation Model selection Multivariate time series Stochastic process Time series Statistics / Statistiques (UMI : 0463)
78	Statistiques discrètes et Statistiques bayésiennes en grande dimension Bontemps, Dominique 02 December 2010 (has links) (PDF) Dans cette thèse de doctorat, nous présentons les travaux que nous avons effectués dans trois directions reliées : la compression de données en alphabet infini, les statistiques bayésiennes en dimension infinie, et les mélanges de distributions discrètes multivariées. Dans le cadre de la compression de données sans perte, nous nous sommes intéressé à des classes de sources stationnaires sans mémoire sur un alphabet infini, définies par une condition d'enveloppe à décroissance exponentielle sur les distributions marginales. Un équivalent de la redondance minimax de ces classes a été obtenue. Un algorithme approximativement minimax ainsi que des a-priori approximativement les moins favorables, basés sur l'a-priori de Jeffreys en alphabet fini, ont en outre été proposés. Le deuxième type de travaux porte sur la normalité asymptotique des distributions a-posteriori (théorèmes de Bernstein-von Mises) dans différents cadres non-paramétriques et semi-paramétriques. Tout d'abord, dans un cadre de régression gaussienne lorsque le nombre de régresseurs augmente avec la taille de l'échantillon. Les théorèmes non-paramétriques portent sur les coefficients de régression, tandis que les théorèmes semi-paramétriques portent sur des fonctionnelles de la fonction de régression. Dans nos applications au modèle de suites gaussiennes et à la régression de fonctions appartenant à des classe de Sobolev ou de régularité hölderiennes, nous obtenons simultanément le théorème de Bernstein-von Mises et la vitesse d'estimation fréquentiste minimax. L'adaptativité est atteinte pour l'estimation de fonctionnelles dans ces applications. Par ailleurs nous présentons également un théorème de Bernstein-von Mises non-paramétrique pour des modèles exponentiels de dimension croissante. Enfin, le dernier volet de ce travail porte sur l'estimation du nombre de composantes et des variables pertinentes dans des modèles de mélange de lois multinomiales multivariées, dans une optique de classification non supervisée. Ce type de modèles est utilisé par exemple pour traiter des données génotypiques. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. Le critère retenu en pratique comporte une calibration grâce à l'heuristique de pente. Ses performances sont meilleurs que celles des critères classiques BIC et AIC sur des données simulées. L'ensemble des procédures est implémenté dans un logiciel librement accessible. [MATH] Mathematics Alphabet infini dénombrable A-priori bayésien le moins favorable Codage universel Compression adaptative Compression de données sans perte Redondance minimax Estimation adaptative Modèles exponentiels Normalité asymptotique a-posteriori Paramètre de la valeur moyenne Théorème de Bernstein-von Mises Biostatistiques Génotypes multilocus Heuristique de pente Mélange de multinomiales multivariées Modèles à classes latentes Sélection de modèle Sélection de variables Vraissemblance pénalisée
79	Conséquences de la mise en place des bandes enherbées sur l'évolution de la flore adventice Cordeau, Stéphane 10 December 2010 (has links) (PDF) La gestion intensive des populations adventices, liée aux risques de perte de rendement et à la dégradation de la qualité de la récolte, a largement conduit à leur régression dans les milieux cultivés au cours de ces dernières décennies. Ce déclin floristique dans le paysage agricole a conduit à une perte de biodiversité plus large car de nombreux organismes (oiseaux, insectes, mammifères) sont dépendants de la ressource trophique que représentent ces communautés végétales. Pour contrer cette perte de biodiversité et limiter les effets néfastes de l'agriculture sur l'environnement, de nombreuses mesures agro environnementales ont été mises en place à travers l'Europe. En France, des bandes enherbées ont été implantées par les agriculteurs le long des cours d'eau pour limiter la dérive des produits phytosanitaires et limiter l'érosion hydrique des sols. Ces bandes sont principalement semées avec des mélanges de graminées et ne reçoivent ni traitement chimique, ni engrais. En conséquence, leur mise en place généralisée dans le paysage agricole pour de nombreuses années et sans contrepartie financière pour les agriculteurs, suscitent des craintes quant aux risques malherbologiques qu'elles peuvent représenter. A l'opposé, ces espaces peuvent être considérés comme des opportunités pour maintenir, dans des compartiments proches des zones cultivées, des populations adventices dont les services écosystémiques rendus à l'agriculture sont de plus en plus mis en évidence. Ce travail de thèse montre que les bandes enherbées hébergent une grande diversité floristique. Les communautés adventices sont principalement structurées par le type de bordure adjacente à la bande enherbée et par les modes de gestion qui y sont conduits. L'alternance perturbation-compétition générée respectivement par le broyage et la compétition des espèces semées ne permet pas aux espèces annuelles de se maintenir dans cet habitat où elles ne peuvent que difficilement y produire des semences. Les espèces fréquemment rencontrées sont vivaces, mais ne dominent que très rarement sur le couvert semé. Bien que les bandes enherbées hébergent une flore riche, composée majoritairement d'espèces des champs, il apparaît que ces espaces ne favorisent pas la dispersion d'espèces adventices vers la parcelle cultivée. En effet, la mise en place d'un couvert semé à l'endroit même où l'on observait auparavant une transition de la flore des bordures vers la flore des champs, limite l'effet des bordures sur les champs, au moins à court terme. En outre, la mise en place et l'entretien de ce couvert ont un coût pour l'agriculteur raisonnable à l'échelle de l'exploitation agricole. Malgré la crainte émise quant au déclin des mauvaises herbes annuelles, les bandes enherbées sont une opportunité pour la gestion des adventices à l'échelle de la parcelle cultivée comme à celle du paysage. Des études conjointes mettant en relation la flore avec d'autres communautés (microflore du sol, criquets) ont été initiées et pourraient permettre de valoriser d'un point de vue biodiversité la mise en place d'une mesure au départ purement agro-environnementale. [SDV:BV] Life Sciences/Vegetal Biology [SDV:OT] Life Sciences/Other bandes enherbées bordure écologie agroécologie agro-écologie transect écotone bande tampon adventices richesse spécifique biodiversité diversité floristique relevés de flore analyse multivariées mesure agri-environementale évaluation paysage jachère
80	Discrimination analytique des génomes bactériens / Analytical discrimination of bacterial genomes Poirion, Olivier 28 November 2014 (has links) Le génome bactérien est classiquement pensé comme constitué de “chromosomes”, éléments génomiques essentiels pour l’organisme, stables et à évolution lente, et de “plasmides”, éléments génomiques accessoires, mobiles et à évolution rapide. La distinction entre plasmides et chromosomes a récemment été mise en défaut avec la découverte dans certaines lignées bactériennes d’éléments génomiques intermédiaires, possédant à la fois des caractéristiques de chromosomes et de plasmides. Désignés par le terme de “chromosomes secondaires”, “mégaplasmides” ou “chromid”, ces éléments sont dispersés parmi les lignées bactériennes et sont couramment décrits comme des plasmides adaptés et modifiés. Cependant, leur véritable nature et les mécanismes permettant leur intégration dans le génome stable reste à caractériser. En utilisant les protéines liées aux Systèmes de Transmission de l’Information Génétique (STIG) comme variables descriptives des éléments génomiques bactériens (ou réplicons), une étude globale de génomique comparative a été conduite sur l’ensemble des génomes bactériens disponibles. A travers l’analyse de l’information contenue dans ce jeu de données par différentes approches analytiques, il apparait que les STIG constituent des marqueurs pertinents de l’état d’intégration des réplicons dans le génome stable, ainsi que de leur origine évolutive, et que les Réplicons Extra-Chromosomiques Essentiels (RECE) témoignent de la diversité des mécanismes génétiques et des processus évolutifs permettant l’intégration de réplicons dans le génome stable, attestant ainsi de la continuité du matériel génomique. / The genome of bacteria is classically separated into essential, stable and slow evolving replicons (chromosomes) and accessory, mobile and rapidly evolving replicons (plasmids). This paradigm is being questioned since the discovery of extra-chromosomal essential replicons (ECERs), be they called ”megaplasmids”, ”secondary chromosomes” or ”chromids”, which possess both chromosomal and plasmidic features. These ECERs are found in diverse lineages across the bacterial phylogeny and are generally believed to be modified plasmids. However, their true nature and the mechanisms permitting their integration within the sable genome are yet to be formally determined. The relationships between replicons, with reference to their genetic information inheritance systems (GIIS), were explored under the assumption that the inheritance of ECERs is integrated to the cell cycle and highly constrained in contrast to that of standard plasmids. A global comparative genomics analysis including all available of complete bacterial genome sequences, was performed using GIIS functional homologues as parameters and applying several analytical procedures. GIIS proved appropriate in characterizing the level of integration within the stable genome, as well as the origins, of the replicons. The study of ECERs thus provides clues to the genetic mechanisms and evolutionary processes involved in the replicon stabilization into the essential genome and the continuity of the genomic material. Génome bactérien Réplicon Fouille de données Apprentissage automatique Classification Analyses multivariées Discrimination fonctionnelle Synténie Chromosome Plasmide Néochromosome Bacterial genome Replicon Data mining Machine-learning Classification Multivariate analyses Functional discrimination Synteny Chromosome Plasmid Neo-chromosome

Search results