Global ETD Search

41	Efficient high-dimension gaussian sampling based on matrix splitting : application to bayesian Inversion / Échantillonnage gaussien en grande dimension basé sur le principe du matrix splitting. : application à l’inversion bayésienne Bӑrbos, Andrei-Cristian 10 January 2018 (has links) La thèse traite du problème de l’échantillonnage gaussien en grande dimension.Un tel problème se pose par exemple dans les problèmes inverses bayésiens en imagerie où le nombre de variables atteint facilement un ordre de grandeur de 106_109.La complexité du problème d’échantillonnage est intrinsèquement liée à la structure de la matrice de covariance. Pour résoudre ce problème différentes solutions ont déjà été proposées,parmi lesquelles nous soulignons l’algorithme de Hogwild qui exécute des mises à jour de Gibbs locales en parallèle avec une synchronisation globale périodique.Notre algorithme utilise la connexion entre une classe d’échantillonneurs itératifs et les solveurs itératifs pour les systèmes linéaires. Il ne cible pas la distribution gaussienne requise, mais cible une distribution approximative. Cependant, nous sommes en mesure de contrôler la disparité entre la distribution approximative est la distribution requise au moyen d’un seul paramètre de réglage.Nous comparons d’abord notre algorithme avec les algorithmes de Gibbs et Hogwild sur des problèmes de taille modérée pour différentes distributions cibles. Notre algorithme parvient à surpasser les algorithmes de Gibbs et Hogwild dans la plupart des cas. Notons que les performances de notre algorithme dépendent d’un paramètre de réglage.Nous comparons ensuite notre algorithme avec l’algorithme de Hogwild sur une application réelle en grande dimension, à savoir la déconvolution-interpolation d’image.L’algorithme proposé permet d’obtenir de bons résultats, alors que l’algorithme de Hogwild ne converge pas. Notons que pour des petites valeurs du paramètre de réglage, notre algorithme ne converge pas non plus. Néanmoins, une valeur convenablement choisie pour ce paramètre permet à notre échantillonneur de converger et d’obtenir de bons résultats. / The thesis deals with the problem of high-dimensional Gaussian sampling.Such a problem arises for example in Bayesian inverse problems in imaging where the number of variables easily reaches an order of 106_109. The complexity of the sampling problem is inherently linked to the structure of the covariance matrix. Different solutions to tackle this problem have already been proposed among which we emphasizethe Hogwild algorithm which runs local Gibbs sampling updates in parallel with periodic global synchronisation.Our algorithm makes use of the connection between a class of iterative samplers and iterative solvers for systems of linear equations. It does not target the required Gaussian distribution, instead it targets an approximate distribution. However, we are able to control how far off the approximate distribution is with respect to the required one by means of asingle tuning parameter.We first compare the proposed sampling algorithm with the Gibbs and Hogwild algorithms on moderately sized problems for different target distributions. Our algorithm manages to out perform the Gibbs and Hogwild algorithms in most of the cases. Let us note that the performances of our algorithm are dependent on the tuning parameter.We then compare the proposed algorithm with the Hogwild algorithm on a large scalereal application, namely image deconvolution-interpolation. The proposed algorithm enables us to obtain good results, whereas the Hogwild algorithm fails to converge. Let us note that for small values of the tuning parameter our algorithm fails to converge as well.Not with standing, a suitably chosen value for the tuning parameter enables our proposed sampler to converge and to deliver good results. Échantillonnage Distribution gaussienne Monte-Carlo par chaînes de Markov, Grande dimension Inférence bayésienne Problèmes inverses Sampling Gaussian distribution Markov Chain Monte Carlo High dimensional Bayesian inference Inverse problems
42	Ecological monitoring of semi-natural grasslands : statistical analysis of dense satellite image time series with high spatial resolution / Suivi écologique des prairies semi-naturelles : analyse statistique de séries temporelles denses d'images satellite à haute résolution spatiale Lopes, Maïlys 24 November 2017 (has links) Les prairies représentent une source importante de biodiversité dans les paysages agricoles qu’il est important de surveiller. Les satellites de nouvelle génération tels que Sentinel-2 offrent de nouvelles opportunités pour le suivi des prairies grâce à leurs hautes résolutions spatiale et temporelle combinées. Cependant, le nouveau type de données fourni par ces satellites implique des problèmes liés au big data et à la grande dimension des données en raison du nombre croissant de pixels à traiter et du nombre élevé de variables spectro-temporelles. Cette thèse explore le potentiel des satellites de nouvelle génération pour le suivi de la biodiversité et des facteurs qui influencent la biodiversité dans les prairies semi-naturelles. Des outils adaptés à l’analyse statistique des prairies à partir de séries temporelles d’images satellites (STIS) denses à haute résolution spatiale sont proposés. Tout d’abord, nous montrons que la réponse spectrotemporelle des prairies est caractérisée par sa variabilité au sein des prairies et parmi les prairies. Puis, pour les analyses statistiques, les prairies sont modélisées à l’échelle de l’objet pour être cohérent avec les modèles écologiques qui représentent les prairies à l’échelle de la parcelle. Nous proposons de modéliser la distribution des pixels dans une prairie par une loi gaussienne. A partir de cette modélisation, des mesures de similarité entre deux lois gaussiennes robustes à la grande dimension sont développées pour la classification des prairies en utilisant des STIS denses: High-Dimensional Kullback-Leibler Divergence et -Gaussian Mean Kernel. Cette dernière est plus performante que les méthodes conventionnelles utilisées avec les machines à vecteur de support (SVM) pour la classification du mode de gestion et de l’âge des prairies. Enfin, des indicateurs de biodiversité des prairies issus de STIS denses sont proposés à travers des mesures d’hétérogénéité spectro-temporelle dérivées du clustering non supervisé des prairies. Leur corrélation avec l’indice de Shannon est significative mais faible. Les résultats suggèrent que les variations spectro-temporelles mesurées à partir de STIS à 10 mètres de résolution spatiale et qui couvrent la période où ont lieu les pratiques agricoles sont plus liées à l’intensité des pratiques qu’à la diversité en espèces. Ainsi, bien que les propriétés spatiales et temporelles de Sentinel-2 semblent limitées pour estimer directement la diversité en espèces des prairies, ce satellite devrait permettre le suivi continu des facteurs influençant la biodiversité dans les prairies. Dans cette thèse, nous avons proposé des méthodes qui prennent en compte l’hétérogénéité au sein des prairies et qui permettent l’utilisation de toute l’information spectrale et temporelle fournie par les satellites de nouvelle génération. / Grasslands are a significant source of biodiversity in farmed landscapes that is important to monitor. New generation satellites such as Sentinel-2 offer new opportunities for grassland’s monitoring thanks to their combined high spatial and temporal resolutions. Conversely, the new type of data provided by these sensors involves big data and high dimensional issues because of the increasing number of pixels to process and the large number of spectro-temporal variables. This thesis explores the potential of the new generation satellites to monitor biodiversity and factors that influence biodiversity in semi-natural grasslands. Tools suitable for the statistical analysis of grasslands using dense satellite image time series (SITS) with high spatial resolution are provided. First, we show that the spectro-temporal response of grasslands is characterized by its variability within and among the grasslands. Then, for the statistical analysis, grasslands are modeled at the object level to be consistent with ecological models that represent grasslands at the field scale. We propose to model the distribution of pixels in a grassland by a Gaussian distribution. Following this modeling, similarity measures between two Gaussian distributions robust to the high dimension are developed for the lassification of grasslands using dense SITS: the High-Dimensional Kullback-Leibler Divergence and the -Gaussian Mean Kernel. The latter outperforms conventional methods used with Support Vector Machines for the classification of grasslands according to their management practices and to their age. Finally, indicators of grassland biodiversity issued from dense SITS are proposed through spectro-temporal heterogeneity measures derived from the unsupervised clustering of grasslands. Their correlation with the Shannon index is significant but low. The results suggest that the spectro-temporal variations measured from SITS at a spatial resolution of 10 meters covering the period when the practices occur are more related to the intensity of management practices than to the species diversity. Therefore, although the spatial and spectral properties of Sentinel-2 seem limited to assess the species diversity in grasslands directly, this satellite should make possible the continuous monitoring of factors influencing biodiversity in grasslands. In this thesis, we provided methods that account for the heterogeneity within grasslands and enable the use of all the spectral and temporal information provided by new generation satellites. Télédétection Séries temporelles d'images satellite Grande dimension Prairie Ecologie du paysage Biodiversité Remote sensing Satellite image time series High dimension Grassland Landscape ecology Biodiversity
43	Approximation des systèmes dynamiques à grande dimension et à dimension infinie / Large-scale and infinite dimensional dynamical model approximation Pontes Duff Pereira, Igor 11 January 2017 (has links) Dans le domaine de l’ingénierie (par exemple l’aéronautique, l’automobile, la biologie, les circuits), les systèmes dynamiques sont le cadre de base utilisé pour modéliser, contrôler et analyser une grande variété de systèmes et de phénomènes. En raison de l’utilisation croissante de logiciels dédiés de modélisation par ordinateur, la simulation numérique devient de plus en plus utilisée pour simuler un système ou un phénomène complexe et raccourcir le temps de développement et le coût. Cependant, le besoin d’une précision de modèle améliorée conduit inévitablement à un nombre croissant de variables et de ressources à gérer au prix d’un coût numérique élevé. Cette contrepartie justifie la réduction du modèle. Pour les systèmes linéaires invariant dans le temps, plusieurs approches de réduction de modèle ont été effectivement développées depuis les années 60. Parmi celles-ci, les méthodes basées sur l’interpolation se distinguent par leur souplesse et leur faible coût de calcul, ce qui en fait un candidat prédestiné à la réduction de systèmes véritablement à grande échelle. Les progrès récents démontrent des façons de trouver des paramètres de réduction qui minimisent localement la norme H2 de l’erreur d’incompatibilité. En général, une approximation d’ordre réduit est considérée comme un modèle de dimension finie. Cette représentation est assez générale et une large gamme de systèmes dynamiques linéaires peut être convertie sous cette forme, du moins en principe. Cependant, dans certains cas, il peut être plus pertinent de trouver des modèles à ordre réduit ayant des structures plus complexes. A titre d’exemple, certains systèmes de phénomènes de transport ont leurs valeurs singulières Hankel qui se décomposent très lentement et ne sont pas facilement approchées par un modèle de dimension finie. En outre, pour certaines applications, il est intéressant de disposer d’un modèle structuré d’ordre réduit qui reproduit les comportements physiques. C’est pourquoi, dans cette thèse, les modèles à ordre réduit ayant des structures de retard ont été plus précisément considérés. Ce travail a consisté, d’une part, à développer de nouvelles techniques de réduction de modèle pour des modèles à ordre réduit avec des structures de retard et, d’autre part, à trouver de nouvelles applications d’approximation de modèle. La contribution majeure de cette thèse couvre les sujets d’approximation et inclut plusieurs contributions au domaine de la réduction de modèle. Une attention particulière a été accordée au problème de l’approximation du modèle optimale pour les modèles structurés retardés. À cette fin, de nouveaux résultats théoriques et méthodologiques ont été obtenus et appliqués avec succès aux repères académiques et industriels. De plus, la dernière partie de ce manuscrit est consacrée à l’analyse de la stabilité des systèmes retardés par des méthodes interpolatoires. Certaines déclarations théoriques ainsi qu’une heuristique sont développées permettant d’estimer de manière rapide et précise les diagrammes de stabilité de ces systèmes. / In the engineering area (e.g. aerospace, automotive, biology, circuits), dynamical systems are the basic framework used for modeling, controlling and analyzing a large variety of systems and phenomena. Due to the increasing use of dedicated computer-based modeling design software, numerical simulation turns to be more and more used to simulate a complex system or phenomenon and shorten both development time and cost. However, the need of an enhanced model accuracy inevitably leads to an increasing number of variables and resources to manage at the price of a high numerical cost. This counterpart is the justification for model reduction. For linear time-invariant systems, several model reduction approaches have been effectively developed since the 60’s. Among these, interpolation-based methods stand out due to their flexibility and low computational cost, making them a predestined candidate in the reduction of truly large-scale systems. Recent advances demonstrate ways to find reduction parameters that locally minimize the H2 norm of the mismatch error. In general, a reduced-order approximation is considered to be a finite dimensional model. This representation is quite general and a wide range of linear dynamical systems can be converted in this form, at least in principle. However, in some cases, it may be more relevant to find reduced-order models having some more complex structures. As an example, some transport phenomena systems have their Hankel singular values which decay very slowly and are not easily approximated by a finite dimensional model. In addition, for some applications, it is valuable to have a structured reduced-order model which reproduces the physical behaviors. That is why, in this thesis, reduced-order models having delay structures have been more specifically considered. This work has focused, on the one hand, in developing new model reduction techniques for reduced order models having delay structures, and, on the other hand, in finding new applications of model approximation. The major contribution of this thesis covers approximation topics and includes several contributions to the area of model reduction. A special attention was given to the H2 optimal model approximation problem for delayed structured models. For this purpose, some new theoretical and methodological results were derived and successfully applied to both academic and industrial benchmarks. In addition, the last part of this manuscript is dedicated to the analysis of time-delayed systems stability using interpolatory methods. Some theoretical statements as well as an heuristic are developed enabling to estimate in a fast and accurate way the stability charts of those systems. Réduction de modèle Approximation de modèle Modèles de grande dimension Systèmes à retard Stabilités Model reduction Model approximation Large-Scale models Time-Delay systems Stability 629.8
44	Description et sélection de données en grande dimension / Description and selection of high-dimensional data Beal, Aurélie 24 February 2015 (has links) L'évolution des technologies actuelles permet de traiter un grand nombre d'expériences (ou de simulations) et d'envisager un nombre important de paramètres. Cette situation conduit à des matrices de grande, voire très grande, dimension et nécessite le développement de nouveaux outils pour évaluer et visualiser ces données et, le cas échéant, en réduire la dimension. L'évaluation de la qualité de l'information apportée par l'ensemble de points constituant une base de données ou un plan d'expériences peut se faire au travers de critères basés sur des calculs de distance, qui renseigneront sur l'uniformité de la répartition dans l'espace multidimensionnel. Parmi les méthodes de visualisation, l'Analyse en Composantes Curvilignes a l'avantage de projeter des données en grande dimension dans un espace bidimensionnel en préservant la topologie locale, ce qui peut aider à détecter des amas de points ou des zones lacunaires. La réduction de dimension s'appuie sur une sélection judicieuse de sous-ensembles de points ou de variables, via des algorithmes. Les performances de ces méthodes ont été évaluées sur des cas d'étude issus des études QSAR, de la spectroscopie et de la simulation numérique. / Technological progress has now made many experiments (or simulations) possible, along with taking into account a large number of parameters, which result in (very) high-dimensional matrix requiring the development of new tools to assess and visualize the data and, if necessary, to reduce the dimension. The quality of the information provided by all points of a database or an experimental design can be assessed using criteria based on distances that will inform about the uniformity of repartition in a multidimensional space. Among the visualization methods, Curvilinear Component Analysis has the advantage of projecting high-dimensional data in a two-dimensional space with respect to the local topology. This also enables the detection of clusters of points or gaps. The dimensional reduction is based on a judicious selection of subsets of points or variables, via accurate algorithms. The performance of these methods was assessed on case studies of QSAR, spectroscopy and numeric simulation. Données en grande dimension Plans d'expériences Simulation numérique Critères intrinsèques Analyse en Composantes Curvilignes Algorithme WSP High-Dimensional data Experimental designs Numerical simulation Intrinsic criteria Curvilinear Component Analysis WSP algorithm
45	Sélection de modèles parcimonieux pour l’apprentissage statistique en grande dimension / Model selection for sparse high-dimensional learning Mattei, Pierre-Alexandre 26 October 2017 (has links) Le déferlement numérique qui caractérise l’ère scientifique moderne a entraîné l’apparition de nouveaux types de données partageant une démesure commune : l’acquisition simultanée et rapide d’un très grand nombre de quantités observables. Qu’elles proviennent de puces ADN, de spectromètres de masse ou d’imagerie par résonance nucléaire, ces bases de données, qualifiées de données de grande dimension, sont désormais omniprésentes, tant dans le monde scientifique que technologique. Le traitement de ces données de grande dimension nécessite un renouvellement profond de l’arsenal statistique traditionnel, qui se trouve inadapté à ce nouveau cadre, notamment en raison du très grand nombre de variables impliquées. En effet, confrontée aux cas impliquant un plus grand nombre de variables que d’observations, une grande partie des techniques statistiques classiques est incapable de donner des résultats satisfaisants. Dans un premier temps, nous introduisons les problèmes statistiques inhérents aux modelés de données de grande dimension. Plusieurs solutions classiques sont détaillées et nous motivons le choix de l’approche empruntée au cours de cette thèse : le paradigme bayésien de sélection de modèles. Ce dernier fait ensuite l’objet d’une revue de littérature détaillée, en insistant sur plusieurs développements récents. Viennent ensuite trois chapitres de contributions nouvelles à la sélection de modèles en grande dimension. En premier lieu, nous présentons un nouvel algorithme pour la régression linéaire bayésienne parcimonieuse en grande dimension, dont les performances sont très bonnes, tant sur données réelles que simulées. Une nouvelle base de données de régression linéaire est également introduite : il s’agit de prédire la fréquentation du musée d’Orsay à l’aide de données vélibs. Ensuite, nous nous penchons sur le problème de la sélection de modelés pour l’analyse en composantes principales (ACP). En nous basant sur un résultat théorique nouveau, nous effectuons les premiers calculs exacts de vraisemblance marginale pour ce modelé. Cela nous permet de proposer deux nouveaux algorithmes pour l’ACP parcimonieuse, un premier, appelé GSPPCA, permettant d’effectuer de la sélection de variables, et un second, appelé NGPPCA, permettant d’estimer la dimension intrinsèque de données de grande dimension. Les performances empiriques de ces deux techniques sont extrêmement compétitives. Dans le cadre de données d’expression ADN notamment, l’approche de sélection de variables proposée permet de déceler sans supervision des ensembles de gènes particulièrement pertinents. / The numerical surge that characterizes the modern scientific era led to the rise of new kinds of data united in one common immoderation: the simultaneous acquisition of a large number of measurable quantities. Whether coming from DNA microarrays, mass spectrometers, or nuclear magnetic resonance, these data, usually called high-dimensional, are now ubiquitous in scientific and technological worlds. Processing these data calls for an important renewal of the traditional statistical toolset, unfit for such frameworks that involve a large number of variables. Indeed, when the number of variables exceeds the number of observations, most traditional statistics becomes inefficient. First, we give a brief overview of the statistical issues that arise with high-dimensional data. Several popular solutions are presented, and we present some arguments in favor of the method utilized and advocated in this thesis: Bayesian model uncertainty. This chosen framework is the subject of a detailed review that insists on several recent developments. After these surveys come three original contributions to high-dimensional model selection. A new algorithm for high-dimensional sparse regression called SpinyReg is presented. It compares favorably to state-of-the-art methods on both real and synthetic data sets. A new data set for high-dimensional regression is also described: it involves predicting the number of visitors in the Orsay museum in Paris using bike-sharing data. We focus next on model selection for high-dimensional principal component analysis (PCA). Using a new theoretical result, we derive the first closed-form expression of the marginal likelihood of a PCA model. This allows us to propose two algorithms for model selection in PCA. A first one called globally sparse probabilistic PCA (GSPPCA) that allows to perform scalable variable selection, and a second one called normal-gamma probabilistic PCA (NGPPCA) that estimates the intrinsic dimensionality of a high-dimensional data set. Both methods are competitive with other popular approaches. In particular, using unlabeled DNA microarray data, GSPPCA is able to select genes that are more biologically relevant than several popular approaches. Apprentissage statistique Grande dimension Parcimonie Sélection de modèles Statistique bayésienne Bayesian statistics High-dimensional data Model selection Sparsity Statistical machine learning 519.501 13
46	Policy evaluation, high-dimension and machine learning / Évaluation des politiques publiques, grande dimension et machine learning L'Hour, Jérémy 13 December 2019 (has links) Cette thèse regroupe trois travaux d'économétrie liés par l'application du machine learning et de la statistique en grande dimension à l'évaluation de politiques publiques. La première partie propose une alternative paramétrique au contrôle synthétique (Abadie and Gardeazabal, 2003; Abadie et al., 2010) sous la forme d'un estimateur reposant sur une première étape de type Lasso, dont on montre qu'il est doublement robuste, asymptotiquement Normal et ``immunisé'' contre les erreurs de première étape. La seconde partie étudie une version pénalisée du contrôle synthétique en présence de données de nature micro-économique. La pénalisation permet d'obtenir une unité synthétique qui réalise un arbitrage entre reproduire fidèlement l'unité traitée durant la période pré-traitement et n'utiliser que des unités non-traitées suffisamment semblables à l'unité traitée. Nous étudions les propriétés de cet estimateur, proposons deux procédures de type ``validation croisée'' afin de choisir la pénalisation et discutons des procédures d'inférence par permutation. La dernière partie porte sur l'application du Generic Machine Learning (Chernozhukov et al., 2018) afin d'étudier l'hétérogénéité des effets d'une expérience aléatoire visant à comparer la fourniture publique et privée d'aide à la recherche d'emploi. D'un point de vue méthodologique, ce projet discute l'extension du Generic Machine Learning à des expériences avec compliance imparfaite. / This dissertation is comprised of three essays that apply machine learning and high-dimensional statistics to causal inference. The first essay proposes a parametric alternative to the synthetic control method (Abadie and Gardeazabal, 2003; Abadie et al., 2010) that relies on a Lasso-type first-step. We show that the resulting estimator is doubly robust, asymptotically Gaussian and ``immunized'' against first-step selection mistakes. The second essay studies a penalized version of the synthetic control method especially useful in the presence of micro-economic data. The penalization parameter trades off pairwise matching discrepancies with respect to the characteristics of each unit in the synthetic control against matching discrepancies with respect to the characteristics of the synthetic control unit as a whole. We study the properties of the resulting estimator, propose data-driven choices of the penalization parameter and discuss randomization-based inference procedures. The last essay applies the Generic Machine Learning framework (Chernozhukov et al., 2018) to study heterogeneity of the treatment in a randomized experiment designed to compare public and private provision of job counselling. From a methodological perspective, we discuss the extension of the Generic Machine Learning framework to experiments with imperfect compliance. Économétrie Évaluation des politiques publiques Machine learning Statistique en grande dimension Contrôle synthétique Econometrics Policy evaluation Machine learning High-Dimensional statistics Synthetic control 330 310
47	Identification de biomarqueurs prédictifs de la survie et de l'effet du traitement dans un contexte de données de grande dimension / Identification of biomarkers predicting the outcome and the treatment effect in presence of high-dimensional data Ternes, Nils 05 October 2016 (has links) Avec la révolution récente de la génomique et la médecine stratifiée, le développement de signatures moléculaires devient de plus en plus important pour prédire le pronostic (biomarqueurs pronostiques) ou l’effet d’un traitement (biomarqueurs prédictifs) de chaque patient. Cependant, la grande quantité d’information disponible rend la découverte de faux positifs de plus en plus fréquente dans la recherche biomédicale. La présence de données de grande dimension (nombre de biomarqueurs ≫ taille d’échantillon) soulève de nombreux défis statistiques tels que la non-identifiabilité des modèles, l’instabilité des biomarqueurs sélectionnés ou encore la multiplicité des tests.L’objectif de cette thèse a été de proposer et d’évaluer des méthodes statistiques pour l’identification de ces biomarqueurs et l’élaboration d’une prédiction individuelle des probabilités de survie pour des nouveaux patients à partir d’un modèle de régression de Cox. Pour l’identification de biomarqueurs en présence de données de grande dimension, la régression pénalisée lasso est très largement utilisée. Dans le cas de biomarqueurs pronostiques, une extension empirique de cette pénalisation a été proposée permettant d’être plus restrictif sur le choix du paramètre λ dans le but de sélectionner moins de faux positifs. Pour les biomarqueurs prédictifs, l’intérêt s’est porté sur les interactions entre le traitement et les biomarqueurs dans le contexte d’un essai clinique randomisé. Douze approches permettant de les identifier ont été évaluées telles que le lasso (standard, adaptatif, groupé ou encore ridge+lasso), le boosting, la réduction de dimension des effets propres et un modèle implémentant les effets pronostiques par bras. Enfin, à partir d’un modèle de prédiction pénalisé, différentes stratégies ont été évaluées pour obtenir une prédiction individuelle pour un nouveau patient accompagnée d’un intervalle de confiance, tout en évitant un éventuel surapprentissage du modèle. La performance des approches ont été évaluées au travers d’études de simulation proposant des scénarios nuls et alternatifs. Ces méthodes ont également été illustrées sur différents jeux de données, contenant des données d’expression de gènes dans le cancer du sein. / With the recent revolution in genomics and in stratified medicine, the development of molecular signatures is becoming more and more important for predicting the prognosis (prognostic biomarkers) and the treatment effect (predictive biomarkers) of each patient. However, the large quantity of information has rendered false positives more and more frequent in biomedical research. The high-dimensional space (i.e. number of biomarkers ≫ sample size) leads to several statistical challenges such as the identifiability of the models, the instability of the selected coefficients or the multiple testing issue.The aim of this thesis was to propose and evaluate statistical methods for the identification of these biomarkers and the individual predicted survival probability for new patients, in the context of the Cox regression model. For variable selection in a high-dimensional setting, the lasso penalty is commonly used. In the prognostic setting, an empirical extension of the lasso penalty has been proposed to be more stringent on the estimation of the tuning parameter λ in order to select less false positives. In the predictive setting, focus has been given to the biomarker-by-treatment interactions in the setting of a randomized clinical trial. Twelve approaches have been proposed for selecting these interactions such as lasso (standard, adaptive, grouped or ridge+lasso), boosting, dimension reduction of the main effects and a model incorporating arm-specific biomarker effects. Finally, several strategies were studied to obtain an individual survival prediction with a corresponding confidence interval for a future patient from a penalized regression model, while limiting the potential overfit.The performance of the approaches was evaluated through simulation studies combining null and alternative scenarios. The methods were also illustrated in several data sets containing gene expression data in breast cancer. Médecine stratifiée Données de grande dimension Régression pénalisée Biomarqueurs pronostiques Biomarqueurs prédictifs Prédiction individuelle Stratified medicine High-Dimensional data Penalized regression Prognostic biomarkers Predictive biomarkers Individual prediction
48	Commande dynamique de robots déformables basée sur un modèle numérique / Model-based dynamic control of soft robots Thieffry, Maxime 16 October 2019 (has links) Cette thèse s’intéresse à la modélisation et à la commande de robots déformables, c’est à dire de robots dont le mouvement se fait par déformation. Nous nous intéressons à la conception de lois de contrôle en boucle fermée répondant aux besoins spécifiques du contrôle dynamique de robots déformables, sans restrictions fortes sur leur géométrie. La résolution de ce défi soulève des questions théoriques qui nous amènent au deuxième objectif de cette thèse: développer de nouvelles stratégies pour étudier les systèmes de grandes dimensions. Ce manuscrit couvre l’ensemble du développement des lois de commandes, de l’étape de modélisation à la validation expérimentale. Outre les études théoriques, différentes plateformes expérimentales sont utilisées pour valider les résultats. Des robots déformables actionnés par câble et par pression sont utilisés pour tester les algorithmes de contrôle. A travers ces différentes plateformes, nous montrons que la méthode peut gérer différents types d’actionnement, différentes géométries et propriétés mécaniques. Cela souligne l’un des intérêts de la méthode, sa généricité. D’un point de vue théorique, les systèmes dynamiques à grande dimensions ainsi que les algorithmes de réduction de modèle sont étudiés. En effet, modéliser des structures déformables implique de résoudre des équations issues de la mécanique des milieux continus, qui sont résolues à l’aide de la méthode des éléments finis (FEM). Ceci fournit un modèle précis des robots mais nécessite de discrétiser la structure en un maillage composé de milliers d’éléments, donnant lieu à des systèmes dynamiques de grandes dimensions. Cela conduit à travailler avec des modèles de grandes dimensions, qui ne conviennent pas à la conception d’algorithmes de contrôle. Une première partie est consacrée à l’étude du modèle dynamique à grande dimension et de son contrôle, sans recourir à la réduction de modèle. Nous présentons un moyen de contrôler le système à grande dimension en utilisant la connaissance d’une fonction de Lyapunov en boucle ouverte. Ensuite, nous présentons des algorithmes de réduction de modèle afin de concevoir des contrôleurs de dimension réduite et des observateurs capables de piloter ces robots déformables. Les lois de contrôle validées sont basées sur des modèles linéaires, il s’agit d’une limitation connue de ce travail car elle contraint l’espace de travail du robot. Ce manuscrit se termine par une discussion qui offre un moyen d’étendre les résultats aux modèles non linéaires. L’idée est de linéariser le modèle non linéaire à grande échelle autour de plusieurs points de fonctionnement et d’interpoler ces points pour couvrir un espace de travail plus large. / This thesis focuses on the design of closed-loop control laws for the specific needs of dynamic control of soft robots, without being too restrictive regarding the robots geometry. It covers the entire development of the controller, from the modeling step to the practical experimental validation. In addition to the theoretical studies, different experimental setups are used to illustrate the results. A cable-driven soft robot and a pressurized soft arm are used to test the control algorithms. Through these different setups, we show that the method can handle different types of actuation, different geometries and mechanical properties. This emphasizes one of the interests of the method, its genericity. From a theoretical point a view, large-scale dynamical systems along with model reduction algorithms are studied. Indeed, modeling soft structures implies solving equations coming from continuum mechanics using the Finite Element Method (FEM). This provides an accurate model of the robots but it requires to discretize the structure into a mesh composed of thousands of elements, yielding to large-scale dynamical systems. This leads to work with models of large dimensions, that are not suitable to design control algorithms. A first part is dedicated to the study of the large-scale dynamic model and its control, without using model reduction. We present a way to control the large-scale system using the knowledge of an open-loop Lyapunov function. Then, this work investigates model reduction algorithms to design low order controllers and observers to drive soft robots. The validated control laws are based on linear models. This is a known limitation of this work as it constrains the guaranteed domain of the controller. This manuscript ends with a discussion that offers a way to extend the results towards nonlinear models. The idea is to linearize the large-scale nonlinear model around several operating points and interpolate between these points to cover a wider workspace. Robots déformables Commande robuste Méthode des éléments finis Modèles de grande dimension Réduction de modèle Soft robotics Robust control Linear matrix inequality Finite element method Large-Scale models Model reduction
49	Estimation non paramétrique de densités conditionnelles : grande dimension, parcimonie et algorithmes gloutons. / Nonparametric estimation of sparse conditional densities in moderately large dimensions by greedy algorithms. Nguyen, Minh-Lien Jeanne 08 July 2019 (has links) Nous considérons le problème d’estimation de densités conditionnelles en modérément grandes dimensions. Beaucoup plus informatives que les fonctions de régression, les densités condi- tionnelles sont d’un intérêt majeur dans les méthodes récentes, notamment dans le cadre bayésien (étude de la distribution postérieure, recherche de ses modes...). Après avoir rappelé les problèmes liés à l’estimation en grande dimension dans l’introduction, les deux chapitres suivants développent deux méthodes qui s’attaquent au fléau de la dimension en demandant : d’être efficace computation- nellement grâce à une procédure itérative gloutonne, de détecter les variables pertinentes sous une hypothèse de parcimonie, et converger à vitesse minimax quasi-optimale. Plus précisément, les deux méthodes considèrent des estimateurs à noyau bien adaptés à l’estimation de densités conditionnelles et sélectionnent une fenêtre multivariée ponctuelle en revisitant l’algorithme glouton RODEO (Re- gularisation Of Derivative Expectation Operator). La première méthode ayant des problèmes d’ini- tialisation et des facteurs logarithmiques supplémentaires dans la vitesse de convergence, la seconde méthode résout ces problèmes, tout en ajoutant l’adaptation à la régularité. Dans l’avant-dernier cha- pitre, on traite de la calibration et des performances numériques de ces deux procédures, avant de donner quelques commentaires et perspectives dans le dernier chapitre. / We consider the problem of conditional density estimation in moderately large dimen- sions. Much more informative than regression functions, conditional densities are of main interest in recent methods, particularly in the Bayesian framework (studying the posterior distribution, find- ing its modes...). After recalling the estimation issues in high dimension in the introduction, the two following chapters develop on two methods which address the issues of the curse of dimensionality: being computationally efficient by a greedy iterative procedure, detecting under some suitably defined sparsity conditions the relevant variables, while converging at a quasi-optimal minimax rate. More precisely, the two methods consider kernel estimators well-adapted for conditional density estimation and select a pointwise multivariate bandwidth by revisiting the greedy algorithm RODEO (Regular- isation Of Derivative Expectation Operator). The first method having some initialization problems and extra logarithmic factors in its convergence rate, the second method solves these problems, while adding adaptation to the smoothness. In the penultimate chapter, we discuss the calibration and nu- merical performance of these two procedures, before giving some comments and perspectives in the last chapter. Estimation non paramétrique Grande dimension Parcimonie Densité conditionnelle Algorithmes gloutons Estimateurs à noyau Nonparametric estimation High dimension Sparsity Conditional density Greedy algorithms Kernel density estimators
50	Algorithms for the resolution of stochastic control problems in high dimension by using probabilistic and max-plus methods / Algorithmes de résolution de problèmes de contrôle stochastique en grande dimension par une association de méthodes probabilistes et max-plus. Fodjo, Eric 13 July 2018 (has links) Les problèmes de contrôle stochastique optimal à horizon fini forment une classe de problèmes de contrôle optimal où interviennent des processus stochastiques considérés sur un intervalle de temps borné. Tout comme beaucoup de problème de contrôle optimal, ces problèmes sont résolus en utilisant le principe de la programmation dynamique qui induit une équation aux dérivées partielles (EDP) appelée équation d'Hamilton-Jacobi-Bellman. Les méthodes basées sur la discrétisation de l’espace sous forme de grille, les méthodes probabilistes ou plus récemment les méthodes max-plus peuvent alors être utilisées pour résoudre cette équation. Cependant, le premier type de méthode est mis en défaut quand un espace à dimension grande est considéré à cause de la malédiction de la dimension tandis que le deuxième type de méthode ne permettait jusqu'ici que de résoudre des problèmes où la non linéarité de l'équation aux dérivées partielles par rapport à la Hessienne n'est pas trop forte. Quant au troisième type de méthode, il entraine une explosion de la complexité de la fonction valeur. Nous introduisons dans cette thèse deux nouveaux schémas probabilistes permettant d'agrandir la classe des problèmes pouvant être résolus par les méthodes probabilistes. L'une est adaptée aux EDP à coefficients bornés tandis que l'autre peut être appliqué aux EDP à coefficients bornés ou non bornés. Nous prouvons la convergence des deux schémas probabilistes et obtenons des estimées de l'erreur de convergence dans le cas d'EDP à coefficients bornés. Nous donnons également quelques résultats sur le comportement du deuxième schéma dans le cas d'EDP à coefficients non bornés. Ensuite, nous introduisons une méthode complètement nouvelle pour résoudre les problèmes de contrôle stochastique optimal à horizon fini que nous appelons la méthode max-plus probabiliste. Elle permet d'utiliser le caractère non linéaire des méthodes max-plus dans un contexte probabiliste tout en contrôlant la complexité de la fonction valeur. Une application au calcul du prix de sur-réplication d'une option dans un modèle de corrélation incertaine est donnée dans le cas d’un espace à dimension 2 et 5. / Stochastic optimal control problems with finite horizon are a class of optimal control problems where intervene stochastic processes in a bounded time. As many optimal control problems, they are often solved using a dynamic programming approach which results in a second order Partial Differential Equation (PDE) called the Hamilton-Jacobi-Bellman equation. Grid-based methods, probabilistic methods or more recently max-plus methods can be used then to solve this PDE. However, the first type of methods default in a space of high dimension because of the curse of dimensionality while the second type of methods allowed till now to solve only problems where the nonlinearity of the PDE with respect to the second order derivatives is not very high. As for the third type of method, it results in an explosion of the complexity of the value function. We introduce two new probabilistic schemes in order to enlarge the class of problems that can be solved with probabilistic methods. One is adapted to PDE with bounded coefficients while the other can be applied to PDE with bounded or unbounded coefficients. We prove the convergence of the two probabilistic scheme and obtain error estimates in the case of a PDE with bounded coefficients. We also give some results about the behavior of the second probabilistic scheme in the case of a PDE with unbounded coefficients. After that, we introduce a completely new type of method to solve stochastic optimal control problems with finite horizon that we call the max-plus probabilistic method. It allows to add the non linearity feature of max-plus methods to a probabilistic method while controlling the complexity of the value function. An application to the computation of the optimal super replication price of an option in an uncertain correlation model is given in a 5 dimensional space. EDP en grande dimension Contrôle stochastique Méthodes probabilistes Méthodes max-Plus PDEs in high dimension Stochastic control Probabilistic methods Max-Plus methods 519.22

Search results