• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 8
  • 2
  • Tagged with
  • 18
  • 18
  • 11
  • 7
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Approches variationnelles et autres contributions en optimisation stochastique

Strugarek, Cyrille 15 May 2006 (has links) (PDF)
Cette thèse s'attache à l'étude des problèmes d'optimisation stochastique, en les abordant sous divers angles. Le premier chapitre donne un panorama des problèmes d'optimisation stochastique. Le deuxième chapitre montre qu'en dimension un, seuls les systèmes à espace d'état à dynamique et observation linéaire sont sans effet dual en boucle ouverte. Le troisième chapitre s'attache à montrer la nécessité de tenir compte de la structure d'information dans la discrétisation et les résultats de stabilité pour les problèmes à plusieurs pas de temps. Le quatrième chapitre propose une nouvelle famille d'algorithmes stochastiques permettant de rechercher les commandes optimales fonctionnellement sans aucune discrétisation préalable de l'aléa, et avec une garantie asymptotique d'optimalité. Le cinquième chapitre étudie les possibilités de décomposition et d'agrégation pour les problèmes stochastiques de grande taille.
2

Estimation récursive dans certains modèles de déformation

Fraysse, Philippe 04 July 2013 (has links) (PDF)
Cette thèse est consacrée à l'étude de certains modèles de déformation semi-paramétriques. Notre objectif est de proposer des méthodes récursives, issues d'algorithmes stochastiques, pour estimer les paramètres de ces modèles. Dans la première partie, on présente les outils théoriques existants qui nous seront utiles dans la deuxième partie. Dans un premier temps, on présente un panorama général sur les méthodes d'approximation stochastique, en se focalisant en particulier sur les algorithmes de Robbins-Monro et de Kiefer-Wolfowitz. Dans un second temps, on présente les méthodes à noyaux pour l'estimation de fonction de densité ou de régression. On s'intéresse plus particulièrement aux deux estimateurs à noyaux les plus courants qui sont l'estimateur de Parzen-Rosenblatt et l'estimateur de Nadaraya-Watson, en présentant les versions récursives de ces deux estimateurs.Dans la seconde partie, on présente tout d'abord une procédure d'estimation récursive semi-paramétrique du paramètre de translation et de la fonction de régression pour le modèle de translation dans la situation où la fonction de lien est périodique. On généralise ensuite ces techniques au modèle vectoriel de déformation à forme commune en estimant les paramètres de moyenne, de translation et d'échelle, ainsi que la fonction de régression. On s'intéresse finalement au modèle de déformation paramétrique de variables aléatoires dans le cadre où la déformation est connue à un paramètre réel près. Pour ces trois modèles, on établit la convergence presque sûre ainsi que la normalité asymptotique des estimateurs paramétriques et non paramétriques proposés. Enfin, on illustre numériquement le comportement de nos estimateurs sur des données simulées et des données réelles.
3

Algotithmes stochastiques et méthodes de Monte Carlo

Arouna, Bouhari 12 1900 (has links) (PDF)
Dans cette thèse,nous proposons de nouvelles techniques de réduction de variance, pourles simultions Monté Carlo. Par un simple changement de variable, nous modifions la loi de simulation de façon paramétrique. L'idée consiste ensuite à utiliser une version convenablement projetée des algorithmes de Robbins-Monro pour déterminer le paramètre optimal qui "minimise" la variance de l'estimation. Nous avons d'abord développé une implémentation séquentielle dans laquelle la variance est réduite dynamiquement au cours des itératons Monte Carlo. Enfin, dans la dernière partie de notre travail, l'idée principale a été d'interpréter la réduction de variance en termes de minimisation d'entropie relative entre une mesure de probabilité optimale donnée, et une famille paramétrique de mesures de probabilité. Nous avons prouvé des résultats théoriques généraux qui définissent un cadre rigoureux d'utilisation de ces méthodes, puis nous avons effectué plusieurs expérimentations en finance et en fiabilité qui justifient de leur efficacité réelle.
4

Méthode d'optimisation et d'aide à la décision en conception mécanique : Application à une structure aéronautique

Collignan, Arnaud 30 November 2011 (has links) (PDF)
En conception de produits, l'étape de conception dite architecturale doit aboutir à une solution décrivant les caractéristiques du produit, telles que les dimensions ou le choix de composants. Parmi les nombreuses solutions potentielles, il est nécessaire d'effectuer un choix et de pouvoir le justifier de manière rigoureuse. Ce choix doit en outre intégrer l'éventuelle présence d'une solution de référence, pouvant par exemple être issue de projets antérieurs, ou d'études préliminaires. Dans ce but, nos travaux présentent une méthode d'aide à la décision en vue de sélectionner une solution de conception ; nous la nommons méthode OIA (Observation-Interprétation-Agrégation). Cette méthode emploie deux types de modèle, l'un pour formaliser le comportement objectif du produit (Observation), l'autre pour les préférences subjectives du concepteur (Interprétation). Dans ces préférences, nous incluons le comportement attendu du produit, la satisfaction du concepteur ainsi que les compromis intrinsèquement réalisés lors du processus de conception. Ces compromis sont réalisés au travers de stratégies de conception et de logiques de pondérations (Agrégation). La méthode OIA est employée une première fois pour qualifier les solutions de conception en termes de performance. Cette méthode est ensuite appliquée une seconde fois afin de qualifier la solution par rapport à la solution de référence, en termes de confiance accordée par le concepteur. Nous introduisons la notion d'arc-élasticité en conception comme un indicateur de compromis entre performance et confiance pour une solution de conception. Plusieurs algorithmes stochastiques d'optimisation sont comparés comme méthodes de recherche de solutions candidates pertinentes. Nous les détaillons, les comparons et proposons une méthode de sélection multicritère afin d'identifier l'algorithme le plus pertinent. Notre travail est appliqué au dimensionnement d'une jonction rivetée dans un contexte aéronautique industriel.
5

Nouvelles méthodes d'inférence de l'histoire démographique à partir de données génétiques / New methods for inference on demographic history from genetic data

Merle, Coralie 12 December 2016 (has links)
Cette thèse consiste à améliorer les outils statistiques adaptés à des modèles stochastiques de génétiques des populations et de développer des méthodes statistiques adaptées à des données génétiques de nouvelle génération. Pour un modèle paramétrique basé sur le coalescent, la vraisemblance en un point de l'espace des paramètres s'écrit comme la somme des probabilités de toutes les histoires (généalogies munies de mutations) possibles de l'échantillon observé. À l'heure actuelle, les meilleures méthodes d'inférence des paramètres de ce type de modèles sont les méthodes bayésiennes approchées et l'approximation de la fonction de vraisemblance.L'algorithme d'échantillonnage préférentiel séquentiel (SIS) estime la vraisemblance, en parcourant de manière efficace l'espace latent de ces histoires. Dans ce schéma, la distribution d'importance propose les histoires de l'échantillon observé les plus probables possibles. Cette technique est lourde en temps de calcul mais fournit des estimations par maximum de vraisemblance d'une grande précision.Les modèles que nous souhaitons inférer incluent des variations de la taille de la population. Les méthodes d'IS ne sont pas efficaces pour des modèles en déséquilibre car les distributions d'importance ont été développées pour une population de taille constante au cours du temps. Le temps de calcul augmente fortement pour la même précision de l'estimation de la vraisemblance. La première contribution de cette thèse a consisté à explorer l'algorithme SIS avec ré-échantillonnage (SISR). L'idée est de ré-échantillonner de façon à apprendre quelles sont les histoires proposées par la distribution d'importance qui seront les plus probables avant d'avoir terminé leur simulation et diminuer le temps de calcul. Par ailleurs, nous avons proposé une nouvelle distribution de ré-échantillonnage, tirant profit de l'information contenue dans la vraisemblance composite par paire de l'échantillon.Le développement récent des technologies de séquençage à haut débit a révolutionné la génération de données de polymorphisme chez de nombreux organismes. Les méthodes d'inférence classiques de maximum de vraisemblance ou basées sur le Sites Frequency Spectrum, adaptées à des jeux de données de polymorphisme génétique de quelques loci, supposent l'indépendance des généalogies des loci. Pour tirer parti de données beaucoup plus denses sur le génome, nous considérons la dépendance des généalogies sur des positions voisines du génome et modéliser la recombinaison génétique. Alors, la vraisemblance prend la forme d'une intégrale sur tous les graphes de recombinaison ancestraux possibles pour les séquences échantillonnées, un espace de bien plus grande dimension que l'espace des généalogies. Les méthodes d'inférence basées sur la vraisemblance ne peuvent plus être utilisées sans plus d'approximations. De nombreuses méthodes infèrent les changements historiques de la taille de la population mais ne considèrent pas la complexité du modèle ajusté. Même si certaines proposent un contrôle d'un potentiel sur-ajustement du modèle, à notre connaissance, aucune procédure de choix de modèle entre des modèles démographiques de complexité différente n'a été proposée à partir de longueurs de segments identiques. Nous nous concentrons sur un modèle de taille de population constante et un modèle de population ayant subit un unique changement de taille dans le passé. Puisque ces modèles sont emboîtés, la deuxième contribution de cette thèse a consisté à développer un critère de choix de modèle pénalisé basé sur la comparaison d'homozygotie haplotypique observée et théorique. Notre pénalisation, reposant sur des indices de sensibilité de Sobol, est liée à la complexité du modèle. Ce critère pénalisé de choix de modèle nous a permis de choisir entre un modèle de taille de population constante ou présentant un changement passé de la taille de la population sur des jeux de données simulés et sur un jeux de données de vaches. / This thesis aims to improve statistical methods suitable for stochastic models of population genetics and to develop statistical methods adapted to next generation sequencing data.Sequential importance sampling algorithms have been defined to estimate likelihoods in models of ancestral population processes. However, these algorithms are based on features of the models with constant population size, and become inefficient when the population size varies in time, making likelihood-based inferences difficult in many demographic situations. In the first contribution of this thesis, we modify a previous sequential importance sampling algorithm to improve the efficiency of the likelihood estimation. Our procedure is still based on features of the model with constant size, but uses a resampling technique with a new resampling probability distribution depending on the pairwise composite likelihood. We tested our algorithm, called sequential importance sampling with resampling (SISR) on simulated data sets under different demographic cases. In most cases, we divided the computational cost by two for the same accuracy of inference, in some cases even by one hundred. This work provides the first assessment of the impact of such resampling techniques on parameter inference using sequential importance sampling, and extends the range of situations where likelihood inferences can be easily performed.The recent development of high-throughput sequencing technologies has revolutionized the generation of genetic data for many organisms : genome wide sequence data are now available. Classical inference methods (maximum likelihood methods (MCMC, IS), methods based on the Sites Frequency Spectrum (SFS)) suitable for polymorphism data sets of some loci assume that the genealogies of the loci are independent. To take advantage of genome wide sequence data with known genome, we need to consider the dependency of genealogies of adjacent positions in the genome. Thus, when we model recombination, the likelihood takes the form of an integral over all possible ancestral recombination graph for the sampled sequences. This space is of much larger dimension than the genealogies space, to the extent that we cannot handle likelihood-based inference while modeling recombination without further approximations.Several methods infer the historical changes in the effective population size but do not consider the complexity of the demographic model fitted.Even if some of them propose a control for potential over-fitting, to the best of our knowledge, no model choice procedure between demographic models of different complexity have been proposed based on IBS segment lengths. The aim of the second contribution of this thesis is to overcome this lack by proposing a model choice procedure between demographic models of different complexity. We focus on a simple model of constant population size and a slightly more complex model with a single past change in the population size.Since these models are embedded, we developed a penalized model choice criterion based on the comparison of observed and predicted haplotype homozygosity.Our penalization relies on Sobol's sensitivity indices and is a form of penalty related to the complexity of the model.This penalized model choice criterion allowed us to choose between a population of constant size and a population size with a past change on simulated data sets and also on a cattle data set.
6

Estimation récursive dans certains modèles de déformation / Recursive estimation for some deformation models

Fraysse, Philippe 04 July 2013 (has links)
Cette thèse est consacrée à l'étude de certains modèles de déformation semi-paramétriques. Notre objectif est de proposer des méthodes récursives, issues d'algorithmes stochastiques, pour estimer les paramètres de ces modèles. Dans la première partie, on présente les outils théoriques existants qui nous seront utiles dans la deuxième partie. Dans un premier temps, on présente un panorama général sur les méthodes d'approximation stochastique, en se focalisant en particulier sur les algorithmes de Robbins-Monro et de Kiefer-Wolfowitz. Dans un second temps, on présente les méthodes à noyaux pour l'estimation de fonction de densité ou de régression. On s'intéresse plus particulièrement aux deux estimateurs à noyaux les plus courants qui sont l'estimateur de Parzen-Rosenblatt et l'estimateur de Nadaraya-Watson, en présentant les versions récursives de ces deux estimateurs.Dans la seconde partie, on présente tout d'abord une procédure d'estimation récursive semi-paramétrique du paramètre de translation et de la fonction de régression pour le modèle de translation dans la situation où la fonction de lien est périodique. On généralise ensuite ces techniques au modèle vectoriel de déformation à forme commune en estimant les paramètres de moyenne, de translation et d'échelle, ainsi que la fonction de régression. On s'intéresse finalement au modèle de déformation paramétrique de variables aléatoires dans le cadre où la déformation est connue à un paramètre réel près. Pour ces trois modèles, on établit la convergence presque sûre ainsi que la normalité asymptotique des estimateurs paramétriques et non paramétriques proposés. Enfin, on illustre numériquement le comportement de nos estimateurs sur des données simulées et des données réelles. / This thesis is devoted to the study of some semi-parametric deformation models.Our aim is to provide recursive methods, related to stochastic algorithms, in order to estimate the different parameters of the models. In the first part, we present the theoretical tools which we will use in the next part. On the one hand, we focus on stochastic approximation methods, in particular the Robbins-Monro algorithm and the Kiefer-Wolfowitz algorithm. On the other hand, we introduce kernel estimators in order to estimate a probability density function and a regression function. More particularly, we present the two most famous kernel estimators which are the one of Parzen-Rosenblatt and the one of Nadaraya-Watson. We also present their recursive version.In the second part, we present the results we obtained in this thesis.Firstly, we provide a recursive estimation method of the shift parameter and the regression function for the translation model in which the regression function is periodic. Secondly, we extend this estimation procedure to the shape invariant model, providing estimation of the height parameter, the translation parameter and the scale parameter, as well as the common shape function.Thirdly, we are interested in the parametric deformation model of random variables where the deformation is known and depending on an unknown parameter.For these three models, we establish the almost sure convergence and the asymptotic normality of each estimator. Finally, we numerically illustrate the asymptotic behaviour of our estimators on simulated data and on real data.
7

Méthode d'optimisation et d'aide à la décision en conception mécanique : application à une structure aéronautique / Optimization and decision support methodology in mechanical design : application to a structure in aeronautics

Collignan, Arnaud 30 November 2011 (has links)
En conception de produits, l’étape de conception dite architecturale doit aboutir à une solution décrivant les caractéristiques du produit, telles que les dimensions ou le choix de composants. Parmi les nombreuses solutions potentielles, il est nécessaire d’effectuer un choix et de pouvoir le justifier de manière rigoureuse. Ce choix doit en outre intégrer l’éventuelle présence d’une solution de référence, pouvant par exemple être issue de projets antérieurs, ou d’études préliminaires.Dans ce but, nos travaux présentent une méthode d’aide à la décision en vue de sélectionner une solution de conception ; nous la nommons méthode OIA (Observation-Interprétation-Agrégation). Cette méthode emploie deux types de modèle, l’un pour formaliser le comportement objectif du produit (Observation), l’autre pour les préférences subjectives du concepteur (Interprétation). Dans ces préférences, nous incluons le comportement attendu du produit, la satisfaction du concepteur ainsi que les compromis intrinsèquement réalisés lors du processus de conception. Ces compromis sont réalisés au travers de stratégies de conception et de logiques de pondérations (Agrégation). La méthode OIA est employée une première fois pour qualifier les solutions de conception en termes de performance. Cette méthode est ensuite appliquée une seconde fois afin de qualifier la solution par rapport à la solution de référence, en termes de confiance accordée par le concepteur. Nous introduisons la notion d’arc-élasticité en conception comme un indicateur de compromis entre performance et confiance pour une solution de conception.Plusieurs algorithmes stochastiques d’optimisation sont comparés comme méthodes de recherche de solutions candidates pertinentes. Nous les détaillons, les comparons et proposons une méthode de sélection multicritère afin d’identifier l’algorithme le plus pertinent.Notre travail est appliqué au dimensionnement d’une jonction rivetée dans un contexte aéronautique industriel. / In product design, the design phase called "embodiment design" results to define solutions describing main product characteristics, such as dimensions or standard components. Among numerous candidate solutions, it is necessary to select and to rigorously justify the selection. This choice must often take into account preexisting reference solutions, coming from previous projects or preliminary studies.In this context, our works propose a decision support method aiming to select a design solution; it is called OIA method (Observation-Interpretation-Aggregation). This approach uses two types of model, the first one concerns the objective behavior of the product (Observation), the second one concerns the designer's subjective preferences (Interpretation). In these preference several indicators are introduced: expected product behaviors, designer's satisfactions and usual compromises realized through design activity. These compromises are achieved through design strategies and weighting approaches (Aggregation). The OIA method is first used to qualify design solutions though the performance indicator. This method is then used to qualify design solutions related to the reference one, through the confidence indicator. The arc-elasticity is finally introduced as a compromise indicator between performance and confidence.Several stochastic optimization algorithms are compared to compute optimal solutions. Theses algorithms are investigated and compared using three criteria, and a multicriteria selection method is proposed to identify the most suitable one.This work is applied to the dimensioning of a riveted junction in an industrial context.
8

Modeling, optimization and estimation for the on-line control of trading algorithms in limit-order markets / Modélisation, optimisation et estimation pour le contrôle au fil de l'eau des algorithmes de trading

Fernandez Tapia, Joaquin 10 September 2015 (has links)
L'objectif de ce travail de thèse est une étude quantitive des differents problèmes mathematiques qui apparaissent en trading algorithmique. Concrètement, on propose une approche scientifique pour optimiser des processus relatifs a la capture et provision de liquidités pour des marchés electroniques.Du au fort caractère appliqué de ce travail, on n'est pas seulement intéressés par la rigeur mathématique de nos résultats, mais on souhaite aussi a comprendre ce travail de recherche dans le contexte des differentes étapes qui font partie de l'implementation pratique des outils que l'on developpe; par exemple l'interpretation du modèle, l'estimation de parametres, l'implementation informatique etc.Du point de vue scientifique, le coeur de notre travail est fondé sur deux techniques empruntées au monde de l'optimisation et des probabilités, celles sont : le contrôle stochastique et l'approximation stochastique.En particulier, on présente des resultats academiques originaux pour le probleme de market-making haute fréquence et le problème de liquidation de portefeuille en utilisant des limit-orders; dans le deux cas on utilise une approche d'optimisation dite backwards. De la même façon, on résout le problème de market-making en utilisant une approche "forward", ceci étant innovateur dans la litterature du trading optimal car il ouvre la porte à des techniques d'apprentissage automatique.Du pont de vue pratique, cette thèse cherches à creer un point entre la recherche academique et l'industrie financière. Nos resultats sont constamment considérés dans la perspective de leur implementation pratique. Ainsi, on concentre une grande partie de notre travail a étudier les differents facteurs qui sont importants a comprendre quand on transforme nos techniques quantitatives en valeur industrielle: comprendre la microstructure des marchés, des faits stylisés, traitrement des données, discussions sur les modèles, limitations de notre cadre scientifique etc. / This PhD thesis focuses on the quantitative analysis of mathematical problems arising in the field of optimal algorithmic trading. Concretely, we propose a scientific approach in order to optimize processes related to the capture and provision of liquidity in electronic markets. Because of the strongly industry-focused character of this work, not only we are interested in giving rigorous mathematical results but also to understand this research project in the context of the different stages that come into play during the practical implementation of the tools developed throughout the following chapters (e.g. model interpretation, parameter estimation, programming etc.).From a scientific standpoint the core of our work focuses on two techniques taken from the world of optimization and probability; these are, stochastic control and stochastic approximation. In particular, we provide original academic results for the problem of high frequency market making and the problem of portfolio liquidation by using limit orders; both by using a backward optimization approach. We also propose a forward optimization framework to solve the market making problem; the latter approach being quite innovative for optimal trading, as it opens the door for machine learning techniques.From a practical angle, this PhD thesis seeks to create a bridge between academic research and practitioners. Our mathematical findings are constantly put in perspective in terms of their practical implementation. Hence, we focus a large part of our work on studying the different factors that are of paramount importance to understand when transforming our quantitative techniques into industrial value: understanding the underlying market microstructure, empirical stylized facts, data processing, discussion about the models, limitations of our scientific framework etc.
9

Détection de changements et classification sous-pixelliques en imagerie satellitaire. Application au suivi temporel des surfaces continentales.

Robin, Amandine 21 May 2007 (has links) (PDF)
Dans cette thèse, nous nous intéressons à l'analyse et au suivi temporel des surfaces continentales à partir de séquences d'images satellitaires. L'exploitation de données de différentes résolutions est alors cruciale pour bénéficier à la fois d'une bonne discrimination et d'une bonne localisation des objets d'intérêt. Dans ce contexte, nous proposons deux approches probabilistes pour la classification et la détection de changements capables d'accéder à une information sous-pixelique, avec très peu d'information a priori. La premire repose sur la définition d'une fonction d'énergie dans un cadre bayésien. Etant donné un nombre de classes, elle permet d'estimer la classification de manière non-supervisée en tant que minimum de cette fonction d'énergie, à travers un algorithme de recuit simulé. La seconde repose sur un modèle de détection a-contrario couplé à un algorithme stochastique d'échantillonnage aléatoire. Elle permet de détecter automatiquement les pixels de l'image qui représentent le plus vraisemblablement des changements. Une analyse théorique et expérimentale des méthodes proposées a permis d'en cerner les limites et, en particulier, de montrer leur capacité à traîter de forts rapports de résolution. Des cas réels d'applications sont présentés sur une scène agricole de la Plaine du Danube (base de donnes ADAM).
10

Optimization algorithms for SVM classification : Applications to geometrical chromosome analysis / Algorithmes d'optimisation pour la classification via SVM : application à l'analyse géométrique des chromosomes

Wang, Wenjuan 16 September 2016 (has links)
Le génome est très organisé au sein du noyau cellulaire. Cette organisation et plus spécifiquement la localisation et la dynamique des gènes et chromosomes contribuent à l'expression génétique et la différenciation des cellules que ce soit dans le cas de pathologies ou non. L'exploration de cette organisation pourrait dans le futur aider à diagnostiquer et identifier de nouvelles cibles thérapeutiques. La conformation des chromosomes peut être analysée grâce au marquage ADN sur plusieurs sites et aux mesures de distances entre ces différents marquages fluorescents. Dans ce contexte, l'organisation spatiale du chromosome III de levure a montré que les deux types de cellules, MATa et MATalpha, sont différents. Par contre, les données issues de l'imagerie electronique sont bruitées à cause de la résolution des systèmes de microscope et du fait du caractère vivant des cellules observées. Dans cette thèse, nous nous intéressons au développement de méthodes de classification pour différencier les types de cellules sur la base de mesures de distances entre 3 loci du chromosome III et d'une estimation du bruit. Dans un premier temps, nous nous intéressons de façon générale aux problèmes de classification binaire à l'aide de SVM de grandes tailles et passons en revue les algorithmes d'optimisation stochastiques du premier ordre. Afin de prendre en compte les incertudes, nous proposons un modèle d'apprentissage qui ajuste sa robustesse en fonction du bruit. La méthode évite les situations où le modèle est trop conservatif et que l'on rencontre parfois avec les formulations SVM robustes. L'amplitude des pertubations liées au bruit qui sont incorporées dans le modèle est controllée par l'optimisation d'une erreur de généralisation. Aucune hypothèse n'est faite sur la distribution de probabilité du bruit. Seule une borne estimée des pertubations est nécessaire. Le problème peut s'écrire sous la forme d'un programme biniveaux de grande taille. Afin de le résoudre, nous proposons un algorithme biniveau qui réalise des déplacements stochastiques très peu coûteux et donc adapté aux problèmes de grandes tailles. La convergence de l'algorithme est prouvée pour une classe générale de problèmes. Nous présentons des résultats numériques très encourageants qui confirment que la technique est meilleure que l'approche SOCP (Second Order Cone Programming) pour plusieurs bases de données publiques. Les expériences numériques montrent également que la nonlinéarité additionnelle générée par l'incertitude sur les données pénalise la classification des chromosomes et motivent des recherches futures sur une version nonlinéaire de la technique proposée. Enfin, nous présentons également des résultats numériques de l'algorithme biniveau stochastique pour la sélection automatique de l'hyperparamètre de pénalité dans les SVM. L'approche évite les coûteux calculs que l'on doit inévitablement réaliser lorsque l'on effectue une validation croisée sur des problèmes de grandes tailles. / The genome is highly organized within the cell nucleus. This organization, in particular the localization and dynamics of genes and chromosomes, is known to contribute to gene expression and cell differentiation in normal and pathological contexts. The exploration of this organization may help to diagnose disease and to identify new therapeutic targets. Conformation of chromosomes can be analyzed by distance measurements of distinct fluorescently labeled DNA sites. In this context, the spatial organization of yeast chromosome III was shown to differ between two cell types, MATa and MATa. However, imaging data are subject to noise, due to microscope resolution and the living state of yeast cells. In this thesis, the aim is to develop new classification methods to discriminate two mating types of yeast cells based on distance measurements between three loci on chromosome III aided by estimation the bound of the perturbations. We first address the issue of solving large scale SVM binary classification problems and review state of the art first order optimization stochastic algorithms. To deal with uncertainty, we propose a learning model that adjusts its robustness to noise. The method avoids over conservative situations that can be encountered with worst case robust support vector machine formulations. The magnitude of the noise perturbations that is incorporated in the model is controlled by optimizing a generalization error. No assumption on the distribution of noise is taken. Only rough estimates of perturbations bounds are required. The resulting problem is a large scale bi-level program. To solve it, we propose a bi-level algorithm that performs very cheap stochastic gradient moves and is therefore well suited to large datasets. The convergence is proven for a class of general problems. We present encouraging experimental results confirming that the technique outperforms robust second order cone programming formulations on public datasets. The experiments also show that the extra nonlinearity generated by the uncertainty in the data penalizes the classification of chromosome data and advocates for further research on nonlinear robust models. Additionally, we provide the experimenting results of the bilevel stochastic algorithm used to perform automatic selection of the penalty parameter in linear and non-linear support vector machines. This approach avoids expensive computations that usually arise in k-fold cross validation.

Page generated in 0.4812 seconds