Global ETD Search

601	Approches statistiques en segmentation : application à la ré-annotation de génome / Statistical Approaches for Segmentation : Application to Genome Annotation Cleynen, Alice 15 November 2013 (has links) Nous proposons de modéliser les données issues des technologies de séquençage du transcriptome (RNA-Seq) à l'aide de la loi binomiale négative, et nous construisons des modèles de segmentation adaptés à leur étude à différentes échelles biologiques, dans le contexte où ces technologies sont devenues un outil précieux pour l'annotation de génome, l'analyse de l'expression des gènes, et la détection de nouveaux transcrits. Nous développons un algorithme de segmentation rapide pour analyser des séries à l'échelle du chromosome, et nous proposons deux méthodes pour l'estimation du nombre de segments, directement lié au nombre de gènes exprimés dans la cellule, qu'ils soient précédemment annotés ou détectés à cette même occasion. L'objectif d'annotation précise des gènes, et plus particulièrement de comparaison des sites de début et fin de transcription entre individus, nous amène naturellement à nous intéresser à la comparaison des localisations de ruptures dans des séries indépendantes. Nous construisons ainsi dans un cadre de segmentation bayésienne des outils de réponse à nos questions pour lesquels nous sommes capable de fournir des mesures d'incertitude. Nous illustrons nos modèles, tous implémentés dans des packages R, sur des données RNA-Seq provenant d'expériences sur la levure, et montrons par exemple que les frontières des introns sont conservées entre conditions tandis que les débuts et fin de transcriptions sont soumis à l'épissage différentiel. / We propose to model the output of transcriptome sequencing technologies (RNA-Seq) using the negative binomial distribution, as well as build segmentation models suited to their study at different biological scales, in the context of these technologies becoming a valuable tool for genome annotation, gene expression analysis, and new-transcript discovery. We develop a fast segmentation algorithm to analyze whole chromosomes series, and we propose two methods for estimating the number of segments, a key feature related to the number of genes expressed in the cell, should they be identified from previous experiments or discovered at this occasion. Research on precise gene annotation, and in particular comparison of transcription boundaries for individuals, naturally leads us to the statistical comparison of change-points in independent series. To address our questions, we build tools, in a Bayesian segmentation framework, for which we are able to provide uncertainty measures. We illustrate our models, all implemented in R packages, on an RNA-Seq dataset from a study on yeast, and show for instance that the intron boundaries are conserved across conditions while the beginning and end of transcripts are subject to differential splicing. Segmentation Binomiale négative Algorithmes Intervalles de crédibilité Sélection de modèle RNA-Seq Segmentation Negative binomial Algorithm Credibility intervals Model selection RNA-Seq
602	Décomposition des problèmes de planification de tâches basée sur les landmarks / Planning problem decomposition using landmarks Vernhes, Simon 12 December 2014 (has links) Les algorithmes permettant la création de stratégies efficaces pour la résolution d’ensemble de problèmeshétéroclites ont toujours été un des piliers de la recherche en Intelligence Artificielle. Dans cette optique,la planification de tâches a pour objectif de fournir à un système la capacité de raisonner pour interagiravec son environnement de façon autonome afin d’atteindre les buts qui lui ont été assignés. À partir d’unedescription de l’état initial du monde, des actions que le système peut exécuter, et des buts qu’il doit atteindre,un planificateur calcule une séquence d’actions dont l’exécution permet de faire passer l’état du monde danslequel évolue le système vers un état qui satisfait les buts qu’on lui a fixés. Le problème de planification esten général difficile à résoudre (PSPACE-difficile), cependant certaines propriétés des problèmes peuvent êtreautomatiquement extraites permettant ainsi une résolution efficace.Dans un premier temps, nous avons développé l’algorithme LMBFS (Landmark-based Meta Best-First Search).À contre-courant des planificateurs state-of-the-art, basés sur la recherche heuristique dans l’espace d’états,LMBFS est un algorithme qui réactualise la technique de décomposition des problèmes de planification baséssur les landmarks. Un landmark est un fluent qui doit être vrai à un certain moment durant l’exécutionde n’importe quel plan solution. L’algorithme LMBFS découpe le problème principal en un ensemble desous-problèmes et essaie de trouver une solution globale grâce aux solutions trouvées pour ces sous-problèmes.Dans un second temps, nous avons adapté un ensemble de techniques pour améliorer les performances del’algorithme. Enfin, nous avons testé et comparé chacune de ces méthodes permettant ainsi la création d’unplanificateur efficace. / The algorithms allowing on-the-fly computation of efficient strategies solving aheterogeneous set of problems has always been one of the greatest challengesfaced by research in Artificial Intelligence. To this end, classical planningprovides to a system reasoning capacities, in order to help it to interact with itsenvironment autonomously. Given a description of the world current state, theactions the system is able to perform, and the goal it is supposed to reach, a plannercan compute an action sequence yielding a state satisfying the predefined goal. Theplanning problem is usually intractable (PSPACE-hard), however some propertiesof the problems can be automatically extracted allowing the design of efficientsolvers.Firstly, we have developed the Landmark-based Meta Best-First Search (LMBFS)algorithm. Unlike state-of-the-art planners, usually based on state-space heuristicsearch, LMBFS reenacts landmark-based planning problem decomposition. Alandmark is a fluent appearing in each and every solution plan. The LMBFSalgorithm splits the global problem in a set of subproblems and tries to find aglobal solution using the solutions found for these subproblems. Secondly, wehave adapted classical planning techniques to enhance the performance of ourbase algorithm, making LMBFS a competitive planner. Finally, we have tested andcompared these methods. Planification de tâches Landmarks Algorithmes de recherche Intelligence artificielle Classical planning Automated planning Landmarks Search algorithm Artificial intelligence 000
603	Nouveaux algorithmes pour la détection de communautés disjointes et chevauchantes basés sur la propagation de labels et adaptés aux grands graphes / New algorithms for disjoint and overlapping community detection based on label propagation and adapted to large graphs Attal, Jean-Philippe 19 January 2017 (has links) Les graphes sont des structures mathématiques capable de modéliser certains systèmes complexes.Une des nombreuses problématiques liée aux graphes concerne la détection de communautés qui vise à trouver une partition en sommet d'un graphe en vue d'en comprendre la structure. A titre d'exemple, en représentant des contratsd'assurances par des noeuds et leurs degrés de similarité par une arête,détecter des groupes de noeuds fortement connectésconduit à détecter des profils similaires, et donc a voir des profils à risques.De nombreux algorithmes ont essayé de répondreà ce problème.Une des méthodes est la propagation de labels qui consiste à ce quechaque noeud puisse recevoir un label par un vote majoritaire de ses voisins.Bien que cette méthode soit simple à mettre en oeuvre,elle présente une grande instabilité due au non déterminisme del'algorithme et peut dans certains cas ne pas détecter de structures communautaires.La première contribution de cette thèse sera de i) proposerune méthode de stabilisation de la propagation de labelstout en appliquant des barrages artificiels pour limiter les possibles mauvaises propagations.Les réseaux complexes ont également comme caractéristique que certains noeuds puissent appartenir à plusieurs communautés, on parle alors de recouvrements. C'est en ce sens que la secondecontribution de cette thèse portera sur ii) la créationd'un algorithme auquel seront adjointes des fonctions d'appartenancespour détecter de possibles recouvrements via des noeuds candidats au chevauchement.La taille des graphes est également une notion à considérer dans la mesure où certains réseaux peuvent contenir plusieursmillions de noeuds et d'arêtes.Nous proposons iii) une version parallèleet distribuée de la détection de communautés en utilisant la propagation de labels par coeur.Une étude comparative sera effectuée pour observerla qualité de partitionnement et de recouvrement desalgorithmes proposés. / Graphs are mathematical structures amounting to a set of nodes (objects or persons) in which some pairs are in linked with edges. Graphs can be used to model complex systems.One of the main problems in graph theory is the community detection problemwhich aims to find a partition of nodes in the graph to understand its structure.For instance, by representing insurance contracts by nodes and their relationship by edges,detecting groups of nodes highly connected leads to detect similar profiles and to evaluate risk profiles. Several algorithms are used as aresponse to this currently open research field.One of the fastest method is the label propagation.It's a local method, in which each node changes its own label according toits neighbourhood.Unfortunately, this method has two major drawbacks. The first is the instability of the method. Each trialgives rarely the same result.The second is a bad propagation which can lead to huge communities without sense (giant communities problem).The first contribution of the thesis is i) proposing a stabilisation methodfor the label propagation with artificial dams on edges of some networks in order to limit bad label propagations. Complex networks are also characterized by some nodes which may belong to several communities,we call this a cover.For example, in Protein–protein interaction networks, some proteins may have several functions.Detecting these functions according to their communities could help to cure cancers. The second contribution of this thesis deals with the ii)implementation of an algorithmwith functions to detect potential overlapping nodes .The size of the graphs is also to be considered because some networks contain several millions of nodes and edges like the Amazon product co-purchasing network.We propose iii) a parallel and a distributed version of the community detection using core label propagation.A study and a comparative analysis of the proposed algorithms will be done based on the quality of the resulted partitions and covers. Grands graphes Algorithmes parallèles Détection de communautés MapReduce Hadoop Chevauchement Big graphs Parallel Algorithms Community detection MapReduce Hadoop Overlapping
604	Scaling out-of-core k-nearest neighbors computation on single machines / Faire passer à l'échelle le calcul "out-of-core" des K-plus proche voisins sur une seule machine Olivares, Javier 19 December 2016 (has links) La technique des K-plus proches voisins (K-Nearest Neighbors (KNN) en Anglais) est une méthode efficace pour trouver des données similaires au sein d'un grand ensemble de données. Au fil des années, un grand nombre d'applications ont utilisé les capacités du KNN pour découvrir des similitudes dans des jeux de données de divers domaines tels que les affaires, la médecine, la musique, ou l'informatique. Bien que des années de recherche aient apporté plusieurs approches de cet algorithme, sa mise en œuvre reste un défi, en particulier aujourd'hui alors que les quantités de données croissent à des vitesses inimaginables. Dans ce contexte, l'exécution du KNN sur de grands ensembles pose deux problèmes majeurs: d'énormes empreintes mémoire et de très longs temps d'exécution. En raison de ces coût élevés en termes de ressources de calcul et de temps, les travaux de l'état de l'art ne considèrent pas le fait que les données peuvent changer au fil du temps, et supposent toujours que les données restent statiques tout au long du calcul, ce qui n'est malheureusement pas du tout conforme à la réalité. Nos contributions dans cette thèse répondent à ces défis. Tout d'abord, nous proposons une approche out-of-core pour calculer les KNN sur de grands ensembles de données en utilisant un seul ordinateur. Nous préconisons cette approche comme un moyen moins coûteux pour faire passer à l'échelle le calcul des KNN par rapport au coût élevé d'un algorithme distribué, tant en termes de ressources de calcul que de temps de développement, de débogage et de déploiement. Deuxièmement, nous proposons une approche out-of-core multithreadée (i.e. utilisant plusieurs fils d'exécution) pour faire face aux défis du calcul des KNN sur des données qui changent rapidement et continuellement au cours du temps. Après une évaluation approfondie, nous constatons que nos principales contributions font face aux défis du calcul des KNN sur de grands ensembles de données, en tirant parti des ressources limitées d'une machine unique, en diminuant les temps d'exécution par rapport aux performances actuelles, et en permettant le passage à l'échelle du calcul, à la fois sur des données statiques et des données dynamiques. / The K-Nearest Neighbors (KNN) is an efficient method to find similar data among a large set of it. Over the years, a huge number of applications have used KNN's capabilities to discover similarities within the data generated in diverse areas such as business, medicine, music, and computer science. Despite years of research have brought several approaches of this algorithm, its implementation still remains a challenge, particularly today where the data is growing at unthinkable rates. In this context, running KNN on large datasets brings two major issues: huge memory footprints and very long runtimes. Because of these high costs in terms of computational resources and time, KNN state-of the-art works do not consider the fact that data can change over time, assuming always that the data remains static throughout the computation, which unfortunately does not conform to reality at all. In this thesis, we address these challenges in our contributions. Firstly, we propose an out-of-core approach to compute KNN on large datasets, using a commodity single PC. We advocate this approach as an inexpensive way to scale the KNN computation compared to the high cost of a distributed algorithm, both in terms of computational resources as well as coding, debugging and deployment effort. Secondly, we propose a multithreading out-of-core approach to face the challenges of computing KNN on data that changes rapidly and continuously over time. After a thorough evaluation, we observe that our main contributions address the challenges of computing the KNN on large datasets, leveraging the restricted resources of a single machine, decreasing runtimes compared to that of the baselines, and scaling the computation both on static and dynamic datasets. K-Plus proches voisins Performance des algorithmes Out-Of-Core Seul ordinateur K-Nearest Neighbors Scalability, Algorithm's Performance Out-Of-Core Single machine
605	Mise au point des outils analytiques et formels utilisés dans la recherche préclinique en oncologie. / Development of analytic and formal tools for preclinical research in oncology Benay, Stephan 17 November 2014 (has links) Afin d'analyser les données in vitro de l'effet de l'erlotinib sur la croissance des cellules A431 suivie par impédance-métrie, nous avons développé un modèle pharmacocinétique - pharmacodynamique non linéaire décrivant simultanément la diminution de la concentration d'erlotinib et son effet sur la croissance cellulaire au cours du temps. La non-linéarité du modèle imposant le recours à des méthodes itératives pour l'estimation des paramètres, plusieurs étapes de la procédure d'identification du modèle ont été étudiées et des solutions proposées, avec des exemples d'application à des molécules utilisées en oncologie:Choix du critère d'optimisation à employer - supériorité de la relation fonctionnelle de la moyenne géométrique pour l'identification de modèles non linéaires. Application données réelles: courbe de calibration d'une expérience de dosage ELISA du bevacizumab. Choix de l'algorithme d'optimisation le plus approprié au problème d'identification du processus pharmacocinétique. Les algorithmes dérivatifs sont les plus performants. Application données réelles: estimation simultanée des paramètres du modèle pharmacocinétique du 5-fluorouracile et de son métabolite principal.Transformation de la forme différentielle initiale du modèle en temps continu vers un modèle récursif en temps discret. Par ce moyen le modèle devient linéaire en ses paramètres, ce qui permet d'estimer directement les paramètres sans utiliser d'algorithme d'optimisation. Il devient également possible de suivre les variations des paramètres au cours du temps. Application données réelles: pharmacocinétique de la fotemustine, de la mitoxantrone et du 5-fluorouracile. / A nonlinear pharmacokinetic-pharmacodynamic model has been devised do simultaneously describe the loss of erlotinib and its effect on the cell growth over time, in order to analyze impedance-based data of erlotinib effect on A431 cells growth in vitro over time. The model non-linearity requiring the use of iterative methods for parameter estimation, several steps of the model identification were studied, and solutions proposed, with application examples to cancer drugs :Choice of the optimization criterion - superiotity of the geometric mean functionnal relationship for non-linear model identification. Real data application : calibration curve of a bevacizumab ELISA quantification experiment.Choice of the most appropriate algorithm for the pharmacokinetic process identification problem. The derivative algorithms perform better. Real data application : simultaneous identification of the 5-fluorouracil and of its main metabolite pharmacokinetic system.Transform of the differential initial continuous-time model in a recursive discrete time model. The transformed model becomes linear with respect to its parameters, allowing straightforward parameter estimation without using any optimization algorithm. It is then also possible to track the parameter variations over time. Real data application : pharmacokinetic model parameter estimation of fotemustine, mitoxantrone and 5-fluorouracil. Oncologie Préclinique Impédance-Métrie Algorithmes Modèle récursif Oncology Pharmacokinetic-Pharmacodynamic modeling Preclinical Impedance-Based Algorithms Recursive model
606	Sampling, qualification and analysis of data streams / Échantillonnage, qualification et analyse des flux de données El Sibai, Rayane 04 July 2018 (has links) Un système de surveillance environnementale collecte et analyse continuellement les flux de données générés par les capteurs environnementaux. L'objectif du processus de surveillance est de filtrer les informations utiles et fiables et d'inférer de nouvelles connaissances qui aident l'exploitant à prendre rapidement les bonnes décisions. L'ensemble de ce processus, de la collecte à l'analyse des données, soulève deux problèmes majeurs : le volume de données et la qualité des données. D'une part, le débit des flux de données générés n'a pas cessé d'augmenter sur les dernières années, engendrant un volume important de données continuellement envoyées au système de surveillance. Le taux d'arrivée des données est très élevé par rapport aux capacités de traitement et de stockage disponibles du système de surveillance. Ainsi, un stockage permanent et exhaustif des données est très coûteux, voire parfois impossible. D'autre part, dans un monde réel tel que les environnements des capteurs, les données sont souvent de mauvaise qualité, elles contiennent des valeurs bruitées, erronées et manquantes, ce qui peut conduire à des résultats défectueux et erronés. Dans cette thèse, nous proposons une solution appelée filtrage natif, pour traiter les problèmes de qualité et de volume de données. Dès la réception des données des flux, la qualité des données sera évaluée et améliorée en temps réel en se basant sur un modèle de gestion de la qualité des données que nous proposons également dans cette thèse. Une fois qualifiées, les données seront résumées en utilisant des algorithmes d'échantillonnage. En particulier, nous nous sommes intéressés à l'analyse de l'algorithme Chain-sample que nous comparons à d'autres algorithmes de référence comme l'échantillonnage probabiliste, l'échantillonnage déterministe et l'échantillonnage pondéré. Nous proposons aussi deux nouvelles versions de l'algorithme Chain-sample améliorant sensiblement son temps d'exécution. L'analyse des données du flux est également abordée dans cette thèse. Nous nous intéressons particulièrement à la détection des anomalies. Deux algorithmes sont étudiés : Moran scatterplot pour la détection des anomalies spatiales et CUSUM pour la détection des anomalies temporelles. Nous avons conçu une méthode améliorant l'estimation de l'instant de début et de fin de l'anomalie détectée dans CUSUM. Nos travaux ont été validés par des simulations et aussi par des expérimentations sur deux jeux de données réels et différents : Les données issues des capteurs dans le réseau de distribution de l'eau potable fournies dans le cadre du projet Waves et les données relatives au système de vélo en libre-service (Velib). / An environmental monitoring system continuously collects and analyzes the data streams generated by environmental sensors. The goal of the monitoring process is to filter out useful and reliable information and to infer new knowledge that helps the network operator to make quickly the right decisions. This whole process, from the data collection to the data analysis, will lead to two keys problems: data volume and data quality. On the one hand, the throughput of the data streams generated has not stopped increasing over the last years, generating a large volume of data continuously sent to the monitoring system. The data arrival rate is very high compared to the available processing and storage capacities of the monitoring system. Thus, permanent and exhaustive storage of data is very expensive, sometimes impossible. On the other hand, in a real world such as sensor environments, the data are often dirty, they contain noisy, erroneous and missing values, which can lead to faulty and defective results. In this thesis, we propose a solution called native filtering, to deal with the problems of quality and data volume. Upon receipt of the data streams, the quality of the data will be evaluated and improved in real-time based on a data quality management model that we also propose in this thesis. Once qualified, the data will be summarized using sampling algorithms. In particular, we focus on the analysis of the Chain-sample algorithm that we compare against other reference algorithms such as probabilistic sampling, deterministic sampling, and weighted sampling. We also propose two new versions of the Chain-sample algorithm that significantly improve its execution time. Data streams analysis is also discussed in this thesis. We are particularly interested in anomaly detection. Two algorithms are studied: Moran scatterplot for the detection of spatial anomalies and CUSUM for the detection of temporal anomalies. We have designed a method that improves the estimation of the start time and end time of the anomaly detected in CUSUM. Our work was validated by simulations and also by experimentation on two real and different data sets: The data issued from sensors in the water distribution network provided as part of the Waves project and the data relative to the bike sharing system (Velib). Flux de données Algorithmes d'échantillonnage Qualité des données Analyse des données Cloud computing Data streams Sampling algorithms Data quality Data analysis Cloud computing
607	Analyse a posteriori d'algorithmes itératifs pour des problèmes non linéaires. / A posteriori analyses of iterative algorithm for nonlinear problems. Dakroub, Jad 07 October 2014 (has links) La résolution numérique de n’importe quelle discrétisation d’équations aux dérivées partielles non linéaires requiert le plus souvent un algorithme itératif. En général, la discrétisation des équations aux dérivées partielles donne lieu à des systèmes de grandes dimensions. Comme la résolution des grands systèmes est très coûteuse en terme de temps de calcul, une question importante se pose: afin d’obtenir une solution approchée de bonne qualité, quand est-ce qu’il faut arrêter l’itération afin d’éviter les itérations inutiles ? L’objectif de cette thèse est alors d’appliquer, à différentes équations, une méthode qui nous permet de diminuer le nombre d’itérations de la résolution des systèmes en gardant toujours une bonne précision de la méthode numérique. En d’autres termes, notre but est d’appliquer une nouvelle méthode qui fournira un gain remarquable en terme de temps de calcul. Tout d’abord, nous appliquons cette méthode pour un problème non linéaire modèle. Nous effectuons l’analyse a priori et a posteriori de la discrétisation par éléments finis de ce problème et nous proposons par la suite deux algorithmes de résolution itérative correspondants. Nous calculons les estimations d’erreur a posteriori de nos algorithmes itératifs proposés et nous présentons ensuite quelques résultats d’expérience numériques afin de comparer ces deux algorithmes. Nous appliquerons de même cette approche pour les équations de Navier-Stokes. Nous proposons un schéma itératif et nous étudions la convergence et l’analyse a priori et a posteriori correspondantes. Finalement, nous présentons des simulations numériques montrant l’efficacité de notre méthode. / The numerical resolution of any discretization of nonlinear PDEs most often requires an iterative algorithm. In general, the discretization of partial differential equations leads to large systems. As the resolution of large systems is very costly in terms of computation time, an important question arises. To obtain an approximate solution of good quality, when is it necessary to stop the iteration in order to avoid unnecessary iterations? A posteriori error indicators have been studied in recent years owing to their remarkable capacity to enhance both speed and accuracy in computing. This thesis deals with a posteriori error estimation for the finite element discretization of nonlinear problems. Our purpose is to apply a new method that allows us to reduce the number of iterations of the resolution system while keeping a good accuracy of the numerical method. In other words, our goal is to apply a new method that provides a remarkable gain in computation time. For a given nonlinear equation we propose a finite element discretization relying on the Galerkin method. We solve the discrete problem using two iterative methods involving some kind of linearization. For each of them, there are actually two sources of error, namely discretization and linearization. Balancing these two errors can be very important, since it avoids performing an excessive number of iterations. Our results lead to the construction of computable upper indicators for the full error. Similarly, we apply this approach to the Navier-Stokes equations. Several numerical tests are provided to evaluate the efficiency of our indicators. Analyse a posteriori Algorithmes itératifs Problèmes non linéaires Navier-Stokes Maillage adaptatif Critère d'arrêt Nonlinear problems Navier-Stokes 510
608	Modeling, optimization and estimation for the on-line control of trading algorithms in limit-order markets / Modélisation, optimisation et estimation pour le contrôle au fil de l'eau des algorithmes de trading Fernandez Tapia, Joaquin 10 September 2015 (has links) L'objectif de ce travail de thèse est une étude quantitive des differents problèmes mathematiques qui apparaissent en trading algorithmique. Concrètement, on propose une approche scientifique pour optimiser des processus relatifs a la capture et provision de liquidités pour des marchés electroniques.Du au fort caractère appliqué de ce travail, on n'est pas seulement intéressés par la rigeur mathématique de nos résultats, mais on souhaite aussi a comprendre ce travail de recherche dans le contexte des differentes étapes qui font partie de l'implementation pratique des outils que l'on developpe; par exemple l'interpretation du modèle, l'estimation de parametres, l'implementation informatique etc.Du point de vue scientifique, le coeur de notre travail est fondé sur deux techniques empruntées au monde de l'optimisation et des probabilités, celles sont : le contrôle stochastique et l'approximation stochastique.En particulier, on présente des resultats academiques originaux pour le probleme de market-making haute fréquence et le problème de liquidation de portefeuille en utilisant des limit-orders; dans le deux cas on utilise une approche d'optimisation dite backwards. De la même façon, on résout le problème de market-making en utilisant une approche "forward", ceci étant innovateur dans la litterature du trading optimal car il ouvre la porte à des techniques d'apprentissage automatique.Du pont de vue pratique, cette thèse cherches à creer un point entre la recherche academique et l'industrie financière. Nos resultats sont constamment considérés dans la perspective de leur implementation pratique. Ainsi, on concentre une grande partie de notre travail a étudier les differents facteurs qui sont importants a comprendre quand on transforme nos techniques quantitatives en valeur industrielle: comprendre la microstructure des marchés, des faits stylisés, traitrement des données, discussions sur les modèles, limitations de notre cadre scientifique etc. / This PhD thesis focuses on the quantitative analysis of mathematical problems arising in the field of optimal algorithmic trading. Concretely, we propose a scientific approach in order to optimize processes related to the capture and provision of liquidity in electronic markets. Because of the strongly industry-focused character of this work, not only we are interested in giving rigorous mathematical results but also to understand this research project in the context of the different stages that come into play during the practical implementation of the tools developed throughout the following chapters (e.g. model interpretation, parameter estimation, programming etc.).From a scientific standpoint the core of our work focuses on two techniques taken from the world of optimization and probability; these are, stochastic control and stochastic approximation. In particular, we provide original academic results for the problem of high frequency market making and the problem of portfolio liquidation by using limit orders; both by using a backward optimization approach. We also propose a forward optimization framework to solve the market making problem; the latter approach being quite innovative for optimal trading, as it opens the door for machine learning techniques.From a practical angle, this PhD thesis seeks to create a bridge between academic research and practitioners. Our mathematical findings are constantly put in perspective in terms of their practical implementation. Hence, we focus a large part of our work on studying the different factors that are of paramount importance to understand when transforming our quantitative techniques into industrial value: understanding the underlying market microstructure, empirical stylized facts, data processing, discussion about the models, limitations of our scientific framework etc. Trading algorithmique Contrôle stochastique Algorithmes stochastiques Microstructure de marchés Estimation de paramètres Apprentissage automatique Parameter estimation Stochastic control 510
609	Cascades hadroniques dans un calorimètre électromagnétique silicium-tungstène hautement granulaire et production des quarks top et bottom à l'ILC / Hadronic showers in a highly granular silicon-tungsten calorimeter and production of bottom and top quarks at the ILC Bilokin, Sviatoslav 18 July 2017 (has links) Cette thèse présente des études pour l’International Linear Collider (ILC), un collisionneur électron-positron linéaire avec une énergie nominale dans le centre de masse de 250 GeV à 500 GeV. Les données analysées ont été enregistrées avec le prototype physique CALICE d’un calorimètre électromagnétique silice-tungstène (Si-W ECAL) à FermiLab en 2008. Au cours de cette thèse, un algorithme de recherche de traces a été développé, qui trouve des traces secondaires dans les événements hadroniques enregistrés par le prototype Si-W ECAL. Cet algorithme révèle des détails sur les interactions hadroniques dans le volume du détecteur et les résultats sont comparés avec des simulations basées sur le GEANT4 toolkit. Les recherches indirectes de nouvelle physique nécessitent une haute précision sur les mesures des paramètres de Modèle Standard. Théories de la physique au-delà de Modèle Standard, comme théories de dimensions supplémentaires ou modèles composite, impliquent des modifications des couplages électrofaibles des quarks lourds, top et bottom. La deuxième partie de la thèse est une étude de simulation complète des algorithmes de vertexing dans l’environnement ILD et la reconstruction de la charge de quark b. La reconstruction de la charge du quark bottom est essentielle pour de nombreux canaux de physique à l’ILC, particulièrement, pour les réactions e⁺e⁻ → bb̄ et e⁺e⁻ → tt̄ . L’algorithme développé améliore la performance de reconstruction de la charge du quark bottom. Les méthodes de reconstruction de la charge du quark bottom sont appliquées à l’analyse du mécanisme de production tt̄ . Cela permet d’augmenter la statistique pour l’estimation du facteur de forme électrofaible du quark top par rapport à une étude antérieure et donc de diminuer les incertitudes statistiques correspondantes. Les résultats de l’étude du détecteur permettent d’estimer la précision de l’ILC sur les couplages et les facteurs de forme électrofaibles du quark bottom. L’ILC sera capable de résoudre l’anomalie du LEP dans le processus de production bb̄. La précision de l’ILC sur le couplage droite Z⁰bb̄, un candidat majeur pour les effets de la nouvelle physique, est calculée et est au moins 5 fois mieux que celle des expériences de LEP. / This thesis presents studies for the International Linear Collider (ILC),a linear electron-positron collider with a nominal center-of-mass energy of 500 GeV. Data are analysed that were recorded with the physics prototype of the CALICE silicon-tungsten electromagnetic calorimeter (Si-W ECAL) prototype at FermiLab in 2008. During this thesis, a track-finding algorithm was developed, which finds secondary tracks in hadronic events recorded by the Si-W ECAL physics prototype. This algorithm reveals details of hadronic interactions in the detector volume and the results are compared with simulations based on the geant4 toolkit.Indirect searches of New Physics require a high precision on the measurements of the Standard Model parameters. Many Beyond Standard Model theories, like extradimentional or composite models, imply modifications of electroweak couplings of the heavy quarks, top and bottom. The second part of the thesis is a full simulation study of vertexing algorithms in the ILD environment and the reconstruction of the b-quark charge. The b-quark charge reconstruction is essential for many physics channels at the ILC, particularly, for the e+ e− → bb̄ and the e+ e− → tt̄ channels. The developed algorithm improves the b-quark charge reconstruction performance.The b-quark charge reconstruction methods are applied to the tt̄ production process. This allows to increase statistics for the top quark electroweak form factor estimation w.r.t an earlier study and thus to decrease corresponding statistical uncertainties.The results of the detector study allow for an estimation of the ILC precision on the b-quark electroweak couplings and form factors. The ILC will be able to resolve the LEP anomaly in the bb̄ production process. The ILC precision on the right-handed Z⁰bb̄ coupling, a prime candidate for effects of new physics, is calculated to be at least 5 times better than theLEP experiments. ILC Algorithmes de flux des particules Quark top ILD Quark bottom ILC Particle Flow Top quark ILD B quark
610	Inertial Gradient-Descent algorithms for convex minimization / Algorithmes de descente de gradient inertiels pour la minimisation convexe. Apidopoulos, Vasileios 11 October 2019 (has links) Cette thèse porte sur l’étude des méthodes inertielles pour résoudre les problèmes de minimisation convexe structurés. Depuis les premiers travaux de Polyak et Nesterov, ces méthodes sont devenues très populaires, grâce à leurs effets d’accélération. Dans ce travail, on étudie une famille d’algorithmes de gradient proximal inertiel de type Nesterov avec un choix spécifique de suites de sur-relaxation. Les différentes propriétés de convergence de cette famille d’algorithmes sont présentées d’une manière unifiée, en fonction du paramètre de sur-relaxation. En outre, on étudie ces propriétés, dans le cas des fonctions lisses vérifiant des hypothèses géométriques supplémentaires, comme la condition de croissance (ou condition de Łojasiewicz). On montre qu’en combinant cette condition de croissance avec une condition de planéité (flatness) sur la géométrie de la fonction minimisante, on obtient de nouveaux taux de convergence. La stratégie adoptée ici, utilise des analogies du continu vers le discret, en passant des systèmes dynamiques continus en temps à des schémas discrets. En particulier, la famille d’algorithmes inertiels qui nous intéresse, peut être identifiée comme un schéma aux différences finies d’une équation/inclusion différentielle. Cette approche donne les grandes lignes d’une façon de transposer les différents résultats et leurs démonstrations du continu au discret. Cela ouvre la voie à de nouveaux schémas inertiels possibles, issus du même système dynamique. / This Thesis focuses on the study of inertial methods for solving composite convex minimization problems. Since the early works of Polyak and Nesterov, inertial methods become very popular, thanks to their acceleration effects. Here, we study a family of Nesterov-type inertial proximalgradient algorithms with a particular over-relaxation sequence. We give a unified presentation about the different convergence properties of this family of algorithms, depending on the over-relaxation parameter. In addition we addressing this issue, in the case of a smooth function with additional geometrical structure, such as the growth (or Łojasiewicz) condition. We show that by combining growth condition and a flatness-type condition on the geometry of the minimizing function, we are able to obtain some new convergence rates. Our analysis follows a continuous-to-discrete trail, passing from continuous-on time-dynamical systems to discrete schemes. In particular the family of inertial algorithms that interest us, can be identified as a finite difference scheme of a differential equation/inclusion. This approach provides a useful guideline, which permits to transpose the different results and their proofs from the continuous system to the discrete one. This opens the way for new possible inertial schemes, derived by the same dynamical system. Optimisation convexe Condition de croissance Analyse de Lyapunov Systèmes dynamiques Algorithmes inertiels Convex optimization Growth condition Lyapunov analysis Dynamical systems Inertial algorithms

Search results