Spelling suggestions: "subject:"statistique"" "subject:"qtatistique""
561 |
Élasticité et tremblements du tricot / Elasticity and tremors of knitted farbicsPoincloux, Samuel 15 October 2018 (has links)
Les propriétés mécaniques d’un tricot diffèrent drastiquement de celles du fil dont il est constitué. Par exemple, une étoffe tricotée d’un fil inextensible présente une étonnante propension à la déformabilité. À l’instar des systèmes mécaniques où la géométrie joue un rôle prépondérant, tels les origamis, la réponse mécanique d’un tricot va être déterminée par le chemin imposé au fil. Lors du tricotage, le fil est contraint de se courber et de former des points de croisement suivant un motif répétitif, figeant de cette manière sa topologie. Les trois ingrédients sur lesquels repose la réponse mécanique d’un tricot sont l’élasticité du fil, sa topologie et le frottement aux contacts. Une sélection des nombreux phénomènes qui émergent du couplage entre ces ingrédients fait l’objet de cette thèse. Premièrement, l’intérêt a été porté sur l’élasticité du tricot. En se basant sur une expérience de traction d’un tricot-modèle, une théorie, qui vise à décrire cette réponse mécanique, a été construite en tenant compte de la conservation de la topologie, l’énergie de flexion et l’inextensibilité du fil. Dans un second temps, l’accent est mis sur les fluctuations de la réponse mécanique. Ces fluctuations ont pour origine la friction du fil qui empêche sa répartition dans la maille jusqu’à ce qu’un contact glisse brusquement, déclenchant alors une succession de glissements. La mesure de la réponse en force et du champ de déformations montrent que ces évènements suivent une dynamique d’avalanches. Enfin, l’action de la topologie et de la métrique du tricot sur sa forme tridimensionnelle, ainsi que la transition de configuration spontanée de la structure d’un tricot, ont été examinés. / Knits mechanical properties are fundamentally different from those of its constitutive yarn. For instance, a fabric knitted with an inextensible yarn demonstrates a surprising inclination for deformability. Like mechanical systems where geometry plays a preponderant role, such as origami, the mechanical response of knitted fabrics is governed by the pattern imposed on the yarn. In the process of knitting, the yarn is constrained to bend and to cross itself following a periodic pattern, anchoring its topology. The three factors which determine the mechanical response of a knit are the elasticity of the yarn, its topology, and friction between crossing strands. This thesis explores several phenomena that arise from the interplay of these factors. First, we focused on the elasticity of a knit. Working from experimental data, we developed a theory to decipher the mechanical response of model knits under traction, taking into account the unaltered topology, bending energy, and inextensibility of the yarn. Next, we explored fluctuations in the mechanical response of a knit. Those fluctuations originate from yarn-yarn friction, preventing free yarn redistribution in the stitch until a contact slides and triggers propagative slips. Measures of the force response and deformation fields reveal that those events follow an avalanching dynamic, including a power law distribution of their size. Finally, the impact of topology and metric on knit three-dimensional shapes, along with spontaneous configuration transitions in a knit structure, are studied.
|
562 |
Mécanique statistique des champs gaussiens / Statistical mechanics of Gaussian fieldsRivera, Alejandro 23 November 2018 (has links)
Dans cette thèse, on étudie les ensembles de niveau de champs gaussiens lisses, ou fonctions lisses aléatoires. On explore plusieurs directions, certaines liées à la géométrie spectrale, d’autres à la mécanique statistique.L’attention est d’abord portée sur une famille de champs gaussiens sur des variétés riemanniennes compactes définis comme des combinaisons linéaires de fonctions propres du laplacien avec des points gaussiens indépendants. Dans certains cas particuliers, cette famille donne l’ensemble à bande limitée qui a été très étudié ces dernières années, mais elle donne aussi le champ libre gaussien coupé en fréquence, qui est la projection du champ libre gaussien sur les premiers espaces propres du laplacien. On étudie la fonction de covariance de ces champs, l’espérance du nombre de composantes connexes de leur lieu d’annulation et, dans le cas du champ libre gaussien, on en déduit une estimation précise des grandes déviation de l’événement que le champ est positif sur un ensemble fixé quand la limite de fréquence tend vers l’infini.Puis on étudie la percolation des sur-niveaux de champs stationnaires sur le plan en utilisant des techniques de percolation de Bernoulli. On prouve d’abord un résultat de mélange sur la topologie des ensembles nodaux pour des champs gaussiens planaires. Puis on prouve un résultat de transition de phase pour le champ de Bargmann-Fock. / In this thesis, we study the level sets of smooth Gaussian fields, or random smooth functions. Several directions are explored, some linked to spectral theory, some to statistical mechanics.The first object of focus is a family of Gaussian fields on compact Riemannian manifolds defined as linear combinations of eigenfunctions of the Laplacian with independent Gaussian weights. In special cases, this family specializes to the band-limited ensemble which has received a lot of attention in recent years, but also to the cut-off Gaussian Free Field, which is the projection of the Gaussian Free Field on the first eigenspaces of the Laplacian. We study the covariance function of these fields, the expected number of connected components of their zero set, and, in the case of the cut-off Gaussian Free Field, derive a precise large deviation estimate on the event that the field is positive on a fixed set when the energy cut-off tends to infinity.Next, we study percolation of excursion sets of stationary fields on the plane using techniques from Bernoulli precolation. We first derive a mixing bound for the topology of nodal sets of planar Gaussian fields. Then, we prove a sharp phase transition result for the Bargmann-Fock random field.
|
563 |
Une promenade aléatoire entre combinatoire et mécanique statistique / A random hike between combinatorics and statistical mechanicsHuynh, Cong Bang 27 June 2019 (has links)
Cette thèse se situe à l'interface entre combinatoire et probabilités,et contribue à l'étude de différents modèles issus de la mécanique statistique : polymères, marches aléatoires inter-agissantes ou en milieu aléatoire, cartes aléatoires. Le premier modèle que nous étudions est une famille de mesures de probabilités sur les chemins auto-évitants de longueur infinie sur un réseau régulier, construites à partir de marches aléatoires biaisées sur l'arbre des chemins auto-évitants finis. Ces mesures, introduites par Beretti et Sokal, existent pour tout biais strictement supérieur à l'inverse de la constante de connectivité, et leur limite en ce biais critique serait l'un des définitions naturelles de la marche aléatoire uniforme en longueur infinie. Le but de ce travail, en collaboration avec Vincent Beffara, est de comprendre le lien entre cette limite, si elle existe, et d'autres chemins aléatoires notamment la mesure de Kesten (qui est la limite faible de la marche auto-évitante uniforme dans le demi-plan) et les interfaces de percolation de Bernoulli critique; d'une certaine façon le modèle constitue une interpolation entre les deux. Dans une deuxième partie, nous considérons des marches aléatoires en conductances aléatoires sur un arbre quelconque, dans le cas où la loi des conductances est à queue lourde. L’objectif de notre travail, en collaboration avec Andrea Collevecchio et Daniel Kious, est de montrer une transition de phase par rapport au paramètre de la queue; on exprime le paramètre critique comme une fonction explicite de l'arbre sous-jacent. Parallèlement, nous étudions des modèles de marches aléatoires excitées sur des arbres et leurs transitions de phase. En particulier, nous étendons une conjecture de Volkov et généralisons des résultats de Bas devant et Singh. Enfin, une troisième partie en collaboration avec Vincent Beffara et Benjamin Lévêque porte sur les cartes aléatoires en genre supérieur : nous montrons l'existence de limites d'échelle, le long de sous-suites, pour les triangulations simples uniformes sur le tore, étendant à ce cas les résultats d'Adario-Berri et Albenque (sur les triangulations simples de la sphère) et de Bettinelli (sur les quadrangulations du tore). La question de l'unicité de la limite et de son universalité restent ouvertes, mais nous obtenons des résultats partiels dans ce sens. / This thesis is at the interface between combinatorics and probability,and contributes to the study of a few models stemming from statisticalmechanics: polymers, self-interacting random walks and random walks inrandom environment, random maps.bigskipThe first model that we investigate is a one-parameter family ofprobability measures on self-avoiding paths of infinite length on aregular lattice, constructed from biased random walks on the tree offinite self-avoiding paths. These measures, initially introduced byBeretti and Sokal, exist for every bias larger than the inverseconnectivity constant, and their limit at the critical bias would beaamong the natural definitions of the uniform self-avoiding walk ofinfinite length. The aim of our work, in collaboration with VincentBeffara, is to understand the link between this limit, if it indeedexists, and other random infinite paths such as Kesten's measure(which is the weak limit of uniformly random finite self-avoidingwalks in the half-plane) and critical Bernoulli percolationinterfaces; the model can be seen as an interpolation between thesetwo.In a second part, we consider random walks with random conductances ona tree, in the case when the law of the conductances has heavy tail.Our aim, in collabration with Andrea Collevecchio and Daniel Kious, isto show a phase transition in the tail parameter; we express thecritical point as an explicit function of the underlying tree.In parallel, we study excited random walks on trees and their phasetransitions: we extend a conjecture of Volkov's and generalize resultsby Basdevant and Singh.Finally, a third part in collaboration with Vincent Beffara andBenjamin Lévêque contributes to the study of random maps of highergenus: we show the existence of subsequential scaling limits foruniformly random simple triangulations of the torus, extending to thatsetup fromer results by Adario-Berri and Albenque (on simpletriangulations of the sphere) and by Bettinelli (on quadrangulationsof the torus). The question of uniqueness and universality of thelimit remain open, but we obtain partial results in that direction.
|
564 |
Applications en bioinformatique avec des modèles de Markov / Applications in Bioinformatics with Markov ModelsRobinson, Sean 01 June 2018 (has links)
Dans cette thèse nous présentons quatre applications en bioinformatique avec des modèles de Markov. Ces modèles sont particulièrement répandus car la structure Markov permet de modéliser des indépendances conditionnelles complexes tout en permettant une inférence efficace. Nous atteignons une variété d’objectifs tels que l'alignement, la classification, la segmentation et la quantification, par inférence dans différents types de modèles de Markov. De cette manière nous montrons que les modèles de Markov peuvent être utilisés pour générer de nouvelles connaissances dans diverses applications liées à une variété de champs de recherche en biologie. / In this thesis we present four applications in bioinformatics with Markov models. Such models are especially popular since the Markov structure allows for complex conditional independences to be modelled while still allowing for efficient inference. We achieve a variety of aims, ranging from alignment, classification, segmentation and quantification, through inference in different types of Markov models. In this way we show that Markov models can be used to generate new knowledge in diverse applications relating to multiple domains of biological research.
|
565 |
Stochastic thermodynamics of transport phenomena and reactive systems: an extended local equilibrium approach / Thermodynamique stochastique des phénomènes de transport et des systèmes réactifs :l'approche de l'équilibre local étenduDerivaux, Jean-Francois 03 July 2020 (has links) (PDF)
Avec les progrès de la technologie, il est désormais devenu possible de manipuler des faibles quantités d’objets nanométriques, voire des objets uniques. Observer une réaction chimique de quelques centaines de molécules sur des catalyseurs, étudier le travail exercé lors du déploiement d’un brin d’ADN unique ou mesurer la chaleur émise par un unique électron dans un circuit électrique constituent aujourd’hui des actes expérimentaux courants. Cependant, à cette échelle, le caractère aléatoire des processus physiques étudiés se fait plus fortement ressentir. Développer une théorie thermodynamique à ces échelles nécessite d'y inclure de manière exhaustive ces fluctuations.Ces préoccupations et les résultats expérimentaux et théoriques associés ont mené à l’émergence de ce que l’on appelle aujourd’hui la thermodynamique stochastique. Cette thèse se propose de développer une approche originale à la thermodynamique stochastique, basée sur une extension de l'hypothèse d'équilibre local aux variables fluctuantes d'un système. Cette théorie offre de nouvelles définitions des grandeurs thermodynamiques stochastiques, dont l'évolution est donnée par des équations différentielles stochastiques (EDS).Nous avons choisi d'étudier cette théorie à travers des modèles simplifiés de phénomènes physiques variés; transport (diffusif) de chaleur ou de masse, transport couplé (comme la thermodiffusion), ainsi que des modèles de réactions chimiques linéaires et non-linéaires. A travers ces exemples, nous avons proposé des versions stochastiques de plusieurs grandeurs thermodynamiques d'intérêt. Une large part de cette thèse est dévolue à l'entropie et aux différents termes apparaissant dans son bilan (flux d'entropie, production d'entropie ou dissipation). D'autres exemples incluent l'énergie libre d'Helmholtz, la production d'entropie d'excès, ou encore les efficacités thermodynamiques dans le transport couplé.A l'aide de cette théorie, nous avons étudié les propriétés statistiques de ces différentes grandeurs, et plus particulièrement l'effet des contraintes thermodynamiques ainsi que les propriétés cinétiques du modèle sur celles-là. Dans un premier temps, nous montrons comment l'état thermodynamique d'un système (à l' équilibre ou hors d'équilibre) contraint la forme de la distribution de la production d'entropie. Au-delà de la production d'entropie, cette contrainte apparaît également pour d'autres quantités, comme l'énergie libre d'Helmholtz ou la production d'entropie d'excès. Nous montrons ensuite comment des paramètres de contrôle extérieurs peuvent induire des bimodalités dans les distributions d'efficacités stochastiques.Les non-linéarités de la cinétique peuvent également se répercuter sur la thermodynamique stochastique. En utilisant un modèle non-linéaire de réaction chimique, le modèle de Schlögl, nous avons calculé la dissipation moyenne, non-nulle, engendrée par les fluctuations du système. Les non-linéarités offrent aussi la possibilité de produire des bifurcations dans le système. Les différentes propriétés statistiques (moments et distributions) de la production d'entropie ont été étudiées à différents points avant, pendant et après la bifurcation dans le modèle de Schlögl.Ces nombreuses propriétés ont été étudiées via des développements analytiques supportés par des simulations numériques des EDS du système. Nous avons ainsi pu montrer la fine connexion existant entre les équations cinétiques du système, les contraintes thermodynamiques et les propriétés statistiques des fluctuations de différentes grandeurs thermodynamiques stochastiques. / Over the last decades, nanotechnology has experienced great steps forwards, opening new ways to manipulate micro- and nanosystems. These advances motivated the development of a thermodynamic theory for such systems, taking fully into account the unavoidable fluctuations appearing at that scale. This ultimately leads to an ensemble of experimental and theoretical results forming the emergent field of stochastic thermodynamics. In this thesis, we propose an original theoretical approach to stochastic thermodynamics, based on the extension of the local equilibrium hypothesis (LEH) to fluctuating variables in small systems. The approach provides new definitions of stochastic thermodynamic quantities, whose evolution is given by stochastic differential equations (SDEs).We applied this new formalism to a diverse range of systems: heat or mass diffusive transport, coupled transport phenomena (thermodiffusion), and linear or non-linear chemical systems. In each model, we used our theory to define key stochastic thermodynamic quantities. A great emphasis has been put on entropy and the different contributions to its evolution (entropy flux and entropy production) throughout this thesis. Other examples include also the stochastic Helmholtz energy, stochastic excess entropy production and stochastic efficiencies in coupled transport. We investigated how the statistical properties of these quantities are affected by external thermodynamic constraints and by the kinetics of the system. We first studied how the thermodynamic state of the system (equilibrium \textit{vs.} non-equilibrium) strongly impacts the distribution of entropy production. We then extended those findings to other related quantities, such as the Helmholtz free energy and excess entropy production. We also analysed how some external control parameters could lead to bimodality in stochastic efficiencies distributions.In addition, non-linearities affect stochastic thermodynamics quantities in different ways. Using the example of the Schlögl chemical model, we computed the average dissipation of the fluctuations in a non-linear system. Such systems can also undergo a bifurcation, and we studied how the moments and the distribution of entropy production change while crossing the critical point.All these properties were investigated with theoretical analyses and supported by numerical simulations of the SDEs describing the system. It allows us to show that properties of the evolution equations and external constraints could strongly reflect in the statistical properties of stochastic thermodynamic quantities. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
566 |
A General Sequential Model for Constrained Classification / Modèles Sequentiels pour la Classification Multiclasse, Sparse et BudgetéeDulac-Arnold, Gabriel 07 February 2014 (has links)
Nous proposons une nouvelle approche pour l'apprentissage de représentation parcimonieuse, où le but est de limiter le nombre de caractéristiques sélectionnées \textbf{par donnée}, résultant en un modèle que nous appellerons \textit{Modèle de parcimonie locale pour la classification} --- \textit{Datum-Wise Sparse Classification} (DWSC) en anglais. Notre approche autorise le fait que les caractéristiques utilisées lors de la classification peuvent être différentes d'une donnée à une autre: une donnée facile à classifier le sera ainsi en ne considérant que quelques caractéristiques, tandis que plus de caractéristiques seront utilisées pour les données plus complexes. Au contraire des approches traditionnelles de régularisation qui essaient de trouver un équilibre entre performance et parcimonie au niveau de l'ensemble du jeu de données, notre motivation est de trouver cet équilibre au niveau des données individuelles, autorisant une parcimonie moyenne plus élevée, pour une performance équivalente. Ce type de parcimonie est intéressant pour plusieurs raisons~: premièrement, nous partons du principe que les explications les plus simples sont toujours préférables~; deuxièmement, pour la compréhension des données, une représentation parcimonieuse par donnée fournit une information par rapport à la structure sous-jacente de celles-ci~: typiquement, si un jeu de données provient de deux distributions disjointes, DWSC autorise le modèle à choisir automatiquement de ne prendre en compte que les caractéristiques de la distribution génératrice de chaque donnée considérée. / This thesis introduces a body of work on sequential models for classification. These models allow for a more flexible and general approach to classification tasks. Many tasks ultimately require the classification of some object, but cannot be handled with a single atomic classification step. This is the case for tasks where information is either not immediately available upfront, or where the act of accessing different aspects of the object being classified may present various costs (due to time, computational power, monetary cost, etc.). The goal of this thesis is to introduce a new method, which we call datum-wise classification, that is able to handle these more complex classifications tasks by modelling them as sequential processes.
|
567 |
Combining machine learning and evolution for the annotation of metagenomics data / La combinaison de l'apprentissage statistique et de l'évolution pour l'annotation des données métagénomiquesUgarte, Ari 16 December 2016 (has links)
La métagénomique sert à étudier les communautés microbiennes en analysant de l’ADN extrait directement d’échantillons pris dans la nature, elle permet également d’établir un catalogue très étendu des gènes présents dans les communautés microbiennes. Ce catalogue doit être comparé contre les gènes déjà référencés dans les bases des données afin de retrouver des séquences similaires et ainsi déterminer la fonction des séquences qui le composent. Au cours de cette thèse, nous avons développé MetaCLADE, une nouvelle méthodologie qui améliore la détection des domaines protéiques déjà référencés pour des séquences issues des données métagénomiques et métatranscriptomiques. Pour le développement de MetaCLADE, nous avons modifié un système d’annotations de domaines protéiques qui a été développé au sein du Laboratoire de Biologie Computationnelle et Quantitative appelé CLADE (CLoser sequences for Annotations Directed by Evolution) [17]. En général les méthodes pour l’annotation de domaines protéiques caractérisent les domaines connus avec des modèles probabilistes. Ces modèles probabilistes, appelés Sequence Consensus Models (SCMs) sont construits à partir d’un alignement des séquences homologues appartenant à différents clades phylogénétiques et ils représentent le consensus à chaque position de l’alignement. Cependant, quand les séquences qui forment l’ensemble des homologues sont très divergentes, les signaux des SCMs deviennent trop faibles pour être identifiés et donc l’annotation échoue. Afin de résoudre ce problème d’annotation de domaines très divergents, nous avons utilisé une approche fondée sur l’observation que beaucoup de contraintes fonctionnelles et structurelles d’une protéine ne sont pas globalement conservées parmi toutes les espèces, mais elles peuvent être conservées localement dans des clades. L’approche consiste donc à élargir le catalogue de modèles probabilistes en créant de nouveaux modèles qui mettent l’accent sur les caractéristiques propres à chaque clade. MetaCLADE, un outil conçu dans l’objectif d’annoter avec précision des séquences issues des expériences métagénomiques et métatranscriptomiques utilise cette libraire afin de trouver des correspondances entre les modèles et une base de données de séquences métagénomiques ou métatranscriptomiques. En suite, il se sert d’une étape pré-calculée pour le filtrage des séquences qui permet de déterminer la probabilité qu’une prédiction soit considérée vraie. Cette étape pré-calculée est un processus d’apprentissage qui prend en compte la fragmentation de séquences métagénomiques pour les classer.Nous avons montré que l’approche multi source en combinaison avec une stratégie de méta apprentissage prenant en compte la fragmentation atteint une très haute performance. / Metagenomics is used to study microbial communities by the analyze of DNA extracted directly from environmental samples. It allows to establish a catalog very extended of genes present in the microbial communities. This catalog must be compared against the genes already referenced in the databases in order to find similar sequences and thus determine their function. In the course of this thesis, we have developed MetaCLADE, a new methodology that improves the detection of protein domains already referenced for metagenomic and metatranscriptomic sequences. For the development of MetaCLADE, we modified an annotation system of protein domains that has been developed within the Laboratory of Computational and Quantitative Biology clade called (closer sequences for Annotations Directed by Evolution) [17]. In general, the methods for the annotation of protein domains characterize protein domains with probabilistic models. These probabilistic models, called sequence consensus models (SCMs) are built from the alignment of homolog sequences belonging to different phylogenetic clades and they represent the consensus at each position of the alignment. However, when the sequences that form the homolog set are very divergent, the signals of the SCMs become too weak to be identified and therefore the annotation fails. In order to solve this problem of annotation of very divergent domains, we used an approach based on the observation that many of the functional and structural constraints in a protein are not broadly conserved among all species, but they can be found locally in the clades. The approach is therefore to expand the catalog of probabilistic models by creating new models that focus on the specific characteristics of each clade. MetaCLADE, a tool designed with the objective of annotate with precision sequences coming from metagenomics and metatranscriptomics studies uses this library in order to find matches between the models and a database of metagenomic or metatranscriptomic sequences. Then, it uses a pre-computed step for the filtering of the sequences which determine the probability that a prediction is a true hit. This pre-calculated step is a learning process that takes into account the fragmentation of metagenomic sequences to classify them. We have shown that the approach multi source in combination with a strategy of meta-learning taking into account the fragmentation outperforms current methods.
|
568 |
Adaptation des méthodes d’apprentissage aux U-statistiques / Adapting machine learning methods to U-statisticsColin, Igor 24 November 2016 (has links)
L’explosion récente des volumes de données disponibles a fait de la complexité algorithmique un élément central des méthodes d’apprentissage automatique. Les algorithmes d’optimisation stochastique ainsi que les méthodes distribuées et décentralisées ont été largement développés durant les dix dernières années. Ces méthodes ont permis de faciliter le passage à l’échelle pour optimiser des risques empiriques dont la formulation est séparable en les observations associées. Pourtant, dans de nombreux problèmes d’apprentissage statistique, l’estimation précise du risque s’effectue à l’aide de U-statistiques, des fonctions des données prenant la forme de moyennes sur des d-uplets. Nous nous intéressons tout d’abord au problème de l’échantillonnage pour la minimisation du risque empirique. Nous montrons que le risque peut être remplacé par un estimateur de Monte-Carlo, intitulé U-statistique incomplète, basé sur seulement O(n) termes et permettant de conserver un taux d’apprentissage du même ordre. Nous établissons des bornes sur l’erreur d’approximation du U-processus et les simulations numériques mettent en évidence l’avantage d’une telle technique d’échantillonnage. Nous portons par la suite notre attention sur l’estimation décentralisée, où les observations sont désormais distribuées sur un réseau connexe. Nous élaborons des algorithmes dits gossip, dans des cadres synchrones et asynchrones, qui diffusent les observations tout en maintenant des estimateurs locaux de la U-statistique à estimer. Nous démontrons la convergence de ces algorithmes avec des dépendances explicites en les données et la topologie du réseau. Enfin, nous traitons de l’optimisation décentralisée de fonctions dépendant de paires d’observations. De même que pour l’estimation, nos méthodes sont basées sur la concomitance de la propagation des observations et l’optimisation local du risque. Notre analyse théorique souligne que ces méthodes conservent une vitesse de convergence du même ordre que dans le cas centralisé. Les expériences numériques confirment l’intérêt pratique de notre approche. / With the increasing availability of large amounts of data, computational complexity has become a keystone of many machine learning algorithms. Stochastic optimization algorithms and distributed/decentralized methods have been widely studied over the last decade and provide increased scalability for optimizing an empirical risk that is separable in the data sample. Yet, in a wide range of statistical learning problems, the risk is accurately estimated by U-statistics, i.e., functionals of the training data with low variance that take the form of averages over d-tuples. We first tackle the problem of sampling for the empirical risk minimization problem. We show that empirical risks can be replaced by drastically computationally simpler Monte-Carlo estimates based on O(n) terms only, usually referred to as incomplete U-statistics, without damaging the learning rate. We establish uniform deviation results and numerical examples show that such approach surpasses more naive subsampling techniques. We then focus on the decentralized estimation topic, where the data sample is distributed over a connected network. We introduce new synchronous and asynchronous randomized gossip algorithms which simultaneously propagate data across the network and maintain local estimates of the U-statistic of interest. We establish convergence rate bounds with explicit data and network dependent terms. Finally, we deal with the decentralized optimization of functions that depend on pairs of observations. Similarly to the estimation case, we introduce a method based on concurrent local updates and data propagation. Our theoretical analysis reveals that the proposed algorithms preserve the convergence rate of centralized dual averaging up to an additive bias term. Our simulations illustrate the practical interest of our approach.
|
569 |
Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes / Online learning by ensemble agregation : application to meteorological prediction with uncertaintiesBaudin, Paul 26 November 2015 (has links)
Dans cette thèse, nous nous intéressons à des problèmes de prévision tour après tour. L'objectif est d'imaginer et d'appliquer des stratégies automatiques, qui tirent de l'expérience du passé et s'aident éventuellement de prédicteurs élémentaires. Nous souhaitons que ces stratégies obtiennent des garanties mathématiques robustes et soient valables dans des cas de figure très généraux. Cela nous permet en pratique d'appliquer les algorithmes qui en découlent à la prévision concrète de grandeurs météorologiques. Enfin, nous nous intéressons aux déclinaisons théoriques et pratiques dans un cadre de prévision de fonctions de répartition. Nous étudions dans un premier temps la prévision séquentielle de processus bornés stationnaires ergodiques. Dans ce but, nous nous plaçons dans le cadre des suites individuelles et proposons un arbre de régression déterministe dont les prévisions sont asymptotiquement meilleures que le meilleur prédicteur lipschitzien pour une certaine constante L. Puis nous montrons que les bornes de regret obtenues impliquent que les stratégies envisagées sont asymptotiquement optimales par rapport à la classe des processus stationnaire ergodique bornés. Dans un second temps, nous présentons une méthode d'agrégation séquentielle des simulations météorologiques de pression réduite au niveau de la mer. L'objectif est d'obtenir, grâce à l'algorithme ridge, de meilleures performances en prévision qu'une certaine prévision de référence, à préciser. Tout d'abord, nous rappelons le cadre mathématique et les fondamentaux des sciences environnementales. Puis nous décrivons en détail les jeux de données utilisés et les performances pratiques de l'algorithme. Enfin, nous précisons certains aspects du jeu de données et certaines sensibilités aux paramètres l'algorithme ridge. Puis, nous déclinons la méthode précédente à l'étude d'une seconde grandeur physique : la norme de la vitesse du vent à dix mètres au-dessus du sol. Plusieurs remarques d'ordre physique sont faites au passage concernant ce jeu de données. Dans le dernier chapitre, nous présentons les enjeux et les outils de la prévision probabiliste avant de mettre en pratique deux algorithmes sur les jeux de données décrits précédemment. La première partie motive l'utilisation de prévisions probabilistes et expose l'état de l'art dans ce domaine et la seconde partie présente des scores probabilistes historiques et populaires. Les algorithmes utilisés sont ensuite décrits dans la troisième partie avant que ne soient détaillés les résultats empiriques de ceux-ci sur les jeux de données de pression réduite au niveau de la mer et de norme de la vitesse du vent. / In this thesis, we study sequential prediction problems. The goal is to devise and apply automatic strategy, learning from the past, with potential help from basis predictors. We desire these strategies to have strong mathematical guarantees and to be valid in the most general cases. This enables us to apply the algorithms deriving from the strategies to meteorological data predictions. Finally, we are interested in theoretical and practical versions of this sequential prediction framework to cumulative density function prediction. Firstly, we study online prediction of bounded stationary ergodic processes. To do so, we consider the setting of prediction of individual sequences and propose a deterministic regression tree that performs asymptotically as well as the best L-Lipschitz predictor. Then, we show why the obtained regret bound entails the asymptotical optimality with respect to the class of bounded stationary ergodic processes. Secondly, we propose a specific sequential aggregation method of meteorological simulation of mean sea level pressure. The aim is to obtain, with a ridge regression algorithm, better prediction performance than a reference prediction, belonging to the constant linear prediction of basis predictors. We begin by recalling the mathematical framework and basic notions of environmental science. Then, the used datasets and practical performance of strategies are studied, as well as the sensitivity of the algorithm to parameter tuning. We then transpose the former method to another meteorological variable: the wind speed 10 meter above ground. This study shows that the wind speed exhibits different behaviors on a macro level. In the last chapter, we present the tools used in a probabilistic prediction framework and underline their merits. First, we explain the relevancy of probabilistic prediction and expose this domain's state of the art. We carry on with an historical approach of popular probabilistic scores. The used algorithms are then thoroughly described before the descriptions of their empirical results on the mean sea level pressure and wind speed.
|
570 |
Standardization of textual data for comprehensive job market analysis / Normalisation textuelle pour une analyse exhaustive du marché de l'emploiMalherbe, Emmanuel 18 November 2016 (has links)
Sachant qu'une grande partie des offres d'emplois et des profils candidats est en ligne, le e-recrutement constitue un riche objet d'étude. Ces documents sont des textes non structurés, et le grand nombre ainsi que l'hétérogénéité des sites de recrutement implique une profusion de vocabulaires et nomenclatures. Avec l'objectif de manipuler plus aisément ces données, Multiposting, une entreprise française spécialisée dans les outils de e-recrutement, a soutenu cette thèse, notamment en terme de données, en fournissant des millions de CV numériques et offres d'emplois agrégées de sources publiques.Une difficulté lors de la manipulation de telles données est d'en déduire les concepts sous-jacents, les concepts derrière les mots n'étant compréhensibles que des humains. Déduire de tels attributs structurés à partir de donnée textuelle brute est le problème abordé dans cette thèse, sous le nom de normalisation. Avec l'objectif d'un traitement unifié, la normalisation doit fournir des valeurs dans une nomenclature, de sorte que les attributs résultants forment une représentation structurée unique de l'information. Ce traitement traduit donc chaque document en un language commun, ce qui permet d'agréger l'ensemble des données dans un format exploitable et compréhensible. Plusieurs questions sont cependant soulevées: peut-on exploiter les structures locales des sites web dans l'objectif d'une normalisation finale unifiée? Quelle structure de nomenclature est la plus adaptée à la normalisation, et comment l'exploiter? Est-il possible de construire automatiquement une telle nomenclature de zéro, ou de normaliser sans en avoir une?Pour illustrer le problème de la normalisation, nous allons étudier par exemple la déduction des compétences ou de la catégorie professionelle d'une offre d'emploi, ou encore du niveau d'étude d'un profil de candidat. Un défi du e-recrutement est que les concepts évoluent continuellement, de sorte que la normalisation se doit de suivre les tendances du marché. A la lumière de cela, nous allons proposer un ensemble de modèles d'apprentissage statistique nécessitant le minimum de supervision et facilement adaptables à l'évolution des nomenclatures. Les questions posées ont trouvé des solutions dans le raisonnement à partir de cas, le learning-to-rank semi-supervisé, les modèles à variable latente, ainsi qu'en bénéficiant de l'Open Data et des médias sociaux. Les différents modèles proposés ont été expérimentés sur des données réelles, avant d'être implémentés industriellement. La normalisation résultante est au coeur de SmartSearch, un projet qui fournit une analyse exhaustive du marché de l'emploi. / With so many job adverts and candidate profiles available online, the e-recruitment constitutes a rich object of study. All this information is however textual data, which from a computational point of view is unstructured. The large number and heterogeneity of recruitment websites also means that there is a lot of vocabularies and nomenclatures. One of the difficulties when dealing with this type of raw textual data is being able to grasp the concepts contained in it, which is the problem of standardization that is tackled in this thesis. The aim of standardization is to create a unified process providing values in a nomenclature. A nomenclature is by definition a finite set of meaningful concepts, which means that the attributes resulting from standardization are a structured representation of the information. Several questions are however raised: Are the websites' structured data usable for a unified standardization? What structure of nomenclature is the best suited for standardization, and how to leverage it? Is it possible to automatically build such a nomenclature from scratch, or to manage the standardization process without one? To illustrate the various obstacles of standardization, the examples we are going to study include the inference of the skills or the category of a job advert, or the level of training of a candidate profile. One of the challenges of e-recruitment is that the concepts are continuously evolving, which means that the standardization must be up-to-date with job market trends. In light of this, we will propose a set of machine learning models that require minimal supervision and can easily adapt to the evolution of the nomenclatures. The questions raised found partial answers using Case Based Reasoning, semi-supervised Learning-to-Rank, latent variable models, and leveraging the evolving sources of the semantic web and social media. The different models proposed have been tested on real-world data, before being implemented in a industrial environment. The resulting standardization is at the core of SmartSearch, a project which provides a comprehensive analysis of the job market.
|
Page generated in 0.0574 seconds