Global ETD Search

651	Agrégation de modèles en apprentissage statistique pour l'estimation de la densité et la classification multiclasse / Aggregate statistical learning methods for density estimation and multiclass problems Bourel, Mathias 31 October 2013 (has links) Les méthodes d'agrégation en apprentissage statistique combinent plusieurs prédicteurs intermédiaires construits à partir du même jeu de données dans le but d'obtenir un prédicteur plus stable avec une meilleure performance. Celles-ci ont été amplement étudiées et ont données lieu à plusieurs travaux, théoriques et empiriques dans plusieurs contextes, supervisés et non supervisés. Dans ce travail nous nous intéressons dans un premier temps à l'apport de ces méthodes au problème de l'estimation de la densité. Nous proposons plusieurs estimateurs simples obtenus comme combinaisons linéaires d'histogrammes. La principale différence entre ceux-ci est quant à la nature de l'aléatoire introduite à chaque étape de l'agrégation. Nous comparons ces techniques à d'autres approches similaires et aux estimateurs classiques sur un choix varié de modèles, et nous démontrons les propriétés asymptotiques pour un de ces algorithmes (Random Averaged Shifted Histogram). Une seconde partie est consacrée aux extensions du Boosting pour le cas multiclasse. Nous proposons un nouvel algorithme (Adaboost.BG) qui fournit un classifieur final en se basant sur un calcul d'erreur qui prend en compte la marge individuelle de chaque modèle introduit dans l'agrégation. Nous comparons cette méthode à d'autres algorithmes sur plusieurs jeu de données artificiels classiques. / Ensemble methods in statistical learning combine several base learners built from the same data set in order to obtain a more stable predictor with better performance. Such methods have been extensively studied in the supervised context for regression and classification. In this work we consider the extension of these approaches to density estimation. We suggest several new algorithms in the same spirit as bagging and boosting. We show the efficiency of combined density estimators by extensive simulations. We give also the theoretical results for one of our algorithms (Random Averaged Shifted Histogram) by mean of asymptotical convergence under milmd conditions. A second part is devoted to the extensions of the Boosting algorithms for the multiclass case. We propose a new algorithm (Adaboost.BG) accounting for the margin of the base classifiers and show its efficiency by simulations and comparing it to the most used methods in this context on several datasets from the machine learning benchmark. Partial theoretical results are given for our algorithm, such as the exponential decrease of the learning set misclassification error to zero. Apprentissage Statistique Agrégation Bagging Boosting Histogramm Estimation de la densité Machine Learning Agregation Bagging Boosting Histogram Density estimation 510
652	Modélisation de la susceptibilité génétique non observée d’un individu à partir de son histoire familiale de cancer : application aux études d'identification pangénomiques et à l'estimation du risque de cancer dans le syndrome de Lynch / Modeling the unobserved genetic susceptibility of an individual from his family history of cancer : applications to genome-wide identification studies and to the cancer risk estimation in Lynch syndrome Drouet, Youenn 09 October 2012 (has links) Le syndrome de Lynch est responsable d’environ 5% des cas de cancer colorectaux (CCR). Il correspond à la transmission d’une mutation,variation génétique rare, qui confère un haut risque de CCR. Une telle mutationn’est cependant identifiée que dans une famille sur deux. Dans lesfamilles sans mutation identifiée, dites négatives, le risque de CCR est malconnu en particulier les estimations individuelles du risque. Cette thèse comportedeux objectifs principaux. Obj. 1- étudier les stratégies capables de réduireles tailles d’échantillon dans les études visant à identifier de nouveauxgènes de susceptibilité ; et Obj. 2- définir un cadre théorique permettantd’estimer des risques individualisés de CCR dans les familles négatives, enutilisant l’histoire familiale et personnelle de CCR de l’individu. Notre travails’appuie sur la théorie des modèles mendéliens et la simulation de donnéesfamiliales, à partir desquelles il est possible d’étudier la puissance d’étudesd’identification, et d’évaluer in silico les qualités prédictives de méthodesd’estimation du risque. Les résultats obtenus apportent des connaissancesnouvelles pour la planification d’études futures. D’autre part, la cadre méthodologiqueque nous proposons permet une estimation plus précise durisque individuel, permettant d’envisager une surveillance plus individualisée. / Lynch syndrome is responsible of about 5% of cases of colorectal cancer (CRC). It corresponds to the transmission of a mutation, which is arare genetic variant, that confers a high risk of CRC. Such a mutation isidentified, however, in only one family of two. In families without identifiedmutation, called negative, the risk of CRC is largely unknown in particularthere is a lack of individualized risk estimates. This thesis has two main objectives.Obj. 1 - to explore strategies that could reduce the required samplesizes of identification studies, and Obj. 2 - to define a theoretical frameworkfor estimating individualized risk of CRC in negative families, using personaland family history of CRC of the individuals. Our work is based on thetheory of Mendelian models and the simulation of family data, from whichit is possible to study the power of identification studies as well as to assessand compare in silico the predictive ability of risk estimation methods. Theresults provide new knowledge for designing future studies, and the methodologicalframework we propose allows a more precise estimate of risk, thatmight lead to a more individualized cancer follow-up. Modélisation Inférence bayésienne Données familiales Statistique en génétique Cancer colorectal Modeling Bayesian inference Family Data Statistics in genetics Colorectal Cancer 570.15
653	On-demand Development of Statistical Machine Translation Systems / Développement à la demande des systèmes de traduction automatique statistiques Gong, Li 25 November 2014 (has links) La traduction automatique statistique produit des résultats qui en font un choix privilégié dans la plupart des scénarios de traduction assistée par ordinateur.Cependant, le développement de ces systèmes de haute performance implique des traitements très coûteux sur des données à grande échelle. De nouvelles données sont continuellement disponibles,alors que les systèmes construits de manière standard sont statiques, ce qui rend l'utilisation de nouvelles données couteuse car les systèmes sont typiquement reconstruits en intégralité.En outre, le processus d'adaptation des systèmes de traduction est généralement fondé sur un corpus de développement et est effectué une fois pour toutes. Dans cette thèse, nous proposons un cadre informatique pour répondre à ces trois problèmes conjointement. Ce cadre permet de développer des systèmes de traduction à la demande avec des mises à jour incrémentales et permet d’adapter les systèmes construits à chaque nouveau texte à traduire.La première contribution importante de cette thèse concerne une nouvelle méthode d'alignement sous-phrastique qui peut aligner des paires de phrases en isolation. Cette propriété permet aux systèmes de traduction de calculer des informations à la demande afin d'intégrer de façon transparente de nouvelles données disponibles sans re-entraînement complet des systèmes.La deuxième contribution importante de cette thèse est de proposer l'intégration de stratégies d'échantillonnage contextuel pour sélectionner des exemples de traduction à partir de corpus à grande échelle sur la base de leur similarité avec le texte à traduire afin d obtenir des tables de traduction adaptées / Statistical Machine Translation (SMT) produces results that make it apreferred choice in most machine-assisted translation scenarios.However,the development of such high-performance systems involves thecostly processing of very large-scale data. New data are constantly madeavailable while the constructed SMT systems are usually static, so thatincorporating new data into existing SMT systems imposes systemdevelopers to re-train systems from scratch. In addition, the adaptationprocess of SMT systems is typically based on some available held-outdevelopment set and is performed once and for all.In this thesis, wepropose an on-demand framework that tackles the 3 above problemsjointly, to enable to develop SMT systems on a per-need with incremental updates and to adapt existing systems to each individual input text.The first main contribution of this thesis is devoted to a new on-demandword alignment method that aligns training sentence pairs in isolation.This property allows SMT systems to compute information on a per-needbasis and to seamlessly incorporate new available data into an exiting SMT system without re-training the whole systems. The second maincontribution of this thesis is the integration of contextual sampling strategies to select translation examples from large-scale corpora that are similar to the input text so as to build adapted phrase tables Traduction automatique statistique Alignement incrémental Échantillonnage contextuel Développement à la demande Statistical machine translation Incremental word alignment Contextual sampling On-demand development
654	Statistique d’extrêmes de variables aléatoires fortement corrélées / Extreme value statistics of strongly correlated random variables Perret, Anthony 22 June 2015 (has links) La statistique des valeurs extrêmes est une question majeure dans divers contextes scientifiques. Cependant, bien que la description de la statistique d'un extremum global soit certainement une caractéristique importante, celle-ci ne se concentre que sur une seule variable parmi un grand nombre de variables aléatoires. Une question naturelle qui se pose alors est la suivante: ces valeurs extrêmes sont-elles isolées, loin des autres variables ou bien au contraire existe-t-il un grand nombre d'autres variables proches de ces valeurs extrêmes ? Ces questions ont suscité l'étude de la densité d'état de ces événements quasi-extrêmes. Il existe pour cette quantité peu de résultats pour des variables fortement corrélées, qui est pourtant le cas rencontré dans de nombreux modèles fondamentaux. Deux pistes de modèles physiques de variables fortement corrélées pouvant être étudiés analytiquement se démarquent alors: les positions d’une marche aléatoire et les valeurs propres de matrice aléatoire. Cette thèse est ainsi consacrée à l’étude de statistique d’extrêmes pour ces deux modèles de variables fortement corrélées. Dans une première partie, j’étudie le cas où la collection de variables aléatoires est la position au cours du temps d’un mouvement brownien, qui peut être contraint à être périodique, positif... Ce mouvement brownien est vu comme la limite d’un marcheur aléatoire classique après un grand nombre de pas. Il est alors possible d’interprèter ce problème comme celui d’une particule quantique dans un potentiel ce qui permet d’utiliser des méthodes puissantes issues de la mécanique quantique comme l’utilisation de propagateurs et de l’intégrale de chemin. Ces outils permettent de calculer la densité moyenne à partir du maximum pour les différents mouvements browniens contraints et même la distribution complète de cette quantité pour certains cas. Il est également possible de généraliser cette démarche à l’étude de plusieurs marches aléatoires indépendantes ou avec interaction. Cette démarche permet également d’effectuer une étude temporelle, ainsi que de généraliser à l’étude d’autres fonctionnelle du maximum. Dans la seconde partie, j’étudie le cas où la collection de variables aléatoires est composée des valeurs propres d’une matrice aléatoire. Ce travail se concentre sur l’études des matrices des ensembles gaussiens (GOE, GUE et GSE) ainsi qu’à l’étude des matrices de Wishart. L’étude du voisinage de la valeur propre maximale pour ces deux modèles est faite en utilisant une méthode fondée sur les propriétés des polynômes orthogonaux. Dans le cas des matrices gaussiennes unitaires GUE, j’ai obtenu une formule analytique pour la distribution à partir du maximum ainsi qu’une nouvelle expression de la statistique du gap entre les deux plus grandes valeurs propres en termes d’une fonction transcendante de Painlevé. Ces résultats, et plus particulièrement leurs généralisations aux cas GOE, sont alors appliqués à un modèle de verre de spin sphérique en champs moyen. Dans le cas des matrices de Wishart, l’analyse des polynômes orthogonaux dans le régime de double échelle m’a permis de retrouver les différentes statistiques de la valeur propre minimale et également de prouver une conjecture sur la première correction de taille finie pour des grandes matrices de la distribution de la valeur propre minimale dans la limite dite de «hard edge». / Extreme value statistics plays a keyrole in various scientific contexts. Although the description of the statistics of a global extremum is certainly an important feature, it focuses on the fluctuations of a single variable among many others. A natural question that arises is then the following: is this extreme value lonely at the top or, on the contrary, are there many other variables close to it ? A natural and useful quantity to characterize the crowding is the density of states near extremes. For this quantity, there exist very few exact results for strongly correlated variables, which is however the case encountered in many situations. Two physical models of strongly correlated variables have attracted much attention because they can be studied analytically : the positions of a random walker and the eigenvalues of a random matrix. This thesis is devoted to the study of the statistics near the maximum of these two ensembles of strongly correlated variables. In the first part, I study the case where the collection of random variables is the position of a Brownian motion, which may be constrained to be periodic or positive. This Brownian motion is seen as the limit of a classical random walker after a large number of steps. It is then possible to interpret this problem as a quantum particle in a potential which allows us to use powerful methods from quantum mechanics as propagators and path integral. These tools are used to calculate the average density from the maximum for different constrained Brownian motions and the complete distribution of this observable in certain cases. It is also possible to generalize this approach to the study of several random walks, independent or with interaction, as well as to the study of other functional of the maximum. In the second part, I study the case of the eigenvalues of random matrices, belonging to both Gaussian and Wishart ensembles. The study near the maximal eigenvalues for both models is performed using a method based on semi-classical orthogonal polynomials. In the case of Gaussian unitary matrices, I have obtained an analytical formula for the density near the maximum as well as a new expression for the distribution of the gap between the two largest eigenvalues. These results, and in particular their generalizations to different Gaussian ensembles, are then applied to the relaxational dynamics of a mean-field spin glass model. Finally, for the case of Wishart matrices I proposed a new derivation of the distribution of the smallest eigenvalue using orthogonal polynomials. In addition, I proved a conjecture on the first finite size correction of this distribution in the «hard edge» limit. Statistique d’extrêmes Mouvement brownien Intégrales de chemin Matrices aléatoires Polynômes orthogonaux Extreme statistics Brownian motion Path integral Random matrices Orthogonal polynomials
655	Systèmes de transport multivoies : application au trafic piétonnier / Multilane transport systems : application to pedestrian traffic Cividini, Julien 27 June 2014 (has links) Dans cette thèse on étudie certaines applications de modèles simples de la physique théorique au trafic piétonnier. Ces modèles sont tous des automates cellulaires, plus précisément des processus d'exclusion. Dans la première partie de le thèse on étudie un système unidimensionnel, le processus d'exclusion simple totalement symétrique (TASEP), un modèle paradigmatique de particules qui sautent dans une direction favorisée sur un réseau. Le TASEP peut être utilisé pour modéliser de nombreux phénomènes de transport, et ici on l'étudie avec des schémas de mise à jour adaptés aux piétons. Le “frozen shuffle update”, schéma plutôt régulier, est défini et ses propriétés principales sont déterminées exactement sur un anneau, avec conditions aux bords ouvertes et pour deux voies qui se croisent en un seul site. Une théorie du domain wall (mur séparant des domaines) exacte au niveau microscopique est alors construite pour un TASEP avec mise a jour parallèle. On montre que cette dernière est en désaccord avec les prédictions précédentes et que la différence vient de corrélations à courte portée qui sont habituellement négligées pour les schémas de mise à jour présentant des fluctuations plus importantes. Dans la seconde partie on combine plusieurs TASEP afin de former un croisement à deux dimensions comprenant deux flux de particules qui s'intersectent perpendiculairement. Sur un tore on observe une alternance de diagonales de particules de chaque type qu'on voit aussi chez les vrais piétons. Cette structure est alors expliquée par une analyse de stabilité linéaire d'équations type champ moyen. Avec des conditions aux bords ouvertes les diagonales s'inclinent légèrement, donnant naissance à “l'effet chevron”, qu'on observe aussi bien pour les particules que pour les équations. L'effet chevron est fondamentalement nonlinéaire, mais peut tout de même être expliqué par des calculs d'interactions effectives entre les particules, de manière similaire à ce qui est fait en mécanique des fluides. Pour finir, quelques généralisations naturelles sont rapidement étudiées numériquement pour tester l'applicabilité du modèle aux piétons et la possibilité de mesurer l'effet chevron dans des expériences. / In this thesis we study pedestrian traffic applications of simple models from theoretical physics. These models all belong to the realm of cellular automata, more precisely they are exclusion processes. In the first part of the thesis we study the one-dimensional Totally Asymmetric Simple Exclusion Process (TASEP), a paradigmatic model of particles hopping in a preferred direction in a one-dimensional lattice. While the TASEP can be used to model various transport phenomena, in this thesis we study the TASEP with updating schemes adapted to pedestrians. The rather regular 'frozen shuffle update' is introduced and its main properties are determined exactly on a ring, with open boundaries and for a crossing of two lanes on a single site. A microscopically exact domain wall theory is then constructed for the TASEP with parallel update and shown to disagree with already existing predictions, the discrepancy being shown to come from short-range correlations that are usually ignored for updates with more fluctuations. In the second part several TASEP are combined to form a bidimensional crossing with two perpendicularly intersecting particle fluxes. On a torus we observe a pattern of alternating diagonals of different particle types, that is observed in real pedestrian crossings as well. The pattern is then explained by a linear stability analysis of mean-field-type equations. Taking open boundary conditions the diagonals become tilted and give rise to what is called the 'chevron effect', observed in the particle system as well as in the numerical solution of the equations. This chevron effect is fundamentally nonlinear, but can nevertheless be explained in terms of fluid-mechanics-like effective interactions between particles. Eventually, some natural generalizations are briefly studied numerically to question the applicability of the model to pedestrians and the possibility of measuring the chevron effect in experiments. Trafic piétonnier Physique statistique hors d'équilibre TASEP Formation de structures Pedestrian traffic Statistical physics out-of-equilibrium TASEP Pattern formation
656	Os serviços estatísticos em Minas Gerais na produção, classificação e consolidação da instrução pública primária (1871-1931). / Les services statistiques dans Minas Gerais dans la production, le classement et la consolidation de l\'instruction publique primaire (1871- 1931). Machado, Sandra Maria Caldeira 05 May 2008 (has links) Esta dissertação tem como objeto de estudo a instituição dos serviços de estatística, especialmente os educacionais, como formas de organização das categorias educacionais e escolares em Minas Gerais no processo de consolidação do Estado moderno brasileiro entre os anos de 1871 a 1931. Investigamos as relações estabelecidas entre a constituição de um aparato burocrático de recolha e sistematização de dados estatísticos e educacionais e o ordenamento da escolarização mineira no sentido de constituir categorias educacionais e escolares nos recenseamentos e nos registros escolares de 1871 a 1931. Para isso, foi importante investigar de que modo a estatística nacional, especialmente com os recenseamentos, contribuiu para a instituição e legitimação do Estado e da educação, em um duplo movimento. O limite temporal investigado inicia-se em 1871, ano em que foram dadas as bases para a criação da Diretoria Geral de Estatística na Corte na tentativa de instituir um sistema federal de estatística, e finaliza em 1931, ano da realização do Convênio Interadministrativo de Estatísticas Educacionais e Conexas, que estabeleceu as referências para a homogeneização das estatísticas educacionais brasileiras. Procedeu-se inicialmente, à discussão sobre as iniciativas em âmbito federal de organização das estatísticas, especialmente as censitárias, no sentido de compreender as questões educacionais inquiridas pelos recenseamentos de 1872 a 1920. Com isto, foi possível estabelecer as conexões entre a criação do Instituto Brasileiro de Geografia e Estatística e a relevância da educação nesse processo. Além disso, identificamos as relações entre as iniciativas nacionais e as realizações regionais ocorridas em Minas Gerais no que diz respeito às tentativas de ordenação de um sistema estatístico. Nesse processo, identificamos a organização do aparelho de estatística mineiro e a produção dos registros estatísticos escolares na seção de estatística escolar da secretaria do interior, de forma independente. Nos recenseamentos nacionais e nos relatórios do governo mineiro notamos que a produção e a divulgação das estatísticas educacionais e escolares contribuíram para o ordenamento do campo educacional, especialmente da instrução pública primária, pelas diversas categorias educacionais formuladas. Constatamos, ainda, que os dados escolares fizeram parte de uma estratégia de disseminação e consolidação da instrução pública mineira realizada pela sua divulgação em uma revista oficial, a Vida Escolar (1916-1926). O período pesquisado evidencia-se como um período bastante profícuo e significativo em que o pensamento contábil foi fundamental para a disseminação e consolidação do processo de escolarização em Minas Gerais. / Ce travail a eu pour but de faire une étude sur l\'institution des services de statistique, surtout ceux concernant l\'éducation, en tant que des formes d\'organisations des catégories éducationnelles et scolaires au Minas Gerais dans le processus de consolidation de l\'État moderne brésilien parmi les années 1871 et 1931. Nous avons mis l\'accent sur les rélations établies entre la constitution d\'un appareil burocratique de récueil et sistematisation des données statistiques et éducationnelles ansi que sur la mise en ordre de la scolarisation mineira dans le sens de construire des catégories éducationnelles et scolaires dans les recensements et les enregistrements scolaires parmi les années 1871 et 1931. Pour cela il a été important d\'étudier la façon dont la statistique nationale, surtout avec les recensements, a-t-elle contribué à l\'institution et légitimation de l\'État et de l\'éducation dans un double mouvement. La limite temporelle qui compose la recherche a pour point de départ l\'année de 1871 - période où on a donné les bases pour la création de la Diretoria Geral de Estatística à la Cour, en quête d\'instituer un système fédéral de statistique - et finit en 1931, l\'année de constitution du Convênio Interadministrativo de Estatísticas Educacionais e Conexas, qui a établi les références pour l\'homogénéisation des statistiques éducationnelles brésiliennes. Nous avons commencé par la discussion à propos des initiatives d\'ampleur nationale d\'organisation des statistiques, surtout celles touchant les recensements, dans le sens de comprendre les questions éducationnelles y posées de 1872 a 1920. Avec cela il a été possible d\'établir les liaisons entre la création de l\'Instituto Brasileiro de Geografia e Estatística et le poids de l\'éducation dans ce processus. En outre, nous avons identifié les rélations entre les initiatives nationales et celles régionales mises au point au Minas à propos de la construction d\'um système statistique. Dans ce processus nous avons identifié l\'organisation de l\'appareil de statistique mineiro et la production des enregistrements statistiques scolaires dans la séction de statistique scolaire de la secretaria do interior d\'une façon indépendante. Dans les recensements nationaux et dans les rapports du gouvernement mineiro nous avons noté que la production et la divulgation des statistiques éducationnelles et scolaires ont contribué à la mise en ordre du domaine éducationnel, surtout celui de l\'instruction publique primaire à travers les plus diverses catégories éducationnelles formulées. Nous avons encore constaté que les données scolaires faisaient partie d\'une stratégie de dissémination et consolidation de l\'instruction publique mineira mise en place par le biais de sa divulgation sur un périodique official appelé Vida Escolar (1916-1926). La période étudié se montre assez révélatrice et significative dans un moment où la pensée comptable a été fondamentale pour disséminer et consolider le processus de scolarisation au Minas Gerais. Enseignement primaire Ensino primário Estatísticas educacionais Histoire de l'éducation História da educação Instrução pública Instruction publique Service de statistique Serviço de estatística Statistiques éducationnelles
657	Potentiels chimiques dans des systèmes stationnaires hors d'équilibre en contact : une approche par les grandes déviations / Chemical potentials in driven steady-state systems in contact : a large deviation approach Guioth, Jules 04 October 2018 (has links) Cette thèse porte sur la physique statistique des systèmes hors d’équilibre maintenus dans un état stationnaire. Plus spécifiquement, ce travail s’intéresse à des quantités macroscopiques conservées (le volume, la masse, etc.) qui peuvent être échangées entre plusieurs systèmes hors d’équilibre en contact. Cette mise en contact d’un ou plusieurs systèmes est une situation fondamentale en thermodynamique classique des systèmes à l’équilibre, en ce qu’elle permet de définir la notion de paramètre thermodynamique conjugué comme la température, la pression, le potentiel chimique, etc., qui dérivent d’un même potentiel thermodynamique. Dans les systèmes hors d’équilibre stationnaires, l’existence de tels paramètres conjugués dérivant d’un potentiel thermodynamique (énergie libre) demeure une question ouverte. En se focalisant sur la situation du contact entre deux systèmes stochastiques hors d’équilibre quelconques de particules sur réseau dans des états homogènes, nous montrons l’existence d’une fonction de grande déviation attachée aux densités globales des deux systèmes, lorsque la fréquence d’échange de particules entre ces derniers est faible. Cette fonction de grandes déviations hors d'équilibre, analogue de l’énergie libre, vérifie une équation dite de Hamilton-Jacobi. Nous identifions les conditions naturelles pour lesquelles la fonction de grandes déviations est additive, menant ainsi à la définition de potentiels chimiques hors-équilibre. Néanmoins, nous montrons que ceux-ci dépendent de façon générique de la dynamique au contact et ne vérifient donc pas d’équation d’état. En l’absence de bilan détaillé macroscopique, l’équation de Hamilton-Jacobi est beaucoup plus difficile à résoudre. Une analyse perturbative par rapport aux forçages hors-équilibres permet de se convaincre que l’additivité est génériquement brisée dès les premiers ordres de perturbation en l’absence de bilan détaillé. Au-delà de la propriété d’additivité, cette fonction de grandes déviations peut être liée dans un certain nombre de cas au travail exercé par un potentiel extérieur à travers une relation de type second principe de la thermodynamique. Nous discutons également différentes façons d’y avoir accès expérimentalement.Fort de cette analyse théorique générale, nous illustrons celle-ci sur des systèmes stochastiques sur réseau classiques (Zero Range Process et Driven Lattice Gases) ainsi que sur un modèle de transport de masse original, exactement soluble. Nous appliquons également notre analyse sur des systèmes de particules auto-propulsées indépendantes. Dans chaque cas, l’importance du contact est alors pleinement révélée, en accord avec la littérature récente, que ce soit au niveau de la dynamique elle-même ou de la position de ce dernier vis-à-vis des systèmes. / This thesis deals with the statistical physics of out-of-equilibrium systems maintained in a steady state. More specifically, this work focuses on macroscopic conserved quantities (volume, mass, etc.) that can be exchanged between several out-of-equilibrium systems brought into contact. The contact between two systems is a fundamental situation in classical thermodynamics of equilibrium systems, since it allows one to define the notion of intensive thermodynamic parameter such as temperature, pressure, chemical potential, etc., derived from the same thermodynamic potential. For non-equilibrium steady state systems, the general existence of such intensive parameters remains an open issue. By focusing on the contact situation between two out-of-equilibrium stochastic systems on lattice in homogeneous states, we show the existence of a large deviation function attached to the overall densities of both systems, when the frequency of particle exchange between them is low. This large deviations function, analogous to a free energy, satisfies a so-called Hamilton-Jacobi equation. We identify the natural conditions for which the large deviation function is additive, leading to the definition of non-equilibrium chemical potentials. Nevertheless, we show that the latter generically depends on the contact dynamics and therefore do not obey any equation of state. In the absence of a macroscopic detailed balance, the Hamilton-Jacobi equation is much more difficult to solve. A perturbative analysis with respect to the driving forces allows one to show that additivity is generically broken. Beyond this additivity property, this large deviations function can – under certain assumptions – be related to the work applied by an external potential through a generalisation of the second law. We also discuss different ways to get access experimentally to this out-of-equilibrium free energy.Based on this general theoretical analysis, we eventually provide several illustrations on standard stochastic lattice models (Zero Range Process and Driven Lattice gases in particular) as well as a detailed analysis of an original, exactly solvable, mass transport model. Standard models of independent self-propelled particles are also discussed. The importance of the contact is eventually fully revealed, in agreement with recent literature, either in terms of the dynamics at contact itself or because of its position with respect to both systems. Physique statistique hors équilibre Grandes déviations Potentiel chimique Out of equilibrium statistical physics Large deviations Chemical potential 530
658	Apprentissage multi-cibles : théorie et applications / Multi-output learning : theory and applications. Moura, Simon 17 December 2018 (has links) Cette thèse traite du problème de l'apprentissage automatique supervisé dans le cas ou l'on considère plusieurs sorties, potentiellement de différent types. Nous proposons d'explorer trois différents axes de recherche en rapport avec ce sujet. Dans un premier temps, nous nous concentrons sur le cas homogène et proposons un cadre théorique pour étudier la consistance des problèmes multi-labels dans le cas de l'utilisation de chaîne de classifieurs. Ensuite, en nous plaçant dans ce cadre, nous proposons une borne de Rademacher sur l'erreur de généralisation pour tous les classifieurs de la chaîne et exposons deux facteurs de dépendance reliant les sorties les unes aux autres. Dans un deuxième temps, nous développons et analysons la performance de modèles en lien avec la théorie proposée. Toujours dans le cadre de l'apprentissage avec plusieurs sorties homogènes, nous proposons un modèle basé sur des réseaux de neurones pour l'analyse de sentiments à grain fin. Enfin, nous proposons un cadre et une étude empirique qui montrent la pertinence de l'apprentissage multi-objectif dans le cas de multiples sorties hétérogènes. / In this thesis, we study the problem of learning with multiple outputs related to different tasks, such as classification and ranking. In this line of research, we explored three different axes. First we proposed a theoretical framework that can be used to show the consistency of multi-label learning in the case of classifier chains, where outputs are homogeneous. Based on this framework, we proposed Rademacher generalization error bound made by any classifier in the chain and exhibit dependency factors relating each output to the others. As a result, we introduced multiple strategies to learn classifier chains and select an order for the chain. Still focusing on the homogeneous multi-output framework, we proposed a neural network based solution for fine-grained sentiment analysis and show the efficiency of the approach. Finally, we proposed a framework and an empirical study showing the interest of learning with multiple tasks, even when the outputs are of different types. Apprentissage multi-Cibles Apprentissage statistique Apprentissage multi-Label Multi-Output learning Multi-Task learning Statisticial learning 004
659	Développement et application d'une méthode de reconstitution paléoclimatique quantitative basée sur des données polliniques fossiles en Afrique australe / Development of a new method for paleoclimat reconstruction in South Africa, from pollen analysis Truc, Loïc 20 December 2013 (has links) Idéalement située à la confluence entre climat tropical et climat tempéré, l'Afrique australe est une zone très sensible aux variations des conditions climatiques. Cette région fait cependant preuve d'un manque de données paléoclimatiques important, et les méthodes de reconstruction traditionnelles trouvent rapidement leurs limites face aux conditions particulières qui y sévissent. Les méthodes de reconstruction quantitatives communément employées se révèlent inutilisables face aux conditions d'aridité extrêmes qui ne permettent que très rarement l'accumulation et la préservation de pollen moderne et fossile et se confrontent également aux particularités de la végétation abritée par cette région. L'objectif de ces travaux de thèse vise à développer une méthode de reconstruction quantitative basée sur des données polliniques fossiles, à partir de la relation entre la distribution actuelle des taxons polliniques et le climat en Afrique australe. Nous avons développé une fonction de transfert utilisant les propriétés des fonctions de densité de probabilité (pdfs), permettant de transformer l'information contenue dans un assemblage pollinique en estimation quantitative du climat. En parallèle, cette étude a permis de développer une méthode permettant de sélectionner les espèces les plus probables à inclure dans chaque type pollinique qui compose un assemblage. Cette méthode de sélection des espèces (SSM) a permis de pallier la faible résolution taxonomique des données polliniques de cette région caractérisée par une biodiversité élevée et d'affiner la méthode des espèces indicatrices, afin de la rendre utilisable en Afrique australe. Cette méthodologie a été appliquée aux données polliniques du site de Wonderkrater (Afrique du Sud). Les résultats observés et leur comparaison avec ceux provenant de sites régionaux ont permis de déterminer que les températures estivales et hivernales étaient 6±2°C inférieure au cours du LGM et du Younger Dryas et que les précipitations au cours de la saison humide étaient 50% moins importantes qu'actuellement. Ces résultats montrent que les SST enregistrées dans le canal du Mozambique régissent les conditions hydrologiques du continent adjacent, en opposition avec la possible implication de l'ITCZ sous ces latitudes. Les résultats indiquent également que les deux tropiques montrent des tendances climatiques similaires au cours des derniers 20 000 ans. La méthode a ensuite été appliquée à un enregistrement pollinique provenant de la région du fynbos (Afrique du Sud). Les résultats ont montré les limites de la méthode au vu de la faible amplitude de reconstruction obtenue pour les températures entre le LGM et l'Holocène (~2°C). Les résultats ont néanmoins permis de mettre en évidence que les températures montraient un pattern similaire à celui observé en Antarctique. Nous avons également pu montrer que les périodes glaciaires coïncidaient avec les périodes les plus humides, en accord avec le modèle de Cockroft (1987). Ce modèle dérive du mécanisme de migration des « westerlies » vers l'équateur au cours des périodes glaciaires, en réponse au déplacement du vortex circcum polaire. Les travaux issus de cette thèse ont montré qu'il était possible d'utiliser la distribution actuelle des plantes pour estimer les variations quantitatives des changements climatiques passés, dans la plupart des configurations botaniques et climatiques rencontrées en Afrique australe. La méthode de sélection des espèces se révèle être un outil indispensable dans cette région de haute biodiversité. Ces travaux offrent des perspectives intéressantes dans cette zone actuellement dépourvue de reconstructions climatiques quantitatives. Cependant, les résultats émanant des deux cas d'études ont mis en évidence des faiblesses et des limites méthodologiques qui devront faire l'objet d'études supplémentaires afin d'en améliorer les performances. / Located at the interface between tropical and temperate climate systems, southern Africa is a particularly sensitive region in terms of long-term climate change. However, few reliable paleoclimatic records exist from the region – largely as a result of the arid climate with precludes the preservation of wetland sequences - , and virtually no quantitative reconstructions are available.The aim of this thesis is to develop quantitative palaeoclimate reconstruction method based the relation between modern plant distributions and climate in southern Africa. We develop botanical-climatological transfer functions derived from probability density functions (pdfs), allowing for quantitative estimates of the palaeoclimatic variables to be calculated from fossil pollen assemblages. In addition, a species-selection method (SSM) based on Bayesian statistics is outlined, which provides a parsimonious choice of most likely plant species from what are otherwise taxonomically broad pollen-types. This method addresses limitations imposed by the low taxonomic resolution of pollen identification, which is particularly problematic in areas of high biodiversity such as many regions of southern Africa.This methodology has been applied to pollen record from Wonderkrater (South Africa). Results indicate that temperatures during both the warm and cold season were 6±2°C colder during the Last Glacial Maximum and Younger Dryas, and that rainy season precipitation during the Last Glacial Maximum was ~50% of that during the mid-Holocene. Our results also imply that changes in precipitation at Wonderkrater generally track changes in Mozambique Channel sea-surface temperatures, with a steady increase following the Younger Dryas to a period of maximum water availability at Wonderkrater ~3-7 ka. These findings indicate that the northern and southern tropics experienced similar climatic trends during the last 20 kyr, and highlight the role of variations in sea-surface temperatures over the more popularly perceived role of a shifting Intertropical Convergence Zone in determining long-term environmental trends.This method has also been applied to a pollen record from Pakhuis Pass, in the Fynbos Biome (South Africa). Results show the limitations of quantitative methods, with only unrealistically low amplitude being reconstructed between the Last Glacial Maximum and Holocene (~2°C). However, results indicate that the reconstructed temperature trends, if not amplitudes, are similar to trends observed in Antarctic ice core records. Further, in reconstructing past humidity, we show that over the last 18 kyr, cooler conditions appear to be generally wetter at the site. These results are consistent with Cockcroft model (1987), derived from equatorward shift of the westerlies resulting from expansions of the circum-polar vortex.This study shows the potential of using modern plant distributions to estimates past climate parameters in southern Africa, and the species selection method proves to be a useful tool in region with high biodiversity. This work provides a novel perspective in the region, where no quantitative paleoclimatic reconstructions have been available. However, results from Pakhuis Pass highlight some of the limitations of this methodology, which will be subject of future work in this promising field of inquiry. Biogéographie africaine Gradients climatiques Changements globaux Paléoenvironnements Modélisation statistique African biogeography Climate gradients Global change Palaeoenvironments Statistical modelling
660	Une analyse discursive du nom et des représentations du Hezbollah dans la presse libanaise, française et américaine (2010- 2011) / A discourse analysis of the proper name and the representations of Hezbollah in the Lebanese, French and American newspapers (2010-2011) Asmar, Pascale 13 December 2013 (has links) Nous sommes partie d’une réflexion sur l’inscription du nom propre (Npr) en discours et des changements de sens qu’il peut subir. A partir du Npr « Hezbollah », mot-pivot de cette étude, nous avons entamé l’analyse d’un corpus de presse (7 journaux libanais, français et américains) pour une période qui court de janvier 2010 (probable menace de guerre entre Israël et le Hezbollah) à janvier 2011 (la chute du gouvernement libanais). Nous avons privilégié au départ une étude quantitative, en nous appuyant sur la statistique textuelle, afin de mesurer l’importance accordée au Hezbollah en fonction des événements qui jalonnent la période (nombre et longueur des articles). En allant du mot au texte, nous avons ensuite analysé la combinatoire du mot-pivot dans son contexte proche (prédications, caractérisations) puis ses reprises en contexte élargi, afin d’étudier les différences de traitement significatives selon les pays et les lignes éditoriales des journaux. / We chose to reflect on the proper noun and the changes it undergoes in discourse. Using the keyword, “Hezbollah”, we started the analysis of a corpus of newspapers (7 Lebanese, French and American newspapers), from January 2010 (probable threat of war between Israel and Hezbollah) till January 2011 (the fall of the Lebanese government). A quantitative study, based on textual statistics, was a must in an attempt to identify the importance of Hezbollah according to main events during this period of time and the number and length of articles. While shifting from the word to the text, we the analyzed the combinations of “Hezbollah” in its immediate context (predications, adjectives), then its reformulations in the broader context, to highlight the possible differences between countries and editorial lines. Représentations sociales Nom propre Reformulation Statistique textuelle Presse écrite Social representations Proper name Reformulation Textual statistics Newspapers

Search results