Global ETD Search

131	Textual Inference for Machine Comprehension / Inférence textuelle pour la compréhension automatique Gleize, Martin 07 January 2016 (has links) Étant donnée la masse toujours croissante de texte publié, la compréhension automatique des langues naturelles est à présent l'un des principaux enjeux de l'intelligence artificielle. En langue naturelle, les faits exprimés dans le texte ne sont pas nécessairement tous explicites : le lecteur humain infère les éléments manquants grâce à ses compétences linguistiques, ses connaissances de sens commun ou sur un domaine spécifique, et son expérience. Les systèmes de Traitement Automatique des Langues (TAL) ne possèdent naturellement pas ces capacités. Incapables de combler les défauts d'information du texte, ils ne peuvent donc pas le comprendre vraiment. Cette thèse porte sur ce problème et présente notre travail sur la résolution d'inférences pour la compréhension automatique de texte. Une inférence textuelle est définie comme une relation entre deux fragments de texte : un humain lisant le premier peut raisonnablement inférer que le second est vrai. Beaucoup de tâches de TAL évaluent plus ou moins directement la capacité des systèmes à reconnaître l'inférence textuelle. Au sein de cette multiplicité de l'évaluation, les inférences elles-mêmes présentent une grande variété de types. Nous nous interrogeons sur les inférences en TAL d'un point de vue théorique et présentons deux contributions répondant à ces niveaux de diversité : une tâche abstraite contextualisée qui englobe les tâches d'inférence du TAL, et une taxonomie hiérarchique des inférences textuelles en fonction de leur difficulté. La reconnaissance automatique d'inférence textuelle repose aujourd'hui presque toujours sur un modèle d'apprentissage, entraîné à l'usage de traits linguistiques variés sur un jeu d'inférences textuelles étiquetées. Cependant, les données spécifiques aux phénomènes d'inférence complexes ne sont pour le moment pas assez abondantes pour espérer apprendre automatiquement la connaissance du monde et le raisonnement de sens commun nécessaires. Les systèmes actuels se concentrent plutôt sur l'apprentissage d'alignements entre les mots de phrases reliées sémantiquement, souvent en utilisant leur structure syntaxique. Pour étendre leur connaissance du monde, ils incluent des connaissances tirées de ressources externes, ce qui améliore souvent les performances. Mais cette connaissance est souvent ajoutée par dessus les fonctionnalités existantes, et rarement bien intégrée à la structure de la phrase.Nos principales contributions dans cette thèse répondent au problème précédent. En partant de l'hypothèse qu'un lexique plus simple devrait rendre plus facile la comparaison du sens de deux phrases, nous décrivons une méthode de récupération de passage fondée sur une expansion lexicale structurée et un dictionnaire de simplifications. Cette hypothèse est testée à nouveau dans une de nos contributions sur la reconnaissance d'implication textuelle : des paraphrases syntaxiques sont extraites du dictionnaire et appliquées récursivement sur la première phrase pour la transformer en la seconde. Nous présentons ensuite une méthode d'apprentissage par noyaux de réécriture de phrases, avec une notion de types permettant d'encoder des connaissances lexico-sémantiques. Cette approche est efficace sur trois tâches : la reconnaissance de paraphrases, d'implication textuelle, et le question-réponses. Nous résolvons son problème de passage à l'échelle dans une dernière contribution. Des tests de compréhension sont utilisés pour son évaluation, sous la forme de questions à choix multiples sur des textes courts, qui permettent de tester la résolution d'inférences en contexte. Notre système est fondé sur un algorithme efficace d'édition d'arbres, et les traits extraits des séquences d'édition sont utilisés pour construire deux classifieurs pour la validation et l'invalidation des choix de réponses. Cette approche a obtenu la deuxième place du challenge "Entrance Exams" à CLEF 2015. / With the ever-growing mass of published text, natural language understanding stands as one of the most sought-after goal of artificial intelligence. In natural language, not every fact expressed in the text is necessarily explicit: human readers naturally infer what is missing through various intuitive linguistic skills, common sense or domain-specific knowledge, and life experiences. Natural Language Processing (NLP) systems do not have these initial capabilities. Unable to draw inferences to fill the gaps in the text, they cannot truly understand it. This dissertation focuses on this problem and presents our work on the automatic resolution of textual inferences in the context of machine reading. A textual inference is simply defined as a relation between two fragments of text: a human reading the first can reasonably infer that the second is true. A lot of different NLP tasks more or less directly evaluate systems on their ability to recognize textual inference. Among this multiplicity of evaluation frameworks, inferences themselves are not one and the same and also present a wide variety of different types. We reflect on inferences for NLP from a theoretical standpoint and present two contributions addressing these levels of diversity: an abstract contextualized inference task encompassing most NLP inference-related tasks, and a novel hierchical taxonomy of textual inferences based on their difficulty.Automatically recognizing textual inference currently almost always involves a machine learning model, trained to use various linguistic features on a labeled dataset of samples of textual inference. However, specific data on complex inference phenomena is not currently abundant enough that systems can directly learn world knowledge and commonsense reasoning. Instead, systems focus on learning how to use the syntactic structure of sentences to align the words of two semantically related sentences. To extend what systems know of the world, they include external background knowledge, often improving their results. But this addition is often made on top of other features, and rarely well integrated to sentence structure. The main contributions of our thesis address the previous concern, with the aim of solving complex natural language understanding tasks. With the hypothesis that a simpler lexicon should make easier to compare the sense of two sentences, we present a passage retrieval method using structured lexical expansion backed up by a simplifying dictionary. This simplification hypothesis is tested again in a contribution on textual entailment: syntactical paraphrases are extracted from the same dictionary and repeatedly applied on the first sentence to turn it into the second. We then present a machine learning kernel-based method recognizing sentence rewritings, with a notion of types able to encode lexical-semantic knowledge. This approach is effective on three tasks: paraphrase identification, textual entailment and question answering. We address its lack of scalability while keeping most of its strengths in our last contribution. Reading comprehension tests are used for evaluation: these multiple-choice questions on short text constitute the most practical way to assess textual inference within a complete context. Our system is founded on a efficient tree edit algorithm, and the features extracted from edit sequences are used to build two classifiers for the validation and invalidation of answer candidates. This approach reaches second place at the "Entrance Exams" CLEF 2015 challenge. Inférence textuelle Réponse à des questions Implication textuelle Textual inference Natural language understanding Question answering Textual entailment
132	Bayesian statistical inference for intractable likelihood models / Inférence statistique bayésienne pour les modélisations donnant lieu à un calcul de vraisemblance impossible Raynal, Louis 10 September 2019 (has links) Dans un processus d’inférence statistique, lorsque le calcul de la fonction de vraisemblance associée aux données observées n’est pas possible, il est nécessaire de recourir à des approximations. C’est un cas que l’on rencontre très fréquemment dans certains champs d’application, notamment pour des modèles de génétique des populations. Face à cette difficulté, nous nous intéressons aux méthodes de calcul bayésien approché (ABC, Approximate Bayesian Computation) qui se basent uniquement sur la simulation de données, qui sont ensuite résumées et comparées aux données observées. Ces comparaisons nécessitent le choix judicieux d’une distance, d’un seuil de similarité et d’un ensemble de résumés statistiques pertinents et de faible dimension.Dans un contexte d’inférence de paramètres, nous proposons une approche mêlant des simulations ABC et les méthodes d’apprentissage automatique que sont les forêts aléatoires. Nous utilisons diverses stratégies pour approximer des quantités a posteriori d’intérêts sur les paramètres. Notre proposition permet d’éviter les problèmes de réglage liés à l’ABC, tout en fournissant de bons résultats ainsi que des outils d’interprétation pour les praticiens. Nous introduisons de plus des mesures d’erreurs de prédiction a posteriori (c’est-à-dire conditionnellement à la donnée observée d’intérêt) calculées grâce aux forêts. Pour des problèmes de choix de modèles, nous présentons une stratégie basée sur des groupements de modèles qui permet, en génétique des populations, de déterminer dans un scénario évolutif les évènements plus ou moins bien identifiés le constituant. Toutes ces approches sont implémentées dans la bibliothèque R abcrf. Par ailleurs, nous explorons des manières de construire des forêts aléatoires dites locales, qui prennent en compte l’observation à prédire lors de leur phase d’entraînement pour fournir une meilleure prédiction. Enfin, nous présentons deux études de cas ayant bénéficié de nos développements, portant sur la reconstruction de l’histoire évolutive de population pygmées, ainsi que de deux sous-espèces du criquet pèlerin Schistocerca gregaria. / In a statistical inferential process, when the calculation of the likelihood function is not possible, approximations need to be used. This is a fairly common case in some application fields, especially for population genetics models. Toward this issue, we are interested in approximate Bayesian computation (ABC) methods. These are solely based on simulated data, which are then summarised and compared to the observed ones. The comparisons are performed depending on a distance, a similarity threshold and a set of low dimensional summary statistics, which must be carefully chosen.In a parameter inference framework, we propose an approach combining ABC simulations and the random forest machine learning algorithm. We use different strategies depending on the parameter posterior quantity we would like to approximate. Our proposal avoids the usual ABC difficulties in terms of tuning, while providing good results and interpretation tools for practitioners. In addition, we introduce posterior measures of error (i.e., conditionally on the observed data of interest) computed by means of forests. In a model choice setting, we present a strategy based on groups of models to determine, in population genetics, which events of an evolutionary scenario are more or less well identified. All these approaches are implemented in the R package abcrf. In addition, we investigate how to build local random forests, taking into account the observation to predict during their learning phase to improve the prediction accuracy. Finally, using our previous developments, we present two case studies dealing with the reconstruction of the evolutionary history of Pygmy populations, as well as of two subspecies of the desert locust Schistocerca gregaria. Calcul Bayésien Approché Forêts aléatoires Inférence bayésienne Méthodes locales Approximate Bayesian Computation Random forests Bayesian inference Local methods
133	Comparaison et évaluation d’approches bioinformatiques et statistiques pour l'analyse du pathobiome des plantes cultivées / Comparison and evaluation of bioinformatic and statistical approaches for the analysis of the pathobiome of crop plants Pauvert, Charlie 12 November 2019 (has links) Les interactions entre micro-organismes sous-tendent de nombreux services écosystémiques, y compris la régulation des maladies des plantes cultivées. Un acteur de cette régulation est le pathobiome, défini comme le sous-ensemble des micro-organismes associés à une plante hôte en interaction avec un agent pathogène. L'un des défis actuels consiste à reconstruire les pathobiomes à partir de données de metabarcoding, pour identifier des agents potentiels de biocontrôle et pour surveiller en temps réel leurs réponses aux changements environnementaux. Plusieurs verrous méthodologiques doivent cependant être levés pour atteindre ces objectifs. Tout d’abord, il n’existe pas de consensus concernant l’approche bioinformatique la plus fiable pour déterminer l’identité et l’abondance des micro-organismes présents dans les échantillons végétaux. De plus, les réseaux microbiens construits avec les méthodes actuellement disponibles sont des réseaux d’associations statistiques entre des comptages de séquences, non directement superposables aux réseaux d’interactions (ex : compétition, parasitisme) entre micro-organismes. L’objectif de la thèse était donc de déterminer les approches bioinformatiques et statistiques les plus pertinentes pour reconstruire des réseaux d’interactions microbiennes à partir de données de metabarcoding. Le modèle d’étude était la vigne (Vitis vinifera L. cv. Merlot noir) et l’oïdium de la vigne, Erysiphe necator. Nous avons tout d’abord déterminé l’approche bioinformatique la plus adaptée pour identifier la communauté fongique associée à ce pathogène, en comparant la capacité de 360 pipelines à retrouver la composition d’une communauté artificielle de 189 souches fongiques. DADA2 est apparu comme l’outil le plus performant. Nous avons ensuite évalué l’influence de la pratique culturale (viticulture conventionnelle vs. biologique) sur les communautés fongiques des feuilles et évalué le niveau de réplicabilité des réseaux microbiens construits avec une méthode d’inférence classique, SparCC. La réplicabilité était très faible, jetant ainsi un doute sur l’utilité de ces réseaux pour le biocontrôle et la biosurveillance. Nous avons donc utilisé une nouvelle approche statistique, le modèle PLN, qui permet de prendre en compte la variabilité environnementale, pour explorer finement le pathobiome d’Erysiphe necator. Les interactions microbiennes prédites par le modèle sont en cours de comparaison avec des expériences de confrontations de levures en co-cultures. Une approche alternative, HMSC, a également été testée sur un autre modèle biologique et certaines prédictions ont été confrontées avec succès aux données de la littérature. Les réseaux microbiens, sous réserve d’amélioration des méthodes de reconstruction, pourraient donc être utilisés pour capturer les signaux des interactions biotiques dans le pathobiome. / Interactions between microorganisms underpin many ecosystem services, including the regulation of crop diseases. An actor in this regulation is the pathobiome, defined as the subset of microorganisms associated with a host plant in interaction with a pathogen. One of the current challenges is to reconstruct pathobiomes from metabarcoding data, in order to identify potential biocontrol agents and to monitor in real time their responses to environmental changes. However, several methodological hurdles must be overcomed to achieve these objectives. First, there is no consensus on the most reliable bioinformatics approach to determine the identity and abundance of microorganisms present in plant samples. In addition, microbial networks built with currently available methods are networks of statistical associations between sequence counts, not directly related to networks of interactions (e. g. competition, parasitism) between microorganisms. The objective of the thesis was therefore to determine the most relevant bioinformatics and statistical approaches to reconstruct microbial interaction networks from metabarcoding data. The study system was grapevine (Vitis vinifera L. cv. Merlot noir) and the fungal agent of grapevine powdery mildew Erysiphe necator. First, we determined the most appropriate bioinformatics approach to identify the fungal community associated with this pathogen, by comparing the ability of 360 pipelines to recover the composition of an artificial community of 189 fungal strains. DADA2 has emerged as the most powerful tool. We then evaluated the influence of the cropping system (conventional vs. organic viticulture) on foliar fungal communities and assessed the level of replicability of microbial networks built with a standard inference method, SparCC. Replicability was very low, casting doubt on the usefulness of these networks for biocontrol and biomonitoring We therefore used a new statistical approach, the PLN model, which allows us to take into account environmental variability, to finely explore the pathobiome of Erysiphe necator. The microbial interactions predicted by the model are being compared with experiments confronting yeasts in co-cultures. An alternative approach, HMSC, was also tested on another biological model and some predictions were successfully compared with the data in the literature. Microbial networks, provided improved reconstruction methods, could therefore be used to capture signals of biotic interactions in the pathobiome. Ecologie microbienne Réseaux écologiques Métabarcoding Inférence de réseaux Biocontrôle Pathobiome Microbial ecology Ecological networks Metarbarcoding Network inference Biocontrol Pathobiome
134	On improving variational inference with low-variance multi-sample estimators Dhekane, Eeshan Gunesh 08 1900 (has links) Les progrès de l’inférence variationnelle, tels que l’approche de variational autoencoder (VI) (Kingma and Welling (2013), Rezende et al. (2014)) et ses nombreuses modifications, se sont avérés très efficaces pour l’apprentissage des représentations latentes de données. Importance-weighted variational inference (IWVI) par Burda et al. (2015) améliore l’inférence variationnelle en utilisant plusieurs échantillons indépendants et répartis de manière identique pour obtenir des limites inférieures variationnelles plus strictes. Des articles récents tels que l’approche de hierarchical importance-weighted autoencoders (HIWVI) par Huang et al. (2019) et la modélisation de la distribution conjointe par Klys et al. (2018) démontrent l’idée de modéliser une distribution conjointe sur des échantillons pour améliorer encore l’IWVI en le rendant efficace pour l’échantillon. L’idée sous-jacente de ce mémoire est de relier les propriétés statistiques des estimateurs au resserrement des limites variationnelles. Pour ce faire, nous démontrons d’abord une borne supérieure sur l’écart variationnel en termes de variance des estimateurs sous certaines conditions. Nous prouvons que l’écart variationnel peut être fait disparaître au taux de O(1/n) pour une grande famille d’approches d’inférence variationelle. Sur la base de ces résultats, nous proposons l’approche de Conditional-IWVI (CIWVI), qui modélise explicitement l’échantillonnage séquentiel et conditionnel de variables latentes pour effectuer importance-weighted variational inference, et une approche connexe de Antithetic-IWVI (AIWVI) par Klys et al. (2018). Nos expériences sur les jeux de données d’analyse comparative, tels que MNIST (LeCun et al. (2010)) et OMNIGLOT (Lake et al. (2015)), démontrent que nos approches fonctionnent soit de manière compétitive, soit meilleures que les références IWVI et HIWVI en tant que le nombre d’échantillons augmente. De plus, nous démontrons que les résultats sont conformes aux propriétés théoriques que nous avons prouvées. En conclusion, nos travaux fournissent une perspective sur le taux d’amélioration de l’inference variationelle avec le nombre d’échantillons utilisés et l’utilité de modéliser la distribution conjointe sur des représentations latentes pour l’efficacité de l’échantillon. / Advances in variational inference, such as variational autoencoders (VI) (Kingma and Welling (2013), Rezende et al. (2014)) along with its numerous modifications, have proven highly successful for learning latent representations of data. Importance-weighted variational inference (IWVI) by Burda et al. (2015) improves the variational inference by using multiple i.i.d. samples for obtaining tighter variational lower bounds. Recent works like hierarchical importance-weighted autoencoders (HIWVI) by Huang et al. (2019) and joint distribution modeling by Klys et al. (2018) demonstrate the idea of modeling a joint distribution over samples to further improve over IWVI by making it sample efficient. The underlying idea in this thesis is to connect the statistical properties of the estimators to the tightness of the variational bounds. Towards this, we first demonstrate an upper bound on the variational gap in terms of the variance of the estimators under certain conditions. We prove that the variational gap can be made to vanish at the rate of O(1/n) for a large family of VI approaches. Based on these results, we propose the approach of Conditional-IWVI (CIWVI), which explicitly models the sequential and conditional sampling of latent variables to perform importance-weighted variational inference, and a related approach of Antithetic-IWVI (AIWVI) by Klys et al. (2018). Our experiments on the benchmarking datasets MNIST (LeCun et al. (2010)) and OMNIGLOT (Lake et al. (2015)) demonstrate that our approaches perform either competitively or better than the baselines IWVI and HIWVI as the number of samples increases. Further, we also demonstrate that the results are in accordance with the theoretical properties we proved. In conclusion, our work provides a perspective on the rate of improvement in VI with the number of samples used and the utility of modeling the joint distribution over latent representations for sample efficiency in VI. Inférence variationelle Réduction de la variance Variational Inference Variance Reduction
135	Analyse de la prise en charge des patients traumatisés sévères dans le contexte français : processus de triage et processus de soin / Analysis of Severe Trauma Patients Management : Triage and Care Process Hamada, Sophie Rym 20 December 2019 (has links) La traumatologie est un problème de santé publique au troisième rang des années de vie perdues ajustées sur l’incapacité en France. L’investissement sanitaire et le volume de recherche qu’elle génère sont en deçà de ce que représente son impact sociétal. L’objet de ce travail de recherche était de plonger au cœur du parcours du patient traumatisé sévère pour en cibler trois problématiques clefs et tenter de répondre aux interrogations qu’elles génèrent.Les données utilisées provenaient essentiellement d’un observatoire de traumatologie lourde hospitalier (Traumabase®), régional et national, qui collige un ensemble de variables épidémiologiques, cliniques, paracliniques, et thérapeutiques des patients traumatisés sévères admis en centre de traumatologie.Le premier projet a ciblé l’orientation initiale (triage) des patients traumatisés sévères suite à un accident de la circulation au sein de la région Île de France et son effet sur la mortalité. Les patients initialement mal triés, transférés secondairement dans les centres de traumatologie régionaux, ne présentaient pas un pronostic plus sombre que les patients qui étaient transportés directement. Le système de soin dans son ensemble permettait de leur assurer un devenir équivalent. Une analyse en population réalisée par un chainage probabiliste des données avec les fiches d’accident de l’observatoire national de la sécurité routière a permis d’approcher le taux de sous triage conduisant au décès dans la région (0,15%) et d’objectiver que 60% des décès survenaient avant toute admission hospitalière.Le second projet visait l’optimisation de la jonction entre l’équipe médicalisée préhospitalière et l’équipe intrahospitalière. Il s’est attelé à développer un outil de prédiction de la sévérité des patients hémorragiques pour permettre l’anticipation de l’admission des patients les plus graves. Cet outil, le Red Flag, avait pour cahier des charges d’être simple et pragmatique, et de ne pas nécessiter de dispositif externe pour l’utiliser. Il a identifié cinq caractéristiques (shock index>1, pression artérielle moyenne <70mmHg, hémoglobine capillaire < 13g/dL, bassin instable et intubation), dont la présence de deux ou plus d’entre-elles permettait d’activer l’alerte pour l’hôpital receveur. Cet outil devra être évalué en prospectif pour confirmer ses performances et évaluer son impact sur l’organisation et le devenir des patients.Le troisième projet de recherche ciblait plus spécifiquement une des thérapeutiques de la coagulopathie aigue du traumatisé sévère en choc hémorragique. Il a tenté de quantifier l’impact de l’administration de concentré de fibrinogène à la phase précoce du choc hémorragique traumatique (6 premières heures) sur la mortalité toutes causes confondues des 24 premières heures par une approche d’inférence causale (score de propension et méthode d’estimation double robuste). Il n’a pas été retrouvé d’effet significatif sur la mortalité, un manque de puissance pouvant être responsable de ce résultat (différence de risque observée : -0,031, Intervalle de confiance 95% [-0,084 ; 0,021]).Ainsi l’ensemble de ces 3 projets de recherche ont permis de répondre à des problématiques ciblées du parcours du patient traumatisé sévère, générant par la même de nouvelles perspectives d’analyse pour mieux circonscrire les réponses de terrain. / In France, the third most frequent cause of disability adjusted life years lost is trauma, an observation that makes trauma a public health challenge. However, investment in trauma care and specific research fails to meet this challenge and to acknowledge the associated societal and economic impact.The purpose of this research was to explore the core of the pathway of a major trauma patient and bring to light key issues and question and to find answers. The data used in this research were mainly extracted from a regional and national trauma registry, the Traumabase®. The registry collects epidemiological, clinical, paraclinical and therapeutic variables for patients with severe trauma admitted to participating trauma centres. The first project focused on the effects of triage on patients with severe trauma following a road traffic accident in the Ile de France region. Patients who were initially under triaged and then transferred to regional trauma centres did not have a worse prognosis than patients who were transported directly. The emergency medical system as a whole ensured that they would have an equivalent outcome. A population analysis carried out by a probabilistic data chainage using the accident records of the National Road Safety Observatory made it possible to approach the undertriage rate leading to death in the region (0.15%) and to reveal that 60% of deaths occurred before any hospital admission. The second project developed a pragmatic pre-alert tool based on simple, clinical prehospital criteria to predict acute hemorrhage in trauma patients. This tool is meant to increase the performance of the receiving hospital trauma team of these critically sick patients and activate a specific hemorrhage pathway. The study identified five variables (shock index>1, mean blood pressure <70mmHg, capillary hemoglobin <13g/dL, unstable pelvis and intubation). If two or more variables were present, the tool identified patient with acute hemorrhage and the corresponding pathway should be activated. This tool requires prospective validation and assessment of its impact on care provision and patient outcome.The third research project focused on a therapeutic component of trauma induced coagulopathy. The study attempted to quantify the effect of fibrinogen concentrate administration at the early phase of traumatic hemorrhagic shock (first 6 hours) on 24 hours all-cause mortality using a causal inference approach (propensity score and double robust estimator). The research did not demonstrate any impact on mortality (observed risk difference: -0.031, 95% confidence interval [-0.084; 0.021]); a lack of power might be responsible for this result. Traumatisés sévères Épidémiologie Triage Score Sous-Triage Inférence causale Severe trauma Epidemiology Triage Score Undertriage Causal inference
136	Statistical inference of Ornstein-Uhlenbeck processes : generation of stochastic graphs, sparsity, applications in finance / Inférence statistique de processus d'Ornstein-Uhlenbeck : génération de graphes stochastiques, sparsité, applications en finance Matulewicz, Gustaw 15 December 2017 (has links) Le sujet de cette thèse est l'inférence statistique de processus d'Ornstein-Uhlenbeck multi-dimensionnels. Dans une première partie, nous introduisons un modèle de graphes stochastiques définis comme observations binaires de trajectoires. Nous montrons alors qu'il est possible de déduire la dynamique de la trajectoire sous-jacente à partir des observations binaires. Pour ceci, nous construisons des statistiques à partir du graphe et montrons de nouvelles propriétés de convergence dans le cadre d'une observation en temps long et en haute fréquence. Nous analysons aussi les propriétés des graphes stochastiques du point de vue des réseaux évolutifs. Dans une deuxième partie, nous travaillons sous l'hypothèse d'information complète et en temps continu et ajoutons une hypothèse de sparsité concernant le paramètre de textit{drift} du processus d'Ornstein-Uhlenbeck. Nous montrons alors des propriétés d'oracle pointues de l'estimateur Lasso, prouvons une borne inférieure sur l'erreur d'estimation au sens minimax et démontrons des propriétés d'optimalité asymptotique de l'estimateur Lasso Adaptatif. Nous appliquons ensuite ces méthodes pour estimer la vitesse de retour à la moyenne des retours journaliers d'actions américaines ainsi que des prix de futures de dividendes pour l'indice EURO STOXX 50. / The subject if this thesis is the statistical inference of multi-dimensional Ornstein-Uhlenbeck processes. In a first part, we introduce a model of stochastic graphs, defined as binary observations of a trajectory. We show then that it is possible to retrieve the dynamic of the underlying trajectory from the binary observations. For this, we build statistics of the stochastic graph and prove new results on their convergence in the long-time, high-frequency setting. We also analyse the properties of the stochastic graph from the point of view of evolving networks. In a second part, we work in the setting of complete information and continuous time. We add then a sparsity assumption applied to the drift matrix coefficient of the Ornstein-Uhlenbeck process. We prove sharp oracle inequalities for the Lasso estimator, construct a lower bound on the estimation error for sparse estimators and show optimality properties of the Adaptive Lasso estimator. Then, we apply the methods to estimate mean-return properties of real-world financial datasets: daily returns of SP500 components and EURO STOXX 50 Dividend Future prices. Processus stochastiques Inférence statistique Sparsité Réseaux évolutifs Données financières Stochastic processes Statistical inference Sparsity Evolving networks Financial data
137	Évaluation d'une approche chimiométrique non ciblée pour l'inférence de source de liquides inflammables en science forensique / Evaluation of an untargeted chemometric approach for the source inference of ignitable liquids in forensic science De Figueiredo, Miguel 13 September 2018 (has links) L’identification des auteurs d’incendies criminels où un accélérant a été utilisé demeure à ce jour un domaine de recherche en développement. Les traces biologiques reines pour l’identification de personnes comme l’ADN et les traces papillaires sont généralement détruites, donc rarement recherchées. Pourtant, lier l’auteur des faits au lieu de l’incendie est un réel besoin. Ce lien pourrait être établi par l’inférence de source des traces d’accélérant détectées sur les lieux avec une source potentielle souvent amenée par l’enquête comme des objets saisis en possession du suspect (vêtements), un jerrican ou encore des prélèvements effectués sur ses mains. Dès lors, la question qui se pose consiste à déterminer si les traces d’accélérant détectées sur les lieux et les traces détectées sur l’élément de comparaison partagent une source commune. Ainsi, l’inférence de source de l’accélérant constitue une alternative au manque de traces matérielles de sorte à fournir des éléments de preuve à la suite d’un incendie volontaire. En ce sens, cette recherche propose une approche chimiométrique non ciblée pour l’inférence de source de liquides inflammables en science forensique. Cette approche a été appliquée à un échantillonnage conséquent d’essences non altérées et à un échantillonnage réduit d’essences altérées de 0 à 99% par évaporation et par combustion. L’évaluation des résultats a validé l’hypothèse selon laquelle il est possible de lier des échantillons d’essences altérés ou non, par évaporation ou combustion, indépendamment du mode et du degré d’altération. / The identification of arsonists when an accelerant was used is still a challenging and ongoing research area. Golden standards in forensic human identification such as DNA and fingermarks are usually destroyed during the fire, hence not often looked for. It is yet obvious that the need to link the perpetrator to the arson site exists. This link could be made through a source inference process of the traces of an accelerant detected on site. These traces could be compared with a potential source often brought by the police investigation such as seized items in possession of a suspect (clothes), a jerrican or even hand sampling. Thenceforward, the question arising would be to determine if the traces of an accelerant from unknown source share a common source with the seized item. Thus, the source inference of accelerants constitutes an alternative to the lack of material traces in order to provide evidence in arson cases. To tackle this question, the present research proposes an untargeted chemometric approach for the source inference of ignitable liquids in forensic science. This approach was applied to a large dataset of unaltered gasoline samples and to a reduced one of altered samples by evaporation and combustion between 0 and 99%. The evaluation of results shows that it is possible to link gasoline samples altered or not by evaporation and combustion independently of the alteration mode and degree.. Science forensique Inférence de source Liquides inflammables Essence Chimiométrie Forensic science Source inference Ignitable liquids Gasoline Chemometrics 363.256
138	Mathematical modeling and statistical inference to better understand arbovirus dynamics / Modélisation mathématique et inférence statistique pour une meilleure compréhension des dynamiques des arboviroses Champagne, Clara 11 December 2018 (has links) L’importance et l’expansion des arboviroses comme la dengue ou le virus Zika nécessite des modèles pour mieux comprendre et prédire leurs dynamiques. La propagation vectorielle de ces maladies est influencée par de multiples facteurs humains et environnementaux qui rendent complexe la construction de modèles épidémiologiques parcimonieux. Parallèlement, de nombreux outils théoriques et computationnels existent désormais pour confronter ces modèles aux données observées. L’objectif de ce travail de thèse est donc d’apporter l’éclairage des données sur les modèles de propagation des arboviroses. Dans un premier temps, il s’agit d’identifier les éléments les plus importants à incorporer pour modéliser les dynamiques de la dengue en milieu rural, dans la région de Kampong Cham (Cambodge). Différents modèles sont comparés, complexifiant à la fois le détail de l’histoire de la maladie et la prise en compte des formes de stochasticité. Dans le cadre déterministe, on a pu souligner l’importance des interactions entre sérotypes, et le faible intérêt pour la représentation explicite des moustiques vecteurs et des individus asymptomatiques. Par ailleurs, la prise en compte des incertitudes indique qu’une large part de la dynamique est capturée seulement par la stochasticité et non par les éléments du squelette déterministe du modèle. Aussi étudie-t-on dans un second temps d’autres aspects de la transmission de la dengue, comme la saisonnalité et la structure spatiale, grâce à des données d’épidémies à Rio de Janeiro (Brésil). Dans un dernier temps, ces méthodes et modèles sont appliqués à l’étude d’un arbovirus émergent, le virus Zika. A partir de données d’épidémies survenues dans le Pacifique, les paramètres-clé de la propagation du virus sont estimés dans le cadre stochastique, et leur variabilité est envisagée à la fois en termes de contexte géographique et de modèle épidémiologique, par la comparaison de quatre îles et de deux modèles à transmission vectorielle. Par ailleurs, la question des interactions potentielles du virus Zika avec celui de la dengue est explorée. / Arboviruses such as the dengue and Zika viruses are expanding worldwide and mo- deling their dynamics can help to better understand and predict their propagation, as well as experiment control scenarios. These mosquito-borne diseases are influenced by a multiplicity of human and environmental factors that are complex to include in parsimonious epidemiological models. In parallel, statistical and computational tools are nowadays available to confront theore- tical models to the observed data. The objective of this PhD work is therefore to study arbovirus propagation models in the light of data. Firstly, in order to identify the most important elements to incorporate in models for dengue dynamics in a rural setting, several dengue models are com- pared using data from the Kampong Cham region in Cambodia. Models incorporate increasing complexity both in the details of disease life history and in the account for several forms of sto- chasticity. In the deterministic framework, including serotype interactions proved decisive, whereas explicit modeling of mosquito vectors and asymptomatic infections had limited added value, when seasonality and underreporting are already accounted for. Moreover, including several forms of un- certainties highlighted that a large part of the disease dynamics is only captured by stochasticity and not by the elements of the deterministic skeleton. Therefore, secondly, we explore other aspects of transmission, such as seasonality and spatial structure, in the case of dengue epidemics in Rio de Janeiro (Brazil). Finally, the models and estimation methods are applied to study an emerging arbovirus, the Zika virus. Using data from epidemics in the Pacific, we estimate the key parameters of disease propagation in the stochastic framework and explore their variability in terms of geogra- phic setting and model formulation by comparing four islands and two models with vector-borne transmission. In addition, potential interactions with the dengue virus are explored. Particle filter Inférence bayésienne Virus Zika Dengue Dengue fever South-East asia Particle filter Bayesian inference 579.2 616.9
139	Traitement du signal pour la reconnaissance de la parole robuste dans des environnements bruités et réverbérants Ota, Kenko 19 January 2008 (has links) (PDF) Les technologies de la reconnaissance de la parole ont des performances acceptables si l'on utilise un micro dans des environnements calmes. Si des micros se situent à une position distante d'un locuteur, il faut développer des techniques de la soustraction de bruits et de réverbération. Une technique pour réduire des sons émis par les appareils environnants est proposée. Bien que l'annulation adaptative du bruit (ANC) soit une solution possible, l'excès de soustraction peut causer la distorsion de la parole estimée. Le système proposé utilise la structure harmonique des segments vocaliques que les ANCs conventionnels n'a pas prise en compte directement. La méthode de déréverbération conventionnelle provoque l'excès de soustraction car on suppose que la caractéristique de fréquence, est plate. Il faut donc estimer le temps réel de réverbération pour résoudre ce problème. On propose une méthode de déréverbération aveugle utilisant un micro avec des fonctions d'autocorrélation sur la séquence de composants à chaque fréquence. Une technique pour échapper au problème de permutation qui se provoque lorsqu'on utilise l'analyse en composantes indépendantes (ICA) dans le domaine de fréquence, est également proposée : le Multi-bin ICA. Enfin, ce travail propose une technique pour estimer les spectres de bruit et de parole sans développer de modèle de gaussienne à mélange (GMM). Le spectre de la parole est modélisé à l'aide mélange de processus de Dirichlet (Dirichlet Process Mixture : ‘DPM') au lieu du GMM. Traitement du signal Reconnaissance de la parole Annulation adaptative de bruit Déréverbération Analyse en composantes indépendantes Mélange de gaussiennes Mélange de processus de Dirichlet Inférence Bayésiennes
140	Inversion Bayésienne : illustration sur des problèmes tomographiques et astrophysiques Rodet, Thomas 20 November 2012 (has links) (PDF) Nous nous intéressons ici aux problèmes inverses mal posés ainsi qu'à leur résolution dans un cadre bayésien. Dans un premier temps, nous décrirons la démarche que nous avons suivie lors de la résolution d'un problème inverse mal posé. Elle consiste à déterminer simultanément la paramétrisation de l'objet inconnu, le modèle " simplifié " décrivant le principe de formation des données, le choix du modèle de bruit et le choix de l'information a priori introduite. Ces différents choix sont souvent contraints par le temps de calcul nécessaire pour obtenir l'estimateur. On illustrera la démarche en résolvant des problèmes inverses variés dans le domaine de l'imagerie médicale (réduction des artéfacts métalliques) et de l'astrophysique (reconstruction 3D+T de la couronne solaire et reconstruction sur-résolue du rayonnement infra-rouge de l'univers). Dans deuxième temps, nous développerons un aspect plus méthodologique. En effet, nous avons constaté que les approches entièrement bayésiennes étaient difficilement applicables à des problèmes de grandes dimensions (plus d'un million d'inconnues) pour des raisons de coût calculatoire. Nous avons donc mis au point une nouvelle approche bayésienne variationnelle permettant de s'affranchir de ce problème. Pour obtenir notre algorithme, nous avons résolu un problème d'optimisation fonctionnelle dans l'espace des mesures à densité. Puis, nous avons appliqué notre approche sur l'inversion de problèmes linéaires de grandes tailles. inférence bayésienne tomographie problèmes inverses

Search results