Global ETD Search

81	Graph algorithms : network inference and planar graph optimization / Algorithmes des graphes : inférence des réseaux et optimisation dans les graphes planaires Zhou, Hang 06 July 2015 (has links) Cette thèse porte sur deux sujets d’algorithmique des graphes. Le premier sujet est l’inférence de réseaux. Quelle est la complexité pour déterminer un graphe inconnu à partir de requêtes de plus court chemin entre ses sommets ? Nous supposons que le graphe est de degré borné. Dans le problème de reconstruction, le but est de reconstruire le graphe ; tandis que dans le problème de vérification, le but est de vérifier qu’un graphe donné est correct. Nous développons des algorithmes probabilistes utilisant une décomposition en cellules de Voronoi. Ensuite, nous analysons des algorithmes de type glouton, et montrons qu’ils sont quasi-optimaux. Nous étudions aussi ces problèmes sur des familles particulières de graphes, démontrons des bornes inférieures, et étudions la reconstruction approximative. Le deuxième sujet est l’étude de deux problèmes d’optimisation sur les graphes planaires. Dans le problème de classification par corrélations, l’entrée est un graphe pondéré, où chaque arête a une étiquette h+i ou h-i, indiquant si ses extrémités sont ou non dans la même catégorie. Le but est de trouver une partition des sommets en catégories qui respecte au mieux les étiquettes. Dans le problème d’augmentation 2-arête-connexe, l’entrée est un graphe pondéré et un sous-ensemble R des arêtes. Le but est de trouver un sous-ensemble S des arêtes de poids minimum, tel que pour chaque arête de R, ses extrémités sont dans une composante 2-arête-connexe de l’union de R et S. Pour les graphes planaires, nous réduisons le premier problème au deuxième et montrons que les deux problèmes, bien que NP-durs, ont un schéma d’approximation en temps polynomial. Nous utilisons la technique récente de décomposition en briques. / This thesis focuses on two topics of graph algorithms. The first topic is network inference. How efficiently can we find an unknown graph using shortest path queries between its vertices? We assume that the graph has bounded degree. In the reconstruction problem, the goal is to find the graph; and in the verification problem, the goal is to check whether a given graph is correct. We provide randomized algorithms based on a Voronoi cell decomposition. Next, we analyze greedy algorithms, and show that they are near-optimal. We also study the problems on special graph classes, prove lower bounds, and study the approximate reconstruction. The second topic is optimization in planar graphs. We study two problems. In the correlation clustering problem, the input is a weighted graph, where every edge has a label of h+i or h−i, indicating whether its endpoints are in the same category or in different categories. The goal is to find a partition of the vertices into categories that tries to respect the labels. In the two-edge-connected augmentation problem, the input is a weighted graph and a subset R of edges. The goal is to produce a minimum-weight subset S of edges, such that for every edge in R, its endpoints are two-edge-connected in the union of R and S. For planar graphs, we reduce correlation clustering to two-edge-connected augmentation, and show that both problems, although they are NP-hard, have a polynomial-time approximation scheme. We build on the brick decomposition technique developed recently. Graphe Algorithme Inférence des réseaux Graphe planaire Optimisation Décomposition Graph Algorithm Network inference Planar graph Optimization 004
82	Modélisation de la fiabilité et de la maintenance par modèles graphiques probabilistes : application à la prévention des ruptures de rail / Reliability and maintenance modelling based on probabilistic graphical models : case study on rail prevention Donat, Roland 30 November 2009 (has links) Les réseaux ferroviaires sont sujets à des dégradations de leur voie qui impactent directement le service offert aux voyageurs. Des politiques de maintenance sont donc déployées pour en limiter les effets sur la qualité et la disponibilité du réseau. Ce mémoire propose une modélisation générique de ces politiques reposant sur la fiabilité, et ce à partir du seul formalisme des réseaux bayésiens (RB). La fiabilité du système est caractérisée par un RB dynamique particulier tenant compte des temps de séjour dans chacun de ses états (hypothèse semi-markovienne). Les outils de diagnostics et les actions et les actions de maintenance sont également modélisés, autorisant la description fine de stratégies complexes. La prise en compte de l'utilité de chaque attribut du modèle (disponibilité/sécurité/coût) permet l'évaluation des politiques de maintenance innovantes en particulier prévisionnelles. La méthodologie est appliquée au cas précis du réseau RER de la RATP relativement au problème du rail cassé. / Rail networks are prone to degradations of their railtrack that directly impact the commercial service. Therefore, maintenance policies are implemented in order to limit the loss of network quality and avaibility. This thesis proposes a generic modelling for these policies based on the reliability, using Bayesian Network (BN) formalism. The system reliability is captured by dedicated dynamic BN, allowing to take in account the sojorn-time in each system state (semi-markovian assumptiun). The diagnostic tools and the maintenance actions are also represented to accurately describe complex strategies. The consideration of the utility associated to each model ,attribute (availabiblity/security/cost) enables to evaluate innovative predictive maintenance policies. This methodology is applied to the RATP RER network to deal with the rail break prevention problem. Fiabilité Inférence Maintenance ferroviaire Prévisionnelle Réseaux bayésiens Bayesian network Markovian assumption Generic modelling
83	Bayesian dynamic scheduling for service composition testing / Ordonnancement dynamique bayesien pour le test des architectures de service Maesano, Ariele 30 January 2015 (has links) Aujourd'hui la connectivité entre les systèmes se standardise. Il supprime l'intervention humaine et permet aux systèmes distribués d'accomplir des tâches longues et complexes. La SOA est une approche fondée sur le modèle qui s'appuie sur des contrats et qui permet aux systèmes existants de collaborer par échange de messages. De multiples organisations peuvent, automatiser des échanges de services sans risquer leur confidentialité. Cette collaboration est à l'origine des difficultés concernant le test, parce que si il a des échanges entre les différents partenaires, le fonctionnement interne de processus résultant dans l'information échangé est limité à certains partenaires/testeurs. Ceci nous place dans un cadre de tests boîte grise où les systèmes sont des boîtes noires et seulement l'échange de message est visible. C'est pourquoi nous proposons une approche probabiliste en utilisant l'inférence bayésienne pour tester les SOA. Le deuxième défi est leur taille. Etant donné que les systèmes sont connectés de manière lâche en les couplant deux par deux selon les spécifications, une SOA peut contenir un nombre très important de participants et donc une grande taille. La taille des SOA se reflète dans la complexité de l'inférence bayésienne. Cette seconde contrainte pousse à chercher de meilleure solution pour l'inférence bayésienne. Afin de faire face à la taille et la densité de la BN, même pour de petits services architectures, les techniques d'inférence par compilation dirigée par les modèles qui permet la génération rapide de circuits arithmétiques directement à partir du modèle de l'architecture des services et de la suite de tests sont en cours d'élaboration. / In present times connectivity between systems becomes more common. It removes human mediation and allows complex distributed systems to autonomously complete long and complex tasks. SOA is a model driven contract based approach that allows legacy systems to collaborate by messages exchange. Collaboration, here, is a key word in the sense that multiple organisation can, with this approach, automate services exchanges between them without putting at risks their confidentiality. This cause to encounter the first difficulty, because if there are exchanges between the different partners, the inner-processes resulting in the exchange information is restricted to some partners and therefor to some of the testers. That put us in a grey-box testing case where the systems are black-boxes and only the message exchange is visible. That is why we propose a probabilistic approach using Bayesian Inference to test the architectures. The second Challenge is the size of the SOA. Since the systems are connected by loosely coupling them two by two according to SOA Specifications, SOA can contain a very important number of participants. In Fact most of the existing SOA are very important in there size. The size of the SOA is reflected in the complexity of the Bayesian inference. This second challenge constraints us to search for better solution for the Bayesian Inference. In order to cope with the size and density of the BN for even small services architectures, techniques of model-driven inference by compilation that allows quick generation of arithmetic circuits directly from the services architecture model and the test suite are being developed. Réseau Bayésien Inférence Modèle Architecture orientée services Circuit arithmétique Test fonctionnel Bayesian network Inference 004
84	Large-scale functional MRI analysis to accumulate knowledge on brain functions / Analyse à grande échelle d'IRM fonctionnelle pour accumuler la connaissance sur les fonctions cérébrales Schwartz, Yannick 21 April 2015 (has links) Comment peut-on accumuler de la connaissance sur les fonctions cérébrales ? Comment peut-on bénéficier d'années de recherche en IRM fonctionnelle (IRMf) pour analyser des processus cognitifs plus fins et construire un modèle exhaustif du cerveau ? Les chercheurs se basent habituellement sur des études individuelles pour identifier des régions cérébrales recrutées par les processus cognitifs. La comparaison avec l'historique du domaine se fait généralement manuellement pas le biais de la littérature, qui permet de définir des régions d'intérêt dans le cerveau. Les méta-analyses permettent de définir des méthodes plus formelles et automatisables pour analyser la littérature. Cette thèse examine trois manières d'accumuler et d'organiser les connaissances sur le fonctionnement du cerveau en utilisant des cartes d'activation cérébrales d'un grand nombre d'études. Premièrement, nous présentons une approche qui utilise conjointement deux expériences d'IRMf similaires pour mieux conditionner une analyse statistique. Nous montrons que cette méthode est une alternative intéressante par rapport aux analyses qui utilisent des régions d'intérêts, mais demande cependant un travail manuel dans la sélection des études qui l'empêche de monter à l'échelle. A cause de la difficulté à sélectionner automatiquement les études, notre deuxième contribution se focalise sur l'analyse d'une unique étude présentant un grand nombre de conditions expérimentales. Cette méthode estime des réseaux fonctionnels (ensemble de régions cérébrales) et les associe à des profils fonctionnels (ensemble pondéré de descripteurs cognitifs). Les limitations de cette approche viennent du fait que nous n'utilisons qu'une seule étude, et qu'elle se base sur un modèle non supervisé qui est par conséquent plus difficile à valider. Ce travail nous a cependant apporté la notion de labels cognitifs, qui est centrale pour notre dernière contribution. Cette dernière contribution présente une méthode qui a pour objectif d'apprendre des atlas fonctionnels en combinant plusieurs jeux de données. [Henson2006] montre qu'une inférence directe, c.a.d. la probabilité d'une activation étant donné un processus cognitif, n'est souvent pas suffisante pour conclure sur l'engagement de régions cérébrales pour le processus cognitif en question. Réciproquement, [Poldrack 2006] présente l'inférence inverse qui est la probabilité qu'un processus cognitif soit impliqué étant donné qu'une région cérébrale est activée, et décrit le risque de raisonnements fallacieux qui peuvent en découler. Pour éviter ces problèmes, il ne faut utiliser l'inférence inverse que dans un contexte où l'on suffisamment bien échantillonné l'espace cognitif pour pouvoir faire une inférence pertinente. Nous présentons une méthode qui utilise un « meta-design » pour décrire des tâches cognitives avec un vocabulaire commun, et qui combine les inférences directe et inverse pour mettre en évidence des réseaux fonctionnels qui sont cohérents à travers les études. Nous utilisons un modèle prédictif pour l'inférence inverse, et effectuons les prédictions sur de nouvelles études pour s'assurer que la méthode n'apprend pas certaines idiosyncrasies des données d'entrées. Cette dernière contribution nous a permis d'apprendre des réseaux fonctionnels, et de les associer avec des concepts cognitifs. Nous avons exploré différentes approches pour analyser conjointement des études d'IRMf. L'une des difficultés principales était de trouver un cadre commun qui permette d'analyser ensemble ces études malgré leur diversité. Ce cadre s'est instancié sous la forme d'un vocabulaire commun pour décrire les tâches d'IRMf. et a permis d'établir un modèle statistique du cerveau à grande échelle et d'accumuler des connaissances à travers des études d'IRM fonctionnelle. / How can we accumulate knowledge on brain functions? How can we leverage years of research in functional MRI to analyse finer-grained psychological constructs, and build a comprehensive model of the brain? Researchers usually rely on single studies to delineate brain regions recruited by mental processes. They relate their findings to previous works in an informal way by defining regions of interest from the literature. Meta-analysis approaches provide a more principled way to build upon the literature. This thesis investigates three ways to assemble knowledge using activation maps from a large amount of studies. First, we present an approach that uses jointly two similar fMRI experiments, to better condition an analysis from a statistical standpoint. We show that it is a valuable data-driven alternative to traditional regions of interest analyses, but fails to provide a systematic way to relate studies, and thus does not permit to integrate knowledge on a large scale. Because of the difficulty to associate multiple studies, we resort to using a single dataset sampling a large number of stimuli for our second contribution. This method estimates functional networks associated with functional profiles, where the functional networks are interacting brain regions and the functional profiles are a weighted set of cognitive descriptors. This work successfully yields known brain networks and automatically associates meaningful descriptions. Its limitations lie in the unsupervised nature of this method, which is more difficult to validate, and the use of a single dataset. It however brings the notion of cognitive labels, which is central to our last contribution. Our last contribution presents a method that learns functional atlases by combining several datasets. [Henson 2006] shows that forward inference, i.e. the probability of an activation given a cognitive process, is often not sufficient to conclude on the engagement of brain regions for a cognitive process. Conversely, [Poldrack 2006] describes reverse inference as the probability of a cognitive process given an activation, but warns of a logical fallacy in concluding on such inference from evoked activity. Avoiding this issue requires to perform reverse inference with a large coverage of the cognitive space. We present a framework that uses a "meta-design" to describe many different tasks with a common vocabulary, and use forward and reverse inference in conjunction to outline functional networks that are consistently represented across the studies. We use a predictive model for reverse inference, and perform prediction on unseen studies to guarantee that we do not learn studies' idiosyncrasies. This final contribution permits to learn functional atlases, i.e. functional networks associated with a cognitive concept. We explored different possibilities to jointly analyse multiple fMRI experiments. We have found that one of the main challenges is to be able to relate the experiments with one another. As a solution, we propose a common vocabulary to describe the tasks. [Henson 2006] advocates the use of forward and reverse inference in conjunction to associate cognitive functions to brain regions, which is only possible in the context of a large scale analysis to overcome the limitations of reverse inference. This framing of the problem therefore makes it possible to establish a large statistical model of the brain, and accumulate knowledge across functional neuroimaging studies. Neuroimagerie Inférence directe Inférence inverse Apprentissage statistique Gestion de données Neuroimaging Forward inference Reverse inference Statistical learning Data management
85	Finite population inference for population with a large number of zero-valued observations Nolet-Pigeon, Isabelle 08 1900 (has links) Dans certaines enquêtes auprès des entreprises, il n'est pas rare de s'intéresser à estimer le total ou la moyenne d'une variable qui, par sa nature, prend souvent une valeur nulle. En présence d'une grande proportion de valeurs nulles, les estimateurs usuels peuvent s'avérer inefficaces. Dans ce mémoire, nous étudions les propriétés des estimateurs habituels pour des populations exhibant une grande proportion de zéros. Dans un contexte d'une approche fondée sur le modèle, nous présentons des prédicteurs robustes à la présence de valeurs influentes pour ce type de populations. Finalement, nous effectuons des études par simulation afin d'évaluer la performance de divers estimateurs/prédicteurs en termes de biais et d'efficacité. / In business surveys, we are often interested in estimating population means or totals of variables which, by nature, will often take a value of zero. In the presence of a large proportion of zero-valued observations, the customary estimators may be unstable. In this thesis, we study the properties of commonly used estimators for populations exhibiting a large proportion of zero-valued observations. In a model-based framework, we present some robust predictors in the presence of influential units. Finally, we perform simulation studies to evaluate the performance of several estimators in terms of bias and efficiency. Robustesse Unités influentes Inférence basée sur le modèle Inférence basée sur le plan de sondage Biais conditionnel Robustness Influential units Model-based inference Design-based inference Conditional bias
86	Des silences linguistiques à la poétique des silences. L'œuvre de Stéphane Mallarmé miksic, vanda 19 September 2005 (has links) Le silence — ou plutôt la grande variété de ce que l’on appelle “silences” — est un phénomène complexe qui prend une part directe dans la dynamique du langage et la création du sens linguistique, mais aussi dans la production du sens symbolique et des effets poétiques. Le travail est organisé en deux parties: la première traite la question de l'acte de silence dans l'expérience linguistique du monde, tandis que la deuxième analyse l'expérience poétique des silences en appliquant les résultats précédemment obtenus au Coup de dés de Stéphane Mallarmé. Plus précisément, dans la partie linguistique, on passe en revue différentes théories pour dégager la place que le silence s’y voit reconnaître. On l’étudie successivement en tant que signe linguistique, en tant qu’acte linguistique, comme élément pertinent, comme procédé rhétorique, comme phénomène symbolique. La partie poétique se fonde sur la théorie de l'évocation pour aboutir, en passant par un chapitre consacré à la poésie moderne dans son ensemble, à l'œuvre de Stéphane Mallarmé, le premier poète qui ait créé une véritable poétique des silences, tant dans ses ouvrages poétiques (dont le Coup de dés est l'exemple le plus radical) que dans ses écrits théoriques. horizon d'attente Coup de dés pragmatique pertinence inférence rhétorique symbolique signe évocation Livre Mallarmé poésie art oriental acte de silence
87	Apprentissage de grammaires catégorielles : transducteurs d’arbres et clustering pour induction de grammaires catégorielles / Learning categorial grammars Sandillon Rezer, Noémie Fleur 09 December 2013 (has links) De nos jours, il n’est pas rare d’utiliser des logiciels capables d’avoir une conversation, d’interagir avec nous (systèmes questions/réponses pour les SAV, gestion d’interface ou simplement Intelligence Artificielle - IA - de discussion). Ceux-ci doivent comprendre le contexte ou réagir par mot-clefs, mais générer ensuite des réponses cohérentes, aussi bien au niveau du sens de la phrase (sémantique) que de la forme (syntaxe). Si les premières IA se contentaient de phrases toutes faites et réagissaient en fonction de mots-clefs, le processus s’est complexifié avec le temps. Pour améliorer celui-ci, il faut comprendre et étudier la construction des phrases. Nous nous focalisons sur la syntaxe et sa modélisation avec des grammaires catégorielles. L’idée est de pouvoir aussi bien générer des squelettes de phrases syntaxiquement correctes que vérifier l’appartenance d’une phrase à un langage, ici le français (il manque l’aspect sémantique). On note que les grammaires AB peuvent, à l’exception de certains phénomènes comme la quantification et l’extraction, servir de base pour la sémantique en extrayant des λ-termes. Nous couvrons aussi bien l’aspect d’extraction de grammaire à partir de corpus arborés que l’analyse de phrases. Pour ce faire, nous présentons deux méthodes d’extraction et une méthode d’analyse de phrases permettant de tester nos grammaires. La première méthode consiste en la création d’un transducteur d’arbres généralisé, qui transforme les arbres syntaxiques en arbres de dérivation d’une grammaire AB. Appliqué sur les corpus français que nous avons à notre disposition, il permet d’avoir une grammaire assez complète de la langue française, ainsi qu’un vaste lexique. Le transducteur, même s’il s’éloigne peu de la définition usuelle d’un transducteur descendant, a pour particularité d’offrir une nouvelle méthode d’écriture des règles de transduction, permettant une définition compacte de celles-ci. Nous transformons actuellement 92,5% des corpus en arbres de dérivation. Pour notre seconde méthode, nous utilisons un algorithme d’unification en guidant celui-ci avec une étape préliminaire de clustering, qui rassemble les mots en fonction de leur contexte dans la phrase. La comparaison avec les arbres extraits du transducteur donne des résultats encourageants avec 91,3% de similarité. Enfin, nous mettons en place une version probabiliste de l’algorithme CYK pour tester l’efficacité de nos grammaires en analyse de phrases. La couverture obtenue est entre 84,6% et 92,6%, en fonction de l’ensemble de phrases pris en entrée. Les probabilités, appliquées aussi bien sur le type des mots lorsque ceux-ci en ont plusieurs que sur les règles, permettent de sélectionner uniquement le “meilleur” arbre de dérivation.Tous nos logiciels sont disponibles au téléchargement sous licence GNU GPL. / Nowadays, we have become familiar with software interacting with us using natural language (for example in question-answering systems for after-sale services, human-computer interaction or simple discussion bots). These tools have to either react by keyword extraction or, more ambitiously, try to understand the sentence in its context. Though the simplest of these programs only have a set of pre-programmed sentences to react to recognized keywords (these systems include Eliza but also more modern systems like Siri), more sophisticated systems make an effort to understand the structure and the meaning of sentences (these include systems like Watson), allowing them to generate consistent answers, both with respect to the meaning of the sentence (semantics) and with respect to its form (syntax). In this thesis, we focus on syntax and on how to model syntax using categorial grammars. Our goal is to generate syntactically accurate sentences (without the semantic aspect) and to verify that a given sentence belongs to a language - the French language. We note that AB grammars, with the exception of some phenomena like quantification or extraction, are also a good basis for semantic purposes. We cover both grammar extraction from treebanks and parsing using the extracted grammars. On this purpose, we present two extraction methods and test the resulting grammars using standard parsing algorithms. The first method focuses on creating a generalized tree transducer, which transforms syntactic trees into derivation trees corresponding to an AB grammar. Applied on the various French treebanks, the transducer’s output gives us a wide-coverage lexicon and a grammar suitable for parsing. The transducer, even if it differs only slightly from the usual definition of a top-down transducer, offers several new, compact ways to express transduction rules. We currently transduce 92.5% of all sen- tences in the treebanks into derivation trees.For our second method, we use a unification algorithm, guiding it with a preliminary clustering step, which gathers the words according to their context in the sentence. The comparision between the transduced trees and this method gives the promising result of 91.3% of similarity.Finally, we have tested our grammars on sentence analysis with a probabilistic CYK algorithm and a formula assignment step done with a supertagger. The obtained coverage lies between 84.6% and 92.6%, depending on the input corpus. The probabilities, estimated for the type of words and for the rules, enable us to select only the “best” derivation tree. All our software is available for download under GNU GPL licence. Grammaires AB Inférence grammaticale Clustering Transducteur d’arbres Apprentissage automatique AB grammar Grammatical inference Clustering Tree transducer Automatic learning
88	Modélisation de la susceptibilité génétique non observée d’un individu à partir de son histoire familiale de cancer : application aux études d'identification pangénomiques et à l'estimation du risque de cancer dans le syndrome de Lynch / Modeling the unobserved genetic susceptibility of an individual from his family history of cancer : applications to genome-wide identification studies and to the cancer risk estimation in Lynch syndrome Drouet, Youenn 09 October 2012 (has links) Le syndrome de Lynch est responsable d’environ 5% des cas de cancer colorectaux (CCR). Il correspond à la transmission d’une mutation,variation génétique rare, qui confère un haut risque de CCR. Une telle mutationn’est cependant identifiée que dans une famille sur deux. Dans lesfamilles sans mutation identifiée, dites négatives, le risque de CCR est malconnu en particulier les estimations individuelles du risque. Cette thèse comportedeux objectifs principaux. Obj. 1- étudier les stratégies capables de réduireles tailles d’échantillon dans les études visant à identifier de nouveauxgènes de susceptibilité ; et Obj. 2- définir un cadre théorique permettantd’estimer des risques individualisés de CCR dans les familles négatives, enutilisant l’histoire familiale et personnelle de CCR de l’individu. Notre travails’appuie sur la théorie des modèles mendéliens et la simulation de donnéesfamiliales, à partir desquelles il est possible d’étudier la puissance d’étudesd’identification, et d’évaluer in silico les qualités prédictives de méthodesd’estimation du risque. Les résultats obtenus apportent des connaissancesnouvelles pour la planification d’études futures. D’autre part, la cadre méthodologiqueque nous proposons permet une estimation plus précise durisque individuel, permettant d’envisager une surveillance plus individualisée. / Lynch syndrome is responsible of about 5% of cases of colorectal cancer (CRC). It corresponds to the transmission of a mutation, which is arare genetic variant, that confers a high risk of CRC. Such a mutation isidentified, however, in only one family of two. In families without identifiedmutation, called negative, the risk of CRC is largely unknown in particularthere is a lack of individualized risk estimates. This thesis has two main objectives.Obj. 1 - to explore strategies that could reduce the required samplesizes of identification studies, and Obj. 2 - to define a theoretical frameworkfor estimating individualized risk of CRC in negative families, using personaland family history of CRC of the individuals. Our work is based on thetheory of Mendelian models and the simulation of family data, from whichit is possible to study the power of identification studies as well as to assessand compare in silico the predictive ability of risk estimation methods. Theresults provide new knowledge for designing future studies, and the methodologicalframework we propose allows a more precise estimate of risk, thatmight lead to a more individualized cancer follow-up. Modélisation Inférence bayésienne Données familiales Statistique en génétique Cancer colorectal Modeling Bayesian inference Family Data Statistics in genetics Colorectal Cancer 570.15
89	Construction et estimation de copules en grande dimension / Construction and estimation of high-dimensional copulas Mazo, Gildas 17 November 2014 (has links) Ces dernières décennies, nous avons assisté à l'émergence du concept de copule en modélisation statistique. Les copules permettent de faire une analyse séparée des marges et de la structure de dépendance induite par une distribution statistique. Cette séparation facilite l'incorporation de lois non gaussiennes, et en particulier la prise en compte des dépendances non linéaires entre les variables aléatoires. La finance et l'hydrologie sont deux exemples de sciences où les copules sont très utilisées. Cependant, bien qu'il existe beaucoup de familles de copules bivariées, le choix reste limité en plus grande dimension: la construction de copules multivariées/en grande dimension reste un problème ouvert aujourd'hui. Cette thèse présente trois contributions à la modélisation et à l'inférence de copules en grande dimension. Le premier modèle proposé s'écrit comme un produit de copules bivariées, où chaque copule bivariée se combine aux autres via un graphe en arbre. Elle permet de prendre en compte les différents degrés de dépendance entre les différentes paires. La seconde copule est un modèle à facteurs basé sur une classe nonparamétrique de copules bivariées. Elle permet d'obtenir un bon équilibre entre flexibilité et facilité d'utilisation. Cette thèse traite également de l'inférence paramétrique de copules dans le cas général, en établissant les propriétés asymptotiques d'un estimateur des moindres carrés pondérés basé sur les coefficients de dépendance. Les modèles et méthodes proposés sont appliqués sur des données hydrologiques (pluies et débits de rivières). / In the last decades, copulas have been more and more used in statistical modeling. Their popularity owes much to the fact that they allow to separate the analysis of the margins from the analysis of the dependence structure induced by the underlying distribution. This renders easier the modeling of non Gaussian distributions, and, in particular, it allows to take into account non linear dependencies between random variables. Finance and hydrology are two examples of scientific fields where the use of copulas is nowadays standard. However, while many bivariate families exist in the literature, multivariate/high dimensional copulas are much more difficult to construct. This thesis presents three contributions to copula modeling and inference, with an emphasis on high dimensional problems. The first model writes as a product of bivariate copulas and is underlain by a tree structure where each edge represents a bivariate copula. Hence, we are able to model different pairs with different dependence properties. The second one is a factor model built on a nonparametric class of bivariate copulas. It exhibits a good balance between tractability and flexibility. This thesis also deals with the parametric inference of copula models in general. Indeed, the asymptotic properties of a weighted least-squares estimator based on dependence coefficients are established. The models and methods have been applied to hydrological data (flow rates and rain falls). Copules Grande dimension Inférence Valeurs extrêmes Modèles à facteurs Copulas High dimension Inference Extreme values Factor models 510
90	An integrative process mining approach to mine discrete event simulation model from event data / Une approche intégrée de découverte de processus pour découvrir le modèle simulation d'événement discret depuis les données des événements du système Wang, Yan 12 October 2018 (has links) L'inférence d’un système, par la reconstruction de la structure à partir de l’analyse de son comportement, est reconnue comme un problème critique. Dans la théorie des systèmes, la structure et le comportement se situent aux extrémités de la hiérarchie qui définit la connaissance du système. L'inférence d’un système peut être également considérée comme l’escalade de la hiérarchie depuis la connaissance de bas niveau vers la connaissance de plus haut niveau. Ceci n'est possible que sous des conditions maitrisées et justifiées. Dans cette thèse, une nouvelle méthode d'inférence de système est proposée. La méthode proposée étend la technique Process Mining pour extraire des connaissances depuis les données des événements du système. Les aspects de modularité, de fréquence et de synchronisation peuvent être extraits des données. Ils sont intégrés ensemble pour construire un modèle Fuzzy-Discrete Event System Specification (Fuzzy-DEVS). La méthode proposée, également appelée méthode D2FD (Data to Fuzzy-DEVS), comprend trois étapes: (1) l’extraction depuis des journaux d’évènements (registres) obtenus à partir des données générées par le système en utilisant une approche conceptuelle; (2) la découverte d'un système de transition, en utilisant des techniques de découverte de processus; (3) l'intégration de méthodes Fuzzy pour générer automatiquement un modèle Fuzzy-DEVS à partir du système de transition. La dernière étape est de l’implémenter cette contribution en tant que plugin dans l'environnement Process Mining Framework (ProM). Afin de valider les modèles construits, une approximation de modèle basée sur le morphisme et une méthode prédictive intégrée à Granger Causality sont proposées. Deux études de cas sont présentées dans lesquelles le modèle Fuzzy-DEVS est déduit à partir de données réelles, où l'outil SimStudio est utilisé pour sa simulation. Les modèles ainsi construits et les résultats de simulation sont validés par comparaison à d'autres modèles. / System inference, i.e., the building of system structure from system behavior, is widely recognized as a critical challenging issue. In System Theory, structure and behavior are at the extreme sides of the hierarchy that defines knowledge about the system. System inference is known as climbing the hierarchy from less to more knowledge. In addition, it is possible only under justifying conditions. In this thesis, a new system inference method is proposed. The proposed method extends the process mining technique to extract knowledge from event data and to represent complex systems. The modularity, frequency and timing aspects can be extracted from the data. They are integrated together to construct the Fuzzy Discrete Event System Specification (Fuzzy-DEVS) model. The proposed method is also called D2FD (Data to Fuzzy-DEVS) method, and consists of three stages: (1) extraction of event logs from event data by using the conceptual structure; (2) discovery of a transition system, using process discovery techniques; (3) integration of fuzzy methods to automatically generate a Fuzzy-DEVS model from the transition system. The last stage is implemented as a plugin in the Process Mining Framework (ProM) environment. In order to validate constructed models, morphism-based model approximation and predictive method integrated with Granger Causality are proposed. Two case studies are presented in which Fuzzy-DEVS model is inferred from real life data, and the SimStudio tool is used for its simulation. The constructed models and simulation results are validated by comparing to other models. Inférence de système Découverte de processus DEVS flous Modélisation et simulation Validation de modèle System inference Process mining Fuzzy-DEVS Modeling and simulation Model validation

Search results