Spelling suggestions: "subject:"bayésien"" "subject:"bayésienne""
101 |
High-dimensional dependence modelling using Bayesian networks for the degradation of civil infrastructures and other applications / Modélisation de dépendance en grandes dimensions par les réseaux Bayésiens pour la détérioration d’infrastructures et autres applicationsKosgodagan, Alex 26 June 2017 (has links)
Cette thèse explore l’utilisation des réseaux Bayésiens (RB) afin de répondre à des problématiques de dégradation en grandes dimensions concernant des infrastructures du génie civil. Alors que les approches traditionnelles basées l’évolution physique déterministe de détérioration sont déficientes pour des problèmes à grande échelle, les gestionnaires d’ouvrages ont développé une connaissance de modèles nécessitant la gestion de l’incertain. L’utilisation de la dépendance probabiliste se révèle être une approche adéquate dans ce contexte tandis que la possibilité de modéliser l’incertain est une composante attrayante. Le concept de dépendance au sein des RB s’exprime principalement de deux façons. D’une part, les probabilités conditionnelles classiques s’appuyant le théorème de Bayes et d’autre part, une classe de RB faisant l’usage de copules et corrélation de rang comme mesures de dépendance. Nous présentons à la fois des contributions théoriques et pratiques dans le cadre de ces deux classes de RB ; les RB dynamiques discrets et les RB non paramétriques, respectivement. Des problématiques concernant la paramétrisation de chacune des classes sont également abordées. Dans un contexte théorique, nous montrons que les RBNP permet de caractériser n’importe quel processus de Markov. / This thesis explores high-dimensional deterioration-related problems using Bayesian networks (BN). Asset managers become more and more familiar on how to reason with uncertainty as traditional physics-based models fail to fully encompass the dynamics of large-scale degradation issues. Probabilistic dependence is able to achieve this while the ability to incorporate randomness is enticing.In fact, dependence in BN is mainly expressed in two ways. On the one hand, classic conditional probabilities that lean on thewell-known Bayes rule and, on the other hand, a more recent classof BN featuring copulae and rank correlation as dependence metrics. Both theoretical and practical contributions are presented for the two classes of BN referred to as discrete dynamic andnon-parametric BN, respectively. Issues related to the parametrization for each class of BN are addressed. For the discrete dynamic class, we extend the current framework by incorporating an additional dimension. We observed that this dimension allows to have more control on the deterioration mechanism through the main endogenous governing variables impacting it. For the non-parametric class, we demonstrate its remarkable capacity to handle a high-dimension crack growth issue for a steel bridge. We further show that this type of BN can characterize any Markov process.
|
102 |
Contributions à la détection et au diagnostic de fautes dans les systèmes par réseaux Bayésiens / Contributions to fault detection and diagnosis in systems by Bayesian networksAtoui, Mohamed Amine 29 September 2015 (has links)
Les fautes systèmes peuvent conduire à des conséquences sérieuses pour l’humain, l’environnement et le matériel. Or, y remédier peut s’avérer coûteux voire même dangereux. Ainsi, afin d’éviter ces situations, il est devenu essentiel pour les systèmes complexes modernes de détecter et d’identifier tout changement dans leur fonctionnement nominal avant que cela ne devienne critique. De ce fait, plusieurs méthodes de détection et de diagnostic ont été proposées ou améliorées durant les dernières décennies. Parmi ces méthodes, celles présentant un fort intérêt se basent sur un outil statistique et probabiliste nommé réseau Bayésien. Toutefois, la majorité d’entre elles ne tiennent pas compte du risque de fausse alarme dans leur prise de décision. L’intérêt de cette thèse est alors d’introduire sous réseau Bayésien des limites probabilistes permettant le respect d’un niveau de signification considéré. Plus exactement, nous proposons une modélisation des statistiques quadratiques et les limites leurs correspondant sur réseau Bayésien. Ceci nous permet de généraliser sous réseau Bayésien des schémas de détection de fautes comme par exemple ceux basés sur l’analyse en composantes principale. Cette modélisation nous permet également de proposer une famille de réseaux Bayésiens permettant de faire de la détection et du diagnostic de façon simultanée, tout en tenant compte d’un rejet de distance. Enfin, nous proposons un cadre probabiliste permettant d’unifier les différents réseaux Bayésiens pouvant être utilisés pour la détection ou le diagnostic de fautes. / Systems failures can potentially lead to serious consequences forhuman, environment and material, and sometimes fixing them could be expensive and even dangerous. Thus, in order to avoid these undesirable situations, it becomes very important and essential for modern complex systems to detect and identify any changes in their nominal operations before they become critical. To do so, several detection and diagnosis methods have been proposed or enhanced during the last decades. Among these methods, those with a great interest are based on a statistical and probabilistic tool named Bayesian network. However, the majority of these methods do not handle the risk of false alarm in their decision-making. The interest of this thesis is to introduce, under Bayesian network, probabilistic limits able to respect a given significance level. More precisely, we propose to model the quadratic statistics and their limits in Bayesian network. This allows us to generalize under Bayesian network fault detection schemes as those associated to the principal component analysis. This modeling allows us also to propose a family of Bayesian networks that can make detection and diagnosis simultaneously, while taking into account the distance rejection.Finally, we propose a probabilistic framework able to unify different BNs dedicated to the detection or diagnosis of systems faults.
|
103 |
Data fusion and collaborative state estimation in wireless sensor networks / Fusion de données et estimation collaborative d'état dans les réseaux de capteurs sans filHaj Chhadé, Hiba 01 June 2015 (has links)
L'objectif de la thèse est de développer des algorithmes de fusion de données recueillies à l’aide d'un réseau de capteurs sans fil afin de localiser plusieurs sources émettant un agent chimique ou biologique dans l'air. Ces capteurs détectent la concentration de la substance émise, transportée par advection et diffusion, au niveau de leurs positions et de communiquer cette information à un centre de traitement. L’information recueillie de façon collaborative est d'abord utilisée pour localiser les capteurs déployés au hasard et ensuite pour localiser les sources. Les applications comprennent, entre autres, la surveillance environnementale et la surveillance de sites sensibles ainsi que des applications de sécurité dans le cas d'une libération accidentelle ou intentionnelle d'un agent toxique. Toutefois, l'application considérée dans la thèse est celle de la détection et la localisation de mines terrestres. Dans cette approche, les mines sont considérées comme des sources émettrices de produits chimiques explosifs.La thèse comprend une contribution théorique où nous étendons l'algorithme de propagation de la croyance, un algorithme de fusion de données bien connu et largement utilisé pour l'estimation collaborative d'état dans les réseaux de capteurs, au cadre des méthodes à erreurs bornées. Le nouvel algorithme est testé sur le problème de l'auto-localisation dans les réseaux de capteurs statiques ainsi que l'application de suivi d'un objet mobile en utilisant un réseau de capteurs de distance. Autres contributions comprennent l'utilisation d'une approche probabiliste bayésienne avec des techniques d'analyse de données pour localiser un nombre inconnu de sources émettrices de vapeur. / The aim of the thesis is to develop fusion algorithms for data collected from a wireless sensor network in order to locate multiple sources emitting some chemical or biological agent in the air. These sensors detect the concentration of the emitted substance, transported by advection and diffusion, at their positions and communicate this information to a treatment center. The information collected in a collaborative manner is used first to locate the randomly deployed sensors and second to locate the sources. Applications include, amongst others, environmental monitoring and surveillance of sensitive sites as well as security applications in the case of an accidental or intentional release of a toxic agent. However, the application we consider in the thesis is that of landmine detection and localization. In this approach, the land mines are considered as sources emitting explosive chemicals. The thesis includes a theoretical contribution where we extend the Belief Propagation algorithm, a well-known data fusion algorithm that is widely used for collaborative state estimation in sensor networks, to the bounded error framework. The novel algorithm is tested on the self-localization problem in static sensor networks as well as the application of tracking a mobile object using a network of range sensors. Other contributions include the use of a Bayesian probabilistic approach along with data analysis techniques to locate an unknown number of vapor emitting sources.
|
104 |
Statistical and intelligent methods for default diagnosis and loacalization in a continuous tubular reactor / Méthodes statistiques et intelligentes pour la détection et la localisation de dysfonctionnements dans un réacteur chimique tubulaire continuLiu, Haoran 26 November 2009 (has links)
Ce travail concerne l’étude d’un réacteur chimique continu afin de construire un modèle pour la phase d’apprentissage de méthode et localisation et détection de pannes. Un dispositif expérimental a été conçu pour disposer de données expérimentales significatives. Pour le diagnostique et la localisation des méthodes orientées données ont été retenues, principalement les réseaux Bayésiens et les réseaux de neurones à Fonctions Radiales de Base (RBF) couplés à un algorithme génétique auto adaptatif à ajustement local (GAAPA). Les données collectées à partir du dispositif expérimental ont servi à l’apprentissage et à la validation du modèle. / The aim is to study a continuous chemical process, and then analyze the hold process of the reactor and build the models which could be trained to realize the fault diagnosis and localization in the process. An experimental system has been built to be the research base. That includes experiment part and record system. To the diagnosis and localization methods, the work presented the methods with the data-based approach, mainly the Bayesian network and RBF network based on GAAPA (Genetic Algorithm with Auto-adapted of Partial Adjustment). The data collected from the experimental system are used to train and test the models.
|
105 |
Auto-diagnostic actif dans les réseaux de télécommunications / Active self-diagnosis in telecommunication networksHounkonnou, Carole 12 July 2013 (has links)
Les réseaux de télécommunications deviennent de plus en plus complexes, notamment de par la multiplicité des technologies mises en œuvre, leur couverture géographique grandissante, la croissance du trafic en quantité et en variété, mais aussi de par l’évolution des services fournis par les opérateurs. Tout ceci contribue à rendre la gestion de ces réseaux de plus en plus lourde, complexe, génératrice d’erreurs et donc coûteuse pour les opérateurs. On place derrière le terme « réseaux autonome » l’ensemble des solutions visant à rendre la gestion de ce réseau plus autonome. L’objectif de cette thèse est de contribuer à la réalisation de certaines fonctions autonomiques dans les réseaux de télécommunications. Nous proposons une stratégie pour automatiser la gestion des pannes tout en couvrant les différents segments du réseau et les services de bout en bout déployés au-dessus. Il s’agit d’une approche basée modèle qui adresse les deux difficultés du diagnostic basé modèle à savoir : a) la façon d'obtenir un tel modèle, adapté à un réseau donné à un moment donné, en particulier si l'on souhaite capturer plusieurs couches réseau et segments et b) comment raisonner sur un modèle potentiellement énorme, si l'on veut gérer un réseau national par exemple. Pour répondre à la première difficulté, nous proposons un nouveau concept : l’auto-modélisation qui consiste d’abord à construire les différentes familles de modèles génériques, puis à identifier à la volée les instances de ces modèles qui sont déployées dans le réseau géré. La seconde difficulté est adressée grâce à un moteur d’auto-diagnostic actif, basé sur le formalisme des réseaux Bayésiens et qui consiste à raisonner sur un fragment du modèle du réseau qui est augmenté progressivement en utilisant la capacité d’auto-modélisation: des observations sont collectées et des tests réalisés jusqu’à ce que les fautes soient localisées avec une certitude suffisante. Cette approche de diagnostic actif a été expérimentée pour réaliser une gestion multi-couches et multi-segments des alarmes dans un réseau IMS. / While modern networks and services are continuously growing in scale, complexity and heterogeneity, the management of such systems is reaching the limits of human capabilities. Technically and economically, more automation of the classical management tasks is needed. This has triggered a significant research effort, gathered under the terms self-management and autonomic networking. The aim of this thesis is to contribute to the realization of some self-management properties in telecommunication networks. We propose an approach to automatize the management of faults, covering the different segments of a network, and the end-to-end services deployed over them. This is a model-based approach addressing the two weaknesses of model-based diagnosis namely: a) how to derive such a model, suited to a given network at a given time, in particular if one wishes to capture several network layers and segments and b) how to reason a potentially huge model, if one wishes to manage a nation-wide network for example. To address the first point, we propose a new concept called self-modeling that formulates off-line generic patterns of the model, and identifies on-line the instances of these patterns that are deployed in the managed network. The second point is addressed by an active self-diagnosis engine, based on a Bayesian network formalism, that consists in reasoning on a progressively growing fragment of the network model, relying on the self-modeling ability: more observations are collected and new tests are performed until the faults are localized with sufficient confidence. This active diagnosis approach has been experimented to perform cross-layer and cross-segment alarm management on an IMS network.
|
106 |
Fully bayesian structure learning of bayesian networks and their hypergraph extensions / Estimation bayésienne de la structure des réseaux bayésiens puis d'hypergraphesDatta, Sagnik 07 July 2016 (has links)
Dans cette thèse, j’aborde le problème important de l’estimation de la structure des réseaux complexes, à l’aide de la classe des modèles stochastiques dits réseaux Bayésiens. Les réseaux Bayésiens permettent de représenter l’ensemble des relations d’indépendance conditionnelle. L’apprentissage statistique de la structure de ces réseaux complexes par les réseaux Bayésiens peut révéler la structure causale sous-jacente. Il peut également servir pour la prédiction de quantités qui sont difficiles, coûteuses, ou non éthiques comme par exemple le calcul de la probabilité de survenance d’un cancer à partir de l’observation de quantités annexes, plus faciles à obtenir. Les contributions de ma thèse consistent en : (A) un logiciel développé en langage C pour l’apprentissage de la structure des réseaux bayésiens; (B) l’introduction d’un nouveau "jumping kernel" dans l’algorithme de "Metropolis-Hasting" pour un échantillonnage rapide de réseaux; (C) l’extension de la notion de réseaux Bayésiens aux structures incluant des boucles et (D) un logiciel spécifique pour l’apprentissage des structures cycliques. Notre principal objectif est l’apprentissage statistique de la structure de réseaux complexes représentée par un graphe et par conséquent notre objet d’intérêt est cette structure graphique. Un graphe est constitué de nœuds et d’arcs. Tous les paramètres apparaissant dans le modèle mathématique et différents de ceux qui caractérisent la structure graphique sont considérés comme des paramètres de nuisance. / In this thesis, I address the important problem of the determination of the structure of complex networks, with the widely used class of Bayesian network models as a concrete vehicle of my ideas. The structure of a Bayesian network represents a set of conditional independence relations that hold in the domain. Learning the structure of the Bayesian network model that represents a domain can reveal insights into its underlying causal structure. Moreover, it can also be used for prediction of quantities that are difficult, expensive, or unethical to measure such as the probability of cancer based on other quantities that are easier to obtain. The contributions of this thesis include (A) a software developed in C language for structure learning of Bayesian networks; (B) introduction a new jumping kernel in the Metropolis-Hasting algorithm for faster sampling of networks (C) extending the notion of Bayesian networks to structures involving loops and (D) a software developed specifically to learn cyclic structures. Our primary objective is structure learning and thus the graph structure is our parameter of interest. We intend not to perform estimation of the parameters involved in the mathematical models.
|
107 |
Modélisation Bayésienne de planification motrice de la parole : variabilité, buts multisensoriels et intéraction perceptuo-motrices / Bayesian modeling of speech motor planning : variability, multisensory goals and perceptuo-motor interactionsPatri, Jean-François 14 June 2018 (has links)
Contexte et objectif:C’est presque une banalité que de dire qu’une des caractéristiques principales de la parole est sa variabilité : variabilité inter-sexe, inter-locuteur, mais aussi variabilité d’un contexte à un autre ou d’une répétition à une autre pour un même sujet. C’est cette variabilité qui fait à la fois la beauté de la parole mais aussi la complexité de son traitement par les technologies vocales, et la difficulté pour en comprendre les mécanismes. Dans cette thèse nous étudions certains aspects de cette variabilité, avec comme point de départ la variabilité observée chez un locuteur dans la répétition d’un même son dans les mêmes conditions, que nous appelons variabilité intrinsèque.Les modèles de contrôle moteur de la parole abordent principalement la variabilité contextuelle de la parole mais prennent rarement en compte sa variabilité intrinsèque, alors même que l’on sait que c’est cette variabilité qui donne à la parole tout son caractère naturel. Dans le contexte général du contrôle moteur, l’origine précise de la variabilité intrinsèque reste peu comprise et controversée. Cependant, une hypothèse courante est que la variabilité intrinsèque serait essentiellement due à du bruit neuronal dans la chaine d’exécution.L’objectif principal de cette thèse est d’aborder la variabilité intrinsèque et contextuelle de la production de la parole dans un cadre formel intégrateur. Pour cela nous faisons l’hypothèse que la variabilité intrinsèque n’est pas que le résultat d’un bruit d’exécution, mais qu’elle résulte aussi d’une stratégie de contrôle où la variabilité inter-répétition fait partie intégrante de la représentation de la tâche.Méthodologie:Nous formalisons cette idée dans un cadre computationnel probabiliste, la modélisation Bayésienne, où l’abondance de réalisations possibles d’un même item de parole est représentée naturellement sous la forme d’incertitudes, et où la variabilité est donc manipulée formellement. Nous illustrons la pertinence de cette approche à travers trois contributions.Résultats:Dans un premier temps, nous reformulons un modèle existant de contrôle optimal de la parole, le modèle GEPPETO, dans le formalisme probabiliste et démontrons que le modèle Bayésien contient GEPPETO comme un cas particulier. En particulier, nous illustrons comment l’approche Bayésienne permet de rendre compte de la variabilité intrinsèque tout en incluant les mêmes principes d’émergence et de structuration de la variabilité contextuelle proposés par GEPPETO.Dans un deuxième temps, le formalisme nous permet de dépasser le cadre de GEPPETO en y intégrant une composante somatosensorielle dans la représentation des buts. Cela permet d’introduire une variabilité interindividuelle sur la préférence sensorielle, c’est-à-dire la modulation des poids relatifs des cibles auditives et somatosensorielles, et permet d’expliquer la variabilité de compensation observée dans les études de perturbation sensorielle. Cette étape a nécessité l’élaboration d’hypothèses sur l’intégration des retours sensoriels dans la planification, dont nous avons cherché à évaluer la pertinence en concevant une expérience originale de production-perception de parole.Dans un troisième temps, nous exploitons le formalisme pour réinterpréter des données expérimentales récentes qui mettent en évidence un changement perceptif consécutif à un apprentissage moteur induit par une altération du retour auditif. Cela est rendu possible grâce à la représentation unifiée des connaissances dans le modèle, qui permet d’intégrer la production et la perception dans un cadre formel unique.L’ensemble de ces travaux illustre la capacité du formalisme Bayésien à proposer une démarche systématique et structurée pour la construction des modèles. Cette démarche facilite le développement des modèles et leur complexification progressive en précisant et explicitant les hypothèses formulées. / Context and goal:It is almost a truism to affirm that one of the main features of speech is its variability: variability inter-gender, inter-speaker, but also variability from one context to another, or from one repetition to another for a given subject. Variability underlies at the same time the beauty of speech, the complexity of its treatment by speech technologies, and the difficulty for understanding its mechanism. In this thesis we study certain aspects of speech variability, our starting point being the variability characterizing the repetitions of a given utterance by a given subject, in a given condition, which we call intrinsic variability.Models of speech motor control have mainly focused on the contextual aspects of speech variability, and have rarely considered its intrinsic component, even though it is this fundamental component of variability that gives speech it naturalness. In the general context of motor control, the precise origin of the intrinsic variability of our movements remains controversial and poorly understood, however, a common assumption is that intrinsic variability would mainly originate from neural and muscular noise in the execution chain.The main goal of this thesis is to address the contextual and intrinsic component of speech variability in an integrative computational framework . To this aim, we postulate that the main component of the intrinsic variability of speech is not just execution noise, but that it results from a control strategy where intrinsic variability characterizes the abundance of possible productions of the intended speech item.Methodology:We formalize this idea in a probabilistic computational framework, Bayesian modeling, where the abundance of possible realizations of a given speech item is naturally represented as uncertainty, and where variability is thus formally manipulated. We illustrate the pertinence of this approach with three main contributions.Results:Firstly, we reformulate in Bayesian terms an existing model of speech motor control, the GEPPETO model, and demonstrate that this Bayesian reformulation, which we call B-GEPPETO, contains GEPPETO as a particular case . In particular, we illustrate how the Bayesian approach enables to account for the intrinsic component of speech variability while including the same principles proposed by GEPPETO for the emergence and structuration of its contextual component.Secondly, the Bayesian framework enable us to go beyond and extend B-GEPPETO in order to include a multisensory characterization of speech motor goals, with auditory and somatosensory components. We apply this extension to explore variability in the context of compensations to sensory-motor perturbation in speech production. We account for differences in compensation as sensory preferences implemented by modulating the relative contribution of each sensory modality in the model . The somatosensory characterization of speech motor goals involved a certain number of hypotheses that we intended to evaluate with two experimental studies.Finally, in our third contribution we exploit the formalism for the reinterpretation of recent experimental observations concerning perceptual changes following speech motor adaptation to auditory perturbations. This original analysis is made possible thanks to the unified representation of knowledge in the model, which enables to account for production and perception processes in a single computational framework.Taken together, these contributions illustrate how the Bayesian framework offers a structured and systematic approach for the construction of models in cognitive sciences . The framework facilitates the development of models and their progressive complexification by specifying and clarifying underlying assumptions.
|
108 |
Réseau bayésien dynamique hybride : application à la modélisation de la fiabilité de systèmes à espaces d'états discrets / hybrid dynamic bayesian network : application to reliability modeling of discrete state spaces systemsPetiet, Florence 01 July 2019 (has links)
L'analyse de fiabilité fait partie intégrante de la conception et du fonctionnement du système, en particulier pour les systèmes exécutant des applications critiques. Des travaux récents ont montré l'intérêt d'utiliser les réseaux bayésiens dans le domaine de la fiabilité, pour modélisation la dégradation d'un système. Les modèles graphiques de durée sont un cas particulier des réseaux bayésiens, qui permettent de s'affranchir de la propriété markovienne des réseaux bayésiens dynamiques. Ils s'adaptent aux systèmes dont le temps de séjour dans chaque état n'est pas nécessairement distribué exponentiellement, comme c'est le cas dans la plupart des applications industrielles. Des travaux antérieurs ont toutefois montré des limitations à ces modèles en terme de capacité de stockage et de temps de calcul, en raison du caractère discret de la variable temps de séjour. Une solution pourrait consister à considérer une variable de durée continue. Selon les avis d'experts, les variables de temps de séjour suivent une distribution de Weibull dans de nombreux systèmes. L'objectif de la thèse est d'intégrer des variables de temps de séjour suivant une distribution de Weibull dans un modèle de durée graphique en proposant une nouvelle approche. Après une présentation des réseaux bayésiens, et plus particulièrement des modèles graphiques de durée et leur limitation, ce rapport s'attache à présenter le nouveau modèle permettant la modélisation du processus de dégradation. Ce nouveau modèle est appelé modèle graphique de durée hybride Weibull. Un algorithme original permettant l'inférence dans un tel réseau a été mis en place. L'étape suivante a été la validation de l'approche. Ne disposant pas de données, il a été nécessaire de simuler des séquences d'états du système. Différentes bases de données ainsi construites ont permis d'apprendre d'un part un modèle graphique de durée, et d'autre part un modèle graphique de durée hybride-Weibull, afin de les comparer, que ce soit en terme de qualité d’apprentissage, de qualité d’inférence, de temps de calcul, et de capacité de stockage / Reliability analysis is an integral part of system design and operation, especially for systems running critical applications. Recent works have shown the interest of using Bayesian Networks in the field of reliability, for modeling the degradation of a system. The Graphical Duration Models are a specific case of Bayesian Networks, which make it possible to overcome the Markovian property of dynamic Bayesian Networks. They adapt to systems whose sojourn-time in each state is not necessarily exponentially distributed, which is the case for most industrial applications. Previous works, however, have shown limitations in these models in terms of storage capacity and computing time, due to the discrete nature of the sojourn time variable. A solution might be to allow the sojourn time variable to be continuous. According to expert opinion, sojourn time variables follow a Weibull distribution in many systems. The goal of this thesis is to integrate sojour time variables following a Weibull distribution in a Graphical Duration Model by proposing a new approach. After a presentation of the Bayesian networks, and more particularly graphical duration models, and their limitations, this report focus on presenting the new model allowing the modeling of the degradation process. This new model is called Weibull Hybrid Graphical Duration Model. An original algorithm allowing inference in such a network has been deployed. Various so built databases allowed to learn on one hand a Graphical Duration Model, and on an other hand a Graphical Duration Model Hybrid - Weibull, in order to compare them, in term of learning quality, of inference quality, of compute time, and of storage space
|
109 |
Analyse des leviers : effets de colinéarité et hiérarchisation des impacts dans les études de marché et sociales / Driver Analysis : consequenses of multicollinearity quantification of relative impact of drivers in market research applications.Wallard, Henri 18 December 2015 (has links)
La colinéarité rend difficile l’utilisation de la régression linéaire pour estimer l’importance des variables dans les études de marché. D’autres approches ont donc été utilisées.Concernant la décomposition de la variance expliquée, une démonstration de l’égalité entre les méthodes lmg-Shapley et celle de Johnson avec deux prédicteurs est proposée. Il a aussi été montré que la méthode de Fabbris est différente des méthodes de Genizi et Johnson et que les CAR scores de deux prédicteurs ne s’égalisent pas lorsque leur corrélation tend vers 1.Une méthode nouvelle, weifila (weighted first last) a été définie et publiée en 2015.L’estimation de l’importance des variables avec les forêts aléatoires a également été analysée et les résultats montrent une bonne prise en compte des non-linéarités.Avec les réseaux bayésiens, la multiplicité des solutions et le recours à des restrictions et choix d’expert militent pour utilisation prudente même si les outils disponibles permettent une aide dans le choix des modèles.Le recours à weifila ou aux forêts aléatoires est recommandé plutôt que lmg-Shapley sans négliger les approches structurelles et les modèles conceptuels.Mots clés :régression, décomposition de la variance, importance, valeur de Shapley, forêts aléatoires, réseaux bayésiens. / AbstractLinear regression is used in Market Research but faces difficulties due to multicollinearity. Other methods have been considered.A demonstration of the equality between lmg-Shapley and and Johnson methods for Variance Decomposition has been proposed. Also this research has shown that the decomposition proposed by Fabbris is not identical to those proposed by Genizi and Johnson, and that the CAR scores of two predictors do not equalize when their correlation tends towards 1. A new method, weifila (weighted first last) has been proposed and published in 2015.Also we have shown that permutation importance using Random Forest enables to take into account non linear relationships and deserves broader usage in Marketing Research.Regarding Bayesian Networks, there are multiple solutions available and expert driven restrictions and decisions support the recommendation to be careful in their usage and presentation, even if they allow to explore possible structures and make simulations.In the end, weifila or random forests are recommended instead of lmg-Shapley knowing that the benefit of structural and conceptual models should not be underestimated.Keywords :Linear regression, Variable Importance, Shapley Value, Random Forests, Bayesian Networks
|
110 |
Unsupervised word discovery for computational language documentation / Découverte non-supervisée de mots pour outiller la linguistique de terrainGodard, Pierre 16 April 2019 (has links)
La diversité linguistique est actuellement menacée : la moitié des langues connues dans le monde pourraient disparaître d'ici la fin du siècle. Cette prise de conscience a inspiré de nombreuses initiatives dans le domaine de la linguistique documentaire au cours des deux dernières décennies, et 2019 a été proclamée Année internationale des langues autochtones par les Nations Unies, pour sensibiliser le public à cette question et encourager les initiatives de documentation et de préservation. Néanmoins, ce travail est coûteux en temps, et le nombre de linguistes de terrain, limité. Par conséquent, le domaine émergent de la documentation linguistique computationnelle (CLD) vise à favoriser le travail des linguistes à l'aide d'outils de traitement automatique. Le projet Breaking the Unwritten Language Barrier (BULB), par exemple, constitue l'un des efforts qui définissent ce nouveau domaine, et réunit des linguistes et des informaticiens. Cette thèse examine le problème particulier de la découverte de mots dans un flot non segmenté de caractères, ou de phonèmes, transcrits à partir du signal de parole dans un contexte de langues très peu dotées. Il s'agit principalement d'une procédure de segmentation, qui peut également être couplée à une procédure d'alignement lorsqu'une traduction est disponible. En utilisant deux corpus en langues bantoues correspondant à un scénario réaliste pour la linguistique documentaire, l'un en Mboshi (République du Congo) et l'autre en Myene (Gabon), nous comparons diverses méthodes monolingues et bilingues de découverte de mots sans supervision. Nous montrons ensuite que l'utilisation de connaissances linguistiques expertes au sein du formalisme des Adaptor Grammars peut grandement améliorer les résultats de la segmentation, et nous indiquons également des façons d'utiliser ce formalisme comme outil de décision pour le linguiste. Nous proposons aussi une variante tonale pour un algorithme de segmentation bayésien non-paramétrique, qui utilise un schéma de repli modifié pour capturer la structure tonale. Pour tirer parti de la supervision faible d'une traduction, nous proposons et étendons, enfin, une méthode de segmentation neuronale basée sur l'attention, et améliorons significativement la performance d'une méthode bilingue existante. / Language diversity is under considerable pressure: half of the world’s languages could disappear by the end of this century. This realization has sparked many initiatives in documentary linguistics in the past two decades, and 2019 has been proclaimed the International Year of Indigenous Languages by the United Nations, to raise public awareness of the issue and foster initiatives for language documentation and preservation. Yet documentation and preservation are time-consuming processes, and the supply of field linguists is limited. Consequently, the emerging field of computational language documentation (CLD) seeks to assist linguists in providing them with automatic processing tools. The Breaking the Unwritten Language Barrier (BULB) project, for instance, constitutes one of the efforts defining this new field, bringing together linguists and computer scientists. This thesis examines the particular problem of discovering words in an unsegmented stream of characters, or phonemes, transcribed from speech in a very-low-resource setting. This primarily involves a segmentation procedure, which can also be paired with an alignment procedure when a translation is available. Using two realistic Bantu corpora for language documentation, one in Mboshi (Republic of the Congo) and the other in Myene (Gabon), we benchmark various monolingual and bilingual unsupervised word discovery methods. We then show that using expert knowledge in the Adaptor Grammar framework can vastly improve segmentation results, and we indicate ways to use this framework as a decision tool for the linguist. We also propose a tonal variant for a strong nonparametric Bayesian segmentation algorithm, making use of a modified backoff scheme designed to capture tonal structure. To leverage the weak supervision given by a translation, we finally propose and extend an attention-based neural segmentation method, improving significantly the segmentation performance of an existing bilingual method.
|
Page generated in 1.8928 seconds