Global ETD Search

1	Reconnaissance d'activités de base à l'aide de réseaux bayésiens dans le cadre d'un habitat intelligent en télésanté Descheneaux, Céline 01 1900 (has links) (PDF) La proportion des personnes âgées au sein de notre société ne cesse d'augmenter à un rythme régulier. Ce phénomène, qui est partiellement explicable par les effets combinés d'une baisse du taux de natalité avec ceux d'une augmentation de l'espérance de vie, commence déjà à avoir un effet notable sur le système de la santé, tant au Canada qu'ailleurs dans le monde, et à soulever plusieurs questions d'ordre éthique, social, médical et économique. Le maintien à domicile le plus longtemps possible, dans des conditions sécuritaires pour l'occupant, est de loin préférable à l'institutionnalisation en milieu spécialisé. Par contre, comme le vieillissement va de pair avec plusieurs types de maladies, comment arriver à favoriser le maintien à domicile de nos aînés en perte d'autonomie cognitive? Nous croyons que les habitats intelligents en télé santé peuvent répondre en partie à cette question. Afin d'être «intelligents», de tels habitats devront être en mesure de déduire correctement les tâches que l'occupant effectue et, éventuellement, d'apprendre ses habitudes de vie. L'utilisation d'une combinaison de capteurs non invasifs (choisis en tenant compte de plusieurs considérations éthiques dont le respect de la vie privée et de la dignité de l'individu) et d'un module de reconnaissance d'activités basé sur les réseaux bayésiens devraient permettre à l'habitat intelligent de déterminer quelle AVQ (Activité de la Vie Quotidienne) et/ou quelle AIVQ (Activité Instrumentale à la Vie Quotidienne) l'occupant effectue. Un système complet de reconnaissance d'activité devrait, une fois complètement opérationnel, être en mesure non seulement de détecter les situations anormales et d'agir en conséquence, mais aussi de faire ressortir les changements inattendus dans la routine habituelle de l'occupant (ses habitudes de vie) pouvant indiquer un déclin des facultés cognitives de ce dernier ou l'apparition d'une nouvelle pathologie comme la diarrhée ou l'insomnie. Notre travail se concentre sur la reconnaissance d'un certain nombre d'activités pouvant être effectuées dans la salle de bain. Pour ce faire, nous utilisons des réseaux bayésiens spécialisés qui déduisent, en fonction des interactions de l'occupant avec son environnement, quelle est l'activité la plus probablement en cours. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Habitat intelligent, reconnaissance d'activité, habitudes de vie, réseaux bayésiens, perte d'autonomie, vieillissement, apprentissage, AVQ, «Aging in Place» Réseau bayésien Reconnaissance des gestes Domotique Télésanté
2	Réseaux bayésiens et filtres particulaires pour l'égalisation adaptative et le décodage conjoints Cheung-Mon-Chan, Pascal 12 1900 (has links) (PDF) Cette thèse s'intéresse aux réseaux bayésiens, aux filtres particulaires et à leur application aux communications numériques. Tout d'abord, nous donnons une construction rigoureuse et très générale des réseaux bayésiens et nous présentons l'algorithme de propagation de croyance dans ce contexte. Puis, nous introduisons un nouveau type de filtre particulaire, appelé "filtre particulaire à échantillonnage global", et nous constatons en effectuant des simulations numériques que ce nouvel algorithme se compare favorablement à l'état de l'art. Nous utilisons ensuite le filtrage particulaire pour calculer de façon approchée certains messages de l'algorithme de propagation de croyance. Nous obtenons ainsi un nouvel algorithme, combinant propagation de croyance et filtrage particulaire, que nous avons appelé "algorithme de turbo-filtrage particulaire». Enfin, nous utilisons ces différentes techniques afin de concevoir de façon méthodique un récepteur de communications numériques.
3	Algorithmique pour les Réseaux Bayésiens et leurs extensions Smail, Linda 30 April 2004 (has links) (PDF) Cette thèse est consacrée à la présentation d'un algorithme nouveau et à la formalisation et l'amélioration d'algorithmes existants pour le calcul des lois marginales et conditionnelles dans les réseaux bayésiens.<br /> Le chapitre 1 présente la théorie des réseaux bayésiens. Nous introduisons une nouvelle notion, celle de réseau bayésien de niveau deux, utile pour l'introduction de notre algorithme de calcul sur les réseaux bayésiens ; nous donnons également quelques résultats fondamentaux et nous situons dans notre formalisme un exemple d'école de réseau bayésien dit «Visite en Asie» .<br />Dans le second chapitre, nous exposons une propriété graphique appelée «d-séparation» grâce à laquelle on peut déterminer, pour tout couple de variables aléatoires ou de groupes de variables, et tout ensemble de conditionnement, s'il y a nécessairement, ou non, indépendance conditionnelle. Nous présentons également dans ce chapitre des résultats concernant le calcul de probabilités ou probabilités conditionnelles dans les réseaux bayésiens en utilisant les propriétés de la d-séparation. Ces résultats, qui concernent des écritures à notre connaissance originales de la factorisation de la loi jointe et de la loi conditionnée d'une famille de variables aléatoires du réseau bayésien (en liaison avec la notion de réseau bayésien de niveau deux) doivent trouver leur utilité pour les réseaux bayésiens de grande taille.<br />Le troisième chapitre donne la présentation détaillée et la justification d'un des algorithmes connus de calcul dans les réseaux bayésiens : il s'agit de l'algorithme LS (Lauritzen and Spigelhalter), basé sur la méthode de l'arbre de jonction. Pour notre part, après avoir présenté la notion de suite recouvrante propre possédant la propriété d'intersection courante, nous proposons un algorithme en deux versions (dont l'une est originale) qui permet de construire une suite de parties d'un réseau bayésien possédant cette propriété. Cette présentation est accompagnée d'exemples. <br />Dans le chapitre 4, nous donnons une présentation détaillée de l'algorithme des restrictions successives que nous proposons pour le calcul de lois (dans sa première version), et de lois conditionnelles (dans sa deuxième version). Cela est présenté après l'introduction d'une nouvelle notion : il s'agit de la descendance proche. Nous présentons également une application de l'algorithme des restrictions successives sur l'exemple «Visite en Asie» présenté en chapitre 1, et nous comparons le nombre d'opérations élémentaires effectuées avec celui qui intervient dans l'application de l'algorithme LS sur le même exemple. Le gain de calcul qui, à la faveur de cet exemple, apparaît au profit de l'algorithme des restrictions successives, sera comme toujours, d'autant plus marqué que la taille des réseaux et le nombre de valeurs prises par les variables seront plus élevés. C'est ce qui justifie l'insertion de notre algorithme au seins de « ProBT » , un logiciel d'inférence probabiliste, réalisé et diffusé par l'équipe Laplace localisée dans le laboratoire Gravir à INRIA Rhône Alpes. <br />En annexes nous rappelons les propriétés des graphes orientés sans circuits, les notions de base sur l'indépendance conditionnelle et l'équivalence de plusieurs définitions des réseaux bayésiens. [MATH] Mathematics Réseau Bayésien Réseau Bayésien de niveau deux D-Séparation Inférence dans les Réseaux Bayésiens Algorithme LS Algorithme des Restrictions Successives
4	Approche stochastique bayésienne de la composition sémantique pour les modules de compréhension automatique de la parole dans les systèmes de dialogue homme-machine Meurs, Marie-Jean 10 December 2009 (has links) (PDF) Les systèmes de dialogue homme-machine ont pour objectif de permettre un échange oral efficace et convivial entre un utilisateur humain et un ordinateur. Leurs domaines d'applications sont variés, depuis la gestion d'échanges commerciaux jusqu'au tutorat ou l'aide à la personne. Cependant, les capacités de communication de ces systèmes sont actuellement limités par leur aptitude à comprendre la parole spontanée. Nos travaux s'intéressent au module de compréhension de la parole et présentent une proposition entièrement basée sur des approches stochastiques, permettant l'élaboration d'une hypothèse sémantique complète. Notre démarche s'appuie sur une représentation hiérarchisée du sens d'une phrase à base de frames sémantiques. La première partie du travail a consisté en l'élaboration d'une base de connaissances sémantiques adaptée au domaine du corpus d'expérimentation MEDIA (information touristique et réservation d'hôtel). Nous avons eu recours au formalisme FrameNet pour assurer une généricité maximale à notre représentation sémantique. Le développement d'un système à base de règles et d'inférences logiques nous a ensuite permis d'annoter automatiquement le corpus. La seconde partie concerne l'étude du module de composition sémantique lui-même. En nous appuyant sur une première étape d'interprétation littérale produisant des unités conceptuelles de base (non reliées), nous proposons de générer des fragments sémantiques (sous-arbres) à l'aide de réseaux bayésiens dynamiques. Les fragments sémantiques générés fournissent une représentation sémantique partielle du message de l'utilisateur. Pour parvenir à la représentation sémantique globale complète, nous proposons et évaluons un algorithme de composition d'arbres décliné selon deux variantes. La première est basée sur une heuristique visant à construire un arbre de taille et de poids minimum. La seconde s'appuie sur une méthode de classification à base de séparateurs à vaste marge pour décider des opérations de composition à réaliser. Le module de compréhension construit au cours de ce travail peut être adapté au traitement de tout type de dialogue. Il repose sur une représentation sémantique riche et les modèles utilisés permettent de fournir des listes d'hypothèses sémantiques scorées. Les résultats obtenus sur les données expérimentales confirment la robustesse de l'approche proposée aux données incertaines et son aptitude à produire une représentation sémantique consistante [INFO] Computer Science Système de dialogue oral Compréhension du langage parlé Frame sémantique Composition sémantique Réseau bayésien dynamique
5	L'évolution modulaire des protéines : un point de vue phylogénétique Sertier, Anne-Sophie 12 September 2011 (has links) (PDF) La diversité du monde vivant repose pour une large part sur la diversité des protéines codées dans les génomes. Comment une telle diversité a-t-elle été générée ? La théorie classique postule que cette diversité résulte à la fois de la divergence de séquence et de la combinatoire des arrangements de protéines en domaines à partir de quelques milliers de domaines anciens, mais elle n'explique pas les nombreuses protéines orphelines.Dans cette thèse, nous avons étudié l'évolution des protéines du point de vue de leur décomposition en domaines en utilisant trois bases de données : HOGENOM (familles de protéines homologues), Pfam (familles de domaines expertisées) et ProDom (familles de modules protéiques construites automatiquement). Chaque famille d'HOGENOM a ainsi été décomposée en domaines de Pfam ou modules de ProDom. Nous avons modélisé l'évolution de ces familles par un réseau Bayésien basé sur l'arbre phylogénétique des espèces. Dans le cadre de ce modèle, on peut reconstituer rigoureusement les scénarios d'évolution les plus probables qui reflètent la présence ou l'absence de chaque protéine, domaine ou module dans les espèces ancestrales. La mise en relation de ces scénarios permet d'analyser l'émergence de nouvelles protéines en fonctions de domaines ou modules ancestraux. L'analyse avec Pfam suggère que la majorité de ces événements résulte de réarrangements de domaines anciens, en accord avec la théorie classique. Cependant une part très significative de la diversité des protéines est alors négligée. L'analyse avec ProDom, au contraire, suggère que la majorité des nouvelles protéines ont recruté de nouveaux modules protéiques. Nous discutons les biais de Pfam et de ProDom qui permettent d'expliquer ces points de vue différents. Nous proposons que l'émergence de nouveaux modules protéiques peut résulter d'un turn-over rapide de séquences codantes, et que cette innovation au niveau des modules est essentielle à l'apparition de nombreuses protéines nouvelles tout au long de l'évolution. Module protéique Domaine Réseau Bayésien Scénario d'évolution Réarrangement Innovation
6	Extension des systèmes MES au diagnostic des performances des systèmes de production au travers d'une approche probabiliste Bayésienne / Manufacturing Execution System extending to diagnosis of production performances based on probalistic Bayesian approach Tran, Ngoc Hoang 11 July 2018 (has links) Cette thèse s'inscrit dans le domaine de la diagnostic, en particulier de Manufacturing Execution System (MES) . Elle apporte sa contribution au diagnostic de système en présence de défaillances potentielles suit à une variation du TRS, un indicateur de performance qui donne une image de l’état de fonctionnement d’un système de production (équipement, ligne, atelier, usine) à travers l’estimation des pertes selon trois origines : disponibilité, performance, qualité. L’objectif est de fournir le maximum d’informations sur les origines d’une variation du TRS afin de permettre à l'exploitant de prendre la bonne décision. Aussi, sur la base d'un tel modèle, nous proposons une méthodologie de déploiement pour intégrer une fonction de diagnostic aux solutions MES existantes dans un contexte industriel. / This Phd thesis takes place in the diagnostic field, especially in contexte of Manufacturing Execution System (MES). It contributes to the diagnostic system in the presence of potential failures following a triggering signal OEE drift, an indicator performance that gives a picture of the production system state (equipment, production line, site, and enterprise) by estimating downtime from 3 major origins: availability, performance, and quality. Our objective is to provide maximum information of the origins of an OEE variation and to support making the best decision for four categories users of OEE (operator, leader team, supervisor, direction). Also, basis on that model, the purpose will provides a deployment methodology to integrate with MES solution in an industrial context. Système MES Diagnostic Réseau bayésien Trs Manufacturing Execution System Diagnosis Bayesian network Oee 004
7	Bayesian dynamic scheduling for service composition testing / Ordonnancement dynamique bayesien pour le test des architectures de service Maesano, Ariele 30 January 2015 (has links) Aujourd'hui la connectivité entre les systèmes se standardise. Il supprime l'intervention humaine et permet aux systèmes distribués d'accomplir des tâches longues et complexes. La SOA est une approche fondée sur le modèle qui s'appuie sur des contrats et qui permet aux systèmes existants de collaborer par échange de messages. De multiples organisations peuvent, automatiser des échanges de services sans risquer leur confidentialité. Cette collaboration est à l'origine des difficultés concernant le test, parce que si il a des échanges entre les différents partenaires, le fonctionnement interne de processus résultant dans l'information échangé est limité à certains partenaires/testeurs. Ceci nous place dans un cadre de tests boîte grise où les systèmes sont des boîtes noires et seulement l'échange de message est visible. C'est pourquoi nous proposons une approche probabiliste en utilisant l'inférence bayésienne pour tester les SOA. Le deuxième défi est leur taille. Etant donné que les systèmes sont connectés de manière lâche en les couplant deux par deux selon les spécifications, une SOA peut contenir un nombre très important de participants et donc une grande taille. La taille des SOA se reflète dans la complexité de l'inférence bayésienne. Cette seconde contrainte pousse à chercher de meilleure solution pour l'inférence bayésienne. Afin de faire face à la taille et la densité de la BN, même pour de petits services architectures, les techniques d'inférence par compilation dirigée par les modèles qui permet la génération rapide de circuits arithmétiques directement à partir du modèle de l'architecture des services et de la suite de tests sont en cours d'élaboration. / In present times connectivity between systems becomes more common. It removes human mediation and allows complex distributed systems to autonomously complete long and complex tasks. SOA is a model driven contract based approach that allows legacy systems to collaborate by messages exchange. Collaboration, here, is a key word in the sense that multiple organisation can, with this approach, automate services exchanges between them without putting at risks their confidentiality. This cause to encounter the first difficulty, because if there are exchanges between the different partners, the inner-processes resulting in the exchange information is restricted to some partners and therefor to some of the testers. That put us in a grey-box testing case where the systems are black-boxes and only the message exchange is visible. That is why we propose a probabilistic approach using Bayesian Inference to test the architectures. The second Challenge is the size of the SOA. Since the systems are connected by loosely coupling them two by two according to SOA Specifications, SOA can contain a very important number of participants. In Fact most of the existing SOA are very important in there size. The size of the SOA is reflected in the complexity of the Bayesian inference. This second challenge constraints us to search for better solution for the Bayesian Inference. In order to cope with the size and density of the BN for even small services architectures, techniques of model-driven inference by compilation that allows quick generation of arithmetic circuits directly from the services architecture model and the test suite are being developed. Réseau Bayésien Inférence Modèle Architecture orientée services Circuit arithmétique Test fonctionnel Bayesian network Inference 004
8	Developpements d'outils d'aide au diagnostic en contexte incertain / Development of a diagnostic support tools in uncertain context Mabrouk, Ahmed 13 September 2016 (has links) Le diagnostic des scénarios d'accidents nucléaires graves représente un enjeu majeur pour la sûreté nucléaire et la gestion de crise. Le problème est complexe à cause de la complexité des phénomènes physiques et chimiques sous-jacents des accidents graves, la difficulté de la compréhension des différentes corrélations entre ces derniers, et de surcroît la rareté des base de données descriptives. Ainsi, ce travail de thèse vise à proposer un outil dédié à la modélisation et au diagnostic des scénarios d'accident à base de réseaux bayésiens. L'usage des réseaux bayésiens reposera sur l'apprentissage à partir de bases de données de calculs créés avec le logiciel de calcul d'accident grave ASTEC. Dans ce contexte, l'utilisation des réseaux bayésiens a été, tout au long de ce travail doctoral, sujet à de nombreuses difficultés, notamment l'apprentissage de ces derniers à partir des données accidentelles qui, suite à de nombreuses études menées, ne se sont avérées pas tout à fait pertinentes pour mener à bien cette tâche. Ces difficultés proviennent principalement du fait que les données utilisées sont d'un coté de nature continue et de l'autre côté reliées à la fois par des relations déterministes et probabilistes. Ces deux contraintes posent un sérieux problème pour les algorithmes de construction des réseaux bayésiens qui supposent à la fois que toutes les relations entre variables sont de nature probabiliste et l'ensemble des variables utilisées sont de nature factorielle (ou discrète). Concernant le premier point, nous avons proposé un nouvel algorithme d’apprentissage de structure utilisant un ensemble de nouvelles règles (dont l'efficacité a été prouvée théoriquement et expérimentalement). Concernant l’étape de discrétisation, nous avons proposé une approche multivariée, qui d’après une étude expérimentale détaillée, nous a permis de pallier les inconvénients des algorithmes de l'état de l'art tout en minimisant la perte de l’information lors de la transformation des données. / The diagnosis of severe nuclear accident scenarios represents a major challenge for nuclear safety and crisis management. The problem is complex and remains until now one of the main research topics due to the complexity of the physical and chemical phenomena underlying severe accidents, the difficulty in understanding the different correlations between them, and in addition the unavailability of efficient public datasets. Thus, the purpose of this thesis is to propose a dedicated tool for modeling and diagnosis of accident scenarios based on Bayesian networks. The learning process of the Bayesian networks is based on the use of databases created with the ASTEC severe accident software. It should be emphasized that the use of Bayesian networks in this context has faced many challenges, notably the learning process from the accidental data which, after numerous studies, has been doomed to be ineffective to address efficiently this task. These difficulties arise mainly because the used data contains on the one hand, many continuous variables and on the other hand a set of both deterministic and probabilistic relationships between variables. These two constraints present a serious problem for the learning algorithms of Bayesian networks because these latter assume that all relationships between variables are probabilistic and all the used variables in the datasets are factorial (or discrete). Concerning the first point, we proposed of a new structure learning algorithm based on the use of a set of new rules (whose effectiveness has been proven theoretically and experimentally). Regarding discretization step, we proposed a multivariate approach which, according to a detailed experimental study, has enabled us to overcome the drawbacks of these latter while minimizing the information loss during the data transformation. Diagnostique Accident nucleaire grave Réseau bayésien Apprentissage Structure Discrétisation Diagnosis Nuclear accident Bayesian network 004
9	Apports de la modélisation causale dans l’évaluation des immunothérapies à partir de données observationnelles / Contribution of the Causal Model in the Evaluation of Immunotherapy Based on Observational Data Asvatourian, Vahé 09 November 2018 (has links) De nouveaux traitements comme l’immunothérapie ont été proposés en oncologie. Ils sont basés sur les mécanismes de régulation du système immunitaire. Cependant tous les patients ne répondent pas à ces nouveaux traitements. Afin de pouvoir les identifier, on mesure l’association des marqueurs immunologiques exprimés à la réponse au traitement ainsi qu’à la toxicité à l’instaurationdu traitement et leur évolution sous traitement. En situation observationnelle, l’absence de tirage au sort empêche la comparabilité des groupes et l'effet mesuré est juste une mesure d'association. Les méthodes d’inférence causalepermettent dans certains cas, après avoir identifié les sources de biais de par la construction de diagrammes acycliques dirigés (DAG), d'atteindre l’interchangeabilité conditionnelle entre exposés et non exposés etpermettent l’estimation d’effets causaux. Dans les cas les plus simples où le nombre de variables est faible, il est possible de dessiner leDAG à partir d’expertise. Dans les situations où le nombre de variables explosent, des algorithmes d’apprentissage ont été proposés pour retrouver la structure de ces graphes. Néanmoins ces algorithmes font d’une part l’hypothèse qu’aucune information n’est connue et n’ont été développés que dans les cas où les covariables sont mesurés à un seul temps. L’objectif de cette thèse est donc de développer ces méthodes d’apprentissages de graphes à des données répétées, puis d’intégrer des connaissances a priori pour améliorer l’estimation de ceux-ci. Une fois les graphes appris les modèles causaux peuvent être appliqués sur les biomarkers immunologiques répétés pour détecter ceux qui sont associés à laréponse et/ou la toxicité. / In oncology, new treatments such as immunotherapy have been proposed, which are based on regulation of the immune system. However, not all treated patient have a long-term benefit of the treatment. To identify those patients who benefit most, we measured markers of the immune system expressed at treatment initiation and across time. In an observational study, the lack of randomization makes the groups not comparable and the effect measured is just an association. In this context, causal inference methods allow in some cases, after having identified all biases by constructing a directed acyclic graph (DAG), to get close to the case of conditional exchangeability between exposed and non-exposed subjects and thus estimating causal effects.In the most simple cases, where the number of variables is low, it is possible to draw the DAG with experts’ beliefs. Whereas in the situation where the number of variables rises, learning algorithms have been proposed in order to estimate the structure of the graphs. Nevertheless, these algorithms make the assumptions that any a priori information between the markers is known and have mainly been developed in the setting in which covariates are measured only once. The objective of this thesis is to develop learning methods of graphs for taking repeated measures into account, and reduce the space search by using a priori expert knowledge. Based on these graphs, we estimate causal effects of the repeated immune markers on treatment response and/or toxicity. Modelisation causale Immunothérapies Données observationnelles Réseau Bayésien Causal model Immunotherapy Observational data Bayesian network
10	L’évolution modulaire des protéines : un point de vue phylogénétique / A phylogenetic view of the modular evolution of proteins Sertier, Anne-Sophie 12 September 2011 (has links) La diversité du monde vivant repose pour une large part sur la diversité des protéines codées dans les génomes. Comment une telle diversité a-t-elle été générée ? La théorie classique postule que cette diversité résulte à la fois de la divergence de séquence et de la combinatoire des arrangements de protéines en domaines à partir de quelques milliers de domaines anciens, mais elle n’explique pas les nombreuses protéines orphelines.Dans cette thèse, nous avons étudié l’évolution des protéines du point de vue de leur décomposition en domaines en utilisant trois bases de données : HOGENOM (familles de protéines homologues), Pfam (familles de domaines expertisées) et ProDom (familles de modules protéiques construites automatiquement). Chaque famille d’HOGENOM a ainsi été décomposée en domaines de Pfam ou modules de ProDom. Nous avons modélisé l’évolution de ces familles par un réseau Bayésien basé sur l’arbre phylogénétique des espèces. Dans le cadre de ce modèle, on peut reconstituer rigoureusement les scénarios d’évolution les plus probables qui reflètent la présence ou l’absence de chaque protéine, domaine ou module dans les espèces ancestrales. La mise en relation de ces scénarios permet d’analyser l’émergence de nouvelles protéines en fonctions de domaines ou modules ancestraux. L’analyse avec Pfam suggère que la majorité de ces événements résulte de réarrangements de domaines anciens, en accord avec la théorie classique. Cependant une part très significative de la diversité des protéines est alors négligée. L’analyse avec ProDom, au contraire, suggère que la majorité des nouvelles protéines ont recruté de nouveaux modules protéiques. Nous discutons les biais de Pfam et de ProDom qui permettent d’expliquer ces points de vue différents. Nous proposons que l’émergence de nouveaux modules protéiques peut résulter d’un turn-over rapide de séquences codantes, et que cette innovation au niveau des modules est essentielle à l’apparition de nombreuses protéines nouvelles tout au long de l’évolution. / The diversity of life derives mostly from the variety of proteins coded in genomes. How did evolution produce such a tremendous diversity ? The classical theory postulates that this diversity results both from sequence divergence and from the combinatorial arrangements of a few thousand primary protein domain types. However this does not account for the increasing number of entirely unique proteins as found in most genomes.In this thesis, we study the evolution of proteins from the point of view of their domain decomposition and rely on three databases : HOGENOM (homologous protein families), Pfam (manually curated protein domain families) and ProDom (automatically built protein module families). Each protein family from HOGENOM has thus been decomposed into Pfam domains or ProDom modules. We have modelled the evolution of these families using a Bayesian network based on the phylogenetic species tree. In the framework of this model, we can rigorously reconstitute the most likely evolutionary scenarios reflecting the presence or absence of each protein, domain or module in ancestral species. The comparison of these scenarios allows us to analyse the emergence of new proteins in terms of ancestral domains or modules. Pfam analysis suggests that the majority of protein innovations results from rearrangements of ancient domains, in agreement with the classical paradigm of modular protein evolution. However a very significant part of protein diversity is then neglected. On the other hand ProDom analysis suggests that the majority of new proteins have recruited novel protein modules. We discuss the respective biases of Pfam and ProDom underlying these contrasting views. We propose that the emergence of new protein modules may result from a fast turnover of coding sequences and that this module innovation is essential to the emergence of numerous novel proteins throughout evolution Module protéique Domaine Réseau Bayésien Scénario d’évolution Réarrangement Innovation Protein module Domain Bayesian network Evolutionary scenario Domain shuffling Innovation 572.86

Search results