Global ETD Search

1	Phylogenetic Models of Language Diversification Ryder, Robin 10 January 2010 (has links) (PDF) Language diversi cation is a stochastic process which presents similarities with phylogenetic evolution. Recently, there has been interest in modelling this process to help solve problems which traditional linguistic methods cannot resolve. The problem of estimating and quantifying the uncertainty in the age of the most recent common ancestor of the Indo-European languages is an example. We model lexical change by a point process on a phylogenetic tree. Our model is speci cally tailored to lexical data and in particular treats aspects of linguistic change which are hitherto unaccounted for and which could have a strong impact on age estimates: catastrophic rate heterogeneity and missing data. We impose a prior distribution on the tree topology, node ages and other model parameters, give recursions to compute the likelihood and estimate all parameters jointly using Markov Chain Monte Carlo. We validate our methods using an extensive cross-validation procedure, reconstructing known ages of internal nodes. We make a second validation using synthetic data and show that model misspeci cations due to borrowing of lexicon between languages and the presence of meaning categories in lexical data do not lead to systematic bias. We fit our model to two data sets of Indo-European languages and estimate the age of Proto-Indo-European. Our main analysis gives a 95% highest posterior probability density interval of 7110 9750 years Before the Present, in line with the so-called Anatolian hypothesis for the expansion of the Indo- European languages. We discuss why we are not concerned by the famous criticisms of statistical methods for historical linguistics leveled by Bergsland and Vogt [1962]. We also apply our methods to the reconstruction of the spread of Swabian dialects and to the detection of punctuational bursts of language change in the Indo-European family. [STAT:AP] Statistics/Applications phylogénétique linguistique historique mcmc
2	Théorie des valeurs extrêmes et applications en environnement Rietsch, Théo 14 November 2013 (has links) (PDF) Dans cette thèse nous apportons plusieurs contributions, à la fois théoriques et appliquées, à la théorie des valeurs extrêmes. Les deux premiers chapitres de cette thèse s'attachent à répondre à des questions cruciales en climatologie. La première question est de savoir si un changement dans le comportement des extrêmes de température peut être détecté entre le début du siècle et aujourd'hui. Pour cela nous proposons d'utiliser la divergence de Kullback Leibler, que nous adaptons au contexte des extrêmes. Des résultats théoriques et des simulations permettent de valider l'approche proposée, dont les performances sont ensuite illustrées sur un jeu de données réelles. La deuxième question quant à elle combine les réseaux de neurones à la théorie des valeurs extrêmes afin de savoir où ajouter (resp. retirer) des stations dans un réseau pour gagner (resp. perdre) le plus (resp. le moins) d'information sur le comportement des extrêmes. Un algorithme, le Query By Committee, issu de la théorie du machine learning est développé puis appliqué à un jeu de données réelles. Les avantages, inconvénients et limites de cette approche sont ainsi mis en exergue. La dernier chapitre de la thèse traite d'un sujet plus théorique, à savoir l'estimation robuste du paramètre de queue d'une distribution de type Weibull en présence de covariables aléatoires. Nous proposons un estimateur robuste en utilisant un critère de minimisation de la divergence entre deux densités et étudions ses propriétés asymptotiques. Des simulations illustrent les performances de l'estimateur à distance finie. Cette thèse offre de nombreuses perspectives dont une liste non exhaustive est dressée en conclusion. [STAT:AP] Statistics/Applications Théorie des valeurs extrêmes Climatologie Environnement Mathématiques Statistiques
3	Méthodes approchées de maximum de vraisemblances pour la classification et identification aveugles en communications numériques Barembruch, Steffen 22 September 2010 (has links) (PDF) La thèse considère la classification aveugle de modulations linéaires en communication numérique sur des canaux sélectifs en fréquence (et en temps). Nous utilisons l'approche de maximum de vraisemblance et nous développons plusieurs estimateurs de modèle [STAT:AP] Statistics/Applications Classification Identification aveugle Monte Carlo séquentiel Estimation de modèle Compressive Sensing Communication numérique
4	Estimation des risques de maladies dues à des mutations génétique à partir de données familiales Alarcon, Flora 07 July 2009 (has links) (PDF) Certaines maladies à âge de début variable sont dues à la présence de mutation(s) d'un gène. Pour ces maladies, l'estimation précise du risque cumulé d'être atteint à un certain âge chez les porteurs de la mutation (appelé fonction de pénétrance) permet une meilleure compréhension des mécanismes sous-jacents de la maladie et permet également de développer et d'améliorer des stratégies de prévention. L'estimation de la pénétrance se fait à partir de données familiales recensées sur certains critères plus ou moins complexes. Cependant, la plupart des études utilisent des méthodes d'estimation qui ne tiennent pas compte du biais que représente ce recensement, ce qui implique des fonctions de pénétrance fortement surestimées. Au cours de cette thèse, nous nous sommes intéressés au développement de méthodes d'estimation de la fonction de pénétrance corrigeant pour le recensement des familles. Dans un premier temps, nous avons étudié une méthode permettant d'estimer la pénétrance quel que soit le mode de recensement des familles. Nous nous sommes ensuite intéressés plus particulièrement au cas de familles recensées sur l'existence d'au moins un atteint par famille. Dans ce cadre, nous avons développé une méthode d'estimation, que nous avons appelée la PEL, et l'avons comparée à une méthode déjà existante, la méthode prospective. Nous avons montré que la PEL était moins biaisée que la méthode prospective. Nous avons ensuite appliqué ces méthodes à deux jeux de données, l'un portant sur des familles françaises et portugaises, atteintes de neuropathie amyloide héréditaire ; l'autre portant sur des familles atteintes de cancer du sein. Nous avons également mené une étude sur des familles suédoises atteintes de neuropathie amyloide héréditaire. La PEL est une méthode paramétrique basée sur un modèle de Weibull et nous avons montré qu'elle n'était pas adaptée lorsque la distribution des données s'éloignait fortement de ce modèle. Nous avons donc développé une méthode non-paramétrique, que nous avons appelée IDEAL, permettant l'estimation de la pénétrance en tenant compte du recensement des familles et l'avons comparée à la PEL. Nous avons montré que IDEAL était moins biaisée lorsque la loi des données était éloignée d'une loi de Weibul. [STAT:AP] Statistics/Applications estimation de risque fonction de pénétrance biais de recensement PEL IDEAL
5	Classification parcimonieuse et discriminante de données complexes. Une application à la cytologie Brunet, Camille 01 December 2011 (has links) (PDF) Les thèmes principaux de ce mémoire sont la parcimonie et la discrimination pour la modélisation de données complexes. Dans une première partie de ce mémoire, nous nous plaçons dans un contexte de modèle de mélanges gaussiens: nous introduisons une nouvelle famille de modèles probabilistes qui simultanément classent et trouvent un espace discriminant tel que cet espace discrimine au mieux les groupes. Une famille de 12 modèles latents discriminants (DLM) modèles est introduite et se base sur trois idées: tout d'abord, les données réelles vivent dans un sous-espace latent de dimension intrinsèque plus petite que celle de l'espace observé; deuxièmement, un sous-espace de K-1 dimensions est suffisant pour discriminer K groupes; enfin, l'espace observé et celui latent sont liés par une transformation linéaire. Une procédure d'estimation, appelée Fisher-EM, est proposée et améliore la plupart du temps les performances de clustering grâce à l'utilisation du sous-espace discriminant. Dans un second travail, nous nous sommes intéressés à la détermination du nombre de groupes en utilisant le cadre de la sériation. nous proposons d'intégrer de la parcimonie dans les données par l'intermédiaire d'une famille de matrices binaires. Ces dernière sont construites à partir d'une mesure de dissimilarité basée sur le nombre de voisins communs entre paires d'observations. En particulier, plus le nombre de voisins communs imposé est important, plus la matrice sera parcimonieuse, i.e. remplie de zéros, ce qui permet, à mesure que le seuil de parcimonie augmente, de retirer les valeurs extrêmes et les données bruitées. Cette collection de matrices parcimonieuses est ordonnée selon un algorithme de sériation de type forward, nommé PB-Clus, aﬁn d'obtenir des représentations par blocs des matrices sériées. Ces deux méthodes ont été validées sur une application biologique basée sur la détection du cancer du col de l'utérus. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications classification non supervisée réduction de dimension espace discriminant parcimonie
6	Développements statistiques et algorithmiques pour l'analyse des cancers du sein de type triple négatif Rigaill, Guillem 17 November 2010 (has links) (PDF) Dans le monde, le cancer du sein est le cancer le plus fréquent de la femme. Plusieurs types de cancer du sein ont été mis en évidence. Les carcinomes infiltrants triple négatif (TNBC) sont l'un de ces types. Les TNBC sont parmi les plus agressifs cancers du sein et sont associés à un mauvais pronostique. Il n'y a pas encore de traitement dédié pour ces cancers. Cette thèse avait pour but d'identifier des gènes et des voies de signalisation dérégulés dans les cancers de types TNBC en s'appuyant sur les profiles transcriptomiques et génomiques de tumeurs TNBC bien caractérisées, obtenues par la technique des biopuces. Mon travail comporte deux volets. D'abord, j'ai développé des méthodes pour l'analyse des données génomiques. J'ai proposé une méthode (ITALICS) pour la normalisation des données Affymetrix SNP 100K et 500K. J'ai travaillé sur la segmentation des profils génomiques. J'ai développé de nouveaux outils statistiques pour étudier la stabilité de la segmentation et j'ai obtenu des formules exactes pour des critères de sélection de modèle. Enfin, j'ai propose un algorithme de programmation dynamique rapide qui retrouve la meilleure segmentation au sens de la norme euclidienne. Dans un second temps, j'ai analysé les données omiques du projet. J'ai conçu le plan d'expérience. J'ai analysé les données transcriptomiques avec des méthodes déjà disponibles. J'ai comparé les classifications transcriptomique et immunohistochimique des TNBC. L'analyse des données transcriptomiques m'a permis d'identifier des gènes et des voies de signalisation dérégulés dans les TNBC. Enfin, j'ai analysé les données génomiques avec les outils que j'ai développés. [STAT:AP] Statistics/Applications [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory Cancer du sein Triple Negatif biostatiques profil transcriptomique profil génomique
7	Utilisation des modèles de co-clustering pour l'analyse exploratoire des données Guigourès, Romain 04 December 2013 (has links) (PDF) Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d'une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l'ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L'approche MODL permet d'obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d'analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d'en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d'analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes. Enfin une application sur des comptes-rendus d'appels de l'opérateur Orange, collectés en Côte d'Ivoire, montre l'intérêt de l'approche et des outils d'analyse exploratoire dans un contexte industriel. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications Co-clustering Analyse exploratoire Théorie de l'information Théorie des graphes
8	Nouveaux outils et nouvelles données pour la surveillance des maladies infectieuses Pelat, Camille 24 September 2010 (has links) (PDF) La menace du bioterrorisme, l'émergence de nouveaux pathogènes et la crainte d'une pandémie grippale ont favorisé, ces dix dernières années, la recherche de nouveaux outils et de nouvelles données pour la surveillance des maladies infectieuses. Dans cette thèse, ce problème est abordé d'une part avec des modèles statistiques pour la détection des épidémies à partir de données temporelles de surveillance (modèles de régression périodique), puis par l'évaluation de deux sources de données non cliniques (ventes de médicaments et recherches sur Internet) potentiellement intéressantes pour la surveillance des maladies infectieuses. Les modèles de régression périodique permettent la détection et la quantification des épidémies à partir de séries temporelles de surveillance, pour des maladies telles que la grippe ou la gastroentérite, où l'enjeu est d'extraire un signal en présence d'un niveau de base périodique. Nous avons déterminé les paramètres clés de ces modèles en effectuant une revue de la littérature. Une interface Internet autorisant la modification de ces paramètres clés a été construite pour permettre l'analyse de données temporelles et la comparaison de modèles. Ainsi, ce site Internet permet de tester rapidement des hypothèses d'analyse, de comparer des modèles et d'en choisir un, pour mettre en place une surveillance ou évaluer l'impact des épidémies. Nous avons ensuite construit et évalué un indicateur basé sur les ventes de médicaments pour la détection des épidémies de gastroentérite. Pour déterminer les classes thérapeutiques les plus informatives pour cette surveillance, une large base de ventes pharmaceutiques a été analysée par classification hiérarchique. L'indicateur obtenu a permis de détecter avec de très bonnes sensibilité, spécificité et rapidité, les épidémies de gastroentérite déclarées par le Réseau Sentinelles sur la base de la surveillance des diarrhées aiguës en médecine générale. Enfin, le nombre de requêtes effectuées sur le moteur de recherche Google au sujet de trois maladies infectieuses a été comparé aux données cliniques de surveillance fournies par le Réseau Sentinelles. Une corrélation élevée a été mise en évidence entre certaines requêtes et l'incidence des syndromes grippaux, des diarrhées aiguës et de la varicelle entre 2004 et 2008. Des modèles de régression multiple construits sur ces requêtes ont permis d'estimer, avec une bonne précision, les incidences de ces trois maladies sur cette période. Toutefois, ces mêmes modèles ont donné des prédictions erronées pour les syndromes grippaux durant la pandémie de grippe A/H1N1 de 2009. [STAT:AP] Statistics/Applications Maladies infectieuses Surveillance en population Détection d'épidémies Modèles statistiques Surveillance syndromique
9	Analyse de sensibilité de modèles spatialisés - Application à l'analyse coût-bénéfice de projets de prévention des inondations Saint-Geours, Nathalie 29 November 2012 (has links) (PDF) L'analyse de sensibilité globale basée sur la variance permet de hiérarchiser les sources d'incertitude présentes dans un modèle numérique et d'identifier celles qui contribuent le plus à la variabilité de la sortie du modèle. Ce type d'analyse peine à se développer dans les sciences de la Terre et de l'Environnement, en partie à cause de la dimension spatiale de nombreux modèles numériques, dont les variables d'entrée et/ou de sortie peuvent être des données distribuées dans l'espace. Le travail de thèse réalisé a pour ambition de montrer comment l'analyse de sensibilité globale peut être adaptée pour tenir compte des spécificités de ces modèles numériques spatialisés, notamment la dépendance spatiale dans les données d'entrée et les questions liées au changement d'échelle spatiale. Ce travail s'appuie sur une étude de cas approfondie du code NOE, qui est un modèle numérique spatialisé d'analyse coût-bénéfice de projets de prévention du risque d'inondation. On s'intéresse dans un premier temps à l'estimation d'indices de sensibilité associés à des variables d'entrée spatialisées. L'approche retenue du " map labelling " permet de rendre compte de l'auto-corrélation spatiale de ces variables et d'étudier son impact sur la sortie du modèle. On explore ensuite le lien entre la notion d'" échelle " et l'analyse de sensibilité de modèles spatialisés. On propose de définir les indices de sensibilité " zonaux " et " ponctuels " pour mettre en évidence l'impact du support spatial de la sortie d'un modèle sur la hiérarchisation des sources d'incertitude. On établit ensuite, sous certaines conditions, des propriétés formelles de ces indices de sensibilité. Ces résultats montrent notamment que l'indice de sensibilité zonal d'une variable d'entrée spatialisée diminue à mesure que s'agrandit le support spatial sur lequel est agrégée la sortie du modèle. L'application au modèle NOE des méthodologies développées se révèle riche en enseignements pour une meilleure prise en compte des incertitudes dans les modèles d'analyse coût-bénéfice des projets de prévention du risque d'inondation. [STAT:AP] Statistics/Applications Modèle Spatialisé Analyse de Sensibilité Incertitude Échelle Géostatistique ACB Inondations Dommages
10	Contribution à l'optimisation de la décision sous incertitudes : application à la maintenance Castanier, Bruno 27 November 2012 (has links) (PDF) L'intérêt principal de mes recherches se déﬁnit dans la construction de modèles décisionnels en contexte incertain qu'il soit dû au comportement aléatoire des systèmes étudiés, des environnements dans lesquels ils évoluent ou encore à la connaissance et la caractérisation de ces modes d'évolution. Les premiers points réfèrent plus à l'analyse des comportements stochastiques des phénomènes étudiés alors que les deux derniers portent essentiellement sur l'analyse statistique des données collectées et l'information disponible. Le document présente une synthèse de mes travaux suivant deux axes : les modèles de décision paramétriques pour l'optimisation de la maintenance conditionnelle et les approches Processus de Décision Markovien appliqués pour des problèmes de gestion de l'entretien routier ou encore l'optimisation de la maintenance sous des contraintes d'évolution technologique. [SPI:OTHER] Engineering Sciences/Other [STAT:AP] Statistics/Applications Optimisation Maintenance Conditionnelle Processus de Décision Markovien Modélisation Dégradation

Search results