Global ETD Search

1	Modèles graphiques gaussiens et sélection de modèles Verzelen, Nicolas 17 December 2008 (has links) (PDF) Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique, de la théorie statistique de l'apprentissage et des statistiques spatiales. Son objet est la compréhension et la mise en oeuvre de méthodes d'estimation et de décision pour des modèles graphiques gaussiens. Ces outils probabilistes rencontrent un succès grandissant pour la modélisation de systêmes complexes dans des domaines aussi différents que la génomique ou l'analyse spatiale. L'inflation récente de la taille des données analysées rend maintenant nécessaire la construction de procédures statistiques valables en << grande dimension >>, c'est à dire lorsque le nombre de variables est potentiellement plus grand que le nombre d'observations. Trois problèmes généraux sont considérés dans cette thèse: le test d'adéquation d'un graphe à un modèle graphique gaussien, l'estimation du graphe d'un modèle graphique gaussien et l'estimation de la covariance d'un modèle graphique gaussien, ou plus généralement d'un vecteur gaussien. Suite à cela, nous étudions l'estimation de la covariance d'un champ gaussien stationnaire sur un réseau, sous l'angle de la modélisation graphique. <br /><br />En utilisant le lien entre modèles graphiques et régression linéaire à plan d'expérience gaussien, nous développons une approche basée sur des techniques de sélection de modèles. Les procédures ainsi introduites sont analysés d'un point de vue non-asymptotique. Nous prouvons notamment des inégalités oracles et des propriétés d'adaptation au sens minimax valables en grande dimension. Les performances pratiques des méthodes statistiques sont illustrées sur des données simulées ainsi que sur des données réelles. [MATH] Mathematics modèles graphiques statistique spatiales sélection de modèles régression linéaire vitesse minimax adaptation pénalisation tests mutiples champs de Markov pseudo-vraisemblance
2	Modèles statistiques du développement de tumeurs cancéreuses Emily, Mathieu 22 September 2006 (has links) (PDF) Les nombreux mécanismes biologiques à l'origine du cancer restent aujourd'hui encore mal compris. L'amélioration de leurs connaissances peut s'effectuer par le biais de modèles mathématiques. Dans ce travail de thèse, nous nous sommes focalisés sur la mise en place d'outils statistiques pour la détection précoce de tumeurs. Nous avons proposé deux modèles stochastiques portant sur le développement de tumeurs cancéreuses. Le premier modèle s'intéresse à la détection de l'instabilité génétique dans une population de cellules. Nous nous sommes attachés à détecter l'événement initiateur de cette instabilité génétique en modélisant la généalogie des cellules par un arbre coalescent. Dans le deuxième modèle, nous nous sommes intéressés aux liens entre l'adhésion cellulaire et la croissance d'une tumeur. Nous avons intégré l'hypothèse d'adhésion différentielle dans un modèle d'interaction de Gibbs afin de quantifier le dysfonctionnement de l'adhésion cellulaire dans un tissu cancéreux. [MATH] Mathematics [MATH] Mathématiques [SDV] Life Sciences [SDV] Sciences du Vivant Cancer Instabilité génétique Perte de Mismatch Repair Coalescent Hypothèse d'adhésion différentielle Diagramme de Dirichlet Modèles de Gibbs Estimateur de pseudo-vraisemblance
3	Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data / Modélisation statistique des séquences de protéines au-delà de la prédiction structurelle : inférence en haute dimension avec des données corrélées Coucke, Alice 10 October 2016 (has links) Grâce aux progrès des techniques de séquençage, les bases de données génomiques ont connu une croissance exponentielle depuis la fin des années 1990. Un grand nombre d'outils statistiques ont été développés à l'interface entre bioinformatique, apprentissage automatique et physique statistique, dans le but d'extraire de l'information de ce déluge de données. Plusieurs approches de physique statistique ont été récemment introduites dans le contexte précis de la modélisation de séquences de protéines, dont l'analyse en couplages directs. Cette méthode d'inférence statistique globale fondée sur le principe d'entropie maximale, s'est récemment montrée d'une efficacité redoutable pour prédire la structure tridimensionnelle de protéines, à partir de considérations purement statistiques.Dans cette thèse, nous présentons les méthodes d'inférence en question, et encouragés par leur succès, explorons d'autres domaines complexes dans lesquels elles pourraient être appliquées, comme la détection d'homologies. Contrairement à la prédiction des contacts entre résidus qui se limite à une information topologique sur le réseau d'interactions, ces nouveaux champs d'application exigent des considérations énergétiques globales et donc un modèle plus quantitatif et détaillé. À travers une étude approfondie sur des donnéesartificielles et biologiques, nous proposons une meilleure interpretation des paramètres centraux de ces méthodes d'inférence, jusqu'ici mal compris, notamment dans le cas d'un échantillonnage limité. Enfin, nous présentons une nouvelle procédure plus précise d'inférence de modèles génératifs, qui mène à des avancées importantes pour des données réelles en quantité limitée. / Over the last decades, genomic databases have grown exponentially in size thanks to the constant progress of modern DNA sequencing. A large variety of statistical tools have been developed, at the interface between bioinformatics, machine learning, and statistical physics, to extract information from these ever increasing datasets. In the specific context of protein sequence data, several approaches have been recently introduced by statistical physicists, such as direct-coupling analysis, a global statistical inference method based on the maximum-entropy principle, that has proven to be extremely effective in predicting the three-dimensional structure of proteins from purely statistical considerations.In this dissertation, we review the relevant inference methods and, encouraged by their success, discuss their extension to other challenging fields, such as sequence folding prediction and homology detection. Contrary to residue-residue contact prediction, which relies on an intrinsically topological information about the network of interactions, these fields require global energetic considerations and therefore a more quantitative and detailed model. Through an extensive study on both artificial and biological data, we provide a better interpretation of the central inferred parameters, up to now poorly understood, especially in the limited sampling regime. Finally, we present a new and more precise procedure for the inference of generative models, which leads to further improvements on real, finitely sampled data. Inférence Apprentissage statistique Régularisation Entropie maximale Ccoévolution des protéines Vraisemblance maximale Champ moyen Pseudo vraisemblance Développement en grappe Inference Statistical learning Regularization Maximum entropy Protein coevolution Maximum likelihood Mean field Pseudolikelihood Cluster expansion 530.13
4	Propriétés asymptotiques de la distribution d'un échantillon dans le cas d'un plan de sondage informatif Bonnéry, Daniel 24 November 2011 (has links) (PDF) Étant donné un modèle de super-population (des variables aléatoires sont générées indépendamment et selon une même loi initiale sur une population) et un plan de sondage informatif, une loi de probabilité limite et une densité de probabilité limite des observations sur l'échantillon sont définies correspondant à des tailles de population et d'échantillon tendant vers l'infini. Le processus aléatoire de sélection peut induire une dépendance entre les observations sélectionnés. Un cadre asymptotique et des conditions faibles sur le processus de sélection sont donnés, sous lesquels les propriétés asymptotiques classiques sont conservées malgré la dépendance des données : la convergence uniforme de la fonction de répartition empirique. Par ailleurs, nous donnons la vitesse de convergence de l'estimateur à noyau de la densité vers la densité limite de l'échantillon. Ces résultats constituent des indications selon lesquelles il est parfois possible de considérer que les réalisations sur l'échantillon sont id et suivent approximativement la densité limite définie, notamment dans une perspective d'inférence sur le modèle de super-population. Par exemple, étant donné un modèle paramétrique on peut définir la vraisemblance approchée de l'échantillon comme produit de densités limites et un estimateur de maximum de vraisemblance approchée, dont on établit la normalité asymptotique . La dernière partie traite de tirage équilibré : des algorithmes de calcul de probabilités d'inclusion minimisant une approximation de la variance de l'estimateur de Horvitz-Thompson d'un total sont proposés. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie plan de sondage informatif échantillonnage théorie de l'estimation algorithme du cube pseudo-vraisemblance Glivenko-Cantelli Estimateurs à noyaux de la densité modèle fixe de population modèle de superpopulation
5	Quelques contributions à la modélisation et l'analyse statistique de processus spatiaux Hardouin, Cécile 11 July 2011 (has links) (PDF) Le thème de cette habilitation est centré sur la modélisation et l'étude statistique de processus spatiaux ou spatio-temporels. Le premier chapitre synthétise les travaux sur une modélisation spatio-temporelle générale, consistant en des chaînes de Markov (temporelles) de champs de Markov (spatiaux), et à une généralisation des auto-modèles de Besag qui constituent une classe de champs markoviens particulièrement utilisés en statistique spatiale. Ces modèles généraux permettent une modélisation non hiérarchique pour des données spatiales ou spatio-temporelles de nature mixte, composées par exemple d'une masse en zéro accompagnée de valeurs réelles. Nous étudions la structure de ces modèles et leurs propriétés statistiques, comme l'ergodicité ou l'estimation paramétrique. Des applications sur des données réelles en météorologie ou en images illustrent les résultats. Le second chapitre concerne la modélisation de mécanismes conduisant à l'adoption de certains standards technologiques, dans un cadre de l'économie spatiale. Le but est de décrire la diffusion d'un processus technologique et de proposer des tests de coordination spatiale lorsque la règle de choix est locale et peut être dictée par les choix précédents des voisins. Le chapitre 3 présente quelques résultats récents sur le calcul de la constante de normalisation pour un processus de Gibbs via un algorithme récursif sur les lois conditionnelles. Enfin, le chapitre 4 reprend des travaux plus anciens en statistique paramétrique sur les méthodes d'estimation par minimum de contraste en situation non ergodique, et les méthodes de régression temporelle avec résidu à longue mémoire. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Champ de Markov Chaîne de Markov Auto-modèles Variables à états mixtes Adoption de standards Estimation par contraste Pseudo-vraisemblance conditionnelle Régression sur log-périodogramme
6	Estimation de paramètres en exploitant les aspects calculatoires et numériques Kadje Kenmogne, Romain 08 1900 (has links) No description available. Convergence de variables aléatoires Copule Différence de variables de loi gamma Estimateur équivariant Estimation des paramètres Fonction caractéristique Méthode bayésienne Pseudo-vraisemblance Rapport de variables gaussiennes Vraisemblance des rangs Bayesian method Characteristic function Convergence of random variables Copula Difference of gamma variates Equivariant estimator Parameter estimation Pseudo-likelihood Rank-likelihood Ratio of normal variables

1

Page generated in 0.0312 seconds