• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 25
  • 15
  • 5
  • Tagged with
  • 44
  • 44
  • 19
  • 18
  • 14
  • 12
  • 12
  • 10
  • 10
  • 10
  • 9
  • 8
  • 8
  • 8
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Modélisation probabiliste des courbes S-N / Probabilistic modelling of S-N curves

Fouchereau, Rémy 01 April 2014 (has links)
La courbe S-N est le moyen le plus courant d'analyse et de prédiction de la durée de vie d'un matériau, d'un composant ou d'une structure. Cependant, les modèles standards, qu'ils soient basés sur la théorie de la rupture ou sur des modèles probabilistes n'ajustent pas la courbe dans la totalité sans information sur la microstructure du matériau. Or, cette information provient d'analyses fractographiques souvent coûteuses et rarement disponibles dans le cadre d'une production industrielle. D'un autre côté, les modèles statistiques ne proposent pas d'interprétation matériau et ne peuvent pas être utilisées pour réaliser des prévisions. Les résultats d'un test de fatigue sont par ailleurs très dispersés, plus particulièrement pour les fortes durées de vie, lieu d'apparition d'un phénomène de bi-modalité. Ces constats sont la raison de la proposition d'un nouveau modèle probabiliste. Celui-ci est composé d'un modèle de mélange spécifique, prenant en compte l'approche apportée par la mécanique de la rupture sans nécessiter de d'information supplémentaire sur la microstructure du matériau. Il utilise le fait que la fatigue peut être vue comme la somme d'un amorçage de fissure suivi de sa propagation. Les paramètres du modèle sont estimés à l'aide d'un algorithme EM, où la phase de maximisation combine une méthode d'optimisation de Newton-Raphson et une intégration de type Monte-Carlo. Le modèle "amorçage-propagation" offre une représentation parcimonieuse des courbes $S-N$ dont les paramètres peuvent être facilement interprétés par des ingénieurs matériau. Ce modèle a été testé à l'aide de simulations et appliqué à des données réelles (données sur l'Inconel 718). Ceci nous a permis de mettre en évidence le bon ajustement du modèle à nos données, et ce, pour toutes les déformations disponibles. / S-N curve is the main tool to analyze and predict fatigue lifetime of a material, component or structure. But, standard models based on mechanic of rupture theory or standard probabilistic models for analyzing S-N curves could not fit S-N curve on the whole range of cycles without microstructure information. This information is obtained from costly fractography investigation rarely available in the framework of industrial production. On the other hand, statistical models for fatigue lifetime do not need microstructure information but they could not be used to service life predictions because they have no material interpretation. Moreover, fatigue test results are widely scattered, especially for High Cycle Fatigue region where split $S-N$ curves appear. This is the motivation to propose a new probabilistic model. This model is a specific mixture model based on a fracture mechanic approach, and does not require microstructure information. It makes use of the fact that the fatigue lifetime can be regarded as the sum of the crack initiation and propagation lifes. The model parameters are estimated with an EM algorithm for which the maximisation step combines Newton-Raphson optimisation method and Monte Carlo integrations. The resulting model provides a parsimonious representation of S-N curves with parameters easily interpreted by mechanic or material engineers. This model has been applied to simulated and real fatigue test data sets. These numerical experiments highlight its ability to produce a good fit of the S-N curves on the whole range of cycles.
2

Méthodes probabilistes pour l'analyse exploratoire de données textuelles

Rigouste, Loïs 11 1900 (has links) (PDF)
Nous abordons le problème de la classification non supervisée de documents par des méthodes probabilistes. Notre étude se concentre sur le modèle de mélange de lois multinomiales avec variables latentes thématiques au niveau des documents. La construction de groupes de documents thématiquement homogènes est une des technologies de base de la fouille de texte, et trouve de multiples applications, aussi bien en recherche documentaire qu'en catégorisation de documents, ou encore pour le suivi de thèmes et la construction de résumés. Diverses propositions récentes ont été faites de modèles probabilistes permettant de déterminer de tels regroupements. Les modèles de classification probabilistes peuvent également être vus comme des outils de construction de représentations numériques synthétiques d'informations contenues dans le document. Ces modèles, qui offrent des facilités pour la généralisation et l'interprétation des résultats, posent toutefois des problèmes d'estimation difficiles, dûs en particulier à la très grande dimensionnalité du vocabulaire. Notre contribution à cette famille de travaux est double: nous présentons d'une part plusieurs algorithmes d'inférence, certains originaux, pour l'estimation du modèle de mélange de multinomiales; nous présentons également une étude systématique des performances de ces algorithmes, fournissant ainsi de nouveaux outils méthodologiques pour mesurer les performances des outils de classification non supervisée. Les bons résultats obtenus par rapport à d'autres algorithmes classiques illustrent, à notre avis, la pertinence de ce modèle de mélange simple pour les corpus regroupant essentiellement des documents monothématiques.
3

Sélection de variable : structure génétique d'une population et transmission de Plasmodium à travers le moustique.

Toussile, Wilson 29 September 2010 (has links) (PDF)
Dans cette thèse, nous considérons la question de sélection de variable dans deux deux problèmes pratiques. Le premier concerne une préoccupation très récurrente en génétique des populations qui consiste à regrouper les individus d'un échantillon d'organismes vivants dans des classes génétiquement homogènes sur la base d'informations procurées par un certain nombre de marqueurs génétiques. Nous supposons ne disposer d'aucune information à priori sur la population cible : il s'agit alors d'un problème de classification non supervisée. Par ailleurs, certaines variables peuvent ajouter du bruit à la classification. Nous proposons de résoudre simultanément le problème de sélection de variable et celui de sélection du nombre de composants du mélange dans une procédure de sélection de modèle. La sélection est ensuite faite via pénalisation du maximum de vraisemblance pénalisé. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistance. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Bien que ce deuxième résultat ne soit pas directement utilisable, il suggère une pénalité de la forme du produit de la dimension des modèles en compétition et d'un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration répond en partie au problème du choix du critère de sélection en fonction de la taille de l'échantillon. Le deuxième problème est motivé par le contrôle de la transmission de Plasmodium à travers son vecteur moustique. Nous disposons de données décrites par des variables diverses dont le nombre est de l'ordre de la taille de l'échantillon. Nous appliquons tout d'abord une procédure de sélection de variable qui repose sur l'importance des variables obtenues des forêts aléatoires. Les variables sélectionnées sont ensuite évaluées dans le modèle binomial négatif modifié en zéro.
4

Modèles de mélange en analyse de survie en présence de données groupées : application à la tremblante du mouton

Corbière, Fabien 04 December 2007 (has links) (PDF)
Les facteurs de risque individuels et environnementaux associés à la contamination par l'agent de la tremblante classique du mouton et à la durée d'incubation des animaux infectés demeurent mal connus. En l'absence de diagnostic antemortem précoce, la longue durée d'incubation de la maladie et les durées de vie limitées des animaux conduisent à une connaissance partielle du statut sanitaire des animaux. De plus, l'analyse doit tenir compte du fait qu'une partie seulement des animaux se contamine. <br />Nous utilisons des modèles d'analyse des données de survie prenant en compte l'existence d'une fraction non à risque. Nous proposons une approche par vraisemblance pénalisée, qui allie les avantages des modèles paramétriques et semi paramétriques existants. Nous nous intéressons ensuite aux modèles paramétriques de survie avec fraction non à risque et effets aléatoires afin de tenir compte du regroupement des animaux dans les élevages. Ces différentes approches sont évaluées à l'aide d'études de simulations.<br />L'application des ces modèles aux données issues du suivi longitudinal d'élevages infectés des Pyrénées Atlantiques (France) confirme le rôle déterminant du génotype au gène PRP sur le risque de contamination et les durées d'incubation. Nos résultats suggèrent de plus que la contamination par l'agent infectieux a principalement lieu en période néonatale. Enfin la forte hétérogénéité des risques de contamination et des durées d'incubation mise en évidence entre troupeaux pourrait être partiellement expliquée par la prise en compte de la structure génétique des élevages et du nombre d'animaux infectés présents.
5

Modèles mixtes à structure latente pour données<br />longitudinales multivariées hétérogènes :<br />application à l'étude du vieillissement cognitif et<br />de la démence

Proust-Lima, Cecile 19 December 2006 (has links) (PDF)
Ce travail avait pour objectif de proposer des modèles statistiques pour données longitudinales, hétérogènes et multivariées afin de décrire l'évolution cognitive chez les personnes âgés et son association avec la démence. La cognition étant une quantité non-observée mesurée par des tests psychométriques quantitatifs non Gaussiens, nous avons proposé un modèle nonlinéaire à processus latent dans lequel, l'évolution cognitive représentée par le processus latent est décrite par un modèle linéaire mixte incluant des variables explicatives et un processus Brownien. Les tests psychométriques et le processus latent sont liés par des transformations nonlinéaires estimées prenant en compte des effets différents des variables explicatives. Outre décrire les propriétés métrologiques des tests et faire des recommandations sur le test à utiliser suivant la population étudiée, nous avons pu distinguer l'effet de variables explicatives sur l'évolution cognitive latente de leur effet propre sur les tests. Nous avons ensuite étendu cette approche pour prendre en compte l'hétérogénéité de l'évolution cognitive associée à la survenue d'une démence par deux modèles conjoints à classes latentes. En étudiant d'abord la probabilité de démence en fin de suivi conjointement au déclin cognitif, nous avons mis en évidence deux profils d'évolution représentant le processus de vieillissement normal et le processus de vieillissement pathologique. Puis, en étudiant le risque de démence conjointement au déclin cognitif en fonction de l'âge, nous avons montré 5 formes de déclin cognitifs suivant l'âge associés à des risques différents de démence. Ces deux modèles conjoints nous ont aussi permis de proposer des outils de détection de démence calculés à partir de n'importe quelle information cognitive. Chacun des trois modèles proposés a été évalué par le biais d'études de simulation, puis appliqué sur les données de la cohorte PAQUID et enfin, plusieurs méthodes ont été proposées pour évaluer l'adéquation aux données.
6

Modélisation probabiliste des courbes S-N

Fouchereau, Rémy 01 April 2014 (has links) (PDF)
La courbe S-N est le moyen le plus courant d'analyse et de prédiction de la durée de vie d'un matériau, d'un composant ou d'une structure. Cependant, les modèles standards, qu'ils soient basés sur la théorie de la rupture ou sur des modèles probabilistes n'ajustent pas la courbe dans la totalité sans information sur la microstructure du matériau. Or, cette information provient d'analyses fractographiques souvent coûteuses et rarement disponibles dans le cadre d'une production industrielle. D'un autre côté, les modèles statistiques ne proposent pas d'interprétation matériau et ne peuvent pas être utilisées pour réaliser des prévisions. Les résultats d'un test de fatigue sont par ailleurs très dispersés, plus particulièrement pour les fortes durées de vie, lieu d'apparition d'un phénomène de bi-modalité. Ces constats sont la raison de la proposition d'un nouveau modèle probabiliste. Celui-ci est composé d'un modèle de mélange spécifique, prenant en compte l'approche apportée par la mécanique de la rupture sans nécessiter de d'information supplémentaire sur la microstructure du matériau. Il utilise le fait que la fatigue peut être vue comme la somme d'un amorçage de fissure suivi de sa propagation. Les paramètres du modèle sont estimés à l'aide d'un algorithme EM, où la phase de maximisation combine une méthode d'optimisation de Newton-Raphson et une intégration de type Monte-Carlo. Le modèle "amorçage-propagation" offre une représentation parcimonieuse des courbes $S-N$ dont les paramètres peuvent être facilement interprétés par des ingénieurs matériau. Ce modèle a été testé à l'aide de simulations et appliqué à des données réelles (données sur l'Inconel 718). Ceci nous a permis de mettre en évidence le bon ajustement du modèle à nos données, et ce, pour toutes les déformations disponibles.
7

Analyse statistique de données biologiques à haut débit / Statistical analysis of high-throughput biological data

Aubert, Julie 07 February 2017 (has links)
Les progrès technologiques des vingt dernières années ont permis l’avènement d'une biologie à haut-débit reposant sur l'obtention de données à grande échelle de façon automatique. Les statisticiens ont un rôle important à jouer dans la modélisation et l'analyse de ces données nombreuses, bruitées, parfois hétérogènes et recueillies à différentes échelles. Ce rôle peut être de plusieurs natures. Le statisticien peut proposer de nouveaux concepts ou méthodes inspirées par les questions posées par cette biologie. Il peut proposer une modélisation fine des phénomènes observés à l'aide de ces technologies. Et lorsque des méthodes existent et nécessitent seulement une adaptation, le rôle du statisticien peut être celui d'un expert, qui connaît les méthodes, leurs limites et avantages. Le travail présenté dans cette thèse se situe à l'interface entre mathématiques appliquées et biologie, et relève plutôt des deuxième et troisième type de rôles mentionnés.Dans une première partie, j’introduis différentes méthodes développées pour l'analyse de données biologiques à haut débit, basées sur des modèles à variables latentes. Ces modèles permettent d'expliquer un phénomène observé à l'aide de variables cachées. Le modèle à variables latentes le plus simple est le modèle de mélange. Les deux premières méthodes présentées en sont des exemples: la première dans un contexte de tests multiples et la deuxième dans le cadre de la définition d'un seuil d'hybridation pour des données issues de puces à ADN. Je présente également un modèle de chaînes de Markov cachées couplées pour la détection de variations du nombre de copies en génomique prenant en compte de la dépendance entre les individus, due par exemple à une proximité génétique. Pour ce modèle, nous proposons une inférence approchée fondée sur une approximation variationnelle, l'inférence exacte ne pouvant pas être envisagée dès lors que le nombre d'individus augmente. Nous définissons également un modèle à blocs latents modélisant une structure sous-jacente par bloc de lignes et colonnes adaptées à des données de comptage issue de l'écologie microbienne. Les données issues de méta-codebarres ou de métagénomique correspondent à l'abondance de chaque unité d'intérêt (par exemple micro-organisme) d'une communauté microbienne au sein d'environnement (rhizosphère de plante, tube digestif humain, océan par exemple). Ces données ont la particularité de présenter une dispersion plus forte qu'attendue sous les modèles les plus classiques (on parle de sur-dispersion). La classification croisée est une façon d'étudier les interactions entre la structure des communautés microbiennes et les échantillons biologiques dont elles sont issues. Nous avons proposé de modéliser ce phénomène à l'aide d'une distribution Poisson-Gamma et développé une autre approximation variationnelle pour ce modèle particulier ainsi qu'un critère de sélection de modèle. La flexibilité et la performance du modèle sont illustrées sur trois jeux de données réelles.Une deuxième partie est consacrée à des travaux dédiés à l'analyse de données de transcriptomique issues des technologies de puce à ADN et de séquençage de l’ARN. La première section concerne la normalisation des données (détection et correction de biais techniques) et présente deux nouvelles méthodes que j’ai proposées avec mes co-auteurs et une comparaison de méthodes à laquelle j’ai contribuée. La deuxième section dédiée à la planification expérimentale présente une méthode pour analyser les dispositifs dit en dye-switch.Dans une dernière partie, je montre à travers deux exemples de collaboration, issues respectivement d'une analyse de gènes différentiellement exprimés à partir de données issues de puces à ADN, et d'une analyse du traductome chez l'oursin à partir de données de séquençage de l'ARN, la façon dont les compétences statistiques sont mobilisées et la plus-value apportée par les statistiques aux projets de génomique. / The technological progress of the last twenty years allowed the emergence of an high-throuput biology basing on large-scale data obtained in a automatic way. The statisticians have an important role to be played in the modelling and the analysis of these numerous, noisy, sometimes heterogeneous and collected at various scales. This role can be from several nature. The statistician can propose new concepts, or new methods inspired by questions asked by this biology. He can propose a fine modelling of the phenomena observed by means of these technologies. And when methods exist and require only an adaptation, the role of the statistician can be the one of an expert, who knows the methods, their limits and the advantages.In a first part, I introduce different methods developed with my co-authors for the analysis of high-throughput biological data, based on latent variables models. These models make it possible to explain a observed phenomenon using hidden or latent variables. The simplest latent variable model is the mixture model. The first two presented methods constitutes two examples: the first in a context of multiple tests and the second in the framework of the definition of a hybridization threshold for data derived from microarrays. I also present a model of coupled hidden Markov chains for the detection of variations in the number of copies in genomics taking into account the dependence between individuals, due for example to a genetic proximity. For this model we propose an approximate inference based on a variational approximation, the exact inference not being able to be considered as the number of individuals increases. We also define a latent-block model modeling an underlying structure per block of rows and columns adapted to count data from microbial ecology. Metabarcoding and metagenomic data correspond to the abundance of each microorganism in a microbial community within the environment (plant rhizosphere, human digestive tract, ocean, for example). These data have the particularity of presenting a dispersion stronger than expected under the most conventional models (we speak of over-dispersion). Biclustering is a way to study the interactions between the structure of microbial communities and the biological samples from which they are derived. We proposed to model this phenomenon using a Poisson-Gamma distribution and developed another variational approximation for this particular latent block model as well as a model selection criterion. The model's flexibility and performance are illustrated on three real datasets.A second part is devoted to work dedicated to the analysis of transcriptomic data derived from DNA microarrays and RNA sequencing. The first section is devoted to the normalization of data (detection and correction of technical biases) and presents two new methods that I proposed with my co-authors and a comparison of methods to which I contributed. The second section devoted to experimental design presents a method for analyzing so-called dye-switch design.In the last part, I present two examples of collaboration, derived respectively from an analysis of genes differentially expressed from microrrays data, and an analysis of translatome in sea urchins from RNA-sequencing data, how statistical skills are mobilized, and the added value that statistics bring to genomics projects.
8

Traçage des sources de sédiments à l'amont des hydrosystèmes agricoles : apport de la géochimie élémentaire, du rapport ⁸⁷Sr/⁸⁶Sr et des radionucléides / Tracing sediment sources in upstream agricultural catchments : contribution of elemental geochemitry, ⁸⁷Sr/⁸⁶Sr ratio and radionuclides measurements

Le Gall, Marion 21 October 2016 (has links)
L’érosion des sols constitue une menace majeure pour la durabilité de la production agricole. Cette étude vise à développer une méthode originale de traçage des sédiments au sein de deux bassins versants agricoles aux caractéristiques contrastées. Différents marqueurs ont été utilisés pour tracer l’origine lithologique des particules (concentrations élémentaires, rapports ⁸⁷Sr/⁸⁶Sr), déterminer de quel compartiment des sols (surface ou profondeur) elles proviennent (¹³⁷Cs) et étudier leur dynamique temporelle (⁷Be, ²¹⁰Pb_xs). Sur le bassin du Louroux (24 km², France), caractéristique des plaines agricoles du Nord-Ouest de l’Europe, les résultats ont montré un transfert accru de particules très fines (<2µm) via le réseau de drainage. Lors de l’étude de trois crues successives, les sédiments accumulés dans le chenal ont d’abord été transportés, avant l’exportation de particules directement érodées de la surface des sols. L’utilisation de modèles de mélange a montré que les particules érodées à la surface des sols contribuent majoritairement aux sédiments de l’étang situé à l’exutoire. D’autre part, les deux zones lithologiques discriminées par le rapport ⁸⁷Sr/⁸⁶Sr contribuent équitablement aux particules qui se déposent dans l’étang. Les fortes variations observées depuis les années 1950 peuvent être interprétées comme le résultat de l’aménagement du bassin. Ces résultats ont montré le potentiel de l’isotopie du strontium (⁸⁷Sr/⁸⁶Sr) pour le traçage lithologique des sources de particules. La méthode a dès lors été transposée au site de Guaporé (2000 km², Brésil), un bassin agricole au climat plus érosif, à la topographie plus accentuée et aux lithologies plus contrastées. En combinant les rapports ⁸⁷Sr/⁸⁶Sr et les éléments les plus discriminants des cinq types de sols dans les modèles de mélange, les résultats montrent une contribution très majoritaire des types de sol localisés en aval du bassin. Celle-ci reflète une sensibilité croissante des sols à l’érosion selon un transect amont-aval, avec un système d’agriculture intensive appliquant des techniques de conservation des sols à l’amont et de plus petites exploitations familiales qui pratiquent un labour traditionnel en aval. Le couplage de ces traceurs améliore la compréhension de la dynamique des particules à l’échelle du bassin versant et fournit des données spatio-temporelles essentielles pour mettre en place des mesures de lutte contre l’érosion des sols. À terme, ces données pourraient être utilisées pour valider des modèles d’érosion et de transfert particulaire. / Soil erosion is recognized as one of the main processes of land degradation in agricultural environments. This study develops an original fingerprinting method to examine sediment source contributions in two contrasted agricultural catchments. Several properties were used to trace sediment lithological sources (⁸⁷Sr/⁸⁶Sr ratios, elemental concentrations), soil surface and subsurface sources (¹³⁷Cs) and to quantify their temporal dynamics (⁷Be, ²¹⁰Pb_xs).In the Louroux catchment (24 km², France), representative of drained areas of Northwestern Europe, results showed the dominant contribution of very fine particles (<2 µm) transiting through the tile drainage system to suspended sediment. Sediment accumulated in the river channel was mainly exported during the two first floods investigated in 2013 whereas the next event was characterized by the transport of sediment eroded from the cultivated soil surface. Mixing models were used, and results indicated that surface sources contributed the majority of sediment deposited in the pond, at the outlet of the catchment. The two lithological sources, discriminated using ⁸⁷Sr/⁸⁶Sr ratios, contributed in similar proportions to downstream pond sediment. In contrast, significant variations were observed since the 1950s. These changes may be related to the progressive implementation of land consolidation schemes within the catchment. Results obtained in the Louroux catchment revealed the potential of ⁸⁷Sr/⁸⁶Sr ratios to trace sediment lithological sources. The methodology was then applied to the larger and steeper Guaporé catchment (2000 km², Brazil), exposed to a more erosive climate and characterized by contrasted laterite soils. ⁸⁷Sr/⁸⁶Sr ratios and elements that discriminated the five soil types found in the catchment were incorporated in mixing models. Results showed that the major part of sediment was supplied by soils located in lower catchment parts. This result suggests the higher sensitivity of land cultivated with conventional farming practices (downstream contribution), compared to areas cultivated under conservation agriculture (upstream contribution). Coupling several tracers (⁸⁷Sr/⁸⁶Sr ratios, elemental concentrations and radionuclides) was shown to improve the understanding of sediment sources and dynamics at the catchment scale and to provide crucial information to guide the implementation of management measures to limit soil erosion. This fingerprinting approach produced an original dataset that may be used to calibrate and validate models simulating erosion and sediment transfers.
9

Bayesian non-parametric parsimonious mixtures for model-based clustering / Modèles de mélanges Bayésiens non-paramétriques parcimonieux pour la classification automatique

Bartcus, Marius 26 October 2015 (has links)
Cette thèse porte sur l’apprentissage statistique et l’analyse de données multi-dimensionnelles. Elle se focalise particulièrement sur l’apprentissage non supervisé de modèles génératifs pour la classification automatique. Nous étudions les modèles de mélanges Gaussians, aussi bien dans le contexte d’estimation par maximum de vraisemblance via l’algorithme EM, que dans le contexte Bayésien d’estimation par Maximum A Posteriori via des techniques d’échantillonnage par Monte Carlo. Nous considérons principalement les modèles de mélange parcimonieux qui reposent sur une décomposition spectrale de la matrice de covariance et qui offre un cadre flexible notamment pour les problèmes de classification en grande dimension. Ensuite, nous investiguons les mélanges Bayésiens non-paramétriques qui se basent sur des processus généraux flexibles comme le processus de Dirichlet et le Processus du Restaurant Chinois. Cette formulation non-paramétrique des modèles est pertinente aussi bien pour l’apprentissage du modèle, que pour la question difficile du choix de modèle. Nous proposons de nouveaux modèles de mélanges Bayésiens non-paramétriques parcimonieux et dérivons une technique d’échantillonnage par Monte Carlo dans laquelle le modèle de mélange et son nombre de composantes sont appris simultanément à partir des données. La sélection de la structure du modèle est effectuée en utilisant le facteur de Bayes. Ces modèles, par leur formulation non-paramétrique et parcimonieuse, sont utiles pour les problèmes d’analyse de masses de données lorsque le nombre de classe est indéterminé et augmente avec les données, et lorsque la dimension est grande. Les modèles proposés validés sur des données simulées et des jeux de données réelles standard. Ensuite, ils sont appliqués sur un problème réel difficile de structuration automatique de données bioacoustiques complexes issues de signaux de chant de baleine. Enfin, nous ouvrons des perspectives Markoviennes via les processus de Dirichlet hiérarchiques pour les modèles Markov cachés. / This thesis focuses on statistical learning and multi-dimensional data analysis. It particularly focuses on unsupervised learning of generative models for model-based clustering. We study the Gaussians mixture models, in the context of maximum likelihood estimation via the EM algorithm, as well as in the Bayesian estimation context by maximum a posteriori via Markov Chain Monte Carlo (MCMC) sampling techniques. We mainly consider the parsimonious mixture models which are based on a spectral decomposition of the covariance matrix and provide a flexible framework particularly for the analysis of high-dimensional data. Then, we investigate non-parametric Bayesian mixtures which are based on general flexible processes such as the Dirichlet process and the Chinese Restaurant Process. This non-parametric model formulation is relevant for both learning the model, as well for dealing with the issue of model selection. We propose new Bayesian non-parametric parsimonious mixtures and derive a MCMC sampling technique where the mixture model and the number of mixture components are simultaneously learned from the data. The selection of the model structure is performed by using Bayes Factors. These models, by their non-parametric and sparse formulation, are useful for the analysis of large data sets when the number of classes is undetermined and increases with the data, and when the dimension is high. The models are validated on simulated data and standard real data sets. Then, they are applied to a real difficult problem of automatic structuring of complex bioacoustic data issued from whale song signals. Finally, we open Markovian perspectives via hierarchical Dirichlet processes hidden Markov models.
10

Modèles de graphes aléatoires à structure cachée pour l'analyse des réseaux

Latouche, Pierre 03 December 2010 (has links) (PDF)
Les réseaux sont très largement utilisés dans de nombreux domaines scientifiques afin de représenter les interactions entre objets d'intérêt. Ainsi, en Biologie, les réseaux de régulation s'appliquent à décrire les mécanismes de régulation des gènes, à partir de facteurs de transcription, tandis que les réseaux métaboliques permettent de représenter des voies de réactions biochimiques. En sciences sociales, ils sont couramment utilisés pour représenter les interactions entre individus. Dans le cadre de cette thèse, nous nous intéressons à des méthodes d'apprentissage non supervisé dont l'objectif est de classer les noeuds d'un réseau en fonction de leurs connexions. Il existe une vaste littérature se référant à ce sujet et un nombre important d'algorithmes ont été proposés depuis les premiers travaux de Moreno en 1934. Notre point de départ est le modèle à blocs stochastiques, Stochastic Block Model (SBM) (Nowicki et Snijders, 2001) en anglais, qui permet la recherche de classes topologiques hétérogènes. Nous considérons un contexte Bayésien et proposons un algorithme de type variational Bayes pour approcher la loi a posteriori des paramètres. Cette approche permet d'obtenir un nouveau critère de sélection de modèles afin d'estimer le nombre de composantes dans un réseau. Par ailleurs, il apparaît que SBM ainsi que la plupart des modèles existants de classification sont limités puisqu'ils partitionnent les noeuds dans des classes disjointes. Or, de nombreux objets d'étude dans le cadre d'applications réelles sont connus pour appartenir à plusieurs groupes en même temps. Par exemple, en Biologie, des protéines appelées moonlighting proteins en anglais ont plusieurs fonctions dans les cellules. Nous introduisons donc un nouveau modèle de graphe aléatoire que nous appelons modèle à blocs stochastiques chevauchants, Overlapping Stochastic Block Model (OSBM) en anglais. Il autorise les noeuds d'un réseau à appartenir à plusieurs groupes simultanément et peut prendre en compte des topologies de connexion très différentes. Deux algorithmes d'estimation sont proposés ainsi qu'un critère de sélection de modèles.

Page generated in 0.4612 seconds