Global ETD Search

291	Méthodes d'analyse génétique de traits quantitatifs corrélés: application à l'étude de la densité minérale osseuse Saint Pierre, Aude 03 January 2011 (has links) (PDF) La plupart des maladies humaines ont une étiologie complexe avec des facteurs génétiques et environnementaux qui interagissent. Utiliser des phénotypes corrélés peut augmenter la puissance de détection de locus de trait quantitatif. Ce travail propose d'évaluer différentes approches d'analyse bivariée pour des traits corrélés en utilisant l'information apportée par les marqueurs au niveau de la liaison et de l'association. Le gain relatif de ces approches est comparé aux analyses univariées. Ce travail a été appliqué à la variation de la densité osseuse à deux sites squelettiques dans une cohorte d'hommes sélectionnés pour des valeurs phénotypiques extrêmes. Nos résultats montrent l'intérêt d'utiliser des approches bivariées en particulier pour l'analyse d'association. Par ailleurs, dans le cadre du groupe de travail GAW16, nous avons comparé les performances relatives de trois méthodes d'association dans des données familiales. [SDV] Life Sciences Génétique statistique trait complexe analyse bivariée échantillons sélectionnés puissance statistique analyse pangénomique analyse de liaison analyse d'association QTL DMO ostéoporose
292	Modèle d'évolution avec dépendance au contexte et Corrections de statistiques d'adéquation en présence de zéros aléatoires Finkler, Audrey 16 June 2010 (has links) (PDF) Dans ce travail nous étudions sous deux aspects la dépendance au contexte pour l'évolution par substitution des séquences nucléotidiques. Dans une première partie nous définissons un modèle évolutif simple intégrant la distinction entre transitions et transversions d'une part, et une dépendance des nucléotides à leur voisin de gauche modélisant l'effet CpG d'autre part. Nous montrons que ce modèle peut s'écrire sous la forme d'une chaîne de Markov cachée et estimons ses paramètres par la mise en oeuvre de l'algorithme de Baum-Welch. Nous appliquons enfin le modèle à l'estimation de taux de substitution mis en jeu dans l'évolution de séquences réelles. Dans une deuxième partie nous développons des corrections pour les statistiques classiques du test d'adéquation d'un échantillon à une loi multinomiale en présence de zéros aléatoires. En effet, les tests d'indépendance de l'évolution de triplets de nucléotides voisins impliquent des tables de contingence possédant de nombreuses cases nulles et se ramènent à des tests d'adéquation sur des vecteurs creux. Les statistiques de Pearson et de Kullback ne peuvent alors être employées. A partir de celles-ci, nous considérons des statistiques corrigées qui conservent le même comportement asymptotique. Nous les utilisons pour réaliser des tests d'indépendance, non seulement dans le cadre des données génomiques de la première partie, mais également pour des données écologiques et épidémiologiques. [MATH] Mathematics [SDV] Life Sciences processus de Markov chaînes de Markov cachées algorithme EM tests d'hypothèses tests d'adéquation tables de contingence creuses statistique du khi-deux statistique de Kullback
293	Caractérisation et extraction de l'information dans des signaux optiques polarimétriques ou issus d'états sous-poissoniens de la lumière Fade, Julien 02 October 2009 (has links) (PDF) Nous nous intéressons dans cette thèse à deux phénomènes optiques pour lesquels l'influence du bruit de mesure est importante. Dans le premier cas, nous analysons comment une caractérisation précise du bruit permet d'estimer le degré de polarisation de la lumière rétrodiffusée par un objet, à partir d'une unique image d'intensité acquise sous éclairement cohérent. En déterminant une borne sur la variance minimale d'estimation (borne de Cramer-Rao), et en comparant les performances de différents estimateurs, nous caractérisons la précision d'une telle méthode d'estimation. En comparant les performances de cette technique aux performances de méthodes plus standard d'estimation du degré de polarisation qui nécessitent plusieurs images polarimétriques, nous discutons le compromis entre la simplification des systèmes d'imagerie polarimétrique et la diminution de la précision d'estimation.Dans la seconde partie de cette thèse, nous étudions comment lesperformances d'une tâche d'estimation de paramètre (estimation dedéplacement d'une image) ou de discrimination entre deux hypothèses peuvent être améliorées en utilisant des lumières sous-poissoniennes qui présentent un niveau de bruit quantique inférieur à celui d'un bruit poissonien standard. Dans ces deux cas, l'étude des bornes statistiques sur les performances de traitement et les résultats des simulations numériques effectuées nous permettent d'analyser le gain en performance que l'on peut espérer obtenir en remplaçant un faisceau poissonien par une lumière de même intensité présentant des fluctuations sous-poissoniennes. Optique statistique Estimation statistique Bruit de speckle Imagerie polarimétrique Imagerie quantique Etats sous-poissoniens de la lumière
294	Méthodes d'analyse génétique de traits quantitatifs corrélés : application à l'étude de la densité minérale osseuse. Saint Pierre, Aude 03 January 2011 (has links) (PDF) La plupart des maladies humaines ont une étiologie complexe avec des facteurs génétiques et environnementaux qui interagissent. Utiliser des phénotypes corrélés peut augmenter la puissance de détection de locus de trait quantitatif. Ce travail propose d'évaluer différentes approches d'analyse bivariée pour des traits corrélés en utilisantl'information apportée par les marqueurs au niveau de la liaison et de l'association. Legain relatif de ces approches est comparé aux analyses univariées. Ce travail a étéappliqué à la variation de la densité osseuse à deux sites squelettiques dans une cohorted'hommes sélectionnés pour des valeurs phénotypiques extrêmes. Nos résultats montrentl'intérêt d'utiliser des approches bivariées en particulier pour l'analyse d'association. Parailleurs, dans le cadre du groupe de travail GAW16, nous avons comparé lesperformances relatives de trois méthodes d'association dans des données familiales. Génétique statistique Trait complexe Analyse bivariée Échantillons sélectionnés Puissance statistique Analyse pangénomique Analyse de liaison Analyse d'association Qtl Dmo Ostéoporose
295	Rééchantillonnage et Sélection de modèles Arlot, Sylvain 13 December 2007 (has links) (PDF) Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique. <br /><br />La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.<br /><br />Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau. [MATH] Mathematics statistique non-paramétrique apprentissage statistique rééchantillonnage non-asymptotique validation croisée V-fold bootstrap sélection de modèles pénalisation régression non-paramétrique adaptation hétéroscédastique régions de confiance tests multiples
296	MMD and Ward criterion in a RKHS : application to Kernel based hierarchical agglomerative clustering / Maximum Dean Discrepancy et critère de Ward dans un RKHS : application à la classification hierarchique à noyau Li, Na 01 December 2015 (has links) La classification non supervisée consiste à regrouper des objets afin de former des groupes homogènes au sens d’une mesure de similitude. C’est un outil utile pour explorer la structure d’un ensemble de données non étiquetées. Par ailleurs, les méthodes à noyau, introduites initialement dans le cadre supervisé, ont démontré leur intérêt par leur capacité à réaliser des traitements non linéaires des données en limitant la complexité algorithmique. En effet, elles permettent de transformer un problème non linéaire en un problème linéaire dans un espace de plus grande dimension. Dans ce travail, nous proposons un algorithme de classification hiérarchique ascendante utilisant le formalisme des méthodes à noyau. Nous avons tout d’abord recherché des mesures de similitude entre des distributions de probabilité aisément calculables à l’aide de noyaux. Parmi celles-ci, la maximum mean discrepancy a retenu notre attention. Afin de pallier les limites inhérentes à son usage, nous avons proposé une modification qui conduit au critère de Ward, bien connu en classification hiérarchique. Nous avons enfin proposé un algorithme itératif de clustering reposant sur la classification hiérarchique à noyau et permettant d’optimiser le noyau et de déterminer le nombre de classes en présence / Clustering, as a useful tool for unsupervised classification, is the task of grouping objects according to some measured or perceived characteristics of them and it has owned great success in exploring the hidden structure of unlabeled data sets. Kernel-based clustering algorithms have shown great prominence. They provide competitive performance compared with conventional methods owing to their ability of transforming nonlinear problem into linear ones in a higher dimensional feature space. In this work, we propose a Kernel-based Hierarchical Agglomerative Clustering algorithms (KHAC) using Ward’s criterion. Our method is induced by a recently arisen criterion called Maximum Mean Discrepancy (MMD). This criterion has firstly been proposed to measure difference between different distributions and can easily be embedded into a RKHS. Close relationships have been proved between MMD and Ward's criterion. In our KHAC method, selection of the kernel parameter and determination of the number of clusters have been studied, which provide satisfactory performance. Finally an iterative KHAC algorithm is proposed which aims at determining the optimal kernel parameter, giving a meaningful number of clusters and partitioning the data set automatically Classification automatique (statistique) Reconnaissance des formes (informatique) Apprentissage automatique Tests d'hypothèses (statistique) Cluster analysis Pattern recognition systems Machine learning Statistical hypothesis testing 620.004 52
297	Sequential detection and isolation of cyber-physical attacks on SCADA systems / Détection et localisation séquentielle d’attaques cyber-physiques aux systèmes SCADA Do, Van Long 17 November 2015 (has links) Cette thèse s’inscrit dans le cadre du projet « SCALA » financé par l’ANR à travers le programme ANR-11-SECU-0005. Son objectif consiste à surveiller des systèmes de contrôle et d’acquisition de données (SCADA) contre des attaques cyber-physiques. Il s'agit de résoudre un problème de détection-localisation séquentielle de signaux transitoires dans des systèmes stochastiques et dynamiques en présence d'états inconnus et de bruits aléatoires. La solution proposée s'appuie sur une approche par redondance analytique composée de deux étapes : la génération de résidus, puis leur évaluation. Les résidus sont générés de deux façons distinctes, avec le filtre de Kalman ou par projection sur l’espace de parité. Ils sont ensuite évalués par des méthodes d’analyse séquentielle de rupture selon de nouveaux critères d’optimalité adaptés à la surveillance des systèmes à sécurité critique. Il s'agit donc de minimiser la pire probabilité de détection manquée sous la contrainte de niveaux acceptables pour la pire probabilité de fausse alarme et la pire probabilité de fausse localisation. Pour la tâche de détection, le problème d’optimisation est résolu dans deux cas : les paramètres du signal transitoire sont complètement connus ou seulement partiellement connus. Les propriétés statistiques des tests sous-optimaux obtenus sont analysées. Des résultats préliminaires pour la tâche de localisation sont également proposés. Les algorithmes développés sont appliqués à la détection et à la localisation d'actes malveillants dans un réseau d’eau potable / This PhD thesis is registered in the framework of the project “SCALA” which received financial support through the program ANR-11-SECU-0005. Its ultimate objective involves the on-line monitoring of Supervisory Control And Data Acquisition (SCADA) systems against cyber-physical attacks. The problem is formulated as the sequential detection and isolation of transient signals in stochastic-dynamical systems in the presence of unknown system states and random noises. It is solved by using the analytical redundancy approach consisting of two steps: residual generation and residual evaluation. The residuals are firstly generated by both Kalman filter and parity space approaches. They are then evaluated by using sequential analysis techniques taking into account certain criteria of optimality. However, these classical criteria are not adequate for the surveillance of safety-critical infrastructures. For such applications, it is suggested to minimize the worst-case probability of missed detection subject to acceptable levels on the worst-case probability of false alarm and false isolation. For the detection task, the optimization problem is formulated and solved in both scenarios: exactly and partially known parameters. The sub-optimal tests are obtained and their statistical properties are investigated. Preliminary results for the isolation task are also obtained. The proposed algorithms are applied to the detection and isolation of malicious attacks on a simple SCADA water network Analyse séquentielle Détection du signal Rupture (statistique) Modèles linéaires (statistique) Criminalité informatique Sequential analysis Signal detection Change-point problems Linear models (Statistics) Computer crimes 621.382 2
298	Contributions to robust methods in nonparametric frontier models Bruffaerts, Christopher 10 September 2014 (has links) Les modèles de frontières sont actuellement très utilisés par beaucoup d’économistes, gestionnaires ou toute personne dite « decision-maker ». Dans ces modèles de frontières, le but du chercheur consiste à attribuer à des unités de production (des firmes, des hôpitaux ou des universités par exemple) une mesure de leur efficacité en terme de production. Ces unités (dénotées DMU-Decision-Making Units) utilisent-elles à bon escient leurs « inputs » et « outputs »? Font-elles usage de tout leur potentiel dans le processus de production? <p>L’ensemble de production est l’ensemble contenant toutes les combinaisons d’inputs et d’outputs qui sont physiquement réalisables dans une économie. De cet ensemble contenant p inputs et q outputs, la notion d’efficacité d ‘une unité de production peut être définie. Celle-ci se définie comme une distance séparant le DMU de la frontière de l’ensemble de production. A partir d’un échantillon de DMUs, le but est de reconstruire cette frontière de production afin de pouvoir y évaluer l’efficacité des DMUs. A cette fin, le chercheur utilise très souvent des méthodes dites « classiques » telles que le « Data Envelopment Analysis » (DEA).<p><p>De nos jours, le statisticien bénéficie de plus en plus de données, ce qui veut également dire qu’il n’a pas l’opportunité de faire attention aux données qui font partie de sa base de données. Il se peut en effet que certaines valeurs aberrantes s’immiscent dans les jeux de données sans que nous y fassions particulièrement attention. En particulier, les modèles de frontières sont extrêmement sensibles aux valeurs aberrantes et peuvent fortement influencer l’inférence qui s’en suit. Pour éviter que certaines données n’entravent une analyse correcte, des méthodes robustes sont utilisées.<p><p>Allier le côté robuste au problème d’évaluation d’efficacité est l’objectif général de cette thèse. Le premier chapitre plante le décor en présentant la littérature existante dans ce domaine. Les quatre chapitres suivants sont organisés sous forme d’articles scientifiques. <p>Le chapitre 2 étudie les propriétés de robustesse d’un estimateur d’efficacité particulier. Cet estimateur mesure la distance entre le DMU analysé et la frontière de production le long d’un chemin hyperbolique passant par l’unité. Ce type de distance très spécifique s’avère très utile pour définir l’efficacité de type directionnel. <p>Le chapitre 3 est l’extension du premier article au cas de l’efficacité directionnelle. Ce type de distance généralise toutes les distances de type linéaires pour évaluer l’efficacité d’un DMU. En plus d’étudier les propriétés de robustesse de l’estimateur d’efficacité de type directionnel, une méthode de détection de valeurs aberrantes est présentée. Celle-ci s’avère très utile afin d’identifier les unités de production influençantes dans cet espace multidimensionnel (dimension p+q). <p>Le chapitre 4 présente les méthodes d’inférence pour les efficacités dans les modèles nonparamétriques de frontière. En particulier, les méthodes de rééchantillonnage comme le bootstrap ou le subsampling s’avère être très utiles. Dans un premier temps, cet article montre comment améliorer l’inférence sur les efficacités grâce au subsampling et prouve qu’il n’est pas suffisant d’utiliser un estimateur d’efficacité robuste dans les méthodes de rééchantillonnage pour avoir une inférence qui soit fiable. C’est pourquoi, dans un second temps, cet article propose une méthode robuste de rééchantillonnage qui est adaptée au problème d’évaluation d’efficacité. <p>Finalement, le dernier chapitre est une application empirique. Plus précisément, cette analyse s’intéresse à l ‘efficacité des universités américaines publiques et privées au niveau de leur recherche. Des méthodes classiques et robustes sont utilisées afin de montrer comment tous les outils étudiés précédemment peuvent s’appliquer en pratique. En particulier, cette étude permet d’étudier l’impact sur l’efficacité des institutions américaines de certaines variables telles que l’enseignement, l’internationalisation ou la collaboration avec le monde de l’industrie.<p> / Doctorat en sciences, Orientation statistique / info:eu-repo/semantics/nonPublished Mathématiques Sciences exactes et naturelles Nonparametric statistics Resampling (Statistics) Distribution (Probability theory) Statistique non-paramétrique Rééchantillonnage (Statistique) Frontier models Nonparametric DEA Robustness
299	Bayesian multiple hypotheses testing with quadratic criterion / Test bayésien entre hypothèses multiples avec critère quadratique Zhang, Jian 04 April 2014 (has links) Le problème de détection et localisation d’anomalie peut être traité comme le problème du test entre des hypothèses multiples (THM) dans le cadre bayésien. Le test bayésien avec la fonction de perte 0−1 est une solution standard pour ce problème, mais les hypothèses alternatives pourraient avoir une importance tout à fait différente en pratique. La fonction de perte 0−1 ne reflète pas cette réalité tandis que la fonction de perte quadratique est plus appropriée. L’objectif de cette thèse est la conception d’un test bayésien avec la fonction de perte quadratique ainsi que son étude asymptotique. La construction de ce test est effectuée en deux étapes. Dans la première étape, un test bayésien avec la fonction de perte quadratique pour le problème du THM sans l’hypothèse de base est conçu et les bornes inférieures et supérieures des probabilités de classification erronée sont calculées. La deuxième étape construit un test bayésien pour le problème du THM avec l’hypothèse de base. Les bornes inférieures et supérieures des probabilités de fausse alarme, des probabilités de détection manquée, et des probabilités de classification erronée sont calculées. A partir de ces bornes, l’équivalence asymptotique entre le test proposé et le test standard avec la fonction de perte 0−1 est étudiée. Beaucoup d’expériences de simulation et une expérimentation acoustique ont illustré l’efficacité du nouveau test statistique / The anomaly detection and localization problem can be treated as a multiple hypotheses testing (MHT) problem in the Bayesian framework. The Bayesian test with the 0−1 loss function is a standard solution for this problem, but the alternative hypotheses have quite different importance in practice. The 0−1 loss function does not reflect this fact while the quadratic loss function is more appropriate. The objective of the thesis is the design of a Bayesian test with the quadratic loss function and its asymptotic study. The construction of the test is made in two steps. In the first step, a Bayesian test with the quadratic loss function for the MHT problem without the null hypothesis is designed and the lower and upper bounds of the misclassification probabilities are calculated. The second step constructs a Bayesian test for the MHT problem with the null hypothesis. The lower and upper bounds of the false alarm probabilities, the missed detection probabilities as well as the misclassification probabilities are calculated. From these bounds, the asymptotic equivalence between the proposed test and the standard one with the 0-1 loss function is studied. A lot of simulation and an acoustic experiment have illustrated the effectiveness of the new statistical test Tests d'hypothèses (statistique) Statistique bayésienne Détection du signal Analyse discriminante Son -- Mesure Statistical hypothesis testing Bayesian statistical decision theory Signal detection Discriminant analysis Sound -- Measurement 003 519.5
300	Sélection de modèles parcimonieux pour l’apprentissage statistique en grande dimension / Model selection for sparse high-dimensional learning Mattei, Pierre-Alexandre 26 October 2017 (has links) Le déferlement numérique qui caractérise l’ère scientifique moderne a entraîné l’apparition de nouveaux types de données partageant une démesure commune : l’acquisition simultanée et rapide d’un très grand nombre de quantités observables. Qu’elles proviennent de puces ADN, de spectromètres de masse ou d’imagerie par résonance nucléaire, ces bases de données, qualifiées de données de grande dimension, sont désormais omniprésentes, tant dans le monde scientifique que technologique. Le traitement de ces données de grande dimension nécessite un renouvellement profond de l’arsenal statistique traditionnel, qui se trouve inadapté à ce nouveau cadre, notamment en raison du très grand nombre de variables impliquées. En effet, confrontée aux cas impliquant un plus grand nombre de variables que d’observations, une grande partie des techniques statistiques classiques est incapable de donner des résultats satisfaisants. Dans un premier temps, nous introduisons les problèmes statistiques inhérents aux modelés de données de grande dimension. Plusieurs solutions classiques sont détaillées et nous motivons le choix de l’approche empruntée au cours de cette thèse : le paradigme bayésien de sélection de modèles. Ce dernier fait ensuite l’objet d’une revue de littérature détaillée, en insistant sur plusieurs développements récents. Viennent ensuite trois chapitres de contributions nouvelles à la sélection de modèles en grande dimension. En premier lieu, nous présentons un nouvel algorithme pour la régression linéaire bayésienne parcimonieuse en grande dimension, dont les performances sont très bonnes, tant sur données réelles que simulées. Une nouvelle base de données de régression linéaire est également introduite : il s’agit de prédire la fréquentation du musée d’Orsay à l’aide de données vélibs. Ensuite, nous nous penchons sur le problème de la sélection de modelés pour l’analyse en composantes principales (ACP). En nous basant sur un résultat théorique nouveau, nous effectuons les premiers calculs exacts de vraisemblance marginale pour ce modelé. Cela nous permet de proposer deux nouveaux algorithmes pour l’ACP parcimonieuse, un premier, appelé GSPPCA, permettant d’effectuer de la sélection de variables, et un second, appelé NGPPCA, permettant d’estimer la dimension intrinsèque de données de grande dimension. Les performances empiriques de ces deux techniques sont extrêmement compétitives. Dans le cadre de données d’expression ADN notamment, l’approche de sélection de variables proposée permet de déceler sans supervision des ensembles de gènes particulièrement pertinents. / The numerical surge that characterizes the modern scientific era led to the rise of new kinds of data united in one common immoderation: the simultaneous acquisition of a large number of measurable quantities. Whether coming from DNA microarrays, mass spectrometers, or nuclear magnetic resonance, these data, usually called high-dimensional, are now ubiquitous in scientific and technological worlds. Processing these data calls for an important renewal of the traditional statistical toolset, unfit for such frameworks that involve a large number of variables. Indeed, when the number of variables exceeds the number of observations, most traditional statistics becomes inefficient. First, we give a brief overview of the statistical issues that arise with high-dimensional data. Several popular solutions are presented, and we present some arguments in favor of the method utilized and advocated in this thesis: Bayesian model uncertainty. This chosen framework is the subject of a detailed review that insists on several recent developments. After these surveys come three original contributions to high-dimensional model selection. A new algorithm for high-dimensional sparse regression called SpinyReg is presented. It compares favorably to state-of-the-art methods on both real and synthetic data sets. A new data set for high-dimensional regression is also described: it involves predicting the number of visitors in the Orsay museum in Paris using bike-sharing data. We focus next on model selection for high-dimensional principal component analysis (PCA). Using a new theoretical result, we derive the first closed-form expression of the marginal likelihood of a PCA model. This allows us to propose two algorithms for model selection in PCA. A first one called globally sparse probabilistic PCA (GSPPCA) that allows to perform scalable variable selection, and a second one called normal-gamma probabilistic PCA (NGPPCA) that estimates the intrinsic dimensionality of a high-dimensional data set. Both methods are competitive with other popular approaches. In particular, using unlabeled DNA microarray data, GSPPCA is able to select genes that are more biologically relevant than several popular approaches. Apprentissage statistique Grande dimension Parcimonie Sélection de modèles Statistique bayésienne Bayesian statistics High-dimensional data Model selection Sparsity Statistical machine learning 519.501 13

Search results