291 |
Analyse en composantes indépendantes par ondelettesBarbedor, Pascal 05 December 2006 (has links) (PDF)
L'analyse en composantes indépendantes (ACI) est une forme d'analyse multivariée qui a émergée en tant que concept dans les années 1980-90. C'est un type de problème inverse où on observe une variable X dont les composantes sont les mélanges linéaires d'une variable S inobservable. Les composantes de S sont mutuellement indépendantes. La relation entre les deux variables s'exprime par X=AS, où A est une matrice de mixage inconnue .<br /><br />Le problème principal de l'ACI est d'estimer la matrice A, à partir de l'observation d'un échantillon i.i.d. de X, pour atteindre S qui constitue un système explicatif meilleur que X dans l'étude d'un phénomène particulier. Le problème se résout généralement par la minimisation d'un certain critère, issu d'une mesure de dépendance.<br /><br />L'ACI ressemble à l'analyse en composantes principales (ACP) dans la formulation du problème. Dans le cas de l'ACP on cherche des composantes non corrélées, c'est-à-dire indépendantes par paire à l'ordre 2 ; dans le cas de l'ACI on cherche des composantes mutuellement indépendantes, ce qui est beaucoup plus contraignant; dans le cas général, il n'existe plus de solution algébrique simple. Les principaux problèmes d'identification de A sont évités par un certain nombre de conventions adoptées dans le modèle ACI classique.<br /><br />L'approche qui est proposée dans cette thèse est du type non paramétrique. Sous des hypothèses de type Besov, on étudie plusieurs estimateurs d'un critère de dépendance exact donné par la norme L2 de la différence entre une densité et le produit de ses marges. Ce critère constitue une alternative à l'information mutuelle qui représentait jusqu'ici le critère exact de référence de la plupart des méthodes ACI.<br /><br />On donne une majoration de l'erreur en moyenne quadratique de différents estimateurs du contraste L2. Cette majoration prend en compte le biais d'approximation entre le Besov et l'espace de projection qui, ici, est issu d'une analyse multirésolution (AMR) générée par le produit tensoriel d'ondelettes de Daubechies. Ce type de majoration avec prise en compte du biais d'approximation est en général absent des méthodes non paramétriques récentes en ACI (méthodes kernel, information mutuelle).<br /><br />Le critère en norme L2 permet de se rapprocher de problèmes déjà connus dans la littérature statistique, estimation de l'intégrale de f au carré, tests d'homogénéité en norme L2, résultats de convergence d'estimateurs adoptant un seuillage par bloc. <br /><br />On propose des estimateurs du contraste L2 qui atteignent la vitesse minimax optimale du problème de intégrale de f au carré. Ces estimateurs de type U-statistique ont des complexités numériques quadratique en n, ce qui peut poser un problème pour la minimisation du contraste à suivre, en vue d'obtenir l'estimation concrète de la matrice A. En revanche, ces estimateurs admettent une forme de seuillage par bloc où la connaissance de la régularité s de la densité multivariée sous-jacente est inutile pour obtenir une vitesse optimale.<br /><br />On propose un estimateur de type plug-in dont la vitesse de convergence est sous-optimale mais qui est de complexité numérique linéaire en n. L'estimateur plug-in admet aussi une forme seuillée terme à terme, qui dégrade la vitesse de convergence mais permet d'obtenir un critère auto-adaptatif. Dans sa version linéaire, l'estimateur plug-in semble déjà quasiment auto-adaptatif dans les faits, c'est-à-dire que sous la contrainte 2^{jd} < n, où d est la dimension du problème et n le nombre d'observations, la majorité des résolutions j permettent d'estimer A après minimisation.<br /><br />Pour obtenir ces résultats on a été amené à développer une technique combinatoire spécifique permettant de majorer le moment d'ordre r d'une U-statistique ou d'une V-statistique. Les résultats classiques sur les U-statistiques ne sont en effet pas directement utilisables et pas facilement adaptables dans le contexte d'étude de la thèse. La méthode développée est utilisable dans d'autres contextes.<br /><br />La méthode par ondelettes s'appuie sur le paradigme usuel estimation d'un critère de dépendance, puis minimisation. On étudie donc dans la thèse les éléments permettant de faciliter la minimisation. On donne notamment des formulations du gradient et du hessien de l'estimateur du contraste qui se prêtent à un changement de résolution par simple filtrage et qui se calculent selon une complexité équivalente à celle de l'évaluation de l'estimateur lui même. <br /><br />Des simulations proposées dans la thèse confirment l'applicabilité de la méthode et donnent des résultats excellents. Tous les éléments nécessaires à l'implémentation de la méthode, et le code commenté des parties clefs de la programmation (notamment des algorithmes d-dimensionnels) figurent également dans le document.
|
292 |
Un test d'adéquation global pour la fonction de répartition conditionnelleFERRIGNO, Sandie 17 December 2004 (has links) (PDF)
Soient X et Y , deux variables aléatoires. De nombreuses procédures statistiques permettent d'ajuster un modèle à ces données dans le but d'expliquer Y à partir de X. La mise en place d'un tel modèle fait généralement appel à diverses hypothèses que <br />l'on doit valider pour justifier son utilisation. Dans ce travail, on propose une approche globale où toutes les hypothèses faites pour asseoir ce modèle sont testées simultanément. <br />Plus précisément, on construit un test basé sur une quantité qui permet de canaliser toute l'information liant X à Y : la fonction de répartition conditionnelle de Y sachant (X = x) définie par F(y|x)=P(Y<=y|X=x). Notre test compare la valeur prise par l'estimateur polynômial local de F(y|x) à une estimation paramétrique du modèle supposé et rejette sa <br />validité si la distance entre ces deux quantités est trop grande. Dans un premier temps, on considère le cas où la fonction de répartition supposée est entièrement spécifiée et, dans <br />ce contexte, on établit le comportement asymptotique du test. Dans la deuxième partie du travail, on généralise ce résultat au cas plus courant en pratique où le modèle supposé contient un certain nombre de paramètres inconnus. On étudie ensuite la puissance locale du test en déterminant son comportement asymptotique local sous des suites d'hypothèses contigües. Enfin, on propose un critère de choix de la fenêtre d'ajustement qui intervient lors de l'étape d'estimation polynômiale locale de la fonction de répartition conditionnelle.
|
293 |
Signaux de transitions de phase des systèmes finisDuflot-Flandrois, Véronique 10 December 2001 (has links) (PDF)
Les transitions de phase sont des phénomènes communs à tous les systèmes en interaction. Pour des systèmes infinis, elles sont bien décrites par la thermodynamique mais celle-ci ne peut être utilisée pour des petits systèmes comme le noyau de l'atome. Nous proposons dans cette thèse une approche de mécanique statistique, afin d'extraire les caractéristiques thermodynamiques des petits systèmes ouverts et soumis à des forces non saturantes. Nous nous concentrons en particulier sur la définition et la mise en évidence pour de tels systèmes d'une transition de phase de type liquide gaz. Nous définissons des observables théoriques et expérimentales qui permettent de signer sans ambiguïté la présence et l'ordre de la transition. Une observable pertinente et accessible expérimentalement est la fluctuation d'énergie cinétique, pour une valeur fixée de l'énergie totale. Nous vérifions qu'à l'intérieur de la zone de coexistence, ces fluctuations deviennent anormalement grandes et s'accompagnent de comportements pseudo critiques pour la distribution en taille des fragments. Nous obtenons ces résultats dans le cadre du modèle du gaz sur réseau, avec un hamiltonien de plus proche voisins. Afin de compléter cette étude, nous analysons le comportement des observables lorsque les interactions sont à longue portée. Nous nous concentrons sur la problématique nucléaire en considérant l'effet des interactions coulombiennes. Enfin nous abordons en perspective des points spécifiques à la physique nucléaire : le rôle de l'isospin et des effets quantiques.
|
294 |
Méthodes d'analyse génétique de traits quantitatifs corrélés: application à l'étude de la densité minérale osseuseSaint Pierre, Aude 03 January 2011 (has links) (PDF)
La plupart des maladies humaines ont une étiologie complexe avec des facteurs génétiques et environnementaux qui interagissent. Utiliser des phénotypes corrélés peut augmenter la puissance de détection de locus de trait quantitatif. Ce travail propose d'évaluer différentes approches d'analyse bivariée pour des traits corrélés en utilisant l'information apportée par les marqueurs au niveau de la liaison et de l'association. Le gain relatif de ces approches est comparé aux analyses univariées. Ce travail a été appliqué à la variation de la densité osseuse à deux sites squelettiques dans une cohorte d'hommes sélectionnés pour des valeurs phénotypiques extrêmes. Nos résultats montrent l'intérêt d'utiliser des approches bivariées en particulier pour l'analyse d'association. Par ailleurs, dans le cadre du groupe de travail GAW16, nous avons comparé les performances relatives de trois méthodes d'association dans des données familiales.
|
295 |
Modèle d'évolution avec dépendance au contexte et Corrections de statistiques d'adéquation en présence de zéros aléatoiresFinkler, Audrey 16 June 2010 (has links) (PDF)
Dans ce travail nous étudions sous deux aspects la dépendance au contexte pour l'évolution par substitution des séquences nucléotidiques. Dans une première partie nous définissons un modèle évolutif simple intégrant la distinction entre transitions et transversions d'une part, et une dépendance des nucléotides à leur voisin de gauche modélisant l'effet CpG d'autre part. Nous montrons que ce modèle peut s'écrire sous la forme d'une chaîne de Markov cachée et estimons ses paramètres par la mise en oeuvre de l'algorithme de Baum-Welch. Nous appliquons enfin le modèle à l'estimation de taux de substitution mis en jeu dans l'évolution de séquences réelles. Dans une deuxième partie nous développons des corrections pour les statistiques classiques du test d'adéquation d'un échantillon à une loi multinomiale en présence de zéros aléatoires. En effet, les tests d'indépendance de l'évolution de triplets de nucléotides voisins impliquent des tables de contingence possédant de nombreuses cases nulles et se ramènent à des tests d'adéquation sur des vecteurs creux. Les statistiques de Pearson et de Kullback ne peuvent alors être employées. A partir de celles-ci, nous considérons des statistiques corrigées qui conservent le même comportement asymptotique. Nous les utilisons pour réaliser des tests d'indépendance, non seulement dans le cadre des données génomiques de la première partie, mais également pour des données écologiques et épidémiologiques.
|
296 |
Caractérisation et extraction de l'information dans des signaux optiques polarimétriques ou issus d'états sous-poissoniens de la lumièreFade, Julien 02 October 2009 (has links) (PDF)
Nous nous intéressons dans cette thèse à deux phénomènes optiques pour lesquels l'influence du bruit de mesure est importante. Dans le premier cas, nous analysons comment une caractérisation précise du bruit permet d'estimer le degré de polarisation de la lumière rétrodiffusée par un objet, à partir d'une unique image d'intensité acquise sous éclairement cohérent. En déterminant une borne sur la variance minimale d'estimation (borne de Cramer-Rao), et en comparant les performances de différents estimateurs, nous caractérisons la précision d'une telle méthode d'estimation. En comparant les performances de cette technique aux performances de méthodes plus standard d'estimation du degré de polarisation qui nécessitent plusieurs images polarimétriques, nous discutons le compromis entre la simplification des systèmes d'imagerie polarimétrique et la diminution de la précision d'estimation.Dans la seconde partie de cette thèse, nous étudions comment lesperformances d'une tâche d'estimation de paramètre (estimation dedéplacement d'une image) ou de discrimination entre deux hypothèses peuvent être améliorées en utilisant des lumières sous-poissoniennes qui présentent un niveau de bruit quantique inférieur à celui d'un bruit poissonien standard. Dans ces deux cas, l'étude des bornes statistiques sur les performances de traitement et les résultats des simulations numériques effectuées nous permettent d'analyser le gain en performance que l'on peut espérer obtenir en remplaçant un faisceau poissonien par une lumière de même intensité présentant des fluctuations sous-poissoniennes.
|
297 |
Méthodes d'analyse génétique de traits quantitatifs corrélés : application à l'étude de la densité minérale osseuse.Saint Pierre, Aude 03 January 2011 (has links) (PDF)
La plupart des maladies humaines ont une étiologie complexe avec des facteurs génétiques et environnementaux qui interagissent. Utiliser des phénotypes corrélés peut augmenter la puissance de détection de locus de trait quantitatif. Ce travail propose d'évaluer différentes approches d'analyse bivariée pour des traits corrélés en utilisantl'information apportée par les marqueurs au niveau de la liaison et de l'association. Legain relatif de ces approches est comparé aux analyses univariées. Ce travail a étéappliqué à la variation de la densité osseuse à deux sites squelettiques dans une cohorted'hommes sélectionnés pour des valeurs phénotypiques extrêmes. Nos résultats montrentl'intérêt d'utiliser des approches bivariées en particulier pour l'analyse d'association. Parailleurs, dans le cadre du groupe de travail GAW16, nous avons comparé lesperformances relatives de trois méthodes d'association dans des données familiales.
|
298 |
Rééchantillonnage et Sélection de modèlesArlot, Sylvain 13 December 2007 (has links) (PDF)
Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique. <br /><br />La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.<br /><br />Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau.
|
299 |
MMD and Ward criterion in a RKHS : application to Kernel based hierarchical agglomerative clustering / Maximum Dean Discrepancy et critère de Ward dans un RKHS : application à la classification hierarchique à noyauLi, Na 01 December 2015 (has links)
La classification non supervisée consiste à regrouper des objets afin de former des groupes homogènes au sens d’une mesure de similitude. C’est un outil utile pour explorer la structure d’un ensemble de données non étiquetées. Par ailleurs, les méthodes à noyau, introduites initialement dans le cadre supervisé, ont démontré leur intérêt par leur capacité à réaliser des traitements non linéaires des données en limitant la complexité algorithmique. En effet, elles permettent de transformer un problème non linéaire en un problème linéaire dans un espace de plus grande dimension. Dans ce travail, nous proposons un algorithme de classification hiérarchique ascendante utilisant le formalisme des méthodes à noyau. Nous avons tout d’abord recherché des mesures de similitude entre des distributions de probabilité aisément calculables à l’aide de noyaux. Parmi celles-ci, la maximum mean discrepancy a retenu notre attention. Afin de pallier les limites inhérentes à son usage, nous avons proposé une modification qui conduit au critère de Ward, bien connu en classification hiérarchique. Nous avons enfin proposé un algorithme itératif de clustering reposant sur la classification hiérarchique à noyau et permettant d’optimiser le noyau et de déterminer le nombre de classes en présence / Clustering, as a useful tool for unsupervised classification, is the task of grouping objects according to some measured or perceived characteristics of them and it has owned great success in exploring the hidden structure of unlabeled data sets. Kernel-based clustering algorithms have shown great prominence. They provide competitive performance compared with conventional methods owing to their ability of transforming nonlinear problem into linear ones in a higher dimensional feature space. In this work, we propose a Kernel-based Hierarchical Agglomerative Clustering algorithms (KHAC) using Ward’s criterion. Our method is induced by a recently arisen criterion called Maximum Mean Discrepancy (MMD). This criterion has firstly been proposed to measure difference between different distributions and can easily be embedded into a RKHS. Close relationships have been proved between MMD and Ward's criterion. In our KHAC method, selection of the kernel parameter and determination of the number of clusters have been studied, which provide satisfactory performance. Finally an iterative KHAC algorithm is proposed which aims at determining the optimal kernel parameter, giving a meaningful number of clusters and partitioning the data set automatically
|
300 |
Sequential detection and isolation of cyber-physical attacks on SCADA systems / Détection et localisation séquentielle d’attaques cyber-physiques aux systèmes SCADADo, Van Long 17 November 2015 (has links)
Cette thèse s’inscrit dans le cadre du projet « SCALA » financé par l’ANR à travers le programme ANR-11-SECU-0005. Son objectif consiste à surveiller des systèmes de contrôle et d’acquisition de données (SCADA) contre des attaques cyber-physiques. Il s'agit de résoudre un problème de détection-localisation séquentielle de signaux transitoires dans des systèmes stochastiques et dynamiques en présence d'états inconnus et de bruits aléatoires. La solution proposée s'appuie sur une approche par redondance analytique composée de deux étapes : la génération de résidus, puis leur évaluation. Les résidus sont générés de deux façons distinctes, avec le filtre de Kalman ou par projection sur l’espace de parité. Ils sont ensuite évalués par des méthodes d’analyse séquentielle de rupture selon de nouveaux critères d’optimalité adaptés à la surveillance des systèmes à sécurité critique. Il s'agit donc de minimiser la pire probabilité de détection manquée sous la contrainte de niveaux acceptables pour la pire probabilité de fausse alarme et la pire probabilité de fausse localisation. Pour la tâche de détection, le problème d’optimisation est résolu dans deux cas : les paramètres du signal transitoire sont complètement connus ou seulement partiellement connus. Les propriétés statistiques des tests sous-optimaux obtenus sont analysées. Des résultats préliminaires pour la tâche de localisation sont également proposés. Les algorithmes développés sont appliqués à la détection et à la localisation d'actes malveillants dans un réseau d’eau potable / This PhD thesis is registered in the framework of the project “SCALA” which received financial support through the program ANR-11-SECU-0005. Its ultimate objective involves the on-line monitoring of Supervisory Control And Data Acquisition (SCADA) systems against cyber-physical attacks. The problem is formulated as the sequential detection and isolation of transient signals in stochastic-dynamical systems in the presence of unknown system states and random noises. It is solved by using the analytical redundancy approach consisting of two steps: residual generation and residual evaluation. The residuals are firstly generated by both Kalman filter and parity space approaches. They are then evaluated by using sequential analysis techniques taking into account certain criteria of optimality. However, these classical criteria are not adequate for the surveillance of safety-critical infrastructures. For such applications, it is suggested to minimize the worst-case probability of missed detection subject to acceptable levels on the worst-case probability of false alarm and false isolation. For the detection task, the optimization problem is formulated and solved in both scenarios: exactly and partially known parameters. The sub-optimal tests are obtained and their statistical properties are investigated. Preliminary results for the isolation task are also obtained. The proposed algorithms are applied to the detection and isolation of malicious attacks on a simple SCADA water network
|
Page generated in 0.1 seconds