• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Analyse en composantes indépendantes par ondelettes

Barbedor, Pascal 05 December 2006 (has links) (PDF)
L'analyse en composantes indépendantes (ACI) est une forme d'analyse multivariée qui a émergée en tant que concept dans les années 1980-90. C'est un type de problème inverse où on observe une variable X dont les composantes sont les mélanges linéaires d'une variable S inobservable. Les composantes de S sont mutuellement indépendantes. La relation entre les deux variables s'exprime par X=AS, où A est une matrice de mixage inconnue .<br /><br />Le problème principal de l'ACI est d'estimer la matrice A, à partir de l'observation d'un échantillon i.i.d. de X, pour atteindre S qui constitue un système explicatif meilleur que X dans l'étude d'un phénomène particulier. Le problème se résout généralement par la minimisation d'un certain critère, issu d'une mesure de dépendance.<br /><br />L'ACI ressemble à l'analyse en composantes principales (ACP) dans la formulation du problème. Dans le cas de l'ACP on cherche des composantes non corrélées, c'est-à-dire indépendantes par paire à l'ordre 2 ; dans le cas de l'ACI on cherche des composantes mutuellement indépendantes, ce qui est beaucoup plus contraignant; dans le cas général, il n'existe plus de solution algébrique simple. Les principaux problèmes d'identification de A sont évités par un certain nombre de conventions adoptées dans le modèle ACI classique.<br /><br />L'approche qui est proposée dans cette thèse est du type non paramétrique. Sous des hypothèses de type Besov, on étudie plusieurs estimateurs d'un critère de dépendance exact donné par la norme L2 de la différence entre une densité et le produit de ses marges. Ce critère constitue une alternative à l'information mutuelle qui représentait jusqu'ici le critère exact de référence de la plupart des méthodes ACI.<br /><br />On donne une majoration de l'erreur en moyenne quadratique de différents estimateurs du contraste L2. Cette majoration prend en compte le biais d'approximation entre le Besov et l'espace de projection qui, ici, est issu d'une analyse multirésolution (AMR) générée par le produit tensoriel d'ondelettes de Daubechies. Ce type de majoration avec prise en compte du biais d'approximation est en général absent des méthodes non paramétriques récentes en ACI (méthodes kernel, information mutuelle).<br /><br />Le critère en norme L2 permet de se rapprocher de problèmes déjà connus dans la littérature statistique, estimation de l'intégrale de f au carré, tests d'homogénéité en norme L2, résultats de convergence d'estimateurs adoptant un seuillage par bloc. <br /><br />On propose des estimateurs du contraste L2 qui atteignent la vitesse minimax optimale du problème de intégrale de f au carré. Ces estimateurs de type U-statistique ont des complexités numériques quadratique en n, ce qui peut poser un problème pour la minimisation du contraste à suivre, en vue d'obtenir l'estimation concrète de la matrice A. En revanche, ces estimateurs admettent une forme de seuillage par bloc où la connaissance de la régularité s de la densité multivariée sous-jacente est inutile pour obtenir une vitesse optimale.<br /><br />On propose un estimateur de type plug-in dont la vitesse de convergence est sous-optimale mais qui est de complexité numérique linéaire en n. L'estimateur plug-in admet aussi une forme seuillée terme à terme, qui dégrade la vitesse de convergence mais permet d'obtenir un critère auto-adaptatif. Dans sa version linéaire, l'estimateur plug-in semble déjà quasiment auto-adaptatif dans les faits, c'est-à-dire que sous la contrainte 2^{jd} < n, où d est la dimension du problème et n le nombre d'observations, la majorité des résolutions j permettent d'estimer A après minimisation.<br /><br />Pour obtenir ces résultats on a été amené à développer une technique combinatoire spécifique permettant de majorer le moment d'ordre r d'une U-statistique ou d'une V-statistique. Les résultats classiques sur les U-statistiques ne sont en effet pas directement utilisables et pas facilement adaptables dans le contexte d'étude de la thèse. La méthode développée est utilisable dans d'autres contextes.<br /><br />La méthode par ondelettes s'appuie sur le paradigme usuel estimation d'un critère de dépendance, puis minimisation. On étudie donc dans la thèse les éléments permettant de faciliter la minimisation. On donne notamment des formulations du gradient et du hessien de l'estimateur du contraste qui se prêtent à un changement de résolution par simple filtrage et qui se calculent selon une complexité équivalente à celle de l'évaluation de l'estimateur lui même. <br /><br />Des simulations proposées dans la thèse confirment l'applicabilité de la méthode et donnent des résultats excellents. Tous les éléments nécessaires à l'implémentation de la méthode, et le code commenté des parties clefs de la programmation (notamment des algorithmes d-dimensionnels) figurent également dans le document.
2

Tests de permutation d’indépendance en analyse multivariée

Guetsop Nangue, Aurélien 11 1900 (has links)
Cette thèse est rédigée par articles. Les articles sont rédigés en anglais et le reste de la thèse est rédigée en français. / Le travail établit une équivalence en termes de puissance entre les tests basés sur la alpha-distance de covariance et sur le critère d'indépendance de Hilbert-Schmidt (HSIC) avec fonction caractéristique de distribution de probabilité stable d'indice alpha avec paramètre d'échelle suffisamment petit. Des simulations en grandes dimensions montrent la supériorité des tests de distance de covariance et des tests HSIC par rapport à certains tests utilisant les copules. Des simulations montrent également que la distribution de Pearson de type III, très utile et moins connue, approche la distribution exacte de permutation des tests et donne des erreurs de type I précises. Une nouvelle méthode de sélection adaptative des paramètres d'échelle pour les tests HSIC est proposée. Trois simulations, dont deux sont empruntées de l'apprentissage automatique, montrent que la nouvelle méthode de sélection améliore la puissance des tests HSIC. Le problème de tests d'indépendance entre deux vecteurs est généralisé au problème de tests d'indépendance mutuelle entre plusieurs vecteurs. Le travail traite aussi d'un problème très proche à savoir, le test d'indépendance sérielle d'une suite multidimensionnelle stationnaire. La décomposition de Möbius des fonctions caractéristiques est utilisée pour caractériser l'indépendance. Des tests généralisés basés sur le critère d'indépendance de Hilbert-Schmidt et sur la distance de covariance en sont obtenus. Une équivalence est également établie entre le test basé sur la distance de covariance et le test HSIC de noyau caractéristique d'une distribution stable avec des paramètres d'échelle suffisamment petits. La convergence faible du test HSIC est obtenue. Un calcul rapide et précis des valeurs-p des tests développés utilise une distribution de Pearson de type III comme approximation de la distribution exacte des tests. Un résultat fascinant est l'obtention des trois premiers moments exacts de la distribution de permutation des statistiques de dépendance. Une méthodologie similaire a été développée pour le test d'indépendance sérielle d'une suite. Des applications à des données réelles environnementales et financières sont effectuées. / The main result establishes the equivalence in terms of power between the alpha-distance covariance test and the Hilbert-Schmidt independence criterion (HSIC) test with the characteristic kernel of a stable probability distribution of index alpha with sufficiently small scale parameters. Large-scale simulations reveal the superiority of these two tests over other tests based on the empirical independence copula process. They also establish the usefulness of the lesser known Pearson type III approximation to the exact permutation distribution. This approximation yields tests with more accurate type I error rates than the gamma approximation usually used for HSIC, especially when dimensions of the two vectors are large. A new method for scale parameter selection in HSIC tests is proposed which improves power performance in three simulations, two of which are from machine learning. The problem of testing mutual independence between many random vectors is addressed. The closely related problem of testing serial independence of a multivariate stationary sequence is also considered. The Möbius transformation of characteristic functions is used to characterize independence. A generalization to p vectors of the alpha -distance covariance test and the Hilbert-Schmidt independence criterion (HSIC) test with the characteristic kernel of a stable probability distributionof index alpha is obtained. It is shown that an HSIC test with sufficiently small scale parameters is equivalent to an alpha -distance covariance test. Weak convergence of the HSIC test is established. A very fast and accurate computation of p-values uses the Pearson type III approximation which successfully approaches the exact permutation distribution of the tests. This approximation relies on the exact first three moments of the permutation distribution of any test which can be expressed as the sum of all elements of a componentwise product of p doubly-centered matrices. The alpha -distance covariance test and the HSIC test are both of this form. A new selection method is proposed for the scale parameter of the characteristic kernel of the HSIC test. It is shown in a simulation that this adaptive HSIC test has higher power than the alpha-distance covariance test when data are generated from a Student copula. Applications are given to environmental and financial data.

Page generated in 0.058 seconds