Spelling suggestions: "subject:"connées bruitées"" "subject:"abonnées bruitées""
1 |
Inférence statistique pour des processus multifractionnaires cachés dans un cadre de modèles à volatilité stochastique / Statistical inference for hidden multifractionnal processes in a setting of stochastic volatility modelsPeng, Qidi 21 November 2011 (has links)
L’exemple paradigmatique d’un processus stochastique multifractionnaire est le mouvement brownien multifractionnaire (mbm). Ce processus gaussien de nature fractale admet des trajectoires continues nulle part dérivables et étend de façon naturelle le célèbre mouvement brownien fractionnaire (mbf). Le mbf a été introduit depuis longtemps par Kolmogorov et il a ensuite été « popularisé » par Mandelbrot ; dans plusieurs travaux remarquables, ce dernier auteur a notamment insisté sur la grande importance de ce modèle dans divers domaines applicatifs. Le mbm, quant à lui, a été introduit, depuis plus de quinze ans, par Benassi, Jaffard, Lévy Véhel, Peltier et Roux. Grossièrement parlant, il est obtenu en remplaçant le paramètre constant de Hurst du mbf, par une fonction H(t) qui dépend de façon régulière du temps t. Ainsi, contrairement au mbf, les accroissements du mbm sont non stationnaires et la rugosité locale de ses trajectoires (mesurée habituellement par l’exposant de Hölder ponctuel) peut évoluer significativement au cours du temps ; en fait, à chaque instant t, l’exposant de Hölder ponctuel du mbm vaut H(t). Notons quecette dernière propriété, rend ce processus plus flexible que le mbf ; grâce à elle, le mbm est maintenant devenu un modèle utile en traitement du signal et de l’image ainsi que dans d’autres domaines tels que la finance. Depuis plus d’une décennie, plusieurs auteurs se sont intéressés à des problèmes d’inférence statistique liés au mbm et à d’autres processus/champs multifractionnaires ; leurs motivations comportent à la fois des aspects applicatifs et théoriques. Parmi les plus importants, figure le problème de l’estimation de H(t), l’exposant de Hölder ponctuel en un instant arbitraire t. Dans ce type de problématique, la méthode des variations quadratiques généralisées, initialement introduite par Istas et Lang dans un cadre de processus à accroissements stationnaires, joue souvent un rôle crucial. Cette méthode permet de construire des estimateurs asymptotiquement normaux à partir de moyennes quadratiques d’accroissements généralisés d’un processus observé sur une grille. A notre connaissance, dans la littérature statistique qui concerne le mbm, jusqu’à présent, il a été supposé que, l’observation sur une grille des valeurs exactes de ce processus est disponible ; cependant une telle hypothèse ne semble pas toujours réaliste. L’objectif principal de la thèse est d’étudierdes problèmes d’inférence statistique liés au mbm, lorsque seulement une version corrompue de ce dernier est observable sur une grille régulière.Cette version corrompue est donnée par une classe de modèles à volatilité stochastique dont la définition s’inspire de certains travaux antérieurs de Gloter et Hoffmann ; signalons enfin que la formule d’Itô permet de ramener ce cadre statistique au cadre classique : « signal+bruit ». / The paradigmatic example of a multifractional stochastic process is multifractional Brownian motion (mBm). This fractal Gaussian process with continuous nowhere differentiable trajectories is a natural extension of the well-known fractional Brownian motion (fBm). FBm was introduced a longtime ago by Kolmogorov and later it has been made « popular» by Mandelbrot; in several outstanding works, the latter author has emphasized the fact that this model is of a great importance in various applied areas. Regarding mBm, it was introduced, more than fifteen years ago, by Benassi, Jaffard, Lévy Véhel, Peltier and Roux. Roughly speaking, it is obtained by replacing the constant Hurst parameter of fBm by a smooth function H(t) which depends on the time variable t. Therefore, in contrast with fBm, theincrements of mBm are non stationary and the local roughness of its trajectories (usually measured through the pointwise Hölder exponent) is allowed to significantly evolve over time; in fact, at each time t, the pointwise Hölder exponent of mBm is equal to H(t). It is worth noticing that the latter property makes this process more flexible than fBm; thanks to it, mBm has now become a useful model in the area of signal and image processing, aswell as in other areas such as finance. Since at least one decade, several authors have been interested in statistical inference problems connected with mBm and other multifractional processes/fields; their motivations have both applied and theoretical aspects. Among those problems, an important one is the estimation of H(t), the pointwise Hölder exponent at an arbitrary time t. In the solutions of such issues, the generalized quadratic variation method, which was first introduced by Istas and Lang in a setting of stationary increments processes, usually plays a crucial role. This method allows to construct asymptotically normal estimators starting from quadratic means of generalized increments of a process observed on a grid. So far, to our knowledge, in the statistical literature concerning mBm, it has been assumed that, the observation of the true values of this process on a grid, is available; yet, such an assumption does not always seem to be realistic. The main goal of the thesis is to study statistical inference problems related to mBm, when only a corrupted version of it, can be observed on a regular grid. This corrupted version is given by a class of stochastic volatility models whose definition is inspired by some Gloter and Hoffmann’s earlier works; last, notice that thanks to Itô formula this statistical setting can be viewed as the classical setting: « signal+noise ».
|
2 |
Une approche de détection d'outliers en présence de l'incertitude / An outlier detection approach in the presence of uncertaintyHacini, Akram 06 December 2018 (has links)
Un des aspects de complexité des nouvelles données, issues des différents systèmes de traitement,sont l’imprécision, l’incertitude, et l’incomplétude. Ces aspects ont aggravés la multiplicité etdissémination des sources productrices de données, qu’on observe facilement dans les systèmesde contrôle et de monitoring. Si les outils de la fouille de données sont devenus assez performants avec des données dont on dispose de connaissances a priori fiables, ils ne peuvent pas êtreappliqués aux données où les connaissances elles mêmes peuvent être entachées d’incertitude etd’imprécision. De ce fait, de nouvelles approches qui prennent en compte cet aspect vont certainement améliorer les performances des systèmes de fouille de données, dont la détection desoutliers, objet de notre recherche dans le cadre de cette thèse. Cette thèse s’inscrit dans cette optique, à savoir la proposition d’une nouvelle méthode pourla détection d’outliers dans les données incertaines et/ou imprécises. En effet, l’imprécision etl’incertitude des expertises relatives aux données d’apprentissage, est un aspect de complexitédes données. Pour pallier à ce problème particulier d’imprécision et d’incertitude des donnéesexpertisées, nous avons combinés des techniques issues de l’apprentissage automatique, et plusparticulièrement le clustering, et des techniques issues de la logique floue, en particulier les ensembles flous, et ce, pour pouvoir projeter de nouvelles observations, sur les clusters des donnéesd’apprentissage, et après seuillage, pouvoir définir les observations à considérer comme aberrantes(outliers) dans le jeu de données considéré.Concrètement, en utilisant les tables de décision ambigües (TDA), nous sommes partis des indices d’ambigüité des données d’apprentissage pour calculer les indices d’ambigüités des nouvellesobservations (données de test), et ce en faisant recours à l’inférence floue. Après un clustering del’ensemble des indices d’ambigüité, une opération α-coupe, nous a permis de définir une frontièrede décision au sein des clusters, et qui a été utilisée à son tour pour catégoriser les observations,en normales (inliers) ou aberrantes (outliers). La force de la méthode proposée réside dans sonpouvoir à traiter avec des données d’apprentissage imprécises et/ou incertaines en utilisant uniquement les indices d’ambigüité, palliant ainsi aux différents problèmes d’incomplétude des jeuxde données. Les métriques de faux positifs et de rappel, nous ont permis d’une part d’évaluer lesperformances de notre méthode, et aussi de la paramétrer selon les choix de l’utilisateur. / One of the complexity aspects of the new data produced by the different processing systems is the inaccuracy, the uncertainty, and the incompleteness. These aspects are aggravated by the multiplicity and the dissemination of data-generating sources, that can be easily observed within various control and monitoring systems. While the tools of data mining have become fairly efficient with data that have reliable prior knowledge, they cannot be applied to data where the knowledge itself may be tainted with uncertainty and inaccuracy. As a result, new approaches that take into account this aspect will certainly improve the performance of data mining systems, including the detection of outliers,which is the subject of our research in this thesis.This thesis deals therefore with a particular aspect of uncertainty and accuracy, namely the proposal of a new method to detect outliers in uncertain and / or inaccurate data. Indeed, the inaccuracy of the expertise related to the learning data, is an aspect of complexity. To overcome this particular problem of inaccuracy and uncertainty of the expertise data, we have combined techniques resulting from machine learning, especially clustering, and techniques derived from fuzzy logic, especially fuzzy sets. So we will be able to project the new observations, on the clusters of the learning data, and after thresholding, defining the observations to consider as aberrant (outliers) in the considered dataset.Specifically, using ambiguous decision tables (ADTs), we proceeded from the ambiguity indices of the learning data to compute the ambiguity indices of the new observations (test data), using the Fuzzy Inference. After clustering, the set of ambiguity indices, an α-cut operation allowed us to define a decision boundary within the clusters, which was used in turn to categorize the observations as normal (inliers ) or aberrant (outliers). The strength of the proposed method lies in its ability to deal with inaccurate and / or uncertain learning data using only the indices of ambiguity, thus overcoming the various problems of incompleteness of the datasets. The metrics of false positives and recall, allowed us on one hand to evaluate the performances of our method, and also to parameterize it according to the choices of the user.
|
3 |
Nouvelles contributions du boosting en apprentissage automatiqueSuchier, Henri-Maxime 21 June 2006 (has links) (PDF)
L'apprentissage automatique vise la production d'une hypothèse modélisant un concept à partir d'exemples, dans le but notamment de prédire si de nouvelles observations relèvent ou non de ce concept. Parmi les algorithmes d'apprentissage, les méthodes ensemblistes combinent des hypothèses de base (dites ``faibles'') en une hypothèse globale plus performante.<br /><br />Le boosting, et son algorithme AdaBoost, est une méthode ensembliste très étudiée depuis plusieurs années : ses performances expérimentales remarquables reposent sur des fondements théoriques rigoureux. Il construit de manière adaptative et itérative des hypothèses de base en focalisant l'apprentissage, à chaque nouvelle itération, sur les exemples qui ont été difficiles à apprendre lors des itérations précédentes. Cependant, AdaBoost est relativement inadapté aux données du monde réel. Dans cette thèse, nous nous concentrons en particulier sur les données bruitées, et sur les données hétérogènes.<br /><br />Dans le cas des données bruitées, non seulement la méthode peut devenir très lente, mais surtout, AdaBoost apprend par coeur les données, et le pouvoir prédictif des hypothèses globales générées, s'en trouve extrêmement dégradé. Nous nous sommes donc intéressés à une adaptation du boosting pour traiter les données bruitées. Notre solution exploite l'information provenant d'un oracle de confiance permettant d'annihiler les effets dramatiques du bruit. Nous montrons que notre nouvel algorithme conserve les propriétés théoriques du boosting standard. Nous mettons en pratique cette nouvelle méthode, d'une part sur des données numériques, et d'autre part, de manière plus originale, sur des données textuelles.<br /><br />Dans le cas des données hétérogènes, aucune adaptation du boosting n'a été proposée jusqu'à présent. Pourtant, ces données, caractérisées par des attributs multiples mais de natures différentes (comme des images, du son, du texte, etc), sont extrêmement fréquentes sur le web, par exemple. Nous avons donc développé un nouvel algorithme de boosting permettant de les utiliser. Plutôt que de combiner des hypothèses boostées indépendamment, nous construisons un nouveau schéma de boosting permettant de faire collaborer durant l'apprentissage des algorithmes spécialisés sur chaque type d'attribut. Nous prouvons que les décroissances exponentielles des erreurs sont toujours assurées par ce nouveau modèle, aussi bien d'un point de vue théorique qu'expérimental.
|
4 |
Blancheur et non-gaussianité pour la déconvolution aveugle de données brutiées : application aux signaux sismiquesLarue, Anthony 13 September 2006 (has links) (PDF)
Nous nous intéressons à la déconvolution aveugle de signaux bruités et plus précisément de signaux d'imagerie sismique. Pour réaliser l'inversion, nous souhaitons effectuer une sélection des statistiques d'ordre supérieur adaptées à la distribution du signal à déconvoluer. Pour cela, nous nous appuyons sur l'hypothèse de blancheur ou de non-gaussianité. Nous proposons une approche avec le taux d'information mutuelle comme mesure de blancheur et une autre basée sur la non-gaussianité du signal de sortie mesurée par la néguentropie. Après le développement d'algorithmes dans le domaine temporel et fréquentiel, nous caractérisons l'influence sur les critères du bruit additif présent sur les données. Nous démontrons que l'hypothèse de non-gaussianité est plus robuste à la présence d'un bruit additif sur les données blanc et gaussien. Cette approche permet pour des données synthétiques et réelles un très bon compromis entre la qualité de la déconvolution et l'amplification du bruit.
|
5 |
Approximation de fonctions et de données discrètes au sens de la norme L1 par splines polynomiales / Function and data approximation in L1 norm by polynomial splinesGajny, Laurent 15 May 2015 (has links)
L'approximation de fonctions et de données discrètes est fondamentale dans des domaines tels que la planification de trajectoire ou le traitement du signal (données issues de capteurs). Dans ces domaines, il est important d'obtenir des courbes conservant la forme initiale des données. L'utilisation des splines L1 semble être une bonne solution au regard des résultats obtenus pour le problème d'interpolation de données discrètes par de telles splines. Ces splines permettent notamment de conserver les alignements dans les données et de ne pas introduire d'oscillations résiduelles comme c'est le cas pour les splines d'interpolation L2. Nous proposons dans cette thèse une étude du problème de meilleure approximation au sens de la norme L1. Cette étude comprend des développements théoriques sur la meilleure approximation L1 de fonctions présentant une discontinuité de type saut dans des espaces fonctionnels généraux appelés espace de Chebyshev et faiblement Chebyshev. Les splines polynomiales entrent dans ce cadre. Des algorithmes d'approximation de données discrètes au sens de la norme L1 par procédé de fenêtre glissante sont développés en se basant sur les travaux existants sur les splines de lissage et d'ajustement. Les méthodes présentées dans la littérature pour ces types de splines peuvent être relativement couteuse en temps de calcul. Les algorithmes par fenêtre glissante permettent d'obtenir une complexité linéaire en le nombre de données. De plus, une parallélisation est possible. Enfin, une approche originale d'approximation, appelée interpolation à delta près, est développée. Nous proposons un algorithme algébrique avec une complexité linéaire et qui peut être utilisé pour des applications temps réel. / Data and function approximation is fundamental in application domains like path planning or signal processing (sensor data). In such domains, it is important to obtain curves that preserve the shape of the data. Considering the results obtained for the problem of data interpolation, L1 splines appear to be a good solution. Contrary to classical L2 splines, these splines enable to preserve linearities in the data and to not introduce extraneous oscillations when applied on data sets with abrupt changes. We propose in this dissertation a study of the problem of best L1 approximation. This study includes developments on best L1 approximation of functions with a jump discontinuity in general spaces called Chebyshev and weak-Chebyshev spaces. Polynomial splines fit in this framework. Approximation algorithms by smoothing splines and spline fits based on a sliding window process are introduced. The methods previously proposed in the littérature can be relatively time consuming when applied on large datasets. Sliding window algorithm enables to obtain algorithms with linear complexity. Moreover, these algorithms can be parallelized. Finally, a new approximation approach with prescribed error is introduced. A pure algebraic algorithm with linear complexity is introduced. This algorithm is then applicable to real-time application.
|
Page generated in 0.0584 seconds