1 |
Inférence statistique pour des processus multifractionnaires cachés dans un cadre de modèles à volatilité stochastique / Statistical inference for hidden multifractionnal processes in a setting of stochastic volatility modelsPeng, Qidi 21 November 2011 (has links)
L’exemple paradigmatique d’un processus stochastique multifractionnaire est le mouvement brownien multifractionnaire (mbm). Ce processus gaussien de nature fractale admet des trajectoires continues nulle part dérivables et étend de façon naturelle le célèbre mouvement brownien fractionnaire (mbf). Le mbf a été introduit depuis longtemps par Kolmogorov et il a ensuite été « popularisé » par Mandelbrot ; dans plusieurs travaux remarquables, ce dernier auteur a notamment insisté sur la grande importance de ce modèle dans divers domaines applicatifs. Le mbm, quant à lui, a été introduit, depuis plus de quinze ans, par Benassi, Jaffard, Lévy Véhel, Peltier et Roux. Grossièrement parlant, il est obtenu en remplaçant le paramètre constant de Hurst du mbf, par une fonction H(t) qui dépend de façon régulière du temps t. Ainsi, contrairement au mbf, les accroissements du mbm sont non stationnaires et la rugosité locale de ses trajectoires (mesurée habituellement par l’exposant de Hölder ponctuel) peut évoluer significativement au cours du temps ; en fait, à chaque instant t, l’exposant de Hölder ponctuel du mbm vaut H(t). Notons quecette dernière propriété, rend ce processus plus flexible que le mbf ; grâce à elle, le mbm est maintenant devenu un modèle utile en traitement du signal et de l’image ainsi que dans d’autres domaines tels que la finance. Depuis plus d’une décennie, plusieurs auteurs se sont intéressés à des problèmes d’inférence statistique liés au mbm et à d’autres processus/champs multifractionnaires ; leurs motivations comportent à la fois des aspects applicatifs et théoriques. Parmi les plus importants, figure le problème de l’estimation de H(t), l’exposant de Hölder ponctuel en un instant arbitraire t. Dans ce type de problématique, la méthode des variations quadratiques généralisées, initialement introduite par Istas et Lang dans un cadre de processus à accroissements stationnaires, joue souvent un rôle crucial. Cette méthode permet de construire des estimateurs asymptotiquement normaux à partir de moyennes quadratiques d’accroissements généralisés d’un processus observé sur une grille. A notre connaissance, dans la littérature statistique qui concerne le mbm, jusqu’à présent, il a été supposé que, l’observation sur une grille des valeurs exactes de ce processus est disponible ; cependant une telle hypothèse ne semble pas toujours réaliste. L’objectif principal de la thèse est d’étudierdes problèmes d’inférence statistique liés au mbm, lorsque seulement une version corrompue de ce dernier est observable sur une grille régulière.Cette version corrompue est donnée par une classe de modèles à volatilité stochastique dont la définition s’inspire de certains travaux antérieurs de Gloter et Hoffmann ; signalons enfin que la formule d’Itô permet de ramener ce cadre statistique au cadre classique : « signal+bruit ». / The paradigmatic example of a multifractional stochastic process is multifractional Brownian motion (mBm). This fractal Gaussian process with continuous nowhere differentiable trajectories is a natural extension of the well-known fractional Brownian motion (fBm). FBm was introduced a longtime ago by Kolmogorov and later it has been made « popular» by Mandelbrot; in several outstanding works, the latter author has emphasized the fact that this model is of a great importance in various applied areas. Regarding mBm, it was introduced, more than fifteen years ago, by Benassi, Jaffard, Lévy Véhel, Peltier and Roux. Roughly speaking, it is obtained by replacing the constant Hurst parameter of fBm by a smooth function H(t) which depends on the time variable t. Therefore, in contrast with fBm, theincrements of mBm are non stationary and the local roughness of its trajectories (usually measured through the pointwise Hölder exponent) is allowed to significantly evolve over time; in fact, at each time t, the pointwise Hölder exponent of mBm is equal to H(t). It is worth noticing that the latter property makes this process more flexible than fBm; thanks to it, mBm has now become a useful model in the area of signal and image processing, aswell as in other areas such as finance. Since at least one decade, several authors have been interested in statistical inference problems connected with mBm and other multifractional processes/fields; their motivations have both applied and theoretical aspects. Among those problems, an important one is the estimation of H(t), the pointwise Hölder exponent at an arbitrary time t. In the solutions of such issues, the generalized quadratic variation method, which was first introduced by Istas and Lang in a setting of stationary increments processes, usually plays a crucial role. This method allows to construct asymptotically normal estimators starting from quadratic means of generalized increments of a process observed on a grid. So far, to our knowledge, in the statistical literature concerning mBm, it has been assumed that, the observation of the true values of this process on a grid, is available; yet, such an assumption does not always seem to be realistic. The main goal of the thesis is to study statistical inference problems related to mBm, when only a corrupted version of it, can be observed on a regular grid. This corrupted version is given by a class of stochastic volatility models whose definition is inspired by some Gloter and Hoffmann’s earlier works; last, notice that thanks to Itô formula this statistical setting can be viewed as the classical setting: « signal+noise ».
|
2 |
Une approche de détection d'outliers en présence de l'incertitude / An outlier detection approach in the presence of uncertaintyHacini, Akram 06 December 2018 (has links)
Un des aspects de complexité des nouvelles données, issues des différents systèmes de traitement,sont l’imprécision, l’incertitude, et l’incomplétude. Ces aspects ont aggravés la multiplicité etdissémination des sources productrices de données, qu’on observe facilement dans les systèmesde contrôle et de monitoring. Si les outils de la fouille de données sont devenus assez performants avec des données dont on dispose de connaissances a priori fiables, ils ne peuvent pas êtreappliqués aux données où les connaissances elles mêmes peuvent être entachées d’incertitude etd’imprécision. De ce fait, de nouvelles approches qui prennent en compte cet aspect vont certainement améliorer les performances des systèmes de fouille de données, dont la détection desoutliers, objet de notre recherche dans le cadre de cette thèse. Cette thèse s’inscrit dans cette optique, à savoir la proposition d’une nouvelle méthode pourla détection d’outliers dans les données incertaines et/ou imprécises. En effet, l’imprécision etl’incertitude des expertises relatives aux données d’apprentissage, est un aspect de complexitédes données. Pour pallier à ce problème particulier d’imprécision et d’incertitude des donnéesexpertisées, nous avons combinés des techniques issues de l’apprentissage automatique, et plusparticulièrement le clustering, et des techniques issues de la logique floue, en particulier les ensembles flous, et ce, pour pouvoir projeter de nouvelles observations, sur les clusters des donnéesd’apprentissage, et après seuillage, pouvoir définir les observations à considérer comme aberrantes(outliers) dans le jeu de données considéré.Concrètement, en utilisant les tables de décision ambigües (TDA), nous sommes partis des indices d’ambigüité des données d’apprentissage pour calculer les indices d’ambigüités des nouvellesobservations (données de test), et ce en faisant recours à l’inférence floue. Après un clustering del’ensemble des indices d’ambigüité, une opération α-coupe, nous a permis de définir une frontièrede décision au sein des clusters, et qui a été utilisée à son tour pour catégoriser les observations,en normales (inliers) ou aberrantes (outliers). La force de la méthode proposée réside dans sonpouvoir à traiter avec des données d’apprentissage imprécises et/ou incertaines en utilisant uniquement les indices d’ambigüité, palliant ainsi aux différents problèmes d’incomplétude des jeuxde données. Les métriques de faux positifs et de rappel, nous ont permis d’une part d’évaluer lesperformances de notre méthode, et aussi de la paramétrer selon les choix de l’utilisateur. / One of the complexity aspects of the new data produced by the different processing systems is the inaccuracy, the uncertainty, and the incompleteness. These aspects are aggravated by the multiplicity and the dissemination of data-generating sources, that can be easily observed within various control and monitoring systems. While the tools of data mining have become fairly efficient with data that have reliable prior knowledge, they cannot be applied to data where the knowledge itself may be tainted with uncertainty and inaccuracy. As a result, new approaches that take into account this aspect will certainly improve the performance of data mining systems, including the detection of outliers,which is the subject of our research in this thesis.This thesis deals therefore with a particular aspect of uncertainty and accuracy, namely the proposal of a new method to detect outliers in uncertain and / or inaccurate data. Indeed, the inaccuracy of the expertise related to the learning data, is an aspect of complexity. To overcome this particular problem of inaccuracy and uncertainty of the expertise data, we have combined techniques resulting from machine learning, especially clustering, and techniques derived from fuzzy logic, especially fuzzy sets. So we will be able to project the new observations, on the clusters of the learning data, and after thresholding, defining the observations to consider as aberrant (outliers) in the considered dataset.Specifically, using ambiguous decision tables (ADTs), we proceeded from the ambiguity indices of the learning data to compute the ambiguity indices of the new observations (test data), using the Fuzzy Inference. After clustering, the set of ambiguity indices, an α-cut operation allowed us to define a decision boundary within the clusters, which was used in turn to categorize the observations as normal (inliers ) or aberrant (outliers). The strength of the proposed method lies in its ability to deal with inaccurate and / or uncertain learning data using only the indices of ambiguity, thus overcoming the various problems of incompleteness of the datasets. The metrics of false positives and recall, allowed us on one hand to evaluate the performances of our method, and also to parameterize it according to the choices of the user.
|
3 |
An active-set trust-region method for bound-constrained nonlinear optimization without derivatives applied to noisy aerodynamic design problems / Une méthode de région de confiance avec ensemble actif pour l'optimisation non linéaire sans dérivées avec contraintes de bornes appliquée à des problèmes aérodynamiques bruitésTröltzsch, Anke 07 June 2011 (has links)
L’optimisation sans dérivées (OSD) a connu un regain d’intérêt ces dernières années, principalement motivée par le besoin croissant de résoudre les problèmes d’optimisation définis par des fonctions dont les valeurs sont calculées par simulation (par exemple, la conception technique, la restauration d’images médicales ou de nappes phréatiques).Ces dernières années, un certain nombre de méthodes d’optimisation sans dérivée ont été développées et en particulier des méthodes fondées sur un modèle de région de confiance se sont avérées obtenir de bons résultats.Dans cette thèse, nous présentons un nouvel algorithme de région de confiance, basé sur l’interpolation, qui se montre efficace et globalement convergent (en ce sens que sa convergence vers un point stationnaire est garantie depuis tout point de départ arbitraire). Le nouvel algorithme repose sur la technique d’auto-correction de la géométrie proposé par Scheinberg and Toint (2010). Dans leur théorie, ils ont fait avancer la compréhension du rôle de la géométrie dans les méthodes d’OSD à base de modèles. Dans notre travail, nous avons pu améliorer considérablement l’efficacité de leur méthode, tout en maintenant ses bonnes propriétés de convergence. De plus, nous examinons l’influence de différents types de modèles d’interpolation sur les performances du nouvel algorithme.Nous avons en outre étendu cette méthode pour prendre en compte les contraintes de borne par l’application d’une stratégie d’activation. Considérer une méthode avec ensemble actif pour l’optimisation basée sur des modèles d’interpolation donne la possibilité d’économiser une quantité importante d’évaluations de fonctions. Il permet de maintenir les ensembles d’interpolation plus petits tout en poursuivant l’optimisation dans des sous-espaces de dimension inférieure. L’algorithme résultant montre un comportement numérique très compétitif. Nous présentons des résultats sur un ensemble de problèmes-tests issu de la collection CUTEr et comparons notre méthode à des algorithmes de référence appartenant à différentes classes de méthodes d’OSD.Pour réaliser des expériences numériques qui intègrent le bruit, nous créons un ensemble de cas-tests bruités en ajoutant des perturbations à l’ensemble des problèmes sans bruit. Le choix des problèmes bruités a été guidé par le désir d’imiter les problèmes d’optimisation basés sur la simulation. Enfin, nous présentons des résultats sur une application réelle d’un problème de conception de forme d’une aile fourni par Airbus. / Derivative-free optimization (DFO) has enjoyed renewed interest over the past years, mostly motivated by the ever growing need to solve optimization problems defined by functions whose values are computed by simulation (e.g. engineering design, medical image restoration or groundwater supply).In the last few years, a number of derivative-free optimization methods have been developed and especially model-based trust-region methods have been shown to perform well.In this thesis, we present a new interpolation-based trust-region algorithm which shows to be efficient and globally convergent (in the sense that its convergence is guaranteed to a stationary point from arbitrary starting points). The new algorithm relies on the technique of self-correcting geometry proposed by Scheinberg and Toint [128] in 2009. In their theory, they advanced the understanding of the role of geometry in model-based DFO methods, in our work, we improve the efficiency of their method while maintaining its good theoretical convergence properties. We further examine the influence of different types of interpolation models on the performance of the new algorithm.Furthermore, we extended this method to handle bound constraints by applying an active-set strategy. Considering an active-set method in bound-constrained model-based optimization creates the opportunity of saving a substantial amount of function evaluations. It allows to maintain smaller interpolation sets while proceeding optimization in lower dimensional subspaces. The resulting algorithm is shown to be numerically highly competitive. We present results on a test set of smooth problems from the CUTEr collection and compare to well-known state-of-the-art packages from different classes of DFO methods.To report numerical experiments incorporating noise, we create a test set of noisy problems by adding perturbations to the set of smooth problems. The choice of noisy problems was guided by a desire to mimic simulation-based optimization problems. Finally, we will present results on a real-life application of a wing-shape design problem provided by Airbus.
|
4 |
Nouvelles contributions du boosting en apprentissage automatiqueSuchier, Henri-Maxime 21 June 2006 (has links) (PDF)
L'apprentissage automatique vise la production d'une hypothèse modélisant un concept à partir d'exemples, dans le but notamment de prédire si de nouvelles observations relèvent ou non de ce concept. Parmi les algorithmes d'apprentissage, les méthodes ensemblistes combinent des hypothèses de base (dites ``faibles'') en une hypothèse globale plus performante.<br /><br />Le boosting, et son algorithme AdaBoost, est une méthode ensembliste très étudiée depuis plusieurs années : ses performances expérimentales remarquables reposent sur des fondements théoriques rigoureux. Il construit de manière adaptative et itérative des hypothèses de base en focalisant l'apprentissage, à chaque nouvelle itération, sur les exemples qui ont été difficiles à apprendre lors des itérations précédentes. Cependant, AdaBoost est relativement inadapté aux données du monde réel. Dans cette thèse, nous nous concentrons en particulier sur les données bruitées, et sur les données hétérogènes.<br /><br />Dans le cas des données bruitées, non seulement la méthode peut devenir très lente, mais surtout, AdaBoost apprend par coeur les données, et le pouvoir prédictif des hypothèses globales générées, s'en trouve extrêmement dégradé. Nous nous sommes donc intéressés à une adaptation du boosting pour traiter les données bruitées. Notre solution exploite l'information provenant d'un oracle de confiance permettant d'annihiler les effets dramatiques du bruit. Nous montrons que notre nouvel algorithme conserve les propriétés théoriques du boosting standard. Nous mettons en pratique cette nouvelle méthode, d'une part sur des données numériques, et d'autre part, de manière plus originale, sur des données textuelles.<br /><br />Dans le cas des données hétérogènes, aucune adaptation du boosting n'a été proposée jusqu'à présent. Pourtant, ces données, caractérisées par des attributs multiples mais de natures différentes (comme des images, du son, du texte, etc), sont extrêmement fréquentes sur le web, par exemple. Nous avons donc développé un nouvel algorithme de boosting permettant de les utiliser. Plutôt que de combiner des hypothèses boostées indépendamment, nous construisons un nouveau schéma de boosting permettant de faire collaborer durant l'apprentissage des algorithmes spécialisés sur chaque type d'attribut. Nous prouvons que les décroissances exponentielles des erreurs sont toujours assurées par ce nouveau modèle, aussi bien d'un point de vue théorique qu'expérimental.
|
5 |
Les méthodes de régularisation optimale et leurs applications en tomographie : nouveaux algorithmes performants de reconstruction d'imagesGirard, Didier 29 October 1984 (has links) (PDF)
.
|
6 |
Blancheur et non-gaussianité pour la déconvolution aveugle de données brutiées : application aux signaux sismiquesLarue, Anthony 13 September 2006 (has links) (PDF)
Nous nous intéressons à la déconvolution aveugle de signaux bruités et plus précisément de signaux d'imagerie sismique. Pour réaliser l'inversion, nous souhaitons effectuer une sélection des statistiques d'ordre supérieur adaptées à la distribution du signal à déconvoluer. Pour cela, nous nous appuyons sur l'hypothèse de blancheur ou de non-gaussianité. Nous proposons une approche avec le taux d'information mutuelle comme mesure de blancheur et une autre basée sur la non-gaussianité du signal de sortie mesurée par la néguentropie. Après le développement d'algorithmes dans le domaine temporel et fréquentiel, nous caractérisons l'influence sur les critères du bruit additif présent sur les données. Nous démontrons que l'hypothèse de non-gaussianité est plus robuste à la présence d'un bruit additif sur les données blanc et gaussien. Cette approche permet pour des données synthétiques et réelles un très bon compromis entre la qualité de la déconvolution et l'amplification du bruit.
|
7 |
Une méthode de région de confiance avec ensemble actif pour l'optimisation non linéaire sans dérivées avec contraintes de bornes appliquée à des problèmes aérodynamiques bruités.Troltzsch, Anke 07 June 2011 (has links) (PDF)
L'optimisation sans dérivées (OSD) a connu un regain d'intérêt ces dernières années, principalement motivée par le besoin croissant de résoudre les problèmes d'optimisation définis par des fonctions dont les valeurs sont calculées par simulation (par exemple, la conception technique, la restauration d'images médicales ou de nappes phréatiques). Ces dernières années, un certain nombre de méthodes d'optimisation sans dérivée ont été développées et en particulier des méthodes fondées sur un modèle de région de confiance se sont avérées obtenir de bons résultats. Dans cette thèse, nous présentons un nouvel algorithme de région de confiance, basé sur l'interpolation, qui se montre efficace et globalement convergent (en ce sens que sa convergence vers un point stationnaire est garantie depuis tout point de départ arbitraire). Le nouvel algorithme repose sur la technique d'auto-correction de la géométrie proposé par Scheinberg and Toint (2010). Dans leur théorie, ils ont fait avancer la compréhension du rôle de la géométrie dans les méthodes d'OSD à base de modèles. Dans notre travail, nous avons pu améliorer considérablement l'efficacité de leur méthode, tout en maintenant ses bonnes propriétés de convergence. De plus, nous examinons l'influence de différents types de modèles d'interpolation sur les performances du nouvel algorithme. Nous avons en outre étendu cette méthode pour prendre en compte les contraintes de borne par l'application d'une stratégie d'activation. Considérer une méthode avec ensemble actif pour l'optimisation basée sur des modèles d'interpolation donne la possibilité d'économiser une quantité importante d'évaluations de fonctions. Il permet de maintenir les ensembles d'interpolation plus petits tout en poursuivant l'optimisation dans des sous-espaces de dimension inférieure. L'algorithme résultant montre un comportement numérique très compétitif. Nous présentons des résultats sur un ensemble de problèmes-tests issu de la collection CUTEr et comparons notre méthode à des algorithmes de référence appartenant à différentes classes de méthodes d'OSD. Pour réaliser des expériences numériques qui intègrent le bruit, nous créons un ensemble de cas-tests bruités en ajoutant des perturbations à l'ensemble des problèmes sans bruit. Le choix des problèmes bruités a été guidé par le désir d'imiter les problèmes d'optimisation basés sur la simulation. Enfin, nous présentons des résultats sur une application réelle d'un problème de conception de forme d'une aile fourni par Airbus.
|
8 |
Une approche statistique multi-échelle au recalage rigide de surfaces : Application à l'implantologie dentaireGranger, Sébastien 07 April 2003 (has links) (PDF)
Le principal sujet de cette thèse est la mise au point d'algorithmes de recalage rigide de surfaces au sein de VirtualScope, un système de guidage per-opératoire dédié au percement des axes des implants dentaires. Elle est basée sur une approche purement statistique, qui, en essayant de maximiser la vraisemblance calculée à partir d'une modélisation explicite du bruit, permet de justifier l'utilisation de l'ICP pour le recalage d'amers géométriques, puis de proposer l'ICP/EM multi-échelles, un peu plus précis et surtout beaucoup plus robuste et rapide. De nouveaux modèles de bruits sont proposés pour adapter l'algorithme aux surfaces échantillonnées et bruitées. La prédiction théorique de l'incertitude est abordée, et permet en particulier de guider l'acquisition des données. L'étude expérimentale très poussée des performances de l'algorithme permet de régler efficacement ses paramètres, mettre au point des systèmes de sécurité, et garantir ainsi un fonctionnement parfaitement satisfaisant au sein de VirtualScope. La seconde partie de cette thèse aborde plus généralement le problème de la modélisation statistique des courbes et surfaces échantillonnées bruitées. En regroupant les travaux sur la saillance et le vote de tenseurs, elle présente la notion de champs de vote, qui permet d'exprimer la probabilité d'un élément de la courbe ou surface connaissant un autre élément. Elle donne des exemples rudimentaires mais facilement programmables de champs de votes, qui prennent en compte la forme de la surface et la façon dont les points ont été échantillonnés et bruités. Elle montre comment les appliquer avec succès au problème du recalage, puis indique comment ils pourraient servir pour dériver des algorithmes bayésiens pour de nombreuses autres applications concernant les courbes et surfaces. Ces travaux seraient alors susceptibles de déboucher sur la mise au point d'un canevas statistique et multi-échelles commun à toutes ces méthodes.
|
9 |
Approximation de fonctions et de données discrètes au sens de la norme L1 par splines polynomiales / Function and data approximation in L1 norm by polynomial splinesGajny, Laurent 15 May 2015 (has links)
L'approximation de fonctions et de données discrètes est fondamentale dans des domaines tels que la planification de trajectoire ou le traitement du signal (données issues de capteurs). Dans ces domaines, il est important d'obtenir des courbes conservant la forme initiale des données. L'utilisation des splines L1 semble être une bonne solution au regard des résultats obtenus pour le problème d'interpolation de données discrètes par de telles splines. Ces splines permettent notamment de conserver les alignements dans les données et de ne pas introduire d'oscillations résiduelles comme c'est le cas pour les splines d'interpolation L2. Nous proposons dans cette thèse une étude du problème de meilleure approximation au sens de la norme L1. Cette étude comprend des développements théoriques sur la meilleure approximation L1 de fonctions présentant une discontinuité de type saut dans des espaces fonctionnels généraux appelés espace de Chebyshev et faiblement Chebyshev. Les splines polynomiales entrent dans ce cadre. Des algorithmes d'approximation de données discrètes au sens de la norme L1 par procédé de fenêtre glissante sont développés en se basant sur les travaux existants sur les splines de lissage et d'ajustement. Les méthodes présentées dans la littérature pour ces types de splines peuvent être relativement couteuse en temps de calcul. Les algorithmes par fenêtre glissante permettent d'obtenir une complexité linéaire en le nombre de données. De plus, une parallélisation est possible. Enfin, une approche originale d'approximation, appelée interpolation à delta près, est développée. Nous proposons un algorithme algébrique avec une complexité linéaire et qui peut être utilisé pour des applications temps réel. / Data and function approximation is fundamental in application domains like path planning or signal processing (sensor data). In such domains, it is important to obtain curves that preserve the shape of the data. Considering the results obtained for the problem of data interpolation, L1 splines appear to be a good solution. Contrary to classical L2 splines, these splines enable to preserve linearities in the data and to not introduce extraneous oscillations when applied on data sets with abrupt changes. We propose in this dissertation a study of the problem of best L1 approximation. This study includes developments on best L1 approximation of functions with a jump discontinuity in general spaces called Chebyshev and weak-Chebyshev spaces. Polynomial splines fit in this framework. Approximation algorithms by smoothing splines and spline fits based on a sliding window process are introduced. The methods previously proposed in the littérature can be relatively time consuming when applied on large datasets. Sliding window algorithm enables to obtain algorithms with linear complexity. Moreover, these algorithms can be parallelized. Finally, a new approximation approach with prescribed error is introduced. A pure algebraic algorithm with linear complexity is introduced. This algorithm is then applicable to real-time application.
|
10 |
Algorithmes efficaces pour l’apprentissage de réseaux de préférences conditionnelles à partir de données bruitées / Efficient algorithms for learning conditional preference networks from noisy dataLabernia, Fabien 27 September 2018 (has links)
La croissance exponentielle des données personnelles, et leur mise à disposition sur la toile, a motivé l’émergence d’algorithmes d’apprentissage de préférences à des fins de recommandation, ou d’aide à la décision. Les réseaux de préférences conditionnelles (CP-nets) fournissent une structure compacte et intuitive pour la représentation de telles préférences. Cependant, leur nature combinatoire rend leur apprentissage difficile : comment apprendre efficacement un CP-net au sein d’un milieu bruité, tout en supportant le passage à l’échelle ?Notre réponse prend la forme de deux algorithmes d’apprentissage dont l’efficacité est soutenue par de multiples expériences effectuées sur des données réelles et synthétiques.Le premier algorithme se base sur des requêtes posées à des utilisateurs, tout en prenant en compte leurs divergences d’opinions. Le deuxième algorithme, composé d’une version hors ligne et en ligne, effectue une analyse statistique des préférences reçues et potentiellement bruitées. La borne de McDiarmid est en outre utilisée afin de garantir un apprentissage en ligne efficace. / The rapid growth of personal web data has motivated the emergence of learning algorithms well suited to capture users’ preferences. Among preference representation formalisms, conditional preference networks (CP-nets) have proven to be effective due to their compact and explainable structure. However, their learning is difficult due to their combinatorial nature.In this thesis, we tackle the problem of learning CP-nets from corrupted large datasets. Three new algorithms are introduced and studied on both synthetic and real datasets.The first algorithm is based on query learning and considers the contradictions between multiple users’ preferences by searching in a principled way the variables that affect the preferences. The second algorithm relies on information-theoretic measures defined over the induced preference rules, which allow us to deal with corrupted data. An online version of this algorithm is also provided, by exploiting the McDiarmid's bound to define an asymptotically optimal decision criterion for selecting the best conditioned variable and hence allowing to deal with possibly infinite data streams.
|
Page generated in 0.0578 seconds