Spelling suggestions: "subject:"apprentissage statistique"" "subject:"apprentissage qtatistique""
1 |
Geometric approaches for 3D human motion analysis : application to action recognition and retrieval / Approches géométriques pour l'analyse du mouvement humain en 3D : application à la reconnaissance d'action et à l’indexationSlama, Rim 06 October 2014 (has links)
Dans le cadre de cette thèse, nous proposons des approches géométriques permettant d’analyser des mouvements humains à partir de données issues de capteurs 3D. Premièrement, nous abordons le problème de comparaison de poses et de mouvements dans des séquences contenant des modèles de corps humain en 3D. En introduisant un nouveau descripteur, appelé Extremal Human Curve (EHC), la forme du corps humain dans une pose donnée est décrite par une collection de courbes. Ces courbes extraites de la surface du maillage relient les points se situant aux extrémités du corps. Dans un formalisme Riemannien, chacune de ces courbes est considérée comme un point dans un espace de formes offrant la possibilité de les comparer. Par ailleurs, les actions sont modélisées par des trajectoires dans cet espace, où elles sont comparées en utilisant la déformation temporelle dynamique. Deuxièmement, nous proposons une approche de reconnaissance d’actions et de gestes à partir de vidéos produites par des capteurs de profondeur. A travers une modélisation géométrique, une séquence d’action est représentée par un système dynamique dont la matrice d’observabilité est caractérisée par un élément de la variété de Grassmann. Par conséquent, la reconnaissance d’actions est reformulée en un problème de classification de points sur cette variété. Ensuite, un nouvel algorithme d’apprentissage basé sur la notion d’espaces tangents est proposé afin d’améliorer le système de reconnaissance. Les résultats de notre approche, testés sur plusieurs bases de données, donnent des taux de reconnaissance de haute précision et de faible latence. / In this thesis, we focus on the development of adequate geometric frameworks in order to model and compare accurately human motion acquired from 3D sensors. In the first framework, we address the problem of pose/motion retrieval in full 3D reconstructed sequences. The human shape representation is formulated using Extremal Human Curve (EHC) descriptor extracted from the body surface. It allows efficient shape to shape comparison taking benefits from Riemannian geometry in the open curve shape space. As each human pose represented by this descriptor is viewed as a point in the shape space, we propose to model the motion sequence by a trajectory on this space. Dynamic Time Warping in the feature vector space is then used to compare different motions. In the second framework, we propose a solution for action and gesture recognition from both skeleton and depth data acquired by low cost cameras such as Microsoft Kinect. The action sequence is represented by a dynamical system whose observability matrix is characterized as an element of a Grassmann manifold. Thus, recognition problem is reformulated as a point classification on this manifold. Here, a new learning algorithm based on the notion of tangent spaces is proposed to improve recognition task. Performances of our approach on several benchmarks show high recognition accuracy with low latency.
|
2 |
Le Calcul du Gradient d'Erreur dans les Réseaux de Neurones : Applications aux Telecom et aux Sciences EnvironnementalesAussem, Alexandre 19 December 2002 (has links) (PDF)
Document de 180 pages décrivant en détail les techniques de descente du gradient dans les réseaux de neurones récurrents.
|
3 |
Performances statistiques de méthodes à noyauxLoustau, Sébastien 28 November 2008 (has links) (PDF)
Cette thèse se concentre sur le modèle de classification binaire. Etant donné $n$ couples de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) $(X_i,Y_i)$, $i=1,\ldots ,n$ de loi $P$, on cherche à prédire la classe $Y\in\{-1,+1\}$ d'une nouvelle entrée $X$ où $(X,Y)$ est de loi $P$. La règle de Bayes, notée $f^*$, minimise l'erreur de généralisation $R(f)=P(f(X)\not=Y)$. Un algorithme de classification doit s'approcher de la règle de Bayes. Cette thèse suit deux axes : établir des vitesses de convergence vers la règle de Bayes et proposer des procédures adaptatives.<br /><br />Les méthodes de régularisation ont montrées leurs intérêts pour résoudre des problèmes de classification. L'algorithme des Machines à Vecteurs de Support (SVM) est aujourd'hui le représentant le plus populaire. Dans un premier temps, cette thèse étudie les performances statistiques de cet algorithme, et considère le problème d'adaptation à la marge et à la complexité. On étend ces résultats à une nouvelle procédure de minimisation de risque empirique pénalisée sur les espaces de Besov. Enfin la dernière partie se concentre sur une nouvelle procédure de sélection de modèles : la minimisation de l'enveloppe du risque (RHM). Introduite par L.Cavalier et Y.Golubev dans le cadre des problèmes inverses, on cherche à l'appliquer au contexte de la classification.
|
4 |
Résolution et modélisation chimiométrique en spectroscopie moléculaireRuckebusch, Cyril 09 June 2008 (has links) (PDF)
Cette Habilitation à Diriger des Recherches présente les concepts et développements en chimiométrie pour la description, la résolution ou la modélisation des données des systèmes physico-chimiques étudiés par spectroscopie moléculaire. Les algorithmes de chimiométrie seront d'abord redéfinis dans un contexte mathématique et<br />statistique pour justifier l'utilisation qui en est faite en spectroscopie. L'accent sera mis ensuite sur les travaux de recherche et les activités de valorisation autour des deux axes suivants :<br /><br />- l'analyse des systèmes chimiques et physico-chimiques évolutifs, tels que les processus réactionnels photoinduits. L'idée est la description des données spectro-cinétiques par un modèle de structure algébrique bilinéaire, le problème consistant à estimer les contributions cinétiques et spectrales des constituants purs du système chimique. Nous montrons l'intérêt des méthodes multivariées de résolution de courbes pour l'analyse globale des données des systèmes multi-expériences et pour l'intégration d'informations physico-chimiques lors de la résolution. Le résultat<br />est une description adaptée et robuste des données permettant la caractérisation moléculaire des espèces transitoires inconnues. Nous envisageons également les développements vers les méthodes hybrides ou semiparamétriques, en lien avec les approches statistiques développées en traitement du signal.<br /><br />- l'analyse qualitative ou quantitative d'échantillons complexes, multi-composants et soumis à de nombreux facteurs d'influence, tels que les échantillons naturels ou manufacturés. L'idée est la modélisation d'une grandeur obtenue par une méthode de référence à partir d‘observations spectroscopiques des échantillons. L'objectif du modèle construit est la prédiction de cette grandeur lors d'observations ultérieures, pour bénéficier des caractéristiques métrologiques des techniques de spectroscopie. Nous montrons le potentiel des méthodes issues de l'apprentissage statistique. Les développements sont liés à l'écriture de termes de pénalisation de l'erreur empirique, notamment pour le contrôle de la complexité des modèles. Nous insistons sur les méthodes non-paramétriques telles que les machines à vecteurs de support à fonctions noyaux, pour nos applications en spectroscopie, lorsque la dimension des données est problématique.
|
5 |
Sélection de variables à partir de données d'expression : signatures moléculaires pour le pronostic du cancer du sein et inférence de réseaux de régulation géniqueHaury, Anne-Claire 14 December 2012 (has links) (PDF)
De considérables développements dans le domaine des biotechnologies ont modifié notre approche de l'analyse de l'expression génique. En particulier, les puces à ADN permettent de mesurer l'expression des gènes à l'échelle du génome, dont l'analyse est confiée au statisticien.A partir de ces données dites en grande dimension, nous contribuons, dans cette thèse, à l'étude de deux problèmes biologiques. Nous traitons ces questions comme des problèmes d'apprentissage statistique supervisé et, en particulier, de sélection de variables, où il s'agit d'extraire, parmi toutes les variables - gènes - à disposition, celles qui sont nécessaires et suffisantes pour prédire la réponse à une question donnée.D'une part, nous travaillons à repérer des listes de gènes, connues sous le nom de signatures moléculaires et supposées contenir l'information nécessaire à la prédiction de l'issue du cancer du sein. La prédiction des événements métastatiques est en effet cruciale afin d'évaluer, dès l'apparition de la tumeur primaire, la nécessité d'un traitement par chimio-thérapie adjuvante, connue pour son agressivité. Nous présentons dans cette thèse trois contributions à ce problème. Dans la première, nous proposons une comparaison systématique des méthodes de sélection de variables, en termes de performance prédictive, de stabilité et d'interprétabilité biologique de la solution. Les deux autres contributions portent sur l'application de méthodes dites de parcimonie structurée (graph Lasso et k-support norm) au problème de sélection de signatures. Ces trois travaux discutent également l'impact de l'utilisation de méthodes d'ensemble (bootstrap et ré-échantillonnage).D'autre part, nous nous intéressons au problème d'inférence de réseau génique, consistant à déterminer la structure des interactions entre facteurs de transcription et gènes cibles. Les premiers sont des protéines ayant la faculté de réguler la transcription des gènes cibles, c'est-à-dire de l'activer ou de la réprimer. Ces régulations peuvent être représentées sous la forme d'un graphe dirigé, où les noeuds symbolisent les gènes et les arêtes leurs interactions. Nous proposons un nouvel algorithme, TIGRESS, classé troisième lors du challenge d'inférence de réseaux DREAM5 en 2010. Basé sur l'algorithme LARS couplé à une stratégie de ré-échantillonnage, TIGRESS traite chaque gène cible séparément, en sélectionnant ses régulateurs, puis assemble ces sous-problèmes pour prédire l'ensemble du réseau.Enfin, nous consacrons le dernier chapitre à une discussion ayant pour objectif de replacer les travaux de cette thèse dans un contexte bibliographique et épistémologique plus large.
|
6 |
Extraction de caractéristiques et apprentissage statistique pour l'imagerie biomédicale cellulaire et tissulaire / Feature extraction and machine learning for cell and tissue biomedical imagingZubiolo, Alexis 11 December 2015 (has links)
L'objectif de cette thèse est de s'intéresser à la classification de cellules et de tissus au sein d'images d'origine biomédicales en s'appuyant sur des critères morphologiques. Le but est de permettre aux médecins et aux biologistes de mieux comprendre les lois qui régissent certains phénomènes biologiques. Ce travail se décompose en trois principales parties correspondant aux trois problèmes typiques des divers domaines de l'imagerie biomédicale abordés. L'objet de la première est l'analyse de vidéos d'endomicroscopie du colon dans lesquelles il s'agit de déterminer automatiquement la classe pathologique des polypes qu'on y observe. Cette tâche est réalisée par un apprentissage supervisé multiclasse couplant les séparateurs à vaste marge à des outils de théorie des graphes. La deuxième partie s'intéresse à l'étude de la morphologie de neurones de souris observés par microscopie confocale en fluorescence. Afin de disposer d'une information riche, les neurones sont observés à deux grossissements, l'un permettant de bien caractériser les corps cellulaires, l'autre, plus faible, pour voir les dendrites apicales dans leur intégralité. Sur ces images, des descripteurs morphologiques des neurones sont extraits automatiquement en vue d'une classification. La dernière partie concerne le traitement multi-échelle d'images d'histologie digitale dans le contexte du cancer du rein. Le réseau vasculaire est extrait et mis sous forme de graphe afin de pouvoir établir un lien entre l'architecture vasculaire de la tumeur et sa classe pathologique. / The purpose of this Ph.D. thesis is to study the classification based on morphological features of cells and tissues taken from biomedical images. The goal is to help medical doctors and biologists better understand some biological phenomena. This work is spread in three main parts corresponding to the three typical problems in biomedical imaging tackled. The first part consists in analyzing endomicroscopic videos of the colon in which the pathological class of the polyps has to be determined. This task is performed using a supervised multiclass machine learning algorithm combining support vector machines and graph theory tools. The second part concerns the study of the morphology of mice neurons taken from fluorescent confocal microscopy. In order to obtain a rich information, the neurons are imaged at two different magnifications, the higher magnification where the soma appears in details, and the lower showing the whole cortex, including the apical dendrites. On these images, morphological features are automatically extracted with the intention of performing a classification. The last part is about the multi-scale processing of digital histology images in the context of kidney cancer. The vascular network is extracted and modeled by a graph to establish a link between the architecture of the tumor and its pathological class.
|
7 |
Per Instance Algorithm Configuration for Continuous Black Box Optimization / Paramétrage automatisé d'algorithme par instance pour l'optimisation numérique boite noireBelkhir, Nacim 20 November 2017 (has links)
Cette thèse porte sur la configurationAutomatisée des algorithmes qui vise à trouver le meilleur paramétrage à un problème donné ou une catégorie deproblèmes.Le problème de configuration de l'algorithme revient doncà un problème de métaFoptimisation dans l'espace desparamètres, dont le métaFobjectif est la mesure deperformance de l’algorithme donné avec une configuration de paramètres donnée.Des approches plus récentes reposent sur une description des problèmes et ont pour but d’apprendre la relationentre l’espace des caractéristiques des problèmes etl’espace des configurations de l’algorithme à paramétrer.Cette thèse de doctorat porter le CAPI (Configurationd'Algorithme Par Instance) pour résoudre des problèmesd'optimisation de boîte noire continus, où seul un budgetlimité d'évaluations de fonctions est disponible. Nous étudions d'abord' les algorithmes évolutionnairesPour l'optimisation continue, en mettant l'accent sur deux algorithmes que nous avons utilisés comme algorithmecible pour CAPI,DE et CMAFES.Ensuite, nous passons en revue l'état de l'art desapproches de configuration d'algorithme, et lesdifférentes fonctionnalités qui ont été proposées dansla littérature pour décrire les problèmesd'optimisation de boîte noire continue.Nous introduisons ensuite une méthodologie générale Pour étudier empiriquement le CAPI pour le domainecontinu, de sorte que toutes les composantes du CAPIpuissent être explorées dans des conditions réelles.À cette fin, nous introduisons également un nouveau Banc d'essai de boîte noire continue, distinct ducélèbre benchmark BBOB, qui est composé deplusieurs fonctions de test multidimensionnelles avec'différentes propriétés problématiques, issues de lalittérature.La méthodologie proposée est finalement appliquée 'àdeux AES. La méthodologie est ainsi, validéempiriquement sur le nouveau banc d’essaid’optimisation boîte noire pour des dimensions allant jusqu’à 100. / This PhD thesis focuses on the automated algorithm configuration that aims at finding the best parameter setting for a given problem or a' class of problem. The Algorithm Configuration problem thus amounts to a metal Foptimization problem in the space of parameters, whosemetaFobjective is the performance measure of the given algorithm at hand with a given parameter configuration. However, in the continuous domain, such method can only be empirically assessed at the cost of running the algorithm on some problem instances. More recent approaches rely on a description of problems in some features space, and try to learn a mapping from this feature space onto the space of parameter configurations of the algorithm at hand. Along these lines, this PhD thesis focuses on the Per Instance Algorithm Configuration (PIAC) for solving continuous black boxoptimization problems, where only a limited budget confessionnalisations available. We first survey Evolutionary Algorithms for continuous optimization, with a focus on two algorithms that we have used as target algorithm for PIAC, DE and CMAFES. Next, we review the state of the art of Algorithm Configuration approaches, and the different features that have been proposed in the literature to describe continuous black box optimization problems. We then introduce a general methodology to empirically study PIAC for the continuous domain, so that all the components of PIAC can be explored in real Fworld conditions. To this end, we also introduce a new continuous black box test bench, distinct from the famous BBOB'benchmark, that is composed of a several multiFdimensional test functions with different problem properties, gathered from the literature. The methodology is finally applied to two EAS. First we use Differential Evolution as'target algorithm, and explore all the components of PIAC, such that we empirically assess the best. Second, based on the results on DE, we empirically investigate PIAC with Covariance Matrix Adaptation Evolution Strategy (CMAFES) as target algorithm. Both use cases empirically validate the proposed methodology on the new black box testbench for dimensions up to100.
|
8 |
Entropy-regularized Optimal Transport for Machine Learning / Transport Optimal pour l'Apprentissage AutomatiqueGenevay, Aude 13 March 2019 (has links)
Le Transport Optimal régularisé par l’Entropie (TOE) permet de définir les Divergences de Sinkhorn (DS), une nouvelle classe de distance entre mesures de probabilités basées sur le TOE. Celles-ci permettentd’interpolerentredeuxautresdistancesconnues: leTransport Optimal(TO)etl’EcartMoyenMaximal(EMM).LesDSpeuventêtre utilisées pour apprendre des modèles probabilistes avec de meilleures performances que les algorithmes existants pour une régularisation adéquate. Ceci est justifié par un théorème sur l’approximation des SDpardeséchantillons, prouvantqu’unerégularisationsusantepermet de se débarrasser de la malédiction de la dimension du TO, et l’on retrouve à l’infini le taux de convergence des EMM. Enfin, nous présentons de nouveaux algorithmes de résolution pour le TOE basés surl’optimisationstochastique‘en-ligne’qui,contrairementàl’étatde l’art, ne se restreignent pas aux mesures discrètes et s’adaptent bien aux problèmes de grande dimension. / This thesis proposes theoretical and numerical contributions to use Entropy-regularized Optimal Transport (EOT) for machine learning. We introduce Sinkhorn Divergences (SD), a class of discrepancies betweenprobabilitymeasuresbasedonEOTwhichinterpolatesbetween two other well-known discrepancies: Optimal Transport (OT) and Maximum Mean Discrepancies (MMD). We develop an ecient numerical method to use SD for density fitting tasks, showing that a suitable choice of regularization can improve performance over existing methods. We derive a sample complexity theorem for SD which proves that choosing a large enough regularization parameter allows to break the curse of dimensionality from OT, and recover asymptotic ratessimilartoMMD.Weproposeandanalyzestochasticoptimization solvers for EOT, which yield online methods that can cope with arbitrary measures and are well suited to large scale problems, contrarily to existing discrete batch solvers.
|
9 |
Méthodes d’apprentissage statistique pour l’optimisation globale / Statistical learning approaches for global optimizationContal, Emile 29 September 2016 (has links)
Cette thèse se consacre à une analyse rigoureuse des algorithmes d'optimisation globale équentielle. On se place dans un modèle de bandits stochastiques où un agent vise à déterminer l'entrée d'un système optimisant un critère. Cette fonction cible n'est pas connue et l'agent effectue séquentiellement des requêtes pour évaluer sa valeur aux entrées qu'il choisit. Cette fonction peut ne pas être convexe et contenir un grand nombre d'optima locaux. Nous abordons le cas difficile où les évaluations sont coûteuses, ce qui exige de concevoir une sélection rigoureuse des requêtes. Nous considérons deux objectifs, d'une part l'optimisation de la somme des valeurs reçues à chaque itération, d'autre part l'optimisation de la meilleure valeur trouvée jusqu'à présent. Cette thèse s'inscrit dans le cadre de l'optimisation bayésienne lorsque la fonction est une réalisation d'un processus stochastique connu, et introduit également une nouvelle approche d'optimisation par ordonnancement où l'on effectue seulement des comparaisons des valeurs de la fonction. Nous proposons des algorithmes nouveaux et apportons des concepts théoriques pour obtenir des garanties de performance. Nous donnons une stratégie d'optimisation qui s'adapte à des observations reçues par batch et non individuellement. Une étude générique des supremums locaux de processus stochastiques nous permet d'analyser l'optimisation bayésienne sur des espaces de recherche nonparamétriques. Nous montrons également que notre approche s'étend à des processus naturels non gaussiens. Nous établissons des liens entre l'apprentissage actif et l'apprentissage statistique d'ordonnancements et déduisons un algorithme d'optimisation de fonctions potentiellement discontinue. / This dissertation is dedicated to a rigorous analysis of sequential global optimization algorithms. We consider the stochastic bandit model where an agent aim at finding the input of a given system optimizing the output. The function which links the input to the output is not explicit, the agent requests sequentially an oracle to evaluate the output for any input. This function is not supposed to be convex and may display many local optima. In this work we tackle the challenging case where the evaluations are expensive, which requires to design a careful selection of the input to evaluate. We study two different goals, either to maximize the sum of the rewards received at each iteration, or to maximize the best reward found so far. The present thesis comprises the field of global optimization where the function is a realization from a known stochastic process, and the novel field of optimization by ranking where we only perform function value comparisons. We propose novel algorithms and provide theoretical concepts leading to performance guarantees. We first introduce an optimization strategy for observations received by batch instead of individually. A generic study of local supremum of stochastic processes allows to analyze Bayesian optimization on nonparametric search spaces. In addition, we show that our approach extends to natural non-Gaussian processes. We build connections between active learning and ranking and deduce an optimization algorithm of potentially discontinuous functions.
|
10 |
Apprentissage a contrario et architecture efficace pour la détection d'évènements visuels significatifsBurrus, Nicolas 08 December 2008 (has links) (PDF)
Pour assurer la robustesse d'un algorithme de détection, il est nécessaire de maîtriser son point de fonctionnement, et en particulier son taux de fausses alarmes. Cette tâche est particulièrement difficile en vision artificielle à cause de la grande variabilité des images naturelles, qui amène généralement à introduire des paramètres choisis a priori qui limitent la portée et la validité des algorithmes. Récemment, l'approche statistique a contrario a montré sa capacité à détecter des structures visuelles sans autre paramètre libre que le nombre moyen de fausses alarmes tolérées, en recherchant des entités dont certaines propriétés sont statistiquement trop improbables pour être le fruit du hasard. Les applications existantes reposent toutefois sur un cadre purement analytique qui requiert un travail important de modélisation, rend difficile l'utilisation de caractéristiques multiples et limite l'utilisation d'heuristiques de recherche dirigées par les données. Nous proposons dans cette thèse d'assouplir ces restrictions en ayant recours à de l'apprentissage pour les quantités non calculables analytiquement. Nous illustrons l'intérêt de la démarche à travers trois applications : la détection de segments, la segmentation en régions homogènes et la détection d'objets à partir d'une base de photos. Pour les deux premières applications, nous montrons que des seuils de détection robustes peuvent être appris à partir d'images de bruit blanc. Pour la dernière, nous montrons que quelques exemples d'images naturelles ne contenant pas d'objets de la base suffisent pour obtenir un algorithme de détection fiable. Enfin, nous remarquons que la monotonicité du raisonnement a contrario permet d'intégrer incrémentalement des informations partielles. Cette propriété nous conduit à proposer une architecture "anytime" pour la détection d'objets, c'est-à-dire capable de fournir des détections progressivement au cours de son exécution, en commençant par les objets les plus saillants.
|
Page generated in 0.1235 seconds