Spelling suggestions: "subject:"mmf"" "subject:"fmf""
11 |
Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniquesDurrieu, Jean-Louis 07 May 2010 (has links) (PDF)
Nous proposons de traiter l'extraction de la mélodie principale, ainsi que la séparation de l'instrument jouant cette mélodie. La première tâche appartient au domaine de la recherche d'information musicale (MIR) : nous cherchons à indexer les morceaux de musique à l'aide de leur mélodie. La seconde application est la séparation aveugle de sources sonores (BASS) : extraire une piste audio pour chaque source présente dans un mélange sonore. La séparation de la mélodie principale et de l'accompagnement et l'extraction de cette mélodie sont traitées au sein d'un même cadre statistique. Le modèle pour l'instrument principal est un modèle de production source/filtre. Il suppose deux états cachés correspondant à l'état du filtre et de la source. Le modèle spectral choisi permet de prendre compte les fréquences fondamentales de l'instrument désiré et de séparer ce dernier de l'accompagnement. Deux modèles de signaux sont proposés, un modèle de mélange de gaussiennes amplifiées (GSMM) et un modèle de mélange instantané (IMM). L'accompagnement est modélisé par un modèle spectral plus général. Cinq systèmes sont proposés, trois systèmes fournissent la mélodie sous forme de séquence de fréquences fondamentales, un système fournit les notes de la mélodie et le dernier système sépare l'instrument principal de l'accompagnement. Les résultats en estimation de la mélodie et en séparation sont du niveau de l'état de l'art, comme l'ont montré nos participations aux évaluations internationales (MIREX'08, MIREX'09 et SiSEC'08). Nous avons ainsi réussi à intégrer de la connaissance musicale améliorant les résultats de travaux antérieurs sur la séparation de sources sonores.
|
12 |
Analyse de données de métagénomique fonctionnelle par NMF pour la modélisation de la dégradation des fibres par le microbiote intestinal humain. / Modelling of fiber degradation by the human gut microbiota based onNMF analysis of functional metagenomic dataRaguideau, Sébastien 06 December 2016 (has links)
Ce travail de thèse a pour but de modéliser la capacité de dégradation des polysaccharides non digestibles par le microbiote intestinal humain. Nous exploitons pour cela des données métagénomiques. Il s'agit de données d'abondances de séquences de nucléotides dans 1408 échantillons dont les fonctions métaboliques sont assignées par annotation contre une base de données. Les séquences sont annotées par des marqueurs fonctionnels. Après une étape de sélection manuelle de 86 marqueurs fonctionnels pertinents à l'activité de métabolisation des polysaccharides, nous étudions leurs variations d'abondances parmi les échantillons métagénomiques.Nous proposons une approche de modélisation écologique du microbiote intestinal humain et considérons principalement la sélection fonctionnelle intense de cet écosystème pour faire l'hypothèse que des regroupements identiques de fonctions métaboliques sont présents en proportions différentes dans tous les microbiotes intestinaux humains. Nous proposons le terme d'assemblage fonctionnel qui rend compte de la co-occurrence spatiale et temporelle d'un groupement de fonctions. Ces assemblages sont en pratiques déterminés par leur composition en marqueurs fonctionnels, et peuvent s'interpréter comme une combinaison de traits fonctionnels agrégés au niveau des microorganismes composant l'assemblage.Les assemblages fonctionnels sont inférés par le biais d'une factorisation en matrice positive aussi nommée NMF de l'anglais Non-Negative Matrix Factorisation. Cette méthode permet de déterminer les assemblages fonctionnels, à la fois concernant leur composition et à la fois concernant leur abondance dans chacun des 1408 échantillons. Nous exploitons par ailleurs une information métabolique provenant de 190 génomes microbiens et de la bibliographie qui permet de préciser la composition de ces assemblages fonctionnels. Cette information se traduit sous forme d'une contrainte.Nous trouvons 4 assemblages en considérant un consensus entre différents critères. L'utilisation de l'information métabolique nous permet d'interpréter biologiquement ces assemblages. Les métadonnées associées aux 1408 échantillons nous permettent d'observer un comportement différent pour les échantillons provenant d'individus atteints de la maladie de Crohn. Nous validons cette observation sur des données extérieures.Nous avons proposé une approche réductionniste permettant de représenter un processus métabolique important à l'échelle du microbiote. Nous trouvons un nombre réduit de 4 assemblages fonctionnels qui sont biologiquement vraisemblables et permettent de bien approcher les 1408 échantillons métagénomiques. / The purpose of this work of thesis is to model the capacity of degradation of non-digestible polysaccharides by the human intestinal microbiote. To this end we exploit metagenomic data. We use abundances of nucleotide sequences in 1408 samples whose metabolic function are assigned by annotation against a database. The sequences are annotated with functional markers. Upon manual selection of 86 functional markers relevant to the activity of metabolisation of polysaccharides, we their abundances variation among the metagenomic samples are studied.We propose an ecological approach in modeling the human intestinal microbiote. We consider the intense functional selection of this ecosystem and assume that identical cluster of metabolic functions can be found in different proportions in every human gut microbiota. We propose the term of functional assembly as to account for spacial and temporal co-occurence of functional cluster. In practice, theses assemblies are determined by their composition and can be interpreted as combinations of functional traits aggregated at the levels of the cluster of microorganisms composing each assembly. Functional assemblies are inferred by the means of Non-Negative Matrix Factorization (NMF). This method allows to determine the composition of functional assemblies and their abundance in each of the 1408 metagenomic sample.Furthermore, we exploit metabolic information from bibliographic resources and 190 microbial genomes in order to specify the composition of these functional assemblies. This information is translated in the form of a constraint.We find 4 assemblies by considering a consensus between various criteria. The use of metabolic information allow to interpret theses assemblies biologically. By exploiting the metadata of the 1408 samples, we observe a different behaviour for the samples coming from individuals suffering from Crohn disease. We validate this observation on external data.We proposed a reductionistic approach allowing to represent an important metabolic process at the level of the microbiota. We find a small number of 4 functional assemblies which are biologically likely and approach well the 1408 metagenomic samples.
|
13 |
Graph Similarity, Parallel Texts, and Automatic Bilingual Lexicon AcquisitionTörnfeldt, Tobias January 2008 (has links)
In this masters’ thesis report we present a graph theoretical method used for automatic bilingual lexicon acquisition with parallel texts. We analyze the concept of graph similarity and give an interpretation, of the parallel texts, connected to the vector space model. We represent the parallel texts by a directed, tripartite graph and from here use the corresponding adjacency matrix, A, to compute the similarity of the graph. By solving the eigenvalue problem ρS = ASAT + ATSA we obtain the self-similarity matrix S and the Perron root ρ. A rank k approximation of the self-similarity matrix is computed by implementations of the singular value decomposition and the non-negative matrix factorization algorithm GD-CLS. We construct an algorithm in order to extract the bilingual lexicon from the self-similarity matrix and apply a statistical model to estimate the precision, the correctness, of the translations in the bilingual lexicon. The best result is achieved with an application of the vector space model with a precision of about 80 %. This is a good result and can be compared with the precision of about 60 % found in the literature.
|
14 |
3d Face RecognitionUstun, Bulend 01 January 2008 (has links) (PDF)
In this thesis, the effect of registration process is evaluated as well as several methods proposed for 3D face recognition. Input faces are in point cloud form and have noises due to the nature of scanner technologies. These inputs are noise filtered and smoothed before registration step. In order to register the faces an average face model is obtained from all the images in the database. All the faces are registered to the average model and stored to the database. Registration is performed by using a rigid registration technique called ICP (Iterative Closest Point), probably the most popular technique for registering two 3D shapes. Furthermore some variants of ICP are implemented and they are evaluated in terms of accuracy, time and number of iterations needed for convergence. At the recognition step, several recognition methods, namely Eigenface, Fisherface, NMF (Nonnegative Matrix Factorization) and ICA (Independent Component Analysis) are tested on registered and non-registered faces and the performances are evaluated.
|
15 |
Graph Similarity, Parallel Texts, and Automatic Bilingual Lexicon AcquisitionTörnfeldt, Tobias January 2008 (has links)
<p>In this masters’ thesis report we present a graph theoretical method used for automatic bilingual lexicon acquisition with parallel texts. We analyze the concept of graph similarity and give an interpretation, of the parallel texts, connected to the vector space model. We represent the parallel texts by a directed, tripartite graph and from here use the corresponding adjacency matrix, A, to compute the similarity of the graph. By solving the eigenvalue problem ρS = ASAT + ATSA we obtain the self-similarity matrix S and the Perron root ρ. A rank k approximation of the self-similarity matrix is computed by implementations of the singular value decomposition and the non-negative matrix factorization algorithm GD-CLS. We construct an algorithm in order to extract the bilingual lexicon from the self-similarity matrix and apply a statistical model to estimate the precision, the correctness, of the translations in the bilingual lexicon. The best result is achieved with an application of the vector space model with a precision of about 80 %. This is a good result and can be compared with the precision of about 60 % found in the literature.</p>
|
16 |
Démixage d’images hyperspectrales en présence d’objets de petite taille / Spectral unmixing of hyperspectral images in the presence of small targetsRavel, Sylvain 08 December 2017 (has links)
Cette thèse est consacrée au démixage en imagerie hyperspectrale en particulier dans le cas où des objets de petite taille sont présents dans la scène. Les images hyperspectrales contiennent une grande quantité d’information à la fois spectrale et spatiale, et chaque pixel peut être vu comme le spectre de réflexion de la zone imagée. Du fait de la faible résolution spatiale des capteurs le spectre de réflexion observé au niveau de chaque pixel est un mélange des spectres de réflexion de l’ensemble des composants imagés dans le pixel. Une problématique de ces images hyperspectrales est le démixage, qui consiste à décomposer l’image en une liste de spectres sources, appelés endmembers, correspondants aux spectres de réflexions des composants de la scène d’une part, et d’autre part la proportion de chacun de ces spectres source dans chaque pixel de l’image. De nombreuses méthodes de démixage existent mais leur efficacité reste amoindrie en présence de spectres sources dits rares (c’est-à-dire des spectres présents dans très peu de pixels, et souvent à un niveau subpixelique). Ces spectres rares correspondent à des composants présents en faibles quantités dans la scène et peuvent être vus comme des anomalies dont la détection est souvent cruciale pour certaines applications.Nous présentons dans un premier temps deux méthodes de détection des pixels rares dans une image, la première basée sur un seuillage de l’erreur de reconstruction après estimation des endmembers abondants, la seconde basée sur les coefficients de détails obtenus par la décomposition en ondelettes. Nous proposons ensuite une méthode de démixage adaptée au cas où une partie des endmembers sont connus a priori et montrons que cette méthode utilisée avec les méthodes de détection proposées permet le démixage des endmembers des pixels rares. Enfin nous étudions une méthode de rééchantillonnage basée sur la méthode du bootstrap pour amplifier le rôle de ces pixels rares et proposer des méthodes de démixage en présence d’objets de petite taille. / This thesis is devoted to the unmixing issue in hyperspectral images, especiallyin presence of small sized objects. Hyperspectral images contains an importantamount of both spectral and spatial information. Each pixel of the image canbe assimilated to the reflection spectra of the imaged scene. Due to sensors’ lowspatial resolution, the observed spectra are a mixture of the reflection spectraof the different materials present in the pixel. The unmixing issue consists inestimating those materials’ spectra, called endmembers, and their correspondingabundances in each pixel. Numerous unmixing methods have been proposed butthey fail when an endmembers is rare (that is to say an endmember present inonly a few of the pixels). We call rare pixels, pixels containing those endmembers.The presence of those rare endmembers can be seen as anomalies that we want todetect and unmix. In a first time, we present two detection methods to retrievethis anomalies. The first one use a thresholding criterion on the reconstructionerror from estimated dominant endmembers. The second one, is based on wavelettransform. Then we propose an unmixing method adapted when some endmembersare known a priori. This method is then used with the presented detectionmethod to propose an algorithm to unmix the rare pixels’ endmembers. Finally,we study the application of bootstrap resampling method to artificially upsamplerare pixels and propose unmixing methods in presence of small sized targets.
|
17 |
Data mining / Data miningMrázek, Michal January 2019 (has links)
The aim of this master’s thesis is analysis of the multidimensional data. Three dimensionality reduction algorithms are introduced. It is shown how to manipulate with text documents using basic methods of natural language processing. The goal of the practical part of the thesis is to process real-world data from the internet forum. Posted messages are transformed to the numerical representation, then to two-dimensional space and visualized. Later on, topics of the messages are discovered. In the last part, a few selected algorithms are compared.
|
18 |
Semi-Supervised Half-Quadratic Nonnegative Matrix Factorization for Face RecognitionAlghamdi, Masheal M. 05 1900 (has links)
Face recognition is a challenging problem in computer vision. Difficulties such as slight differences between similar faces of different people, changes in facial expressions, light and illumination condition, and pose variations add extra complications to the face recognition research. Many algorithms are devoted to solving the face recognition problem, among which the family of nonnegative matrix factorization (NMF) algorithms has been widely used as a compact data representation method. Different versions of NMF have been proposed. Wang et al. proposed the graph-based semi-supervised nonnegative learning (S2N2L) algorithm that uses labeled data in constructing intrinsic and penalty graph to enforce separability of labeled data, which leads to a greater discriminating power. Moreover the geometrical structure of labeled and unlabeled data is preserved through using the smoothness assumption by creating a similarity graph that conserves the neighboring information for all labeled and unlabeled data. However, S2N2L is sensitive to light changes, illumination, and partial occlusion.
In this thesis, we propose a Semi-Supervised Half-Quadratic NMF (SSHQNMF) algorithm that combines the benefits of S2N2L and the robust NMF by the half- quadratic minimization (HQNMF) algorithm.Our algorithm improves upon the S2N2L algorithm by replacing the Frobenius norm with a robust M-Estimator loss function. A multiplicative update solution for our SSHQNMF algorithmis driven using the half-
4
quadratic (HQ) theory. Extensive experiments on ORL, Yale-A and a subset of the PIE
data sets for nine M-estimator loss functions for both SSHQNMF and HQNMF algorithms are investigated, and compared with several state-of-the-art supervised and unsupervised algorithms, along with the original S2N2L algorithm in the context of classification, clustering, and robustness against partial occlusion. The proposed algorithm outperformed the other algorithms. Furthermore, SSHQNMF with Maximum Correntropy (MC) loss function obtained the best results for most test cases.
|
19 |
HPC algorithms for nonnegative decompositionsSan Juan Sebastián, Pablo 26 November 2018 (has links)
Muchos problemas procedentes de aplicaciones del mundo real pueden ser modelados como problemas matemáticos con magnitudes no negativas, y por tanto, las soluciones de estos problemas matemáticos solo tienen sentido si son no negativas. Estas magnitudes no negativas pueden ser, por ejemplo, las frecuencias en una señal sonora, las intensidades de los pixeles de una imagen, etc.
Algunos de estos problemas pueden ser modelados utilizando un sistema de ecuaciones lineales sobredeterminado. Cuando la solución de dicho problema debe ser restringida a valores no negativos, aparece un problema llamado problema de mínimos cuadrados no negativos (NNLS por sus siglas en inglés). La solución de dicho problema tiene múltiples aplicaciones en ciencia e ingeniería.
Otra descomposición no negativa importante es la Factorización de Matrices No negativas (NMF por sus siglas en inglés). La NMF es una herramienta muy popular utilizada en varios campos, como por ejemplo: clasificación de documentos, aprendizaje automático, análisis de imagen o separación de señales sonoras. Esta factorización intenta aproximar una matriz no negativa con el producto de dos matrices no negativas de menor tamaño, creando habitualmente representaciones por partes de los datos originales.
Los algoritmos diseñados para calcular la solución de estos dos problemas no negativos tienen un elevado coste computacional, y debido a ese elevado coste, estas descomposiciones pueden beneficiarse mucho del uso de técnicas de Computación de Altas Prestaciones (HPC por sus siglas en inglés). Estos sistemas computacionales de altas prestaciones incluyen desde los modernos computadores multinucleo a lo último en aceleradores de calculo (Unidades de Procesamiento Gráfico (GPU), Intel Many Integrated Core (MIC), etc.). Para obtener el máximo rendimiento de estos sistemas, los desarrolladores deben utilizar tecnologías software tales como la programación paralela, la vectoración o el uso de librerías de computación altas prestaciones.
A pesar de que existen diversos algoritmos para calcular la NMF y resolver el problema NNLS, no todos ellos disponen de una implementación paralela y eficiente. Además, es muy interesante reunir diversos algoritmos con propiedades diferentes en una sola librería computacional. Esta tesis presenta una librería computacional de altas prestaciones que contiene implementaciones paralelas y eficientes de los mejores algoritmos existentes actualmente para calcular la NMF. Además la tesis también incluye una comparación experimental entre las diferentes implementaciones presentadas. Esta librería centrada en el cálculo de la NMF soporta múltiples arquitecturas tales como CPUs multinucleo, GPUs e Intel MIC. El objetivo de esta librería es ofrecer un abanico de algoritmos eficientes para ayudar a científicos, ingenieros o cualquier tipo de profesionales que necesitan hacer uso de la NMF.
Otro problema abordado en esta tesis es la actualización de las factorizaciones no negativas. El problema de la actualización se ha estudiado tanto para la solución del problema NNLS como para el calculo de la NMF. Existen problemas no negativos cuya solución es próxima a otros problemas que ya han sido resueltos, el problema de la actualización consiste en aprovechar la solución de un problema A que ya ha sido resuelto, para obtener la solución de un problema B cercano al problema A. Utilizando esta aproximación, el problema B puede ser resuelto más rápido que si se tuviera que resolver sin aprovechar la solución conocida del problema A. En esta tesis se presenta una metodología algorítmica para resolver ambos problemas de actualización: la actualización de la solución del problema NNLS y la actualización de la NMF. Además se presentan evaluaciones empíricas de las soluciones presentadas para ambos problemas. Los resultados de estas evaluaciones muestran que los algoritmos propuestos son más rápidos que reso / Molts problemes procedents de aplicacions del mon real poden ser modelats com problemes matemàtics en magnituts no negatives, i per tant, les solucions de estos problemes matemàtics només tenen sentit si son no negatives. Estes magnituts no negatives poden ser, per eixemple, la concentració dels elements en un compost químic, les freqüències en una senyal sonora, les intensitats dels pixels de una image, etc.
Alguns d'estos problemes poden ser modelats utilisant un sistema d'equacions llineals sobredeterminat. Quant la solució de este problema deu ser restringida a valors no negatius, apareix un problema nomenat problema de mínims quadrats no negatius (NNLS per les seues sigles en anglés). La solució de este problema te múltiples aplicacions en ciències i ingenieria.
Un atra descomposició no negativa important es la Factorisació de Matrius No negatives(NMF per les seues sigles en anglés). La NMF es una ferramenta molt popular utilisada en diversos camps, com per eixemple: classificacio de documents, aprenentage automàtic, anàlisis de image o separació de senyals sonores. Esta factorisació intenta aproximar una matriu no negativa en el producte de dos matrius no negatives de menor tamany, creant habitualment representacions a parts de les dades originals.
Els algoritmes dissenyats per a calcular la solució de estos dos problemes no negatius tenen un elevat cost computacional, i degut a este elevat cost, estes descomposicions poden beneficiar-se molt del us de tècniques de Computació de Altes Prestacions (HPC per les seues sigles en anglés). Estos sistemes de computació de altes prestacions inclouen des dels moderns computadors multinucli a lo últim en acceleradors de càlcul (Unitats de Processament Gràfic (GPU), Intel Many Core (MIC), etc.). Per a obtindre el màxim rendiment de estos sistemes, els desenrolladors deuen utilisar tecnologies software tals com la programació paralela, la vectorisació o el us de llibreries de computació de altes prestacions.
A pesar de que existixen diversos algoritmes per a calcular la NMF i resoldre el problema NNLS, no tots ells disponen de una implementació paralela i eficient. Ademés, es molt interessant reunir diversos algoritmes en propietats diferents en una sola llibreria computacional. Esta tesis presenta una llibreria computacional de altes prestacions que conté implementacions paraleles i eficients dels millors algoritmes existents per a calcular la NMF. Ademés, la tesis també inclou una comparació experimental entre les diferents implementacions presentades. Esta llibreria centrada en el càlcul de la NMF soporta diverses arquitectures tals com CPUs multinucli, GPUs i Intel MIC. El objectiu de esta llibreria es oferir una varietat de algoritmes eficients per a ajudar a científics, ingeniers o qualsevol tipo de professionals que necessiten utilisar la NMF.
Un atre problema abordat en esta tesis es la actualisació de les factorisacions no negatives. El problema de la actualisació se ha estudiat tant per a la solució del problema NNLS com per a el càlcul de la NMF. Existixen problemes no negatius la solució dels quals es pròxima a atres problemes no negatius que ya han sigut resolts, el problema de la actualisació consistix en aprofitar la solució de un problema A que ya ha sigut resolt, per a obtindre la solució de un problema B pròxim al problema A. Utilisant esta aproximació, el problema B pot ser resolt molt mes ràpidament que si tinguera que ser resolt des de 0 sense aprofitar la solució coneguda del problema A. En esta tesis es presenta una metodologia algorítmica per a resoldre els dos problemes de actualisació: la actualisació de la solució del problema NNLS i la actualisació de la NMF. Ademés es presenten evaluacions empíriques de les solucions presentades per als dos problemes. Els resultats de estes evaluacions mostren que els algoritmes proposts son més ràpits que resoldre el problema des de 0 en tots els / Many real world-problems can be modelled as mathematical problems with nonnegative magnitudes, and, therefore, the solutions of these problems are meaningful only if their values are nonnegative. Examples of these nonnegative magnitudes are the concentration of components in a chemical compound, frequencies in an audio signal, pixel intensities on an image, etc.
Some of these problems can be modelled to an overdetermined system of linear equations. When the solution of this system of equations should be constrained to nonnegative values, a new problem arises. This problem is called the Nonnegative Least Squares (NNLS) problem, and its solution has multiple applications in science and engineering, especially for solving optimization problems with nonnegative restrictions.
Another important nonnegativity constrained decomposition is the Nonnegative Matrix Factorization (NMF). The NMF is a very popular tool in many fields such as document clustering, data mining, machine learning, image analysis, chemical analysis, and audio source separation. This factorization tries to approximate a nonnegative data matrix with the product of two smaller nonnegative matrices, usually creating parts based representations of the original data.
The algorithms that are designed to compute the solution of these two nonnegative problems have a high computational cost. Due to this high cost, these decompositions can benefit from the extra performance obtained using High Performance Computing (HPC) techniques. Nowadays, there are very powerful computational systems that offer high performance and can be used to solve extremely complex problems in science and engineering. From modern multicore CPUs to the newest computational accelerators (Graphics Processing Units(GPU), Intel Many Integrated Core(MIC), etc.), the performance of these systems keeps increasing continuously. To make the most of the hardware capabilities of these HPC systems, developers should use software technologies such as parallel programming, vectorization, or high performance computing libraries.
While there are several algorithms for computing the NMF and for solving the NNLS problem, not all of them have an efficient parallel implementation available. Furthermore, it is very interesting to group several algorithms with different properties into a single computational library. This thesis presents a high-performance computational library with efficient parallel implementations of the best algorithms to compute the NMF in the current state of the art. In addition, an experimental comparison between the different implementations is presented. This library is focused on the computation of the NMF supporting multiple architectures like multicore CPUs, GPUs and Intel MIC. The goal of the library is to offer a full suit of algorithms to help researchers, engineers or professionals that need to use the NMF.
Another problem that is dealt with in this thesis is the updating of nonnegative decompositions. The updating problem has been studied for both the solution of the NNLS problem and the NMF. Sometimes there are nonnegative problems that are close to other nonnegative problems that have already been solved. The updating problem tries to take advantage of the solution of a problem A, that has already been solved in order to obtain a solution of a new problem B, which is closely related to problem A. With this approach, problem B can be solved faster than solving it from scratch and not taking advantage of the already known solution of problem A. In this thesis, an algorithmic scheme is proposed for both the updating of the solution of NNLS problems and the updating of the NMF. Empirical evaluations for both updating problems are also presented. The results show that the proposed algorithms are faster than solving the problems from scratch in all of the tested cases. / San Juan Sebastián, P. (2018). HPC algorithms for nonnegative decompositions [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/113069
|
20 |
Apprentissage interactif de mots et d'objets pour un robot humanoïde / Interactive learning of words and objects for a humanoid robotChen, Yuxin 27 February 2017 (has links)
Les applications futures de la robotique, en particulier pour des robots de service à la personne, exigeront des capacités d’adaptation continue à l'environnement, et notamment la capacité à reconnaître des nouveaux objets et apprendre des nouveaux mots via l'interaction avec les humains. Bien qu'ayant fait d'énormes progrès en utilisant l'apprentissage automatique, les méthodes actuelles de vision par ordinateur pour la détection et la représentation des objets reposent fortement sur de très bonnes bases de données d’entrainement et des supervisions d'apprentissage idéales. En revanche, les enfants de deux ans ont une capacité impressionnante à apprendre à reconnaître des nouveaux objets et en même temps d'apprendre les noms des objets lors de l'interaction avec les adultes et sans supervision précise. Par conséquent, suivant l'approche de le robotique développementale, nous développons dans la thèse des approches d'apprentissage pour les objets, en associant leurs noms et leurs caractéristiques correspondantes, inspirées par les capacités des enfants, en particulier l'interaction ambiguë avec l’homme en s’inspirant de l'interaction qui a lieu entre les enfants et les parents.L'idée générale est d’utiliser l'apprentissage cross-situationnel (cherchant les points communs entre différentes présentations d’un objet ou d’une caractéristique) et la découverte de concepts multi-modaux basée sur deux approches de découverte de thèmes latents: la Factorisation en Natrices Non-Négatives (NMF) et l'Allocation de Dirichlet latente (LDA). Sur la base de descripteurs de vision et des entrées audio / vocale, les approches proposées vont découvrir les régularités sous-jacentes dans le flux de données brutes afin de parvenir à produire des ensembles de mots et leur signification visuelle associée (p.ex le nom d’un objet et sa forme, ou un adjectif de couleur et sa correspondance dans les images). Nous avons développé une approche complète basée sur ces algorithmes et comparé leur comportements face à deux sources d'incertitudes: ambiguïtés de références, dans des situations où plusieurs mots sont donnés qui décrivent des caractéristiques d'objets multiples; et les ambiguïtés linguistiques, dans des situations où les mots-clés que nous avons l'intention d'apprendre sont intégrés dans des phrases complètes. Cette thèse souligne les solutions algorithmiques requises pour pouvoir effectuer un apprentissage efficace de ces associations de mot-référent à partir de données acquises dans une configuration d'acquisition simplifiée mais réaliste qui a permis d'effectuer des simulations étendues et des expériences préliminaires dans des vraies interactions homme-robot. Nous avons également apporté des solutions pour l'estimation automatique du nombre de thèmes pour les NMF et LDA.Nous avons finalement proposé deux stratégies d'apprentissage actives: la Sélection par l'Erreur de Reconstruction Maximale (MRES) et l'Exploration Basée sur la Confiance (CBE), afin d'améliorer la qualité et la vitesse de l'apprentissage incrémental en laissant les algorithmes choisir les échantillons d'apprentissage suivants. Nous avons comparé les comportements produits par ces algorithmes et montré leurs points communs et leurs différences avec ceux des humains dans des situations d'apprentissage similaires. / Future applications of robotics, especially personal service robots, will require continuous adaptability to the environment, and particularly the ability to recognize new objects and learn new words through interaction with humans. Though having made tremendous progress by using machine learning, current computational models for object detection and representation still rely heavily on good training data and ideal learning supervision. In contrast, two year old children have an impressive ability to learn to recognize new objects and at the same time to learn the object names during interaction with adults and without precise supervision. Therefore, following the developmental robotics approach, we develop in the thesis learning approaches for objects, associating their names and corresponding features, inspired by the infants' capabilities, in particular, the ambiguous interaction with humans, inspired by the interaction that occurs between children and parents.The general idea is to use cross-situational learning (finding the common points between different presentations of an object or a feature) and to implement multi-modal concept discovery based on two latent topic discovery approaches : Non Negative Matrix Factorization (NMF) and Latent Dirichlet Association (LDA). Based on vision descriptors and sound/voice inputs, the proposed approaches will find the underlying regularities in the raw dataflow to produce sets of words and their associated visual meanings (eg. the name of an object and its shape, or a color adjective and its correspondence in images). We developed a complete approach based on these algorithms and compared their behavior in front of two sources of uncertainties: referential ambiguities, in situations where multiple words are given that describe multiple objects features; and linguistic ambiguities, in situations where keywords we intend to learn are merged in complete sentences. This thesis highlights the algorithmic solutions required to be able to perform efficient learning of these word-referent associations from data acquired in a simplified but realistic acquisition setup that made it possible to perform extensive simulations and preliminary experiments in real human-robot interactions. We also gave solutions for the automatic estimation of the number of topics for both NMF and LDA.We finally proposed two active learning strategies, Maximum Reconstruction Error Based Selection (MRES) and Confidence Based Exploration (CBE), to improve the quality and speed of incremental learning by letting the algorithms choose the next learning samples. We compared the behaviors produced by these algorithms and show their common points and differences with those of humans in similar learning situations.
|
Page generated in 0.0339 seconds