Global ETD Search

81	Weakly supervised learning for visual recognition / Apprentissage faiblement supervisé pour la reconnaissance visuelle Durand, Thibaut 20 September 2017 (has links) Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet. / This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet. Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3
82	Structuring of image databases for the suggestion of products for online advertising / Structuration des bases d’images pour la suggestion des produits pour la publicité en ligne Yang, Lixuan 10 July 2017 (has links) Le sujet de la thèse est l'extraction et la segmentation des vêtements à partir d'images en utilisant des techniques de la vision par ordinateur, de l'apprentissage par ordinateur et de la description d'image, pour la recommandation de manière non intrusive aux utilisateurs des produits similaires provenant d'une base de données de vente. Nous proposons tout d'abord un extracteur d'objets dédié à la segmentation de la robe en combinant les informations locales avec un apprentissage préalable. Un détecteur de personne localises des sites dans l'image qui est probable de contenir l'objet. Ensuite, un processus d'apprentissage intra-image en deux étapes est est développé pour séparer les pixels de l'objet de fond. L'objet est finalement segmenté en utilisant un algorithme de contour actif qui prend en compte la segmentation précédente et injecte des connaissances spécifiques sur la courbure locale dans la fonction énergie. Nous proposons ensuite un nouveau framework pour l'extraction des vêtements généraux en utilisant une procédure d'ajustement globale et locale à trois étapes. Un ensemble de modèles initialises un processus d'extraction d'objet par un alignement global du modèle, suivi d'une recherche locale en minimisant une mesure de l'inadéquation par rapport aux limites potentielles dans le voisinage. Les résultats fournis par chaque modèle sont agrégés, mesuré par un critère d'ajustement globale, pour choisir la segmentation finale. Dans notre dernier travail, nous étendons la sortie d'un réseau de neurones Fully Convolutional Network pour inférer le contexte à partir d'unités locales (superpixels). Pour ce faire, nous optimisons une fonction énergie, qui combine la structure à grande échelle de l'image avec le local structure superpixels, en recherchant dans l'espace de toutes les possibilité d'étiquetage. De plus, nous introduisons une nouvelle base de données RichPicture, constituée de 1000 images pour l'extraction de vêtements à partir d'images de mode. Les méthodes sont validées sur la base de données publiques et se comparent favorablement aux autres méthodes selon toutes les mesures de performance considérées. / The topic of the thesis is the extraction and segmentation of clothing items from still images using techniques from computer vision, machine learning and image description, in view of suggesting non intrusively to the users similar items from a database of retail products. We firstly propose a dedicated object extractor for dress segmentation by combining local information with a prior learning. A person detector is applied to localize sites in the image that are likely to contain the object. Then, an intra-image two-stage learning process is developed to roughly separate foreground pixels from the background. Finally, the object is finely segmented by employing an active contour algorithm that takes into account the previous segmentation and injects specific knowledge about local curvature in the energy function.We then propose a new framework for extracting general deformable clothing items by using a three stage global-local fitting procedure. A set of template initiates an object extraction process by a global alignment of the model, followed by a local search minimizing a measure of the misfit with respect to the potential boundaries in the neighborhood. The results provided by each template are aggregated, with a global fitting criterion, to obtain the final segmentation.In our latest work, we extend the output of a Fully Convolution Neural Network to infer context from local units(superpixels). To achieve this we optimize an energy function,that combines the large scale structure of the image with the locallow-level visual descriptions of superpixels, over the space of all possiblepixel labellings. In addition, we introduce a novel dataset called RichPicture, consisting of 1000 images for clothing extraction from fashion images.The methods are validated on the public database and compares favorably to the other methods according to all the performance measures considered. Segmentation des vêtements Segmentation sémantique Apprentissage profond Contour Active Réseau neurone Clothing segmentation Semantic segmentation Deep learning Active Contour Fully convolution network 006.42 006.32
83	Efficient speaker diarization and low-latency speaker spotting / Segmentation et regroupement efficaces en locuteurs et détection des locuteurs à faible latence Patino Villar, José María 24 October 2019 (has links) La segmentation et le regroupement en locuteurs (SRL) impliquent la détection des locuteurs dans un flux audio et les intervalles pendant lesquels chaque locuteur est actif, c'est-à-dire la détermination de ‘qui parle quand’. La première partie des travaux présentés dans cette thèse exploite une approche de modélisation du locuteur utilisant des clés binaires (BKs) comme solution à la SRL. La modélisation BK est efficace et fonctionne sans données d'entraînement externes, car elle utilise uniquement des données de test. Les contributions présentées incluent l'extraction des BKs basée sur l'analyse spectrale multi-résolution, la détection explicite des changements de locuteurs utilisant les BKs, ainsi que les techniques de fusion SRL qui combinent les avantages des BKs et des solutions basées sur un apprentissage approfondi. La tâche de la SRL est étroitement liée à celle de la reconnaissance ou de la détection du locuteur, qui consiste à comparer deux segments de parole et à déterminer s'ils ont été prononcés par le même locuteur ou non. Même si de nombreuses applications pratiques nécessitent leur combinaison, les deux tâches sont traditionnellement exécutées indépendamment l'une de l'autre. La deuxième partie de cette thèse porte sur une application où les solutions de SRL et de reconnaissance des locuteurs sont réunies. La nouvelle tâche, appelée détection de locuteurs à faible latence, consiste à détecter rapidement les locuteurs connus dans des flux audio à locuteurs multiples. Il s'agit de repenser la SRL en ligne et la manière dont les sous-systèmes de SRL et de détection devraient être combinés au mieux. / Speaker diarization (SD) involves the detection of speakers within an audio stream and the intervals during which each speaker is active, i.e. the determination of ‘who spoken when’. The first part of the work presented in this thesis exploits an approach to speaker modelling involving binary keys (BKs) as a solution to SD. BK modelling is efficient and operates without external training data, as it operates using test data alone. The presented contributions include the extraction of BKs based on multi-resolution spectral analysis, the explicit detection of speaker changes using BKs, as well as SD fusion techniques that combine the benefits of both BK and deep learning based solutions. The SD task is closely linked to that of speaker recognition or detection, which involves the comparison of two speech segments and the determination of whether or not they were uttered by the same speaker. Even if many practical applications require their combination, the two tasks are traditionally tackled independently from each other. The second part of this thesis considers an application where SD and speaker recognition solutions are brought together. The new task, coined low latency speaker spotting (LLSS), involves the rapid detection of known speakers within multi-speaker audio streams. It involves the re-thinking of online diarization and the manner by which diarization and detection sub-systems should best be combined. Reconnaissance automatique du locuteur Segmentation et regroupement en locuteur Biométrie vocale Faible latence Apprentissage automatique Apprentissage profond Automatic speaker recognition Speaker diarization Voice biometrics Low latency Automatic learning Deep learning 006.248
84	Conception d’un algorithme de vision par ordinateur « top-down » dédié à la reconnaissance des sillons corticaux / Design of a top-down computer vision algorithm dedicated to the recognition of cortical sulci Borne, Léonie 01 October 2019 (has links) Les plissements du cortex caractérisent de manière unique chaque être humain. Ils apparaissent pendant le dernier trimestre de grossesse, c’est-à-dire pendant la mise en place de l’architecture cérébrale. Les motifs de ces plis sont impactés par les spécificités de cette architecture propres à chaque individu. Ils pourraient donc dévoiler les signatures de certaines anomalies du développement à l’origine de pathologies psychiatriques. Le laboratoire d’analyse d’images de Neurospin développe depuis 25 ans un programme de recherche visant à mettre en évidence de telles signatures grâce à la conception d’outils de vision par ordinateur dédiés qu’il diffuse à la communauté (http://brainvisa.info).Cette thèse a permis l’émergence d’une nouvelle génération d’outils basés sur des techniques d’apprentissage automatique. Le premier outil proposé classifie automatiquement des motifs locaux de plissements du cortex, un problème qui n’avait jamais été abordé jusqu’ici. Le second outil vise l’étiquetage automatique des sillons corticaux en modélisant des mécanismes de reconnaissance « top-down » nécessaires pour pallier les faiblesses des démarches « bottom-up » développées jusqu’à présent. Ainsi, en plus d'avoir des taux de reconnaissances plus élevés et un temps d’exécution plus court, le nouveau modèle proposé est robuste aux erreurs de sous-segmentation, ce qui est l'une des plus grandes faiblesses de l'ancien système. Pour réaliser ces deux outils, plusieurs algorithmes d'apprentissage automatique ont été implémentés et comparés. Ces algorithmes s'inspirent d'une part des méthodes multi-atlas, en particulier de l'approche par patch, qui sont largement utilisées pour la segmentation anatomique d'images médicales et d'autre part des méthodes d'apprentissage profond qui révolutionnent aujourd'hui le monde de la vision par ordinateur. Les travaux de cette thèse confirment l'incroyable efficacité des techniques d'apprentissage profond pour s'adapter à des problèmes complexes. Cependant, les performances obtenues avec ces techniques sont généralement équivalentes à celles des approches par patch, voire moins bonnes si la base de données d'apprentissage est restreinte. Ce qui fait de l'apprentissage profond un outil particulièrement intéressant en pratique n'est autre que sa rapidité d'exécution, d'autant plus pour l'analyse des bases de données colossales aujourd'hui disponibles. / We are seven billion humans with unique cortical folding patterns. The cortical folding process occurs during the last trimester of pregnancy, during the emergence of cortical architecture. The folding patterns are impacted by architectural features specific to each individual. Hence, they could reveal signatures of abnormal developments that can lead to psychiatric syndroms. For the last 25 years, the image analysis lab of Neurospin has been designing dedicated computer vision tools to tackle the research of such signatures. The resulting tools are distributed to the community (http://brainvisa.info).This thesis has resulted in the emergence of a new generation of tools based on machine learning techniques. The first proposed tool automatically classifies local patterns of cortical folds, a problem that had never been addressed before. The second tool aims at the automatic labeling of cortical sulci by modeling the top-down recognition mechanisms necessary to overcome weaknesses of the current bottom-up systems. Thus, in addition to having higher recognition rates and shorter execution time, the proposed new model is robust to sub-segmentation errors, which is one of the greatest weaknesses of the old system. To realize these two tools, several machine learning algorithms were implemented and compared. These algorithms are inspired on the one hand by multi-atlas methods, in particular the patch approach, which are widely used for the anatomical segmentation of medical images and on the other hand by the deep learning methods that are revolutionizing the world of computer vision. The work of this thesis confirms the incredible effectiveness of deep learning techniques to adapt well to complex problems. However, the performances obtained with these techniques are generally equivalent to those of patch approaches, or even worse if the training database is limited. What makes deep learning a particularly interesting tool in practice is its fast execution, especially for the analysis of the huge databases now available. Sillons corticaux Apprentissage profond Apprentissage par patch Segmentation Reconnaissance de formes Vision par ordinateur Cortical sulci Deep learning Patch learning Segmentation Pattern recognition Computer vision
85	Outils pour l'étude conjointe par simulation et traitement d'images expérimentales de la combustion de particules d'aluminium utilisées dans les propergols solides / Tools to study the combustion of aluminum particles used in solid propellants via numerical simulation and experimental-image analysis Nugue, Matthieu 11 October 2019 (has links) L’ajout de particules d’aluminium dans le chargement des moteurs à propergol solide améliore les performances propulsives, mais peut aussi entraîner différents phénomènes néfastes, dont des oscillations de pression. Des travaux de recherche sont réalisés depuis de nombreuses années afin d’améliorer la compréhension de ces phénomènes, notamment par l’utilisation de la simulation numérique. Cependant les données d’entrée de la simulation numérique, en particulier la taille et la vitesse initiale des particules d’aluminium dans l’écoulement, sont souvent difficiles à obtenir pour des propulseurs réels. L’ONERA développe depuis plusieurs années un montage d’ombroscopie permettant de visualiser les particules d’aluminium proches de la surface de petits échantillons en combustion. La présente étude porte sur le développement d’outils pour analyser les images expérimentales du montage d’ombroscopie et améliorer l’interaction avec la simulation numérique diphasique. Une première partie concerne des échantillons de propergol contenant des particules inertes, dont l’intérêt est de permettre de valider les méthodes de mesure sur des images relativement simple et avec des données de référence. Les outils mis en œuvre portent sur la détection et le suivi des particules dans des séquences d’image, ainsi que sur la localisation de la surface du propergol. Une bonne correspondance des distributions de taille a été obtenu avec les distributions de référence. La mise en vitesse des particules quittant la surface a été confrontée à un modèle simplifié de transport de particules dans un écoulement constant. L'utilisation de ce modèle a permis de souligner l'importance de la population de pistes détectées pour bien exploiter un profil de vitesse moyen, en particulier en termes de diamètre moyen. Une simulation numérique diphasique a ensuite été réalisée pour l’expérience d’ombroscopie. Différents paramètres ont été étudiées (type et taille de maillage, paramètres thermodynamiques...) afin d'obtenir un champ stationnaire simulé pour les gaz du propergol. Le mouvement des particules inertes simulées a pu être comparé aux profils expérimentaux pour différentes stratégies d'injection, soit en utilisant un diamètre moyen, soit à partir d’une distribution lognormale. L’autre partie de l'étude est consacrée à l’analyse des images expérimentales de la combustion de particules d’aluminium. La complexité des images dans ces conditions a conduit à utiliser une approche de segmentation sémantique par apprentissage profond, visant à classer tous les pixels de l'image en différentes classes, en particulier goutte d'aluminium et flamme d'aluminium. L’apprentissage a été mené avec une base restreinte d’images annotées en utilisant le réseau U-Net, diverses adaptations pour le traitement des images d’ombroscopie ont été étudiées. Les résultats sont comparés à une technique de référence basée sur une détection d’objets MSER. Ils montrent un net gain à l’utilisation de techniques neuronales pour la ségrégation des gouttes d'aluminium de la flamme. Cette première démonstration de l'utilisation de réseau de neurones convolutifs sur des images d'ombroscopie propergol est très prometteuse. Enfin nous traçons des perspectives côté analyse d’image expérimentales et simulation numériques pour améliorer l’utilisation conjointe de ces deux outils dans l’étude des propergols solides. / The addition of aluminum particles in the solid propellant loading improves propulsive performance, but can also lead to various adverse phenomena, including pressure oscillations. Research has been carried out for many years to improve the understanding of these phenomena, particularly through the use of numerical simulation. However, the input data of the numerical simulation, especially the size and the initial velocity of the aluminum particles in the flow, are often difficult to obtain for real rocket motors. ONERA has been developing a shadowgraphy set-up for several years to visualize aluminum particles near the surface of propellant samples in combustion. The present study deals with the development of tools to analyze the experimental images of the shadowgraphy set-up and to improve the interaction with the two-phase digital simulation. A first part concerns propellant samples containing inert particles, which interest is to make it possible to validate the measurement methods on relatively simple images and with reference data. The implemented tools concern the detection and the tracking of particles in image sequences, as well as the location of the surface of the propellant. Good correspondence of size distributions was obtained with reference distributions. The velocity of particles leaving the surface has been confronted with a simplified model of particle transport in a constant flow. The use of this model has made it possible to emphasize the importance of the population of detected tracks in order to make good use of an average velocity profile, particularly in terms of average diameter. A two-phase flow simulation was then carried out for the shadowgraphy experiment. Different parameters were studied (type and size of mesh, thermodynamic parameters ...) in order to obtain a simulated stationary field for propellant flow. The movement of the simulated inert particles could be compared to the experimental profiles for different injection strategies, either using a mean diameter or using a lognormal distribution. The other part of the study is devoted to the analysis of experimental images of the combustion of aluminum particles. The complexity of the images under these conditions has led to the use of a deep learning semantic segmentation approach, aiming to classify all the pixels of the image into different classes, in particular aluminum droplet and flame. The learning was conducted with a restricted base of annotated images using the U-Net neural network, with various adaptations on the processing of the experimental images were studied. The results are compared to a reference technique based on MSER object detection. They show a clear gain in the use of neural techniques for the segregation of aluminum drops of the flame. This first demonstration of the use of convolutional neuronal network on propellant shadowgraphy images is very promising. Finally, we draw perspectives on experimental image analysis and numerical simulation to improve the joint use of these two tools in the study of solid propellants. Propergol solide Particule d'aluminium Combustion Analyse d'images Écoulements multiphasiques Apprentissage profond Solid propellant Aluminum particles Combustion Image analysis Multiphase flows Deep learning
86	Deep learning in event-based neuromorphic systems / L'apprentissage profond dans les systèmes évènementiels, bio-inspirés Thiele, Johannes C. 22 November 2019 (has links) Inférence et apprentissage dans les réseaux de neurones profonds nécessitent une grande quantité de calculs qui, dans beaucoup de cas, limite leur intégration dans les environnements limités en ressources. Les réseaux de neurones évènementiels de type « spike » présentent une alternative aux réseaux de neurones artificiels classiques, et promettent une meilleure efficacité énergétique. Cependant, entraîner les réseaux spike demeure un défi important, particulièrement dans le cas où l’apprentissage doit être exécuté sur du matériel de calcul bio-inspiré, dit matériel neuromorphique. Cette thèse constitue une étude sur les algorithmes d’apprentissage et le codage de l’information dans les réseaux de neurones spike.A partir d’une règle d’apprentissage bio-inspirée, nous analysons quelles propriétés sont nécessaires dans les réseaux spike pour rendre possible un apprentissage embarqué dans un scénario d’apprentissage continu. Nous montrons qu’une règle basée sur le temps de déclenchement des neurones (type « spike-timing dependent plasticity ») est capable d’extraire des caractéristiques pertinentes pour permettre une classification d’objets simples comme ceux des bases de données MNIST et N-MNIST.Pour dépasser certaines limites de cette approche, nous élaborons un nouvel outil pour l’apprentissage dans les réseaux spike, SpikeGrad, qui représente une implémentation entièrement évènementielle de la rétro-propagation du gradient. Nous montrons comment cette approche peut être utilisée pour l’entrainement d’un réseau spike qui est capable d’inférer des relations entre valeurs numériques et des images MNIST. Nous démontrons que cet outil est capable d’entrainer un réseau convolutif profond, qui donne des taux de reconnaissance d’image compétitifs avec l’état de l’art sur les bases de données MNIST et CIFAR10. De plus, SpikeGrad permet de formaliser la réponse d’un réseau spike comme celle d’un réseau de neurones artificiels classique, permettant un entraînement plus rapide.Nos travaux introduisent ainsi plusieurs mécanismes d’apprentissage puissants pour les réseaux évènementiels, contribuant à rendre l’apprentissage des réseaux spike plus adaptés à des problèmes réels. / Inference and training in deep neural networks require large amounts of computation, which in many cases prevents the integration of deep networks in resource constrained environments. Event-based spiking neural networks represent an alternative to standard artificial neural networks that holds the promise of being capable of more energy efficient processing. However, training spiking neural networks to achieve high inference performance is still challenging, in particular when learning is also required to be compatible with neuromorphic constraints. This thesis studies training algorithms and information encoding in such deep networks of spiking neurons. Starting from a biologically inspired learning rule, we analyze which properties of learning rules are necessary in deep spiking neural networks to enable embedded learning in a continuous learning scenario. We show that a time scale invariant learning rule based on spike-timing dependent plasticity is able to perform hierarchical feature extraction and classification of simple objects of the MNIST and N-MNIST dataset. To overcome certain limitations of this approach we design a novel framework for spike-based learning, SpikeGrad, which represents a fully event-based implementation of the gradient backpropagation algorithm. We show how this algorithm can be used to train a spiking network that performs inference of relations between numbers and MNIST images. Additionally, we demonstrate that the framework is able to train large-scale convolutional spiking networks to competitive recognition rates on the MNIST and CIFAR10 datasets. In addition to being an effective and precise learning mechanism, SpikeGrad allows the description of the response of the spiking neural network in terms of a standard artificial neural network, which allows a faster simulation of spiking neural network training. Our work therefore introduces several powerful training concepts for on-chip learning in neuromorphic devices, that could help to scale spiking neural networks to real-world problems. Réseaux de neurones évènementiels Apprentissage bio-Inspiré Algorithme de rétro-Propagation Matériel bio-Inspiré Apprentissage profond Spiking neural network Spike-Timing dependent plasticity Backpropagation algorithm Neuromorphic hardware Deep learning
87	Représentations Convolutives Parcimonieuses -- application aux signaux physiologiques et interpétabilité de l'apprentissage profond / Convolutional Sparse Representations -- application to physiological signals and interpretability for Deep Learning Moreau, Thomas 19 December 2017 (has links) Les représentations convolutives extraient des motifs récurrents qui aident à comprendre la structure locale dans un jeu de signaux. Elles sont adaptées pour l’analyse des signaux physiologiques, qui nécessite des visualisations mettant en avant les informations pertinentes. Ces représentations sont aussi liées aux modèles d’apprentissage profond. Dans ce manuscrit, nous décrivons des avancées algorithmiques et théoriques autour de ces modèles. Nous montrons d’abord que l’Analyse du Spectre Singulier permet de calculer efficacement une représentation convolutive. Cette représentation est dense et nous décrivons une procédure automatisée pour la rendre plus interprétable. Nous proposons ensuite un algorithme asynchrone, pour accélérer le codage parcimonieux convolutif. Notre algorithme présente une accélération super-linéaire. Dans une seconde partie, nous analysons les liens entre représentations et réseaux de neurones. Nous proposons une étape d’apprentissage supplémentaire, appelée post-entraînement, qui permet d’améliorer les performances du réseau entraîné, en s’assurant que la dernière couche soit optimale. Puis nous étudions les mécanismes qui rendent possible l’accélération du codage parcimonieux avec des réseaux de neurones. Nous montrons que cela est lié à une factorisation de la matrice de Gram du dictionnaire. Finalement, nous illustrons l’intérêt de l’utilisation des représentations convolutives pour les signaux physiologiques. L’apprentissage de dictionnaire convolutif est utilisé pour résumer des signaux de marche et le mouvement du regard est soustrait de signaux oculométriques avec l’Analyse du Spectre Singulier. / Convolutional representations extract recurrent patterns which lead to the discovery of local structures in a set of signals. They are well suited to analyze physiological signals which requires interpretable representations in order to understand the relevant information. Moreover, these representations can be linked to deep learning models, as a way to bring interpretability intheir internal representations. In this disserta tion, we describe recent advances on both computational and theoretical aspects of these models.First, we show that the Singular Spectrum Analysis can be used to compute convolutional representations. This representation is dense and we describe an automatized procedure to improve its interpretability. Also, we propose an asynchronous algorithm, called DICOD, based on greedy coordinate descent, to solve convolutional sparse coding for long signals. Our algorithm has super-linear acceleration.In a second part, we focus on the link between representations and neural networks. An extra training step for deep learning, called post-training, is introduced to boost the performances of the trained network by making sure the last layer is optimal. Then, we study the mechanisms which allow to accelerate sparse coding algorithms with neural networks. We show that it is linked to afactorization of the Gram matrix of the dictionary.Finally, we illustrate the relevance of convolutional representations for physiological signals. Convolutional dictionary learning is used to summarize human walk signals and Singular Spectrum Analysis is used to remove the gaze movement in young infant’s oculometric recordings. Codage parcimonieux Apprentissage de dictionnaire convolutif Signaux physiologiques Optimisation adaptive Apprentissage profond Sparse coding Convolutional dictionary learning Physiological signals Adaptive optimization Deep learning
88	Robust Learning of a depth map for obstacle avoidance with a monocular stabilized flying camera / Apprentissage robuste d'une carte de profondeur pour l'évitement d'obstacle dans le cas des cameras volantes, monoculaires et stabilisées Pinard, Clément 24 June 2019 (has links) Le drone orienté grand public est principalement une caméra volante, stabilisée et de bonne qualité. Ceux-ci ont démocratisé la prise de vue aérienne, mais avec leur succès grandissant, la notion de sécurité est devenue prépondérante.Ce travail s'intéresse à l'évitement d'obstacle, tout en conservant un vol fluide pour l'utilisateur.Dans ce contexte technologique, nous utilisons seulement une camera stabilisée, par contrainte de poids et de coût.Pour leur efficacité connue en vision par ordinateur et leur performance avérée dans la résolution de tâches complexes, nous utilisons des réseaux de neurones convolutionnels (CNN). Notre stratégie repose sur un systeme de plusieurs niveaux de complexité dont les premieres étapes sont de mesurer une carte de profondeur depuis la caméra. Cette thèse étudie les capacités d'un CNN à effectuer cette tâche.La carte de profondeur, étant particulièrement liée au flot optique dans le cas d'images stabilisées, nous adaptons un réseau connu pour cette tâche, FlowNet, afin qu'il calcule directement la carte de profondeur à partir de deux images stabilisées. Ce réseau est appelé DepthNet.Cette méthode fonctionne en simulateur avec un entraînement supervisé, mais n'est pas assez robuste pour des vidéos réelles. Nous étudions alors les possibilites d'auto-apprentissage basées sur la reprojection différentiable d'images. Cette technique est particulièrement nouvelle sur les CNNs et nécessite une étude détaillée afin de ne pas dépendre de paramètres heuristiques.Finalement, nous développons un algorithme de fusion de cartes de profondeurs pour utiliser DepthNet sur des vidéos réelles. Plusieurs paires différentes sont données à DepthNet afin d'avoir une grande plage de profondeurs mesurées. / Customer unmanned aerial vehicles (UAVs) are mainly flying cameras. They democratized aerial footage, but with thei success came security concerns.This works aims at improving UAVs security with obstacle avoidance, while keeping a smooth flight. In this context, we use only one stabilized camera, because of weight and cost incentives.For their robustness in computer vision and thei capacity to solve complex tasks, we chose to use convolutional neural networks (CNN). Our strategy is based on incrementally learning tasks with increasing complexity which first steps are to construct a depth map from the stabilized camera. This thesis is focused on studying ability of CNNs to train for this task.In the case of stabilized footage, the depth map is closely linked to optical flow. We thus adapt FlowNet, a CNN known for optical flow, to output directly depth from two stabilized frames. This network is called DepthNet.This experiment succeeded with synthetic footage, but is not robust enough to be used directly on real videos. Consequently, we consider self supervised training with real videos, based on differentiably reproject images. This training method for CNNs being rather novel in literature, a thorough study is needed in order not to depend too moch on heuristics.Finally, we developed a depth fusion algorithm to use DepthNet efficiently on real videos. Multiple frame pairs are fed to DepthNet to get a great depth sensing range. Carte de profondeur Robuste Caméra monoculaire Caméra stabilisée Reseau de neurones Apprentissage profond Depth map Robust Stabilized camera Monocular camera Neural networks Deep learning
89	Cognitive training optimization with a closed-loop system Roy, Yannick 08 1900 (has links) Les interfaces cerveau-machine (ICMs) nous offrent un moyen de fermer la boucle entre notre cerveau et le monde de la technologie numérique. Cela ouvre la porte à une pléthore de nouvelles applications où nous utilisons directement le cerveau comme entrée. S’il est facile de voir le potentiel, il est moins facile de trouver la bonne application avec les bons corrélats neuronaux pour construire un tel système en boucle fermée. Ici, nous explorons une tâche de suivi d’objets multiples en 3D, dans un contexte d’entraînement cognitif (3D-MOT). Notre capacité à suivre plusieurs objets dans un environnement dynamique nous permet d’effectuer des tâches quotidiennes telles que conduire, pratiquer des sports d’équipe et marcher dans un centre commercial achalandé. Malgré plus de trois décennies de littérature sur les tâches MOT, les mécanismes neuronaux sous- jacents restent mal compris. Ici, nous avons examiné les corrélats neuronaux via l’électroencéphalographie (EEG) et leurs changements au cours des trois phases d’une tâche de 3D-MOT, à savoir l’identification, le suivi et le rappel. Nous avons observé ce qui semble être un transfert entre l’attention et la de mémoire de travail lors du passage entre le suivi et le rappel. Nos résultats ont révélé une forte inhibition des fréquences delta et thêta de la région frontale lors du suivi, suivie d’une forte (ré)activation de ces mêmes fréquences lors du rappel. Nos résultats ont également montré une activité de retard contralatérale (CDA en anglais), une activité négative soutenue dans l’hémisphère contralatérale aux positions des éléments visuels à suivre. Afin de déterminer si le CDA est un corrélat neuronal robuste pour les tâches de mémoire de travail visuelle, nous avons reproduit huit études liées au CDA avec un ensemble de données EEG accessible au public. Nous avons utilisé les données EEG brutes de ces huit études et les avons analysées avec le même pipeline de base pour extraire le CDA. Nous avons pu reproduire les résultats de chaque étude et montrer qu’avec un pipeline automatisé de base, nous pouvons extraire le CDA. Récemment, l’apprentissage profond (deep learning / DL en anglais) s’est révélé très prometteur pour aider à donner un sens aux signaux EEG en raison de sa capacité à apprendre de bonnes représentations à partir des données brutes. La question à savoir si l’apprentissage profond présente vraiment un avantage par rapport aux approches plus traditionnelles reste une question ouverte. Afin de répondre à cette question, nous avons examiné 154 articles appliquant le DL à l’EEG, publiés entre janvier 2010 et juillet 2018, et couvrant différents domaines d’application tels que l’épilepsie, le sommeil, les interfaces cerveau-machine et la surveillance cognitive et affective. Enfin, nous explorons la possibilité de fermer la boucle et de créer un ICM passif avec une tâche 3D-MOT. Nous classifions l’activité EEG pour prédire si une telle activité se produit pendant la phase de suivi ou de rappel de la tâche 3D-MOT. Nous avons également formé un classificateur pour les essais latéralisés afin de prédire si les cibles étaient présentées dans l’hémichamp gauche ou droit en utilisant l’activité EEG. Pour la classification de phase entre le suivi et le rappel, nous avons obtenu un 80% lors de l’entraînement d’un SVM sur plusieurs sujets en utilisant la puissance des bandes de fréquences thêta et delta des électrodes frontales. / Brain-computer interfaces (BCIs) offer us a way to close the loop between our brain and the digital world of technology. It opens the door for a plethora of new applications where we use the brain directly as an input. While it is easy to see the disruptive potential, it is less so easy to find the right application with the right neural correlates to build such closed-loop system. Here we explore closing the loop during a cognitive training 3D multiple object tracking task (3D-MOT). Our ability to track multiple objects in a dynamic environment enables us to perform everyday tasks such as driving, playing team sports, and walking in a crowded mall. Despite more than three decades of literature on MOT tasks, the underlying and intertwined neural mechanisms remain poorly understood. Here we looked at the electroencephalography (EEG) neural correlates and their changes across the three phases of a 3D-MOT task, namely identification, tracking and recall. We observed what seems to be a handoff between focused attention and working memory processes when going from tracking to recall. Our findings revealed a strong inhibition in delta and theta frequencies from the frontal region during tracking, followed by a strong (re)activation of these same frequencies during recall. Our results also showed contralateral delay activity (CDA), a sustained negativity over the hemisphere contralateral to the positions of visual items to be remembered. In order to investigate if the CDA is a robust neural correlate for visual working memory (VWM) tasks, we reproduced eight CDA-related studies with a publicly accessible EEG dataset. We used the raw EEG data from these eight studies and analysed all of them with the same basic pipeline to extract CDA. We were able to reproduce the results from all the studies and show that with a basic automated EEG pipeline we can extract a clear CDA signal. Recently, deep learning (DL) has shown great promise in helping make sense of EEG signals due to its capacity to learn good feature representations from raw data. Whether DL truly presents advantages as compared to more traditional EEG processing approaches, however, remains an open question. In order to address such question, we reviewed 154 papers that apply DL to EEG, published between January 2010 and July 2018, and spanning different application domains such as epilepsy, sleep, brain-computer interfacing, and cognitive and affective monitoring. Finally, we explore the potential for closing the loop and creating a passive BCI with a 3D-MOT task. We classify EEG activity to predict if such activity is happening during the tracking or the recall phase of the 3D-MOT task. We also trained a classifier for lateralized trials to predict if the targets were presented on the left or right hemifield using EEG brain activity. For the phase classification between tracking and recall, we obtained 80% accuracy when training a SVM across subjects using the theta and delta frequency band power from the frontal electrodes and 83% accuracy when training within subjects. Multiple-Object Tracking MOT Contralateral Delay Activity CDA EEG Working Memory Attention Deep Learning Suivi d’objets multiples Mémoire de travail Apprentissage profond
90	Transformer-Based Multi-scale Technical Reports Analyser for Science Projects Cost Prediction / Transformers-baserad analysator av tekniska rapporter i flera skalor för prognostisering av kostnader för vetenskapsprojekt Bouquet, Thomas January 2023 (has links) Intrinsic value prediction is a Natural Language Processing (NLP) problem consisting in determining a numerical value contained implicitly and non-trivially in a text. In this project, we introduce the SWORDSMAN model (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), a deep neural network architecture based on transformers whose goal is to predict the cost of research projects from the analysis of their abstract. SWORDSMAN is built on a hybrid structure based on two branches in order to conduct a multi-scale analysis by combining the strengths of global and local perspectives to extract more relevant information from these texts. The local branch uses Convolution Neural Networks (CNNs) to analyse abstracts at fine-grained word level and bring more nuance to the understanding of the context of occurrence of key terms, while the global branch combines Sentence Transformers and Radial Basis Functions (RBFs) to process these abstracts at a higher level to identify the overall context of the project, while being more focused on the content than the form of the data. The joint use of these models allows SWORDSMAN to have a better capacity to understand complex data by using this analysis at different levels of granularity to present a better estimation accuracy. / Förutsägelse av inneboende värde är ett problem inom Natural Language Processing (NLP) som består i att bestämma ett numeriskt värde som finns implicit och icke-trivialt i en text. I det här projektet introducerar vi SWORDSMAN-modellen (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), en djup neuronal nätverksarkitektur baserad på transformatorer vars mål är att förutsäga kostnaden för forskningsprojekt utifrån analysen av deras abstrakt. SWORDSMAN bygger på en hybridstruktur baserad på två grenar för att genomföra en analys i flera skalor genom att kombinera styrkorna hos globala och lokala perspektiv för att extrahera mer relevant information från dessa texter. I den lokala grenen används CNN-nätverk (Convolution Neural Networks) för att analysera sammanfattningar på finkornig ordnivå och ge mer nyans till förståelsen av sammanhanget för förekomsten av nyckeltermer, medan den globala grenen kombinerar meningstransformatorer och radiella basfunktioner (RBF) för att bearbeta dessa sammanfattningar på en högre nivå för att identifiera projektets övergripande sammanhang, samtidigt som den är mer inriktad på innehållet än på formen av uppgifterna. Den gemensamma användningen av dessa modeller gör det möjligt för SWORDSMAN att ha en bättre förmåga att förstå komplexa data genom att använda denna analys på olika granularitetsnivåer för att presentera en bättre skattningsnoggrannhet. / La prédiction de valeur intrinsèque est un problème de Traitement Automatique du Langage (TAL) consistant à déterminer une valeur numérique contenue de manière implicite et non triviale dans un texte. Dans ce projet, nous introduisons le modèle SWORDSMAN (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), une architecture de réseaux de neurones profonde basée sur les transformers dont le but est de prédire le coût de projets de recherche à partir de l’analyse de leur abstract. SWORDSMAN est bâti sur une structure hybride reposant sur deux branches afin de mener une analyse multi-échelles en combinant les forces de perspectives globale et locale pour extraire des informations plus pertinentes de ces textes. La branche locale utilise des réseaux de neurones de convolution (CNN) pour analyser les abstracts à l’échelle des mots et apporter plus de nuance à la compréhension du contexte d’apparition des termes clés, là où la branche globale combine Sentence Transformers et fonctions de base radiale (RBF) pour traiter ces abstracts à un plus haut niveau afin d’identifier le contexte général du projet, tout en étant plus focalisée sur le contenu que la forme des données. L’utilisation conjointe de ces modèles permet à SWORDSMAN de disposer d’une meilleure capacité de compréhension de données complexes en se servant de cette analyse à différents niveaux de granularité pour présenter une meilleure précision d’estimation. Natural Language Processing Transformers Deep Learning Cost Prediction Traitement Automatique du Langage Transformers Apprentissage Profond Prédiction de coûts Behandling av naturligt språk Transformers Djupinlärning Kostnadsförutsägelser Computer and Information Sciences Data- och informationsvetenskap

Search results