• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 249
  • 134
  • 32
  • Tagged with
  • 438
  • 438
  • 245
  • 210
  • 178
  • 153
  • 138
  • 108
  • 103
  • 94
  • 86
  • 84
  • 82
  • 79
  • 77
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
321

Sequence-to-sequence learning for machine translation and automatic differentiation for machine learning software tools

van Merriënboer, Bart 10 1900 (has links)
No description available.
322

De l'auto-évaluation aux émotions : approche neuromimétique et bayésienne de l'apprentissage de comportements complexes impliquant des informations multimodales / From self-evaluation to emotions : neuromimetic and bayesian approaches for the learning of complex behavior involving multimodal informations

Jauffret, Adrien 11 July 2014 (has links)
Cette thèse a pour objectif la conception d’une architecture de contrôle bio-inspirée permettant à un robot autonome de naviguer sur de grandes distances. Le modèle développé permet également d’améliorer la compréhension des mécanismes biologiques impliqués. De précédents travaux ont montré qu’un modèle de cellules de lieu, enregistrées chez le rat, permettait à un robot mobile d’apprendre des comportements de navigation robustes, tels qu’une ronde ou un retour au nid, à partir d’associations entre lieu et action. La reconnaissance d’un lieu ne reposait alors que sur des informations visuelles. L’ambiguïté de certaines situations (e.g. un long couloir) ne permettait pas de naviguer dans de grands environnements. L’ajout d’autres modalités constitue une solution efficace pour augmenter la robustesse dans des environnements complexes. Cette solution nous a permis d’identifier les briques minimales nécessaires à la fusion d’informations multimodales, d’abord par le biais d’un conditionnement simple entre 2 modalités sensorielles, puis par la formalisation d’un modèle, plus générique, de prédictions inter-modales. C’est un mécanisme bas niveau qui permet de générer une cohérence perceptive : l’ensemble des modalités sensorielles s’entraident pour ne renvoyer qu’une perception claire et cohérente aux mécanismes décisionnels de plus haut niveau. Les modalités les plus corrélées sont ainsi capables de combler les informations manquantes d’une modalité défaillante (cas pathologique). Ce modèle implique la mise en place d’un système de prédiction et donc une capacité à détecter de la nouveauté dans ses perceptions. Ainsi, le modèle est également capable de détecter une situation inattendue ou anormale et possède donc une capacité d’auto-évaluation : l’évaluation de ses propres perceptions. Nous nous sommes ensuite mis à la recherche des propriétés fondamentales à tout système d'auto-évaluation.La première propriété essentielle a été de constater qu’évaluer un comportement sensorimoteur revient à reconnaître une dynamique entre sensation et action, plutôt que la simple reconnaissance d’une forme sensorielle. La première brique encapsule donc un modèle interne minimaliste des interactions du robot avec son environnement, qui est la base sur laquelle le système fera des prédictions.La seconde propriété essentielle est la capacité à extraire l’information pertinente par le biais de calculs statistiques. Il est nécessaire que le robot apprenne à capturer les invariants statistiques en supprimant l’information incohérente. Nous avons donc montré qu’il était possible d’estimer une densité de probabilité par le biais d’un simple conditionnement. Cet apprentissage permet de réaliser l’équivalent d’une inférence bayésienne. Le système estime la probabilité de reconnaître un comportement à partir de la reconnaissance d’informations statistiques apprises. C’est donc par la mise en cascade de simples conditionnements que le système peut apprendre à estimer les moments statistiques d’une dynamique (moyenne, variance, asymétrie, etc...). La non-reconnaissance de cette dynamique lui permet de détecter qu’une situation est anormale.Mais détecter un comportement inhabituel ne nous renseigne pas pour autant sur son inefficacité. Le système doit également surveiller l’évolution de cette anomalie dans le temps pour pouvoir juger de la pertinence du comportement. Nous montrons comment un contrôleur émotionnel peut faire usage de cette détection de nouveauté pour réguler le comportement et ainsi permettre au robot d’utiliser la stratégie la plus adaptée à la situation rencontrée. Pour finir, nous avons mis en place une procédure de frustration permettant au robot de lancer un appel à l’aide lorsqu’il détecte qu’il se retrouve dans une impasse. Ce réseau de neurones permet au robot d’identifier les situations qu’il ne maîtrise pas dans le but d’affiner son apprentissage, à l’instar de certains processus développementaux. / The goal of this thesis is to build a bio-inspired architecture allowing a robot to autonomouslynavigate over large distances. In a cognitive science point of view, the model also aim at improv-ing the understanding of the underlying biological mechanisms. Previous works showed thata computational model of hippocampal place cells, based on neurobiological studies made onrodent, allows a robot to learn robust navigation behaviors. The robot can learn a round or ahoming behavior from a few associations between places and actions. The learning and recog-nition of a place were only defined by visual information and shows limitations for navigatinglarge environments.Adding other sensorial modalities is an effective solution for improving the robustness of placesrecognition in complex environments. This solution led us to the elementary blocks requiredwhen trying to perform multimodal information merging. Such merging has been done, first,by a simple conditioning between 2 modalities and next improved by a more generic model ofinter-modal prediction. In this model, each modality learns to predict the others in usual situa-tions, in order to be able to detect abnormal situations and to compensate missing informationof the others. Such a low level mechanism allows to keep a coherent perception even if onemodality is wrong. Moreover, the model can detect unexpected situations and thus exhibit someself-assessment capabilities: the assessment of its own perception. Following this model of self-assessment, we focus on the fundamental properties of a system for evaluating its behaviors.The first fundamental property that pops out is the statement that evaluating a behavior is anability to recognize a dynamics between sensations and actions, rather than recognizing a sim-ple sensorial pattern. A first step was thus to take into account the sensation/action couplingand build an internal minimalist model of the interaction between the agent and its environment.Such of model defines the basis on which the system will build predictions and expectations.The second fundamental property of self-assessment is the ability to extract relevant informa-tion by the use of statistical processes to perform predictions. We show how a neural networkcan estimate probability density functions through a simple conditioning rule. This probabilis-tic learning allows to achieve bayesian inferences since the system estimates the probability ofobserving a particular behavior from statistical information it recognizes about this behavior.The robot estimates the different statistical momentums (mean, variance, skewness, etc...) of abehavior dynamics by cascading few simple conditioning. Then, the non-recognition of such adynamics is interpreted as an abnormal behavior.But detecting an abnormal behavior is not sufficient to conclude to its inefficiency. The systemmust also monitor the temporal evolution of such an abnormality to judge the relevance of thebehavior. We show how an emotional meta-controller can use this novelty detection to regu-late behaviors and so select the best appropriate strategy in a given context. Finally, we showhow a simple frustration mechanism allows the robot to call for help when it detects potentialdeadlocks. Such a mechanism highlights situations where a skills improvement is possible, soas some developmental processes.
323

Adéquation algorithme-architecture pour les réseaux de neurones à convolution : application à l'analyse de visages embarquée / Algorithm-architecture matching for convolutional neural network : application to embedded facial analysis

Mamalet, Franck 06 July 2011 (has links)
La prolifération des capteurs d'images dans de nombreux appareils électroniques, et l'évolution des capacités de traitements à proximité de ces capteurs ouvrent un champ d'exploration pour l'implantation et l'optimisation d'algorithmes complexes de traitement d'images afin de proposer des systèmes de vision artificielle embarquée. Ces travaux s'inscrivent dans la problématique dite d'adéquation algorithme-architecture (A3). Ils portent sur une classe d'algorithmes appelée réseau de neurones à convolutions (ConvNet) et ses applications en analyse de visages embarquée. La chaîne d'analyse de visages, introduite par Garcia et al., a été choisie d'une part pour ses performances en taux de détection/reconnaissance au niveau de l'état de l'art, et d'autre part pour son caractère homogène reposant sur des ConvNets. La première contribution de ces travaux porte sur une étude d'adéquation de cette chaîne d'analyse de visages aux processeurs embarqués. Nous proposons plusieurs adaptations algorithmiques des ConvNets, et montrons que celles-ci permettent d'obtenir des facteurs d'accélération importants (jusqu'à 700) sur un processeur embarqué pour mobile, sans dégradation des performances en taux de détection/reconnaissance. Nous présentons ensuite une étude des capacités de parallélisation des ConvNets, au travers des travaux de thèse de N. Farrugia. Une exploration "gros-grain" du parallélisme des ConvNets, suivie d'une étude de l'ordonnancement interne des processeurs élémentaires, conduisent à une architecture parallèle paramétrable, capable de détecter des visages à plus de 10 images VGA par seconde sur FPGA. Nous proposons enfin une extension de ces études à la phase d'apprentissage de ces réseaux de neurones. Nous étudions des restrictions de l'espace des hypothèses d'apprentissage, et montrons, sur un cas d'application, que les capacités d'apprentissage des ConvNets ne sont pas dégradées, et que le temps d'apprentissage peut être réduit jusqu'à un facteur cinq. / Proliferation of image sensors in many electronic devices, and increasing processing capabilities of such sensors, open a field of exploration for the implementation and optimization of complex image processing algorithms in order to provide embedded vision systems. This work is a contribution in the research domain of algorithm-architecture matching. It focuses on a class of algorithms called convolution neural network (ConvNet) and its applications in embedded facial analysis. The facial analysis framework, introduced by Garcia et al., was chosen for its state of the art performances in detection/recognition, and also for its homogeneity based on ConvNets. The first contribution of this work deals with an adequacy study of this facial analysis framework with embedded processors. We propose several algorithmic adaptations of ConvNets, and show that they can lead to significant speedup factors (up to 700) on an embedded processor for mobile phone, without performance degradation. We then present a study of ConvNets parallelization capabilities, through N. Farrugia's PhD work. A coarse-grain parallelism exploration of ConvNets, followed by study of internal scheduling of elementary processors, lead to a parameterized parallel architecture on FPGA, able to detect faces at more than 10 VGA frames per second. Finally, we propose an extension of these studies to the learning phase of neural networks. We analyze several hypothesis space restrictions for ConvNets, and show, on a case study, that classification rate performances are almost the same with a training time divided by up to five.
324

Single image super-resolution based on neural networks for text and face recognition / Super-résolution d'image unique basée sur des réseaux de neurones pour la reconnaissance de texte et de visage

Peyrard, Clément 29 September 2017 (has links)
Cette thèse porte sur les méthodes de super-résolution (SR) pour l’amélioration des performances des systèmes de reconnaissance automatique (OCR, reconnaissance faciale). Les méthodes de Super-Résolution (SR) permettent de générer des images haute résolution (HR) à partir d’images basse résolution (BR). Contrairement à un rééchantillonage par interpolation, elles restituent les hautes fréquences spatiales et compensent les artéfacts (flou, crénelures). Parmi elles, les méthodes d’apprentissage automatique telles que les réseaux de neurones artificiels permettent d’apprendre et de modéliser la relation entre les images BR et HR à partir d’exemples. Ce travail démontre l’intérêt des méthodes de SR à base de réseaux de neurones pour les systèmes de reconnaissance automatique. Les réseaux de neurones à convolutions sont particulièrement adaptés puisqu’ils peuvent être entraînés à extraire des caractéristiques non-linéaires bidimensionnelles pertinentes tout en apprenant la correspondance entre les espaces BR et HR. Sur des images de type documents, la méthode proposée permet d’améliorer la précision en reconnaissance de caractère de +7.85 points par rapport à une simple interpolation. La création d’une base d’images annotée et l’organisation d’une compétition internationale (ICDAR2015) ont souligné l’intérêt et la pertinence de telles approches. Pour les images de visages, les caractéristiques faciales sont cruciales pour la reconnaissance automatique. Une méthode en deux étapes est proposée dans laquelle la qualité de l’image est d’abord globalement améliorée, pour ensuite se focaliser sur les caractéristiques essentielles grâce à des modèles spécifiques. Les performances d’un système de vérification faciale se trouvent améliorées de +6.91 à +8.15 points. Enfin, pour le traitement d’images BR en conditions réelles, l’utilisation de réseaux de neurones profonds permet d’absorber la variabilité des noyaux de flous caractérisant l’image BR, et produire des images HR ayant des statistiques naturelles sans connaissance du modèle d’observation exact. / This thesis is focussed on super-resolution (SR) methods for improving automatic recognition system (Optical Character Recognition, face recognition) in realistic contexts. SR methods allow to generate high resolution images from low resolution ones. Unlike upsampling methods such as interpolation, they restore spatial high frequencies and compensate artefacts such as blur or jaggy edges. In particular, example-based approaches learn and model the relationship between low and high resolution spaces via pairs of low and high resolution images. Artificial Neural Networks are among the most efficient systems to address this problem. This work demonstrate the interest of SR methods based on neural networks for improved automatic recognition systems. By adapting the data, it is possible to train such Machine Learning algorithms to produce high-resolution images. Convolutional Neural Networks are especially efficient as they are trained to simultaneously extract relevant non-linear features while learning the mapping between low and high resolution spaces. On document text images, the proposed method improves OCR accuracy by +7.85 points compared with simple interpolation. The creation of an annotated image dataset and the organisation of an international competition (ICDAR2015) highlighted the interest and the relevance of such approaches. Moreover, if a priori knowledge is available, it can be used by a suitable network architecture. For facial images, face features are critical for automatic recognition. A two step method is proposed in which image resolution is first improved, followed by specialised models that focus on the essential features. An off-the-shelf face verification system has its performance improved from +6.91 up to +8.15 points. Finally, to address the variability of real-world low-resolution images, deep neural networks allow to absorb the diversity of the blurring kernels that characterise the low-resolution images. With a single model, high-resolution images are produced with natural image statistics, without any knowledge of the actual observation model of the low-resolution image.
325

Contrôle intégré du pilotage d’atelier et de la qualité des produits : application à la société ACTA mobilier / Integrated control of workshop and product quality : application to ACTA furniture company

Noyel, Mélanie 10 November 2015 (has links)
Cette thèse CIFRE s’inscrit dans le cadre d’une collaboration entre Acta-Mobilier, fabricant de façades laquées haut de gamme, et le Centre de Recherche en Automatique Nancy. L’idée est de tirer parti du concept de Système Contrôlé par le Produit dans un environnement industriel perturbé par de nombreuses boucles de production et par un taux de reprises (non-qualités) non négligeable engendrant des pertes de pièces, le non-respect des délais, des charges de travail instables, etc… le lien impossible entre le produit et un identifiant infotronique rendant en plus la traçabilité difficile. Les travaux sur l’ordonnancement et son optimisation sont freinés par ces perturbations sur la chaîne de production qui rendent les plannings intenables. Le traitement prioritaire des pièces défectueuses permet d’assurer un taux de service qui reste remarquable au regard du pourcentage de pièces à réparer. Mais cela engendre aussi des pertes de pièces qui empêchent la livraison complète de la commande. La problématique scientifique s’articule autour du pilotage des flux dans un contexte de production perturbé par les reprises et de la maîtrise de la qualité en évaluant son impact sur l’engorgement. L’enjeu de maîtrise de la qualité a été abordé à l’aide de réseaux de neurones capables de prévoir l’apparition du défaut auquel ils sont dédiés en fonction des paramètres de production et environnementaux. Cette anticipation permet de proposer une alternative de programme à utiliser ou à reporter la planification de la tâche. L’adaptation du modèle de prévision aux dérives du modèle physique au comportement considéré comme nerveux est réalisée « en-ligne » à l’aide de cartes de contrôle qui permettent de détecter la dérive et sa date de début. Malgré cette simplification des flux, le pilotage reste complexe en raison des boucles normales de production et des non qualités résiduelles. Il existe différents états de saturation du système pour lesquels la règle de pilotage la plus adaptée n’est pas toujours la même. Cette analyse est présentée sous forme de cartographie en deux dimensions dont chacun des axes présente un indicateur clé du taux de non-qualité et/ou de la perturbation des flux. Même si, contrairement aux algorithmes, la règle de pilotage la mieux adaptée ne sera pas toujours mise en évidence, cette cartographie présente d’autres avantages tels que la simplification du pilotage, la possibilité pour tous les utilisateurs d’avoir l’information importante sur l’état de l’atelier en un coup d’oeil, ou encore la nécessité d’homogénéisation sur la globalité de l’unité de production. Dans ce contexte, le container intelligent offre des perspectives intéressantes avec la volonté de tracer un groupe de produits ayant la même gamme de fabrication plutôt que des produits un à un, de partager des informations telles que sa date de livraison, son degré d’urgence, de connaître quels chemins ils doivent emprunter dans l’atelier et quelles sont les alternatives possibles ou encore de communiquer avec les machines et les autres systèmes dont celui de prévision de la qualité et retenir des informations au fil de la fabrication des produits. Le système proposé est donc interactif ou le conteneur est au coeur de la décision. Il signale sa présence au système d’ordonnancement seulement si les conditions qualité sont réunies, permettant ainsi de simplifier son travail autorisant alors un simple algorithme traditionnel de programmation linéaire à réaliser cette tâche particulièrement compliquée au premier abord. C’est en revanche à la charge de l’ordonnanceur de s’assurer de la règle de pilotage à utiliser et de demander les informations correspondantes aux lots disponibles. La contribution de cette thèse est donc une méthodologie de simplification de problèmes complexes par une répartition des tâches entre différents sous-systèmes acteurs appliquée au cas d’une entreprise de fabrication de façades de cuisine laquées haut de gamme / Centre de Recherche en Automatique de Nancy. The idea is to take advantage of Product Driven System in an industrial environment disturbed by many loops and a rework rate (non quality) causing significant loss of products, non-compliance deadlines, unstable workloads, etc ... impossible link between the product and identifying infotronic lead to more difficult traceability. Work on scheduling and optimization are hampered by these disturbances on the production line that make them untenable schedules. Priority processing on defective products ensures a service rate that remains outstanding compared to the percentage of products to repair. But it also leads to loss of products that prevent the full delivery of the order. The scientific problem revolves around the control of flow in a production context disturbed by the loops and the quality level by assessing its impact on congestion. The quality-control issue has been addressed by using neural networks that can predict the occurrence of the defect to which they are dedicated from production and environmental parameters. This anticipation allows us to offer a program alternative to use or to plan to postpone the task. The adaptation of the forecasting model to the drift of the physical model with a behavior regarded as nervous is made "on line" using control charts that detect drift and its start date. Despite this simplification of flows, the flow control remains complex due to normal production loops and residual nonqualities. There are different system saturation states for which the most suitable control rule is not always the same. This analysis is presented in a two-dimensional mapping which each axis has a key indicator on non-quality rate and / or disruption of flows. Although, unlike algorithms, the most suitable control rule will not always be highlighted, this mapping has other advantages such as the simplification of the control, the ability for all users to have important information about the workshop state, or the need for homogenization of the global state of the production unit. In this context, the intelligent container offers interesting perspectives with the will to trace a group of products with the same rooting sheet rather than products one by one, to share information such as its delivery date, the urgency degree, to know what paths they should take and what are the possible alternatives or to communicate with other machines and systems including the quality forecasting system and retain information over the manufacture of the products. The proposed system is so interactive where container is at the heart of the decision. It reported his presence to scheduling system only if the quality system requirements are met, and simplify this work while allowing a traditional linear algorithm to achieve this task seen as particularly complicated at first. It is however the responsibility of the scheduler to ensure the pilot rule to use and request the relevant information available to the lots. The contribution of this thesis is a methodology to simplify complex problems by a division of work between different subsystems actors applied to the case of a manufacturer of high-finished lacquered panels
326

Localisation par l'image en milieu urbain : application à la réalité augmentée / Image-based localization in urban environment : application to augmented reality

Fond, Antoine 06 April 2018 (has links)
Dans cette thèse on aborde le problème de la localisation en milieux urbains. Inférer un positionnement précis en ville est important dans nombre d’applications comme la réalité augmentée ou la robotique mobile. Or les systèmes basés sur des capteurs inertiels (IMU) sont sujets à des dérives importantes et les données GPS peuvent souffrir d’un effet de vallée qui limite leur précision. Une solution naturelle est de s’appuyer le calcul de pose de caméra en vision par ordinateur. On remarque que les bâtiments sont les repères visuels principaux de l’humain mais aussi des objets d’intérêt pour les applications de réalité augmentée. On cherche donc à partir d’une seule image à calculer la pose de la caméra par rapport à une base de données de bâtiments références connus. On décompose le problème en deux parties : trouver les références visibles dans l’image courante (reconnaissance de lieux) et calculer la pose de la caméra par rapport à eux. Les approches classiques de ces deux sous-problèmes sont mises en difficultés dans les environnements urbains à cause des forts effets perspectives, des répétitions fréquentes et de la similarité visuelle entre façades. Si des approches spécifiques à ces environnements ont été développés qui exploitent la grande régularité structurelle de tels milieux, elles souffrent encore d’un certain nombre de limitations autant pour la détection et la reconnaissance de façades que pour le calcul de pose par recalage de modèle. La méthode originale développée dans cette thèse s’inscrit dans ces approches spécifiques et vise à dépasser ces limitations en terme d’efficacité et de robustesse aux occultations, aux changements de points de vue et d’illumination. Pour cela, l’idée principale est de profiter des progrès récents de l’apprentissage profond par réseaux de neurones convolutionnels pour extraire de l’information de haut-niveau sur laquelle on peut baser des modèles géométriques. Notre approche est donc mixte Bottom-Up/Top-Down et se décompose en trois étapes clés. Nous proposons tout d’abord une méthode d’estimation de la rotation de la pose de caméra. Les 3 points de fuite principaux des images en milieux urbains, dits points de fuite de Manhattan sont détectés grâce à un réseau de neurones convolutionnels (CNN) qui fait à la fois une estimation de ces points de fuite mais aussi une segmentation de l’image relativement à eux. Une second étape de raffinement utilise ces informations et les segments de l’image dans une formulation bayésienne pour estimer efficacement et plus précisément ces points. L’estimation de la rotation de la caméra permet de rectifier les images et ainsi s’affranchir des effets de perspectives pour la recherche de la translation. Dans une seconde contribution, nous visons ainsi à détecter les façades dans ces images rectifiées et à les reconnaître parmi une base de bâtiments connus afin d’estimer une translation grossière. Dans un soucis d’efficacité, on a proposé une série d’indices basés sur des caractéristiques spécifiques aux façades (répétitions, symétrie, sémantique) qui permettent de sélectionner rapidement des candidats façades potentiels. Ensuite ceux-ci sont classifiés en façade ou non selon un nouveau descripteur CNN contextuel. Enfin la mise en correspondance des façades détectées avec les références est opérée par un recherche au plus proche voisin relativement à une métrique apprise sur ces descripteurs [...] / This thesis addresses the problem of localization in urban areas. Inferring accurate positioning in the city is important in many applications such as augmented reality or mobile robotics. However, systems based on inertial sensors (IMUs) are subject to significant drifts and GPS data can suffer from a valley effect that limits their accuracy. A natural solution is to rely on the camera pose estimation in computer vision. We notice that buildings are the main visual landmarks of human beings but also objects of interest for augmented reality applications. We therefore aim to compute the camera pose relatively to a database of known reference buildings from a single image. The problem is twofold : find the visible references in the current image (place recognition) and compute the camera pose relatively to them. Conventional approaches to these two sub-problems are challenged in urban environments due to strong perspective effects, frequent repetitions and visual similarity between facades. While specific approaches to these environments have been developed that exploit the high structural regularity of such environments, they still suffer from a number of limitations in terms of detection and recognition of facades as well as pose computation through model registration. The original method developed in this thesis is part of these specific approaches and aims to overcome these limitations in terms of effectiveness and robustness to clutter and changes of viewpoints and illumination. For do so, the main idea is to take advantage of recent advances in deep learning by convolutional neural networks to extract high-level information on which geometric models can be based. Our approach is thus mixed Bottom- Up/Top-Down and is divided into three key stages. We first propose a method to estimate the rotation of the camera pose. The 3 main vanishing points of the image of urban environnement, known as Manhattan vanishing points, are detected by a convolutional neural network (CNN) that estimates both these vanishing points and the image segmentation relative to them. A second refinement step uses this information and image segmentation in a Bayesian model to estimate these points effectively and more accurately. By estimating the camera’s rotation, the images can be rectified and thus free from perspective effects to find the translation. In a second contribution, we aim to detect the facades in these rectified images to recognize them among a database of known buildings and estimate a rough translation. For the sake of efficiency, a series of cues based on facade specific characteristics (repetitions, symmetry, semantics) have been proposed to enable the fast selection of facade proposals. Then they are classified as facade or non-facade according to a new contextual CNN descriptor. Finally, the matching of the detected facades to the references is done by a nearest neighbor search using a metric learned on these descriptors. Eventually we propose a method to refine the estimation of the translation relying on the semantic segmentation inferred by a CNN for its robustness to changes of illumination ans small deformations. If we can already estimate a rough translation from these detected facades, we choose to refine this result by relying on the se- mantic segmentation of the image inferred from a CNN for its robustness to changes of illuminations and small deformations. Since the facade is identified in the previous step, we adopt a model-based approach by registration. Since the problems of registration and segmentation are linked, a Bayesian model is proposed which enables both problems to be jointly solved. This joint processing improves the results of registration and segmentation while remaining efficient in terms of computation time. These three parts have been validated on consistent community data sets. The results show that our approach is fast and more robust to changes in shooting conditions than previous methods
327

Latent variable language models

Tan, Shawn 08 1900 (has links)
No description available.
328

Weakly supervised learning of deformable part models and convolutional neural networks for object detection / Détection d'objets faiblement supervisée par modèles de pièces déformables et réseaux de neurones convolutionnels

Tang, Yuxing 14 December 2016 (has links)
Dans cette thèse, nous nous intéressons au problème de la détection d’objets faiblement supervisée. Le but est de reconnaître et de localiser des objets dans les images, n’ayant à notre disposition durant la phase d’apprentissage que des images partiellement annotées au niveau des objets. Pour cela, nous avons proposé deux méthodes basées sur des modèles différents. Pour la première méthode, nous avons proposé une amélioration de l’approche ”Deformable Part-based Models” (DPM) faiblement supervisée, en insistant sur l’importance de la position et de la taille du filtre racine initial spécifique à la classe. Tout d’abord, un ensemble de candidats est calculé, ceux-ci représentant les positions possibles de l’objet pour le filtre racine initial, en se basant sur une mesure générique d’objectness (par region proposals) pour combiner les régions les plus saillantes et potentiellement de bonne qualité. Ensuite, nous avons proposé l’apprentissage du label des classes latentes de chaque candidat comme un problème de classification binaire, en entrainant des classifieurs spécifiques pour chaque catégorie afin de prédire si les candidats sont potentiellement des objets cible ou non. De plus, nous avons amélioré la détection en incorporant l’information contextuelle à partir des scores de classification de l’image. Enfin, nous avons élaboré une procédure de post-traitement permettant d’élargir et de contracter les régions fournies par le DPM afin de les adapter efficacement à la taille de l’objet, augmentant ainsi la précision finale de la détection. Pour la seconde approche, nous avons étudié dans quelle mesure l’information tirée des objets similaires d’un point de vue visuel et sémantique pouvait être utilisée pour transformer un classifieur d’images en détecteur d’objets d’une manière semi-supervisée sur un large ensemble de données, pour lequel seul un sous-ensemble des catégories d’objets est annoté avec des boîtes englobantes nécessaires pour l’apprentissage des détecteurs. Nous avons proposé de transformer des classifieurs d’images basés sur des réseaux convolutionnels profonds (Deep CNN) en détecteurs d’objets en modélisant les différences entre les deux en considérant des catégories disposant à la fois de l’annotation au niveau de l’image globale et l’annotation au niveau des boîtes englobantes. Cette information de différence est ensuite transférée aux catégories sans annotation au niveau des boîtes englobantes, permettant ainsi la conversion de classifieurs d’images en détecteurs d’objets. Nos approches ont été évaluées sur plusieurs jeux de données tels que PASCAL VOC, ImageNet ILSVRC et Microsoft COCO. Ces expérimentations ont démontré que nos approches permettent d’obtenir des résultats comparables à ceux de l’état de l’art et qu’une amélioration significative a pu être obtenue par rapport à des méthodes récentes de détection d’objets faiblement supervisées. / In this dissertation we address the problem of weakly supervised object detection, wherein the goal is to recognize and localize objects in weakly-labeled images where object-level annotations are incomplete during training. To this end, we propose two methods which learn two different models for the objects of interest. In our first method, we propose a model enhancing the weakly supervised Deformable Part-based Models (DPMs) by emphasizing the importance of location and size of the initial class-specific root filter. We first compute a candidate pool that represents the potential locations of the object as this root filter estimate, by exploring the generic objectness measurement (region proposals) to combine the most salient regions and “good” region proposals. We then propose learning of the latent class label of each candidate window as a binary classification problem, by training category-specific classifiers used to coarsely classify a candidate window into either a target object or a non-target class. Furthermore, we improve detection by incorporating the contextual information from image classification scores. Finally, we design a flexible enlarging-and-shrinking post-processing procedure to modify the DPMs outputs, which can effectively match the approximate object aspect ratios and further improve final accuracy. Second, we investigate how knowledge about object similarities from both visual and semantic domains can be transferred to adapt an image classifier to an object detector in a semi-supervised setting on a large-scale database, where a subset of object categories are annotated with bounding boxes. We propose to transform deep Convolutional Neural Networks (CNN)-based image-level classifiers into object detectors by modeling the differences between the two on categories with both image-level and bounding box annotations, and transferring this information to convert classifiers to detectors for categories without bounding box annotations. We have evaluated both our approaches extensively on several challenging detection benchmarks, e.g. , PASCAL VOC, ImageNet ILSVRC and Microsoft COCO. Both our approaches compare favorably to the state-of-the-art and show significant improvement over several other recent weakly supervised detection methods.
329

Deep Learning for Video Modelling

Mastropietro, Olivier 12 1900 (has links)
No description available.
330

Conception multi-physique et multi-objectif des cœurs de RNR-Na hétérogènes : développement d’une méthode d’optimisation sous incertitudes / Multi-physics and multi-objective design of heterogeneous SFR core : development of an optimization method under uncertainty

Ammar, Karim 09 December 2014 (has links)
Depuis la fermeture de Phénix en 2010 le CEA ne possède plus de réacteur au sodium. Vus les enjeux énergétiques et le potentiel de la filière, le CEA a lancé un programme de démonstrateur industriel appelé ASTRID (Advanced Sodium Technological Reactor for Industrial Demonstration), réacteur d’une puissance de 600MW électriques (1500 MW thermiques). L’objectif du prototype est double, être une réponse aux contraintes environnementales et démontrer la viabilité industrielle :• De la filière RNR-Na, avec un niveau de sureté au moins équivalent aux réacteurs de 3ème génération, du type de l’EPR. ASTRID intégrera dès la conception le retour d’expérience de Fukushima ;• Du retraitement des déchets (transmutation d’actinide mineur) et de la filière qui lui serait liée.La sûreté de l’installation est prioritaire, aucun radioélément ne doit être rejeté dans l’environnement, et ce dans toutes les situations. Pour atteindre cet objectif, il est impératif d’anticiper l’impact des nombreuses sources d’incertitudes sur le comportement du réacteur et ce dès la phase de conception. C’est dans ce contexte que s’inscrit cette thèse dont l’ambition est le développement de nouvelles méthodes d’optimisation des cœurs des RNR-Na. L’objectif est d’améliorer la robustesse et la fiabilité des réacteurs en réponse à des incertitudes existantes. Une illustration sera proposée à partir des incertitudes associées à certains régimes transitoires dimensionnant. Nous utiliserons le modèle ASTRID comme référence pour évaluer l’intérêt des nouvelles méthodes et outils développés.L’impact des incertitudes multi-Physiques sur le calcul des performances d’un cœur de RNR-Na et l’utilisation de méthodes d’optimisation introduisent de nouvelles problématiques :• Comment optimiser des cœurs « complexes » (i.e associés à des espaces de conception de dimensions élevée avec plus de 20 paramètres variables) en prenant en compte les incertitudes ?• Comment se comportent les incertitudes sur les cœurs optimisés par rapport au cœur de référence ?• En prenant en compte les incertitudes, les réacteurs sont-Ils toujours considérés comme performants ?• Les gains des optimisations obtenus à l’issue d’optimisations complexes sont-Ils supérieurs aux marges d’incertitudes (qui elles-Mêmes dépendent de l’espace paramétrique) ?La thèse contribue au développement et à la mise en place des méthodes nécessaires à la prise en compte des incertitudes dans les outils de simulation de nouvelle génération. Des méthodes statistiques pour garantir la cohérence des schémas de calculs multi-Physiques complexes sont également détaillées.En proposant de premières images de cœur de RNR-Na innovants, cette thèse présente des méthodes et des outils permettant de réduire les incertitudes sur certaines performances des réacteurs tout en les optimisant. Ces gains sont obtenus grâce à l’utilisation d’algorithmes d’optimisation multi-Objectifs. Ces méthodes permettent d’obtenir tous les compromis possibles entre les différents critères d’optimisations comme, par exemple, les compromis entre performance économique et sûreté. / Since Phenix shutting down in 2010, CEA does not have Sodium Fast Reactor (SFR) in operating condition. According to global energetic challenge and fast reactor abilities, CEA launched a program of industrial demonstrator called ASTRID (Advanced Sodium Technological Reactor for Industrial Demonstration), a reactor with electric power capacity equal to 600MW. Objective of the prototype is, in first to be a response to environmental constraints, in second demonstrates the industrial viability of:• SFR reactor. The goal is to have a safety level at least equal to 3rd generation reactors. ASTRID design integrates Fukushima feedback;• Waste reprocessing (with minor actinide transmutation) and it linked industry.Installation safety is the priority. In all cases, no radionuclide should be released into environment. To achieve this objective, it is imperative to predict the impact of uncertainty sources on reactor behaviour. In this context, this thesis aims to develop new optimization methods for SFR cores. The goal is to improve the robustness and reliability of reactors in response to existing uncertainties. We will use ASTRID core as reference to estimate interest of new methods and tools developed.The impact of multi-Physics uncertainties in the calculation of the core performance and the use of optimization methods introduce new problems:• How to optimize “complex” cores (i.e. associated with design spaces of high dimensions with more than 20 variable parameters), taking into account the uncertainties?• What is uncertainties behaviour for optimization core compare to reference core?• Taking into account uncertainties, optimization core are they still competitive? Optimizations improvements are higher than uncertainty margins?The thesis helps to develop and implement methods necessary to take into account uncertainties in the new generation of simulation tools. Statistical methods to ensure consistency of complex multi-Physics simulation results are also detailed.By providing first images of innovative SFR core, this thesis presents methods and tools to reduce the uncertainties on some performance while optimizing them. These gains are achieved through the use of multi-Objective optimization algorithms. These methods provide all possible compromise between the different optimization criteria, such as the balance between economic performance and safety.

Page generated in 0.1089 seconds