• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 249
  • 134
  • 32
  • Tagged with
  • 438
  • 438
  • 245
  • 210
  • 178
  • 153
  • 138
  • 108
  • 103
  • 94
  • 86
  • 84
  • 82
  • 79
  • 77
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
251

Modélisation de populations neuronales pour l'intégration visuo-motrice : Dynamiques et décisions

Taouali, Wahiba, Taouali, Wahiba 26 September 2012 (has links) (PDF)
Dans le contexte de l'énaction et dans une approche globale de la perception, nous nous sommes intéressés à étudier calcul neuronal permettant de comprendre les relations entre les structures dans le cerveau et leurs fonctions. Nous avons d'abord examiné les problèmes calculatoires liés à la discrétisation des équations différentielles qui régissent les systèmes étudiés et aux schémas d'évaluation synchrones et asynchrones. Nous nous sommes, ensuite, intéressés à un niveau fonctionnel élémentaire: la transformation de représentations sensorielles spatiales en actes moteurs temporels dans le cadre du système visuo-moteur. Nous avons proposé un modèle minimaliste d'encodage automatique des cibles visuelles de saccades qui se concentre sur le le flux visuel de la rétine vers le colliculus supérieur. Ce modèle, basé sur sur des règles locales simples au sein d'une population homogène, permet de reproduire et d'expliquer plusieurs résultats d'expériences biologiques ce qui en fait un modèle de base efficace et robuste. Enfin, nous avons abordé un niveau fonctionnel plus global en proposant un modèle de la boucle motrice des ganglions de la base permettant d'intégrer des flux sensoriels, moteurs et motivationnels en vue d'une décision globale reposant sur des évaluations locales. Ce modèle met en exergue un processus adaptatif de sélection de l'action et d'encodage de contexte via des mécanismes originaux lui permettant en particulier de constituer la brique de base pour les autres boucles cortico-basales. Les deux modèles présentent des dynamiques intéressantes à étudier que ce soit d'un point de vue biologique ou d'un point de vue informatique computationnel.
252

Référentiels pour l'intégration multi-sensorielle et sensomotrice: une approche neuro-robotique

Halgand, Christophe 20 September 2011 (has links) (PDF)
Le sujet de cette thèse aborde le problème de la représentation de l'espace dans la boucle sensorimotrice chez le primate et sur des systèmes robotiques. Chez l'être vivant, l'intégration multisensorielle passe par la problématique des référentiels pour lesquels il existe des modèles théoriques basés sur des données électrophysiologiques. Cependant ces derniers n'expliquent pas tous les résultats issus des travaux en neurosciences. Dans une première partie de l'étude, nous avons enregistré et mis en évidence, chez le singe vigile, l'influence de la direction de la tête par rapport au corps et de son interaction avec celle de l'oeil par rapport à la tête au sein de l'aire visuelle primaire (V1) sous forme de modulation de l'activité neuronale. L'effet de la position de la tête n'avait été, jusqu'à présent, montré que dans le cortex pariétal, aire hautement intégrative. Nos résultats mettent clairement en évidence l'existence d'une intégration distribu ée et d'une construction d'une représentation stable et unifiée en amont du cortex pariétal. Ces intégrations semblent exister également après le cortex pariétal postérieur. Des résultats électrophysiologiques, longtemps ignorés mais confirmés récemment ont montré l'influence de la position des yeux au sein du cortex prémoteur dorsal. Une deuxième étude basée sur le formalisme de l'asservissement visuel en robotique, nous a permis de proposer une interprétation de ces résultats. La mise en oeuvre d'un réseau de neurones artificiels entraîné à partir de ce formalisme montre la similitude de l'influence des effets de la position des yeux observés au niveau cortical et confirme notre interprétation. Sur l'ensemble de tous ces travaux, nous proposons une discussion sous l'angle des deux formalismes neuro-robotique où nous présentons un bilan fonctionnel de la perception à l'action. Finalement, nous proposons l'existence d'une origine multisensorielle qui avantagerait l'intégration multisensorielle en ne urosciences comme en robotique.
253

RESEAUX DE NEURONES EN TRAITEMENT D'IMAGES <br />- Des Modèles théoriques aux Applications Industrielles -

Burel, Gilles 06 December 1991 (has links) (PDF)
Les travaux présentés portent sur les réseaux de neurones appliqués au<br />traitement du signal et de l'image. On se place d'emblée du point de vue de<br />l'industriel impliqué dans la recherche, c'est à dire que l'on s'intéresse à<br />des problèmes réalistes, sans pour autant négliger la recherche<br />théorique.<br /><br />Dans une première partie, nous montrons<br />l'intérêt des réseaux de neurones comme source d'inspiration pour la<br />conception de nouveaux algorithmes. Nous proposons en particulier une<br />structure originale pour la prédiction, ainsi que de nouveaux algorithmes de<br />Quantification Vectorielle. Les propriétés des algorithmes existants sont<br />également éclaircies du point de vue théorique, et des méthodes de réglage<br />automatique de leurs paramètres sont proposées.<br /><br />On montre ensuite les capacités des réseaux de neurones à traiter un vaste champ<br />d'applications d'intérêt industriel. Pour divers problèmes de traitement de<br />l'image et du signal (de la segmentation à la séparation de sources, en<br />passant par la reconnaissance de formes et la compression de données), on<br />montre qu'il est possible de développer à moindre coût une solution neuronale<br />efficace.
254

Analyse sémantique des images en temps-réel avec des réseaux convolutifs

Farabet, Clément 19 December 2013 (has links) (PDF)
Une des questions centrales de la vision informatique est celle de la conception et apprentissage de représentations du monde visuel. Quel type de représentation peut permettre à un système de vision artificielle de détecter et classifier les objects en catégories, indépendamment de leur pose, échelle, illumination, et obstruction. Plus intéressant encore, comment est-ce qu'un tel système peut apprendre cette représentation de façon automatisée, de la même manière que les animaux et humains parviennent à émerger une représentation du monde qui les entoure. Une question liée est celle de la faisabilité calculatoire, et plus précisément celle de l'efficacité calculatoire. Étant donné un modèle visuel, avec quelle efficacité peut-il être entrainé, et appliqué à de nouvelles données sensorielles. Cette efficacité a plusieurs dimensions: l'énergie consommée, la vitesse de calcul, et l'utilisation mémoire. Dans cette thèse je présente trois contributions à la vision informatique: (1) une nouvelle architecture de réseau convolutif profond multi-échelle, permettant de capturer des relations longue distance entre variables d'entrée dans des données type image, (2) un algorithme à base d'arbres permettant d'explorer de multiples candidats de segmentation, pour produire une segmentation sémantique avec confiance maximale, (3) une architecture de processeur dataflow optimisée pour le calcul de réseaux convolutifs profonds. Ces trois contributions ont été produites dans le but d'améliorer l'état de l'art dans le domain de l'analyse sémantique des images, avec une emphase sur l'efficacité calculatoire. L'analyse de scènes (scene parsing) consiste à étiqueter chaque pixel d'une image avec la catégorie de l'objet auquel il appartient. Dans la première partie de cette thèse, je propose une méthode qui utilise un réseau convolutif profond, entrainé à même les pixels, pour extraire des vecteurs de caractéristiques (features) qui encodent des régions de plusieurs résolutions, centrées sur chaque pixel. Cette méthode permet d'éviter l'usage de caractéristiques créées manuellement. Ces caractéristiques étant multi-échelle, elles permettent au modèle de capturer des relations locales et globales à la scène. En parallèle, un arbre de composants de segmentation est calculé à partir de graphe de dis-similarité des pixels. Les vecteurs de caractéristiques associés à chaque noeud de l'arbre sont agrégés, et utilisés pour entrainé un estimateur de la distribution des catégories d'objets présents dans ce segment. Un sous-ensemble des noeuds de l'arbre, couvrant l'image, est ensuite sélectionné de façon à maximiser la pureté moyenne des distributions de classes. En maximisant cette pureté, la probabilité que chaque composant ne contienne qu'un objet est maximisée. Le système global produit une précision record sur plusieurs benchmarks publics. Le calcul de réseaux convolutifs profonds ne dépend que de quelques opérateurs de base, qui sont particulièrement adaptés à une implémentation hardware dédiée. Dans la deuxième partie de cette thèse, je présente une architecture de processeur dataflow dédiée et optimisée pour le calcul de systèmes de vision à base de réseaux convolutifs--neuFlow--et un compilateur--luaFlow--dont le rôle est de compiler une description haut-niveau (type graphe) de réseaux convolutifs pour produire un flot de données et calculs optimal pour l'architecture. Ce système a été développé pour faire de la détection, catégorisation et localisation d'objets en temps réel, dans des scènes complexes, en ne consommant que 10 Watts, avec une implémentation FPGA standard.
255

Sparsity, redundancy and robustness in artificial neural networks for learning and memory / Parcimonie, redondance et robustesse dans les réseaux de neurones artificiels pour l'apprentissage et la mémoire

Tigreat, Philippe 16 October 2017 (has links)
L'objectif de la recherche en Intelligence Artificielle (IA) est de répliquer les capacités cognitives humaines au moyen des ordinateurs modernes. Les résultats de ces dernières années semblent annoncer une révolution technologique qui pourrait changer profondément la société. Nous focalisons notre intérêt sur deux aspects cognitifs fondamentaux, l'apprentissage et la mémoire. Les mémoires associatives offrent la possibilité de stocker des éléments d'information et de les récupérer à partir d'une partie de leur contenu, et imitent ainsi la mémoire cérébrale. L'apprentissage profond permet de passer d'une perception analogique du monde extérieur à une représentation parcimonieuse et plus compacte. Dans le chapitre 2, nous présentons une mémoire associative inspirée des réseaux de Willshaw, avec une connectivité contrainte. Cela augmente la performance de récupération des messages et l'efficacité du stockage de l'information.Dans le chapitre 3, une architecture convolutive a été appliquée sur une tâche de lecture de mots partiellement affichés dans des conditions similaires à une étude de psychologie sur des sujets humains. Cette expérimentation montre la similarité de comportement du réseau avec les sujets humains concernant différentes caractéristiques de l'affichage des mots.Le chapitre 4 introduit une méthode de représentation des catégories par des assemblées de neurones dans les réseaux profonds. Pour les problèmes à grand nombre de classes, cela permet de réduire significativement les dimensions d'un réseau.Le chapitre 5 décrit une méthode d'interfaçage des réseaux de neurones profonds non supervisés avec les mémoires associatives à cliques. / The objective of research in Artificial Intelligence (AI) is to reproduce human cognitive abilities by means of modern computers. The results of the last few years seem to announce a technological revolution that could profoundly change society. We focus our interest on two fundamental cognitive aspects, learning and memory. Associative memories offer the possibility to store information elements and to retrieve them using a sub-part of their content, thus mimicking human memory. Deep Learning allows to transition from an analog perception of the outside world to a sparse and more compact representation.In Chapter 2, we present a neural associative memory model inspired by Willshaw networks, with constrained connectivity. This brings an performance improvement in message retrieval and a more efficient storage of information.In Chapter 3, a convolutional architecture was applied on a task of reading partially displayed words under similar conditions as in a former psychology study on human subjects. This experiment put inevidence the similarities in behavior of the network with the human subjects regarding various properties of the display of words.Chapter 4 introduces a new method for representing categories usingneuron assemblies in deep networks. For problems with a large number of classes, this allows to reduce significantly the dimensions of a network.Chapter 5 describes a method for interfacing deep unsupervised networks with clique-based associative memories.
256

Développement de la technique de scattérométrie neuronale dynamique / Development of artificial neuronal scatterometry for real time process control

El Kalioubi, Ismail 03 June 2015 (has links)
Avec une réduction de la taille des composants en constante progression, le domaine de la microélectronique, et d'une manière plus globale, le domaine de la nanofabrication se doit de posséder des outils de métrologie dimensionnelle performants. L'amélioration de points pertinents comme la rapidité, la précision et la répétabilité devrait permettre un suivi en temps réel de l'évolution des procédés et ainsi améliorer les rendements de production tout en limitant les pertes imputables aux dérives des procédés. Dans ce cadre, la scattérométrie, technique optique de métrologie dimensionnelle basée sur l'analyse de la lumière diffractée, a montré, suivant les cas, des capacités à répondre aux exigences des applications temps réel. Elle se décompose en une phase de mesure, effectuée par un dispositif expérimental (ellipsomètre dans notre cas) et une phase de résolution de problème inverse. La méthode utilisée pour traiter cette dernière phase conditionne la compatibilité avec le temps réel. La méthode des bibliothèques et une méthode utilisant des réseaux de neurones artificiels présentent les qualités requises. La première a déjà été validée pour le suivi d'un procédé de gravure en microélectronique et la seconde a été testée uniquement en statique à la suite d'une étape technologique. Cette thèse a pour but d'évaluer l'apport des réseaux de neurones en scattérométrie dynamique. Basée sur des critères qualitatifs et quantitatifs, cette étude souligne également la difficulté de comparer avec objectivité les différentes techniques de métrologie. Ces travaux dressent également une comparaison minutieuse de ces deux méthodes adaptées au temps réel afin d'en dégager les spécificités de fonctionnement. Enfin, la scattérométrie par l'approche des réseaux de neurones est étudiée dans le cas de la gravure de résine par plasma. En effet, il s'agit d'un procédé de fabrication en microélectronique pour lequel le contrôle in-situ est un enjeu important dans le futur. / The decrease of the components size has been widely witnessed in the past decades. Hence, microelectronic field, and more generally speaking, nanofabrication requires very efficient dimensional metrology tools. The improvement of relevant points like the speed, the accuracy and the repeatability of the tool will allow real time process monitoring and thus enhance the production yield while restricting the waste due to process drift. In this framework, scatterometry, an optical dimensional metrology technique based on the analysis of the diffracted light, has proven its ability to meet real time applications requirements. It is composed of a measuring phase, done by an experimental setup (ellipsometer in our case) and an inverse problem resolution phase. The chosen method used in order to process this last step determines the compatibility with real time. Library method and a method based on artificial neural networks possess the required qualifications. The first one has already been validated for etching process monitoring in microelectronics and the second one has been validated only on static cases after a technological step. This PhD involves assessing neural networks for dynamic scatterometry. Based on qualitative and quantitative criteria, this study underlines the difficulty of comparing different metrology techniques objectively. This work draws up a meticulous comparison of these two real time adapted methods in order to bring out their working specifications. Finally, scatterometry using neural networks is studied on a resist etching plasma case. In fact, this is a microelectronic fabrication process for which in-situ control is of an important concern in the future.
257

Evaluation et développement de modèles sous-maille pour la simulation des grandes échelles du mélange turbulent basés sur l'estimation optimale et l'apprentissage supervisé / Evaluation et development of subgrid scale models for large eddy simulation of mixing based on optimal estimator and machin learning

Vollant, Antoine 20 October 2015 (has links)
Dans ce travail, des méthodes de diagnostics et des techniques de développement de modèles sous-maille sont proposées pour la simulation des grandes échelles (SGE) du mélange turbulent. Plusieurs modèles sous-maille issus de ces stratégies sont ainsi présentés pour illustrer ces méthodes.Le principe de la SGE est de résoudre les grandes échelles de l'écoulement responsables des transferts principaux et de modéliser l'action des petites échelles de l'écoulement sur les échelles résolues. Au cours de ce travail, nous nous sommes appuyés sur le classement des modèles sous-maille en deux catégories. Les modèles "fonctionnels" qui s'attachent à reproduire les transferts énergétiques entre les échelles résolues et les échelles modélisées et les modèles "structurels" qui cherchent à bien reproduire le terme sous-maille. Le premier enjeu important a été d'évaluer la performance des modèles sous-maille en prenant en compte leur comportement à la fois fonctionnel (capacité à reproduire les transferts d'énergie) et structurel (capacité à reproduire le terme sous-maille exact). Des diagnosctics des modèles sous-maille ont pu être conduits avec l'utilisation de la notion d'estimateur optimal ce qui permet de connaitre le potentiel d'amélioration structurelle des modèles. Ces principes ont dans un premier temps servi au développement d'une première famille de modèles sous-maille algébrique appelée DRGM pour "Dynamic Regularized Gradient Model". Cette famille de modèles s'appuie sur le diagnostic structurel des termes issus de la régularisation des modèles de la famille du gradient. D'après les tests menés, cette nouvelle famille de modèle structurel a de meilleures performances fonctionnelles et structurelles que les modèles de la famille du gradient. L'amélioration des performances fonctionnelles consiste à supprimer la prédiction excessive de transferts inverses d'énergie (backscatter) observés dans les modèles de la famille du gradient. Cela permet ainsi de supprimer le comportement instable classiquement observé pour cette famille de modèles. La suite de ce travail propose ensuite d'utiliser l'estimateur optimal directement comme modèle sous-maille. Comme l'estimateur optimal fournit le modèle ayant la meilleure performance structurelle pour un jeu de variables donné, nous avons recherché le jeu de variable optimisant cette performance. Puisque ce jeu comporte un nombre élevé de variables, nous avons utilisé les fonctions d'approximation de type réseaux de neurones pour estimer cet estimateur optimal. Ce travail a mené au nouveau modèle substitut ANNM pour "Artificial Neural Network Model". Ces fonctions de substitution se construisent à partir de bases de données servant à émuler les termes exacts nécessaire à la détermination de l'estimateur optimal. Les tests de ce modèle ont montré qu'il avait de très bonnes perfomances pour des configurations de simulation peu éloignées de la base de données servant à son apprentissage, mais qu'il pouvait manquer d'universalité. Pour lever ce dernier verrou, nous avons proposé une utilisation hybride des modèles algébriques et des modèles de substitution à base de réseaux de neurones. La base de cette nouvelle famille de modèles ACM pour "Adaptative Coefficient Model" s'appuie sur les décompositions vectorielles et tensorielles des termes sous-maille exacts. Ces décompositions nécessitent le calcul de coefficients dynamiques qui sont modélisés par les réseaux de neurones. Ces réseaux bénéficient d'une méthode d'apprentissage permettant d'optimiser directement les performances structurelles et fonctionnelles des modèles ACM. Ces modèles hybrides allient l'universalité des modèles algébriques avec la performance élevée mais spécialisée des fonctions de substitution. Le résultat conduit à des modèles plus universels que l'ANNM. / This work develops subgrid model techniques and proposes methods of diagnosis for Large Eddy Simulation (LES) of turbulent mixing.Several models from these strategies are thus presented to illustrate these methods.The principle of LES is to solve the largest scales of the turbulent flow responsible for major transfers and to model the action of small scales of flowon the resolved scales. Formally, this operation leads to filter equations describing turbulent mixing. Subgrid terms then appear and must bemodeled to close the equations. In this work, we rely on the classification of subgrid models into two categories. "Functional" models whichreproduces the energy transfers between the resolved scales and modeled scales and "Structural" models that seek to reproduce the exact subgrid termitself. The first major challenge is to evaluate the performance of subgrid models taking into account their functional behavior (ability to reproduce theenergy transfers) and structural behaviour (ability to reproduce the term subgrid exactly). Diagnostics of subgrid models have been enabled with theuse of the optimal estimator theory which allows the potential of structural improvement of the model to be evaluated.These methods were initially involved for the development of a first family of models called algebraic subgrid $DRGM$ for "Dynamic Regularized GradientModel". This family of models is based on the structural diagnostic of terms given by the regularization of the gradient model family.According to the tests performed, this new structural model's family has better functional and structural performance than original model's family of thegradient. The improved functional performance is due to the vanishing of inverse energy transfer (backscatter) observed in models of thegradient family. This allows the removal of the unstable behavior typically observed for this family of models.In this work, we then propose the use of the optimal estimator directly as a subgrid scale model. Since the optimal estimator provides the modelwith the best structural performance for a given set of variables, we looked for the set of variables which optimize that performance. Since this set of variablesis large, we use surrogate functions of artificial neural networks type to estimate the optimal estimator. This leads to the "Artificial Neural Network Model"(ANNM). These alternative functions are built from databases in order to emulate the exact terms needed to determine the optimal estimator. The tests of this modelshow that he it has very good performance for simulation configurations not very far from its database used for learning, so these findings may fail thetest of universality.To overcome this difficulty, we propose a hybrid method using an algebraic model and a surrogate model based on artificial neural networks. Thebasis of this new model family $ACM$ for "Adaptive Coefficient Model" is based on vector and tensor decomposition of the exact subgrid terms. Thesedecompositions require the calculation of dynamic coefficients which are modeled by artificial neural networks. These networks have a learning method designedto directlyoptimize the structural and functional performances of $ACM$. These hybrids models combine the universality of algebraic model with high performance butvery specialized performance of surrogate models. The result give models which are more universal than ANNM.
258

Le mouvement en action : estimation du flot optique et localisation d'actions dans les vidéos / Motion in action : optical flow estimation and action localization in videos

Weinzaepfel, Philippe 23 September 2016 (has links)
Avec la récente et importante croissance des contenus vidéos, la compréhension automatique de vidéos est devenue un problème majeur.Ce mémoire présente plusieurs contributions sur deux tâches de la compréhension automatique de vidéos : l'estimation du flot optique et la localisation d'actions humaines.L'estimation du flot optique consiste à calculer le déplacement de chaque pixel d'une vidéo et fait face à plusieurs défis tels que les grands déplacements non rigides, les occlusions et les discontinuités du mouvement.Nous proposons tout d'abord une méthode pour le calcul du flot optique, basée sur un modèle variationnel qui incorpore une nouvelle méthode d'appariement.L'algorithme d'appariement proposé repose sur une architecture corrélationnelle hiérarchique à plusieurs niveaux et gère les déformations non rigides ainsi que les textures répétitives.Il permet d'améliorer l'estimation du flot en présence de changements d'apparence significatifs et de grands déplacements.Nous présentons également une nouvelle approche pour l'estimation du flot optique basée sur une interpolation dense de correspondances clairsemées tout en respectant les contours.Cette méthode tire profit d'une distance géodésique basée sur les contours qui permet de respecter les discontinuités du mouvement et de gérer les occlusions.En outre, nous proposons une approche d'apprentissage pour détecter les discontinuités du mouvement.Les motifs de discontinuité du mouvement sont prédits au niveau d'un patch en utilisant des forêts aléatoires structurées.Nous montrons expérimentalement que notre approche surclasse la méthode basique construite sur le gradient du flot tant sur des données synthétiques que sur des vidéos réelles.Nous présentons à cet effet une base de données contenant des vidéos d'utilisateurs.La localisation d'actions humaines consiste à reconnaître les actions présentes dans une vidéo, comme `boire' ou `téléphoner', ainsi que leur étendue temporelle et spatiale.Nous proposons tout d'abord une nouvelle approche basée sur les réseaux de neurones convolutionnels profonds.La méthode passe par l'extraction de tubes dépendants de la classe à détecter, tirant parti des dernières avancées en matière de détection et de suivi.La description des tubes est enrichie par des descripteurs spatio-temporels locaux.La détection temporelle est effectuée à l'aide d'une fenêtre glissante à l'intérieur de chaque tube.Notre approche surclasse l'état de l'art sur des bases de données difficiles de localisation d'actions.Deuxièmement, nous présentons une méthode de localisation d'actions faiblement supervisée, c'est-à-dire qui ne nécessite pas l'annotation de boîtes englobantes.Des candidats de localisation d'actions sont calculés en extrayant des tubes autour des humains.Cela est fait en utilisant un détecteur d'humains robuste aux poses inhabituelles et aux occlusions, appris sur une base de données de poses humaines.Un rappel élevé est atteint avec seulement quelques tubes, permettant d'appliquer un apprentissage à plusieurs instances.En outre, nous présentons une nouvelle base de données pour la localisation d'actions humaines.Elle surmonte les limitations des bases existantes, telles la diversité et la durée des vidéos.Notre approche faiblement supervisée obtient des résultats proches de celles totalement supervisées alors qu'elle réduit significativement l'effort d'annotations requis. / With the recent overwhelming growth of digital video content, automatic video understanding has become an increasingly important issue.This thesis introduces several contributions on two automatic video understanding tasks: optical flow estimation and human action localization.Optical flow estimation consists in computing the displacement of every pixel in a video andfaces several challenges including large non-rigid displacements, occlusions and motion boundaries.We first introduce an optical flow approach based on a variational model that incorporates a new matching method.The proposed matching algorithm is built upon a hierarchical multi-layer correlational architecture and effectively handles non-rigid deformations and repetitive textures.It improves the flow estimation in the presence of significant appearance changes and large displacements.We also introduce a novel scheme for estimating optical flow based on a sparse-to-dense interpolation of matches while respecting edges.This method leverages an edge-aware geodesic distance tailored to respect motion boundaries and to handle occlusions.Furthermore, we propose a learning-based approach for detecting motion boundaries.Motion boundary patterns are predicted at the patch level using structured random forests.We experimentally show that our approach outperforms the flow gradient baseline on both synthetic data and real-world videos,including an introduced dataset with consumer videos.Human action localization consists in recognizing the actions that occur in a video, such as `drinking' or `phoning', as well as their temporal and spatial extent.We first propose a novel approach based on Deep Convolutional Neural Network.The method extracts class-specific tubes leveraging recent advances in detection and tracking.Tube description is enhanced by spatio-temporal local features.Temporal detection is performed using a sliding window scheme inside each tube.Our approach outperforms the state of the art on challenging action localization benchmarks.Second, we introduce a weakly-supervised action localization method, ie, which does not require bounding box annotation.Action proposals are computed by extracting tubes around the humans.This is performed using a human detector robust to unusual poses and occlusions, which is learned on a human pose benchmark.A high recall is reached with only several human tubes, allowing to effectively apply Multiple Instance Learning.Furthermore, we introduce a new dataset for human action localization.It overcomes the limitations of existing benchmarks, such as the diversity and the duration of the videos.Our weakly-supervised approach obtains results close to fully-supervised ones while significantly reducing the required amount of annotations.
259

La structuration dans les entités nommées / Structuration in named entities

Dupont, Yoann 23 November 2017 (has links)
La reconnaissance des entités nommées et une discipline cruciale du domaine du TAL. Elle sert à l'extraction de relations entre entités nommées, ce qui permet la construction d'une base de connaissance (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc... Nous nous intéressons ici aux phénomènes de structurations qui les entourent.Nous distinguons ici deux types d'éléments structurels dans une entité nommée. Les premiers sont des sous-chaînes récurrentes, que nous appelerons les affixes caractéristiques d'une entité nommée. Le second type d'éléments est les tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l'algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l'extraction d'entités nommées du Français et d'adresses postales.Une autre forme de structuration pour les entités nommées est de nature syntaxique, qui suit généralement une structure d'imbrications ou arborée. Nous proposons un type de cascade d'étiqueteurs linéaires qui n'avait jusqu'à présent jamais été utilisé pour la reconnaissance d'entités nommées, généralisant les approches précédentes qui ne sont capables de reconnaître des entités de profondeur finie ou ne pouvant modéliser certaines particularités des entités nommées structurées.Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients de chacune des méthodes. / Named entity recognition is a crucial discipline of NLP. It is used to extract relations between named entities, which allows the construction of knowledge bases (Surdeanu and Ji, 2014), automatic summary (Nobata et al., 2002) and so on. Our interest in this thesis revolves around structuration phenomena that surround them.We distinguish here two kinds of structural elements in named entities. The first one are recurrent substrings, that we will call the caracteristic affixes of a named entity. The second type of element is tokens with a good discriminative power, which we call trigger tokens of named entities. We will explain here the algorithm we provided to extract such affixes, which we will compare to Morfessor (Creutz and Lagus, 2005b). We will then apply the same algorithm to extract trigger tokens, which we will use for French named entity recognition and postal address extraction.Another form of structuration for named entities is of a syntactic nature. It follows an overlapping or tree structure. We propose a novel kind of linear tagger cascade which have not been used before for structured named entity recognition, generalising other previous methods that are only able to recognise named entities of a fixed depth or being unable to model certain characteristics of the structure. Ours, however, can do both.Throughout this thesis, we compare two machine learning methods, CRFs and neural networks, for which we will compare respective advantages and drawbacks.
260

Factored neural machine translation / Traduction automatique neuronale factorisée

García Martínez, Mercedes 27 March 2018 (has links)
La diversité des langues complexifie la tâche de communication entre les humains à travers les différentes cultures. La traduction automatique est un moyen rapide et peu coûteux pour simplifier la communication interculturelle. Récemment, laTraduction Automatique Neuronale (NMT) a atteint des résultats impressionnants. Cette thèse s'intéresse à la Traduction Automatique Neuronale Factorisé (FNMT) qui repose sur l'idée d'utiliser la morphologie et la décomposition grammaticale des mots (lemmes et facteurs linguistiques) dans la langue cible. Cette architecture aborde deux défis bien connus auxquelles les systèmes NMT font face. Premièrement, la limitation de la taille du vocabulaire cible, conséquence de la fonction softmax, qui nécessite un calcul coûteux à la couche de sortie du réseau neuronale, conduisant à un taux élevé de mots inconnus. Deuxièmement, le manque de données adéquates lorsque nous sommes confrontés à un domaine spécifique ou une langue morphologiquement riche. Avec l'architecture FNMT, toutes les inflexions des mots sont prises en compte et un vocabulaire plus grand est modélisé tout en gardant un coût de calcul similaire. De plus, de nouveaux mots non rencontrés dans les données d'entraînement peuvent être générés. Dans ce travail, j'ai développé différentes architectures FNMT en utilisant diverses dépendances entre les lemmes et les facteurs. En outre, j'ai amélioré la représentation de la langue source avec des facteurs. Le modèle FNMT est évalué sur différentes langues dont les plus riches morphologiquement. Les modèles à l'état de l'art, dont certains utilisant le Byte Pair Encoding (BPE) sont comparés avec le modèle FNMT en utilisant des données d'entraînement de petite et de grande taille. Nous avons constaté que les modèles utilisant les facteurs sont plus robustes aux conditions d'entraînement avec des faibles ressources. Le FNMT a été combiné avec des unités BPE permettant une amélioration par rapport au modèle FNMT entrainer avec des données volumineuses. Nous avons expérimenté avec dfférents domaines et nous avons montré des améliorations en utilisant les modèles FNMT. De plus, la justesse de la morphologie est mesurée à l'aide d'un ensemble de tests spéciaux montrant l'avantage de modéliser explicitement la morphologie de la cible. Notre travail montre les bienfaits de l'applicationde facteurs linguistiques dans le NMT. / Communication between humans across the lands is difficult due to the diversity of languages. Machine translation is a quick and cheap way to make translation accessible to everyone. Recently, Neural Machine Translation (NMT) has achievedimpressive results. This thesis is focus on the Factored Neural Machine Translation (FNMT) approach which is founded on the idea of using the morphological and grammatical decomposition of the words (lemmas and linguistic factors) in the target language. This architecture addresses two well-known challenges occurring in NMT. Firstly, the limitation on the target vocabulary size which is a consequence of the computationally expensive softmax function at the output layer of the network, leading to a high rate of unknown words. Secondly, data sparsity which is arising when we face a specific domain or a morphologically rich language. With FNMT, all the inflections of the words are supported and larger vocabulary is modelled with similar computational cost. Moreover, new words not included in the training dataset can be generated. In this work, I developed different FNMT architectures using various dependencies between lemmas and factors. In addition, I enhanced the source language side also with factors. The FNMT model is evaluated on various languages including morphologically rich ones. State of the art models, some using Byte Pair Encoding (BPE) are compared to the FNMT model using small and big training datasets. We found out that factored models are more robust in low resource conditions. FNMT has been combined with BPE units performing better than pure FNMT model when trained with big data. We experimented with different domains obtaining improvements with the FNMT models. Furthermore, the morphology of the translations is measured using a special test suite showing the importance of explicitly modeling the target morphology. Our work shows the benefits of applying linguistic factors in NMT.

Page generated in 0.0516 seconds