• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 273
  • 114
  • 22
  • 8
  • 6
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 456
  • 107
  • 92
  • 81
  • 78
  • 73
  • 57
  • 55
  • 55
  • 47
  • 45
  • 44
  • 44
  • 37
  • 37
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
351

Étude sur les représentations continues de mots appliquées à la détection automatique des erreurs de reconnaissance de la parole / A study of continuous word representations applied to the automatic detection of speech recognition errors

Ghannay, Sahar 20 September 2017 (has links)
Nous abordons, dans cette thèse, une étude sur les représentations continues de mots (en anglais word embeddings) appliquées à la détection automatique des erreurs dans les transcriptions de la parole. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection automatique des erreurs dans les transcriptions automatiques, en exploitant les word embeddings. L’exploitation des embeddings repose sur l’idée que la détection d’erreurs consiste à trouver les possibles incongruités linguistiques ou acoustiques au sein des transcriptions automatiques. L’intérêt est donc de trouver la représentation appropriée du mot qui permet de capturer des informations pertinentes pour pouvoir détecter ces anomalies. Notre contribution dans le cadre de cette thèse porte sur plusieurs axes. D’abord, nous commençons par une étude préliminaire dans laquelle nous proposons une architecture neuronale capable d’intégrer différents types de descripteurs, y compris les embeddings. Ensuite, nous nous focalisons sur une étude approfondie des représentations continues de mots. Cette étude porte d’une part sur l’évaluation de différents types d’embeddings linguistiques puis sur leurs combinaisons. D’autre part, elle s’intéresse aux embeddings acoustiques de mots. Puis, nous présentons une étude sur l’analyse des erreurs de classifications, qui a pour objectif de percevoir les erreurs difficiles à détecter.Finalement, nous exploitons les embeddings linguistiques et acoustiques ainsi que l’information fournie par notre système de détections d’erreurs dans plusieurs cadres applicatifs. / My thesis concerns a study of continuous word representations applied to the automatic detection of speech recognition errors. Our study focuses on the use of a neural approach to improve ASR errors detection, using word embeddings. The exploitation of continuous word representations is motivated by the fact that ASR error detection consists on locating the possible linguistic or acoustic incongruities in automatic transcriptions. The aim is therefore to find the appropriate word representation which makes it possible to capture pertinent information in order to be able to detect these anomalies. Our contribution in this thesis concerns several initiatives. First, we start with a preliminary study in which we propose a neural architecture able to integrate different types of features, including word embeddings. Second, we propose a deep study of continuous word representations. This study focuses on the evaluation of different types of linguistic word embeddings and their combination in order to take advantage of their complementarities. On the other hand, it focuses on acoustic word embeddings. Then, we present a study on the analysis of classification errors, with the aim of perceiving the errors that are difficult to detect. Perspectives for improving the performance of our system are also proposed, by modeling the errors at the sentence level. Finally, we exploit the linguistic and acoustic embeddings as well as the information provided by our ASR error detection system in several downstream applications.
352

Caractéristiques des langues et apprentissage de la lecture en langue première et en français langue seconde : perspective évolutive et comparative entre l'arabe et le portugais

Besse, Anne-Sophie 11 December 2007 (has links) (PDF)
Cette recherche interlangue a pour premier objectif d'analyser l'évolution des connaissances graphophonologiques, grapho-morphologiques et grapho-syntaxiques, implicites et explicites et la contribution de ces connaissances à la lecture en arabe vocalisé et en portugais langue première. Les résultats indiquent que les élèves de langue arabe se focalisent davantage sur la structure morpho- dérivationnelle en racine/schème que sur le marquage flexionnel, alors que les élèves de langue portugaise développent, non seulement une sensibilité phonologique à la rime et à la syllabe mais aussi de meilleures connaissances grapho-morpho-flexionnelles que grapho-morpho-dérivationnelles. Par ailleurs, si les connaissances morphologiques jouent un rôle sur la reconnaissance des mots écrits quelle que soit la langue, on remarque que ce sont celles les plus écontextualisées qui interviennent en arabe. La contribution des connaissances grapho-morpho-dérivationnelles à la compréhension de phrases en arabe souligne là encore l'importance de la morphologie dans cette langue écrite. Enfin, la compréhension en lecture apparaît plus dépendante des processus d'automatisation en portugais, du fait de l'opacité relative de son orthographe. Le deuxième objectif de ce travail est d'étudier le rôle des acquisitions de la lecture en langue première (arabe vs. portugais) sur l'apprentissage de la lecture en français langue seconde. Les comparaisons ont permis de conclure que le statut privilégié de la morphologie en arabe peut inciter les apprenants à porter attention à la structure interne des mots français pour les lire. En revanche, les similitudes entre le portugais et le français facilitent le développement de la sensibilité graphophonologique et amplifient la symétrie entre les habiletés de lecture de mots en L1 et en L2. Les profils de compréhension en français L2 et leur évolution sont également très différents entre arabophones et lusophones.
353

Information Digestion

Dias, Gaël 10 December 2010 (has links) (PDF)
The World Wide Web (WWW) is a huge information network within which searching for relevant quality contents remains an open question. The ambiguity of natural language is traditionally one of the main reasons, which prevents search engines from retrieving information according to users' needs. However, the globalized access to the WWW via Weblogs or social networks has highlighted new problems. Web documents tend to be subjective, they mainly refer to actual events to the detriment of past events and their ever growing number contributes to the well-known problem of information overload. In this thesis, we present our contributions to digest information in real-world heterogeneous text environments (i.e. the Web) thus leveraging users' efforts to encounter relevant quality information. However, most of the works related to Information Digestion deal with the English language fostered by freely available linguistic tools and resources, and as such, cannot be directly replicated for other languages. To overcome this drawback, two directions may be followed: on the one hand, building resources and tools for a given language, or on the other hand, proposing language-independent approaches. Within the context of this report, we will focus on presenting language-independent unsupervised methodologies to (1) extract implicit knowledge about the language and (2) understand the explicit information conveyed by real-world texts, thus allowing to reach Multilingual Information Digestion.
354

La reconnaissance visuelle des mots chez le dyslexique : implication des voies ventrale et dorsale

Mahé, Gwendoline 04 July 2013 (has links) (PDF)
L'objectif de ces travaux a été d'étudier, à partir des potentiels évoqués, l'implication des voies ventrale (qui sous-tend le traitement expert de l'écrit) et dorsale (qui sous-tend des processus phonologiques et attentionnels) lors de la reconnaissance visuelle des mots chez des adultes dyslexiques. Les spécificités des sujets dyslexiques ont été isolées en les comparant à deux groupes contrôles, appariés sur : l'âge (i.e., des lecteurs experts) et sur le niveau de lecture (i.e., des mauvais lecteurs). Les résultats montrent des déficits du traitement expert de l'écrit, phonologiques et de la détection du conflit spécifiques aux sujets dyslexiques. Nos données montrent aussi des déficits du traitement expert des mots familiers et d'orientation de l'attention communs aux sujets dyslexiques et mauvais lecteurs. Les résultats sont discutés dans le cadre du modèle LCD, de la théorie du mapping phonologique et d'une implication précoce de l'orientation attentionnelle dans la lecture.
355

La morphologie du pluriel nominal du persan d’après la théorie Whole Word Morphology

Faghiri, Pegah 08 1900 (has links)
Ce mémoire présente une étude de la morphologie de ce qui est généralement appelé le pluriel nominal du persan (parler de Téhéran) dans le cadre d’une théorie de la morphologie basée sur le mot : Whole Word Morphology, développée par Ford et Singh (1991). Ce modèle lexicaliste adopte une position plus forte que les modèles proposés par Aronoff (1976) et Anderson (1992) en n’admettant aucune opération morphologique sur des unités plus petites que le mot. Selon cette théorie, une description morphologique consiste en l’énumération des Stratégies de Formation de Mots (SFM), licencées chacunes par au moins deux paires de mots ayant la même covariation formelle et sémantique. Tous les SFM suit le même schéma. Nous avons répertorié 49 SFM regroupant les pluriels et les collectifs. Nous constatons qu’il est difficile de saisir le pluriel nominal du persan en tant que catégorie syntaxique et que les différentes « marques du pluriel » présentées dans la littérature ne constituent pas un ensemble homogène : elles partagent toutes un sens de pluralité qui cependant varie d’une interprétation référentielle à une interprétation collective non-référentielle. Cette étude vise la déscription de la compétence morphologique, ce qui ne dépend d’aucune considération extralinguistique. Nous argumentons notamment contre la dichotomie arabe/persan généralement admise dans la littérature. Nous avons également fourni des explications quant à la production des pluriels doubles et avons discuté de la variation supposée du fait d’un choix multiple de « marques du pluriel ». / This thesis presents a word-based study of what is generally called the nominal plural morphology of Persian (Tehrani dialect) within the framework of the Whole Word Morphology developed by Ford & Singh (1991). This lexicaliste model takes up a stronger position than that proposed by Aronoff (1976) and Anderson (1992), by not allowing any morphological operation on units smaller than the word. According to this theory a morphological description consist of the listing of the Word Formation Strategies (WFS), each licensed by at least two pairs of words having the same formal and semantic covariation. All WFS’s follow the same schema. We have listed 49 WFS’s of plurals and collectives. We note that it is difficult to understand the import of the plural nominal as a syntactic category in Persian and that different “marks of plural” presented in the literature do not make a homogeneous unity: they all share a plurality meaning but it varies from referential interpretation to collective and non-referential interpretation. This study’s aim is to describe the morphological competence, which does not depend on any extra-linguistic criteria. In particular, we argue against the generally admitted Arabic/Persian dichotomy. We also provide explanation with regards to the utterance of double plurals and to the variation assumed since more than one choice of “plural marks” are available.
356

Latéralisation hémisphérique et lecture : l’utilisation de l’information visuelle disponible en reconnaissance de mots par chaque hémisphère cérébral

Tadros, Karine 05 1900 (has links)
Dans le cadre de cette thèse, nous investiguons la capacité de chaque hémisphère cérébral à utiliser l’information visuelle disponible lors de la reconnaissance de mots. Il est généralement convenu que l’hémisphère gauche (HG) est mieux outillé pour la lecture que l’hémisphère droit (HD). De fait, les mécanismes visuoperceptifs utilisés en reconnaissance de mots se situent principalement dans l’HG (Cohen, Martinaud, Lemer et al., 2003). Puisque les lecteurs normaux utilisent optimalement des fréquences spatiales moyennes (environ 2,5 - 3 cycles par degré d’angle visuel) pour reconnaître les lettres, il est possible que l’HG les traite mieux que l’HD (Fiset, Gosselin, Blais et Arguin, 2006). Par ailleurs, les études portant sur la latéralisation hémisphérique utilisent habituellement un paradigme de présentation en périphérie visuelle. Il a été proposé que l’effet de l’excentricité visuelle sur la reconnaissance de mots soit inégal entre les hémichamps. Notamment, la première lettre est celle qui porte habituellement le plus d’information pour l’identification d’un mot. C’est aussi la plus excentrique lorsque le mot est présenté à l’hémichamp visuel gauche (HVG), ce qui peut nuire à son identification indépendamment des capacités de lecture de l’HD. L’objectif de la première étude est de déterminer le spectre de fréquences spatiales utilisé par l’HG et l’HD en reconnaissance de mots. Celui de la deuxième étude est d’explorer les biais créés par l’excentricité et la valeur informative des lettres lors de présentation en champs divisés. Premièrement, nous découvrons que le spectre de fréquences spatiales utilisé par les deux hémisphères en reconnaissance de mots est globalement similaire, même si l’HG requière moins d’information visuelle que l’HD pour atteindre le même niveau de performance. Étonnament toutefois, l’HD utilise de plus hautes fréquences spatiales pour identifier des mots plus longs. Deuxièmement, lors de présentation à l’HVG, nous trouvons que la 1re lettre, c’est à dire la plus excentrique, est parmi les mieux identifiées même lorsqu’elle a une plus grande valeur informative. Ceci est à l’encontre de l’hypothèse voulant que l’excentricité des lettres exerce un biais négatif pour les mots présentés à l’HVG. De façon intéressante, nos résultats suggèrent la présence d’une stratégie de traitement spécifique au lexique. / In this thesis, we investigate the cerebral hemispheres’ ability to use the available visual information for word recognition in lateral periphery. It is generally acknowledged that the left hemisphere (LH) is more able at reading than the right (RH). Accordingly, the visuoperceptual mechanisms of the brain for word recognition are primarily localized in the LH (Cohen, Martinaud, Lemer et al., 2003). As normal readers use medium spatial frequencies (about 2,5 – 3 cycles per degree of visual angle) to recognize words, it is possible that the LH is better tuned for processing these spatial frequencies than the RH (Fiset, Gosselin, Blais et Arguin, 2006). Furthermore, studies concerned with reading abilities in the cerebral hemispheres commonly present words in visual periphery. However, the effect of visual eccentricity on word recognition is thought to be unequal between hemifields, notably because the first letter in a word usually carries the most information for its accurate identification. It is also the most eccentric letter when a word is presented in the LVF, which may cause a negative bias for the identification of words presented to the LVF regardless of the actual reading capacities of the RH. The main objective of the first study is to determine the spatial frequency tuning functions of the LH and RH for word recognition. The goal of our second study is to explore letter identification biases for words presented to the left and right visual fields as a function of eccentricity by varying the information value of letter positions. Firstly, we discover that the spatial frequency tuning of both hemispheres is globally similar, even though the LH requires less visual information than the RH to reach the same level of performance. Surprisingly however, the RH requires higher spatial frequencies to identify longer words. Secondly, we find that for LVF displays, the first letter, i.e. the most eccentric, is among the most accurately identified, even when it has a greater information value. This argues against the hypothesis that letter eccentricity exerts a negative bias for words presented to the LVF. Interestingly, our findings also suggest a lexical-specific processing strategy.
357

Utilisation de représentations de mots pour l’étiquetage de rôles sémantiques suivant FrameNet

Léchelle, William 01 1900 (has links)
Dans la sémantique des cadres de Fillmore, les mots prennent leur sens par rapport au contexte événementiel ou situationnel dans lequel ils s’inscrivent. FrameNet, une ressource lexicale pour l’anglais, définit environ 1000 cadres conceptuels, couvrant l’essentiel des contextes possibles. Dans un cadre conceptuel, un prédicat appelle des arguments pour remplir les différents rôles sémantiques associés au cadre (par exemple : Victime, Manière, Receveur, Locuteur). Nous cherchons à annoter automatiquement ces rôles sémantiques, étant donné le cadre sémantique et le prédicat. Pour cela, nous entrainons un algorithme d’apprentissage machine sur des arguments dont le rôle est connu, pour généraliser aux arguments dont le rôle est inconnu. On utilisera notamment des propriétés lexicales de proximité sémantique des mots les plus représentatifs des arguments, en particulier en utilisant des représentations vectorielles des mots du lexique. / According to Frame Semantics (Fillmore 1976), word meanings are best understood considering the semantic frame they play a role in, for the frame is what gives them context. FrameNet is a lexical database that defines about 1000 semantic frames, along with the roles to be filled by arguments to the predicate calling the frame in a sentence. Our task is to automatically label argument roles, given their position, the frame, and the predicate (sometimes refered to as semantic role labelling). For this task, I make use of distributed word representations, in order to improve generalisation over the few training exemples available for each frame. A maximum entropy classifier using common features of the arguments is used as a strong baseline to be improved upon.
358

Traitement de l'information latérale au cours de l'apprentissage de la lecture : études comparatives chez l'apprenti lecteur / Lateral information processing in beginning reader : a comparative study

Khelifi, Rachid 10 December 2013 (has links)
Dans cette thèse, nous avons examiné chez des apprentis lecteurs le traitement de l'information latérale en lecture de mots isolés et le comportement oculomoteur en lecture de texte. Dans un premier groupe d'expériences, nous montrons que les apprentis lecteurs présentent une sensibilité à l'information latérale. Cette sensibilité dépend des caractéristiques de cette information (linguistique versus non linguistique) mais elle varie également selon le degré de difficulté associée au traitement de l'information centrale (mots fréquents versus mots peu fréquents). Le contrôle des ressources attentionnelles serait moins efficace chez les apprentis lecteurs que chez les lecteurs experts. Un deuxième groupe d'expériences met en évidence une amélioration de la capacité à traiter l'information latérale au cours de l'apprentissage de la lecture. Les résultats montrent également des différences qualitatives entre les lecteurs débutants et les lecteurs experts dans l'initiation des traitements lexicaux à partir de l'information parafovéale. Dans notre troisième groupe d'expériences, les résultats montrent qu'en lecture de texte, les apprentis lecteurs fixent plus longtemps les mots et les refixent également plus souvent que les lecteurs experts. Au fur et à mesure de l'apprentissage de la lecture, la taille des saccades s'accroît. De plus, les effets de la longueur des mots et de la fréquence sont plus importants chez les lecteurs de CE2 que chez les lecteurs de CM2 ou les lecteurs experts. Les différences développementales mises en évidence sont principalement liées à des facteurs cognitifs plutôt qu'à des facteurs oculomoteurs. / This thesis explore in beginning readers processing of lateral information in isolated reading task and eye movement in text reading. In a first serie of experiments, we show that beginning readers are sensitive to the lateral information. This sensitivity depends upon the difficulty of the central word that is under processing, but also upon the nature of the lateral information (linguistic versus non linguistic). Control of the visual attention could be less developped in beginning readers that in expert readers. In a second serie of experiments, our results indicate that increased reading skill goes hand in hand with the ability to extract more information from lateral vision. Differance are also evidenced between beginning readers and expert readers in the way initiation of the lexical processing from lateral information is achieve. In a third serie of experiments, results show that in text reading, beginning readers make shorter saccades, had higher fixation durations and higher refixation probabilities than in older or expert readers. Developmental differences that are evidenced are mainly linked to cognitive processes than oculomotor processes.
359

Pataudgrins, sylves griffues et nains gris : Une étude sur la traduction en français de Ronya fille debrigand d’Astrid Lindgren / A study of the French translation of Ronia, the Robber’s Daughter byAstrid Lindgren

Lilliestam, Susanne January 2017 (has links)
Ce mémoire est une étude traductologique du suédois au français, concernant les mots inventés par Astrid Lindgren dans Ronya fille de brigand et spécifiquement les invectives, les jurons et les êtres (personnages inventés). Nous avons étudié les stratégies utilisées par la traductrice (selon Vinay et Darbelnet), la proximité avec la langue source ou la langue cible et le problème spécifique de traduire un livre pour la jeunesse du suédois au français. Notre conclusion est que les stratégies sont parfois difficiles à cerner mais que ce sont surtout des stratégies indirectes, que le texte est proche de la langue cible et qu’il y a un remplacement des mots inventés par des mots courants de la langue cible. Notre conclusion est que s’il n’existe pas une express ion identique dans la langue cible, il est probable que le traducteur remplace l’expression en question par une expression courante. / This essay is a translation study from Swedish to French concerning the invented words by Astrid Lindgren in Ronia, the Robber’s Daughter, in particular the swear words, invectives and spirits (invented figures). Our study examines the strategies used by the translator according to Vinay and Darbelnet, the closeness to the source language or the target language and the specific problems when translating a book for children from Swedish to French. Our conclusion is that the strategies sometimes are difficult to encircle and that the indirect strategies are more frequent. We noticed also that the text, concerning these words, is closer to the target language and that there is a replacement of the invented words of more standard words in the target language. Our conclusion is that if it does not exist an identical expression in the target language, it is likely that the translator replaces this expression with a more common one.
360

Robot semantic place recognition based on deep belief networks and a direct use of tiny images / Robot de reconnaissance des lieux sémantiques basée sur l'architecture profonde et une utilisation directe de mini-images

Hasasneh, Ahmad 23 November 2012 (has links)
Il est généralement facile pour les humains de distinguer rapidement différents lieux en se basant uniquement sur leur aspect visuel. . Ces catégories sémantiques peuvent être utilisées comme information contextuelle favorisant la détection et la reconnaissance d'objets. Des travaux récents en reconnaissance des lieux visent à doter les robots de capacités similaires. Contrairement aux travaux classiques, portant sur la localisation et la cartographie, cette tâche est généralement traitée comme un problème d'apprentissage supervisé.La reconnaissance de lieux sémantiques - la capacité à reconnaître la catégorie sémantique à laquelle une scène appartient – peut être considérée comme une condition essentielle en robotique autonome. Un robot autonome doit en effet pouvoir apprendre facilement l'organisation sémantique de son environnement pour pouvoir fonctionner et interagir avec succès. Pour atteindre cet objectif, différentes méthodes ont déjà été proposées. Certaines sont basées sur l'identification des objets comme une condition préalable à la reconnaissance des scènes, et d'autres fondées sur une description directe des caractéristiques de la scène. Si nous faisons l'hypothèse que les objets sont plus faciles à reconnaître quand la scène dans laquelle ils apparaissent est bien identifiée, la deuxième approche semble plus appropriée. Elle est cependant fortement dépendante de la nature des descripteurs d'images utilisées qui sont généralement dérivés empiriquement a partir des observations générales sur le codage d'images.En opposition avec ces propositions, une autre approche de codage des images, basée sur un point de vue plus théorique, a émergé ces dernières années. Les modèles d'extraction de caractéristiques fondés sur le principe de la minimisation d'une fonction d'énergie en relation avec un modèle statistique génératif expliquant au mieux les données, ont abouti à l'apparition des Machines de Boltzmann Restreintes (Rectricted Boltzmann Machines : RBMs) capables de coder une image comme la superposition d'un nombre limité de caractéristiques extraites à partir d'un plus grand alphabet. Il a été montré que ce processus peut être répété dans une architecture plus profonde, conduisant à une représentation parcimonieuse et efficace des données initiales dans l'espace des caractéristiques. Le problème complexe de la classification dans l'espace de début est ainsi remplacé par un problème plus simple dans l'espace des caractéristiques.Dans ce travail, nous montrons que la reconnaissance sémantiques des lieux peut être réalisée en considérant des mini-images au lieu d'approches plus classiques de type ''sacs-de-mots'' et par l'utilisation de réseaux profonds pour le codage des images. Après avoir realisé un codage approprié, une régression softmax dans l'espace de projection est suffisante pour obtenir des résultats de classification prometteurs. A notre connaissance, cette approche n'a pas encore été proposée pour la reconnaissance de scène en robotique autonome.Nous avons comparé nos méthodes avec les algorithmes de l'état-de-l'art en utilisant une base de données standard de localisation de robot. Nous avons étudié l'influence des paramètres du système et comparé les différentes conditions sur la même base de données. Les expériences réalisées montrent que le modèle que nous proposons, tout en étant très simple, conduit à des résultats comparables à l'état-de-l'art sur une tâche de reconnaissance de lieux sémantiques. / Usually, human beings are able to quickly distinguish between different places, solely from their visual appearance. This is due to the fact that they can organize their space as composed of discrete units. These units, called ``semantic places'', are characterized by their spatial extend and their functional unity. Such a semantic category can thus be used as contextual information which fosters object detection and recognition. Recent works in semantic place recognition seek to endow the robot with similar capabilities. Contrary to classical localization and mapping works, this problem is usually addressed as a supervised learning problem. The question of semantic places recognition in robotics - the ability to recognize the semantic category of a place to which scene belongs to - is therefore a major requirement for the future of autonomous robotics. It is indeed required for an autonomous service robot to be able to recognize the environment in which it lives and to easily learn the organization of this environment in order to operate and interact successfully. To achieve that goal, different methods have been already proposed, some based on the identification of objects as a prerequisite to the recognition of the scenes, and some based on a direct description of the scene characteristics. If we make the hypothesis that objects are more easily recognized when the scene in which they appear is identified, the second approach seems more suitable. It is however strongly dependent on the nature of the image descriptors used, usually empirically derived from general considerations on image coding.Compared to these many proposals, another approach of image coding, based on a more theoretical point of view, has emerged the last few years. Energy-based models of feature extraction based on the principle of minimizing the energy of some function according to the quality of the reconstruction of the image has lead to the Restricted Boltzmann Machines (RBMs) able to code an image as the superposition of a limited number of features taken from a larger alphabet. It has also been shown that this process can be repeated in a deep architecture, leading to a sparse and efficient representation of the initial data in the feature space. A complex problem of classification in the input space is thus transformed into an easier one in the feature space. This approach has been successfully applied to the identification of tiny images from the 80 millions image database of the MIT. In the present work, we demonstrate that semantic place recognition can be achieved on the basis of tiny images instead of conventional Bag-of-Word (BoW) methods and on the use of Deep Belief Networks (DBNs) for image coding. We show that after appropriate coding a softmax regression in the projection space is sufficient to achieve promising classification results. To our knowledge, this approach has not yet been investigated for scene recognition in autonomous robotics. We compare our methods with the state-of-the-art algorithms using a standard database of robot localization. We study the influence of system parameters and compare different conditions on the same dataset. These experiments show that our proposed model, while being very simple, leads to state-of-the-art results on a semantic place recognition task.

Page generated in 0.0375 seconds