• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • 1
  • 1
  • Tagged with
  • 15
  • 15
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Localization of autonomous ground vehicles in dense urban environments

Himstedt, Marian 25 January 2011 (has links)
The localization of autonomous ground vehicles in dense urban environments poses a challenge. Applications in classical outdoor robotics rely on the availability of GPS systems in order to estimate the position. However, the presence of complex building structures in dense urban environments hampers a reliable localization based on GPS. Alternative approaches have to be applied In order to tackle this problem. This thesis proposes an approach which combines observations of a single perspective camera and odometry in a probabilistic framework. In particular, the localization in the space of appearance is addressed. First, a topological map of reference places in the environment is built. Each reference place is associated with a set of visual features. A feature selection is carried out in order to obtain distinctive reference places. The topological map is extended to a hybrid representation by the use of metric information from Geographic Information Systems (GIS) and satellite images. The localization is solved in terms of the recognition of reference places. A particle lter implementation incorporating this and the vehicle's odometry is presented. The proposed system is evaluated based on multiple experiments in exemplary urban environments characterized by high building structures and a multitude of dynamic objects.
12

Contributions to generic and affective visual concept recognition / Contribution à la reconnaissance de concepts visuels génériques et émotionnels

Liu, Ningning 22 November 2013 (has links)
Cette thèse de doctorat est consacrée à la reconnaissance de concepts visuels (VCR pour "Visual Concept Recognition"). En raison des nombreuses difficultés qui la caractérisent, cette tâche est toujours considérée comme l’une des plus difficiles en vision par ordinateur et reconnaissance de formes. Dans ce contexte, nous avons proposé plusieurs contributions, particulièrement dans le cadre d’une approche de reconnaissance multimodale combinant efficacement les informations visuelles et textuelles. Tout d’abord, nous avons étudié différents types de descripteurs visuels de bas-niveau sémantique pour la tâche de VCR incluant des descripteurs de couleur, de texture et de forme. Plus précisément, nous pensons que chaque concept nécessite différents descripteurs pour le caractériser efficacement pour permettre sa reconnaissance automatique. Ainsi, nous avons évalué l’efficacité de diverses représentations visuelles, non seulement globales comme la couleur, la texture et la forme, mais également locales telles que SIFT, Color SIFT, HOG, DAISY, LBP et Color LBP. Afin de faciliter le franchissement du fossé sémantique entre les descripteurs bas-niveau et les concepts de haut niveau sémantique, et particulièrement ceux relatifs aux émotions, nous avons proposé des descripteurs visuels de niveau intermédiaire basés sur l’harmonie visuelle et le dynamisme exprimés dans les images. De plus, nous avons utilisé une décomposition spatiale pyramidale des images pour capturer l’information locale et spatiale lors de la construction des descripteurs d’harmonie et de dynamisme. Par ailleurs, nous avons également proposé une nouvelle représentation reposant sur les histogrammes de couleur HSV en utilisant un modèle d’attention visuelle pour identifier les régions d’intérêt dans les images. Ensuite, nous avons proposé un nouveau descripteur textuel dédié au problème de VCR. En effet, la plupart des photos publiées sur des sites de partage en ligne (Flickr, Facebook, ...) sont accompagnées d’une description textuelle sous la forme de mots-clés ou de légende. Ces descriptions constituent une riche source d’information sur la sémantique contenue dans les images et il semble donc particulièrement intéressant de les considérer dans un système de VCR. Ainsi, nous avons élaboré des descripteurs HTC ("Histograms of Textual Concepts") pour capturer les liens sémantiques entre les concepts. L’idée générale derrière HTC est de représenter un document textuel comme un histogramme de concepts textuels selon un dictionnaire (ou vocabulaire), pour lequel chaque valeur associée à un concept est l’accumulation de la contribution de chaque mot du texte pour ce concept, en fonction d’une mesure de distance sémantique. Plusieurs variantes de HTC ont été proposées qui se sont révélées être très efficaces pour la tâche de VCR. Inspirés par la démarche de l’analyse cepstrale de la parole, nous avons également développé Cepstral HTC pour capturer à la fois l’information de fréquence d’occurrence des mots (comme TF-IDF) et les liens sémantiques entre concepts fournis par HTC à partir des mots-clés associés aux images. Enfin, nous avons élaboré une méthode de fusion (SWLF pour "Selective Weighted Later Fusion") afin de combiner efficacement différentes sources d’information pour le problème de VCR. Cette approche de fusion est conçue pour sélectionner les meilleurs descripteurs et pondérer leur contribution pour chaque concept à reconnaître. SWLF s’est révélé être particulièrement efficace pour fusion des modalités visuelles et textuelles, par rapport à des schémas de fusion standards. [...] / This Ph.D thesis is dedicated to visual concept recognition (VCR). Due to many realistic difficulties, it is still considered to be one of the most challenging problems in computer vision and pattern recognition. In this context, we have proposed some innovative contributions for the task of VCR, particularly in building multimodal approaches that efficiently combine visual and textual information. Firstly, we have proposed semantic features for VCR and have investigated the efficiency of different types of low-level visual features for VCR including color, texture and shape. Specifically, we believe that different concepts require different features to efficiently characterize them for the recognition. Therefore, we have investigated in the context of VCR various visual representations, not only global features including color, shape and texture, but also the state-of-the-art local visual descriptors such as SIFT, Color SIFT, HOG, DAISY, LBP, Color LBP. To help bridging the semantic gap between low-level visual features and high level semantic concepts, and particularly those related to emotions and feelings, we have proposed mid-level visual features based on the visual harmony and dynamism semantics using Itten’s color theory and psychological interpretations. Moreover, we have employed a spatial pyramid strategy to capture the spatial information when building our mid-level features harmony and dynamism. We have also proposed a new representation of color HSV histograms by employing a visual attention model to identify the regions of interest in images. Secondly, we have proposed a novel textual feature designed for VCR. Indeed, most of online-shared photos provide textual descriptions in the form of tags or legends. In fact, these textual descriptions are a rich source of semantic information on visual data that is interesting to consider for the purpose of VCR or multimedia information retrieval. We propose the Histograms of Textual Concepts (HTC) to capture the semantic relatedness of concepts. The general idea behind HTC is to represent a text document as a histogram of textual concepts towards a vocabulary or dictionary, whereas its value is the accumulation of the contribution of each word within the text document toward the underlying concept according to a predefined semantic similarity measure. Several variants of HTC have been proposed that revealed to be very efficient for VCR. Inspired by the Cepstral speech analysis process, we have also developed Cepstral HTC to capture both term frequency-based information (like TF-IDF) and the relatedness of semantic concepts in the sparse image tags, which overcomes the HTC’s shortcoming of ignoring term frequency-based information. Thirdly, we have proposed a fusion scheme to combine different sources of Later Fusion, (SWLF) is designed to select the best features and to weight their scores for each concept to be recognized. SWLF proves particularly efficient for fusing visual and textual modalities in comparison with some other standard fusion schemes. While a late fusion at score level is reputed as a simple and effective way to fuse features of different nature for machine-learning problems, the proposed SWLF builds on two simple insights. First, the score delivered by a feature type should be weighted by its intrinsic quality for the classification problem at hand. Second, in a multi-label scenario where several visual concepts may be assigned to an image, different visual concepts may require different features which best recognize them. In addition to SWLF, we also propose a novel combination approach based on Dempster-Shafer’s evidence theory, whose interesting properties allow fusing different ambiguous sources of information for visual affective recognition. [...]
13

Localisation et détection de fermeture de boucle basées saillance visuelle : algorithmes et architectures matérielles / Localization and loop-closure detection based visual saliency : algorithms and hardware architectures

Birem, Merwan 12 March 2015 (has links)
Dans plusieurs tâches de la robotique, la vision est considérée comme l’élément essentiel avec lequel la perception de l’environnement ou l’interaction avec d’autres utilisateurs peut se réaliser. Néanmoins, les artefacts potentiellement présents dans les images capturées rendent la tâche de reconnaissance et d’interprétation de l’information visuelle extrêmement compliquée. Il est de ce fait, très important d’utiliser des primitives robustes, stables et ayant un taux de répétabilité élevé afin d’obtenir de bonnes performances. Cette thèse porte sur les problèmes de localisation et de détection de fermeture de boucle d’un robot mobile en utilisant la saillance visuelle. Les résultats en termes de précision et d’efficacité des applications de localisation et de détection de fermeture sont évalués et comparés aux résultats obtenus avec des approches de l’état de l’art sur différentes séquences d’images acquises en milieu extérieur. Le principal inconvénient avec les modèles proposés pour l’extraction de zones de saillance est leur complexité de calcul, ce qui conduit à des temps de traitement important. Afin d’obtenir un traitement en temps réel, nous présentons dans ce mémoire l’implémentation du détecteur de régions saillantes sur la plate forme reconfigurable DreamCam. / In several tasks of robotics, vision is considered to be the essential element by which the perception of the environment or the interaction with other users can be realized. However, the potential artifacts in the captured images make the task of recognition and interpretation of the visual information extremely complicated. It is therefore very important to use robust, stable and high repeatability rate primitives to achieve good performance. This thesis deals with the problems of localization and loop closure detection for a mobile robot using visual saliency. The results in terms of accuracy and efficiency of localization and closure detection applications are evaluated and compared to the results obtained with the approaches provided in literature, both applied on different sequences of images acquired in outdoor environnement. The main drawback with the models proposed for the extraction of salient regions is their computational complexity, which leads to significant processing time. To obtain a real-time processing, we present in this thesis also the implementation of the salient region detector on the reconfigurable platform DreamCam.
14

Získávání znalostí z multimediálních databází / Knowledge Discovery in Multimedia Databases

Málik, Peter January 2011 (has links)
This master"s thesis deals with the knowledge discovery in multimedia databases. It contains general principles of knowledge discovery in databases, especially methods of cluster analysis used for data mining in large and multidimensional databases are described here. The next chapter contains introduction to multimedia databases, focusing on the extraction of low level features from images and video data. The practical part is then an implementation of the methods BIRCH, DBSCAN and k-means for cluster analysis. Final part is dedicated to experiments above TRECVid 2008 dataset and description of achievements.
15

Fronto-parietal neural activity during multi-attribute decision-making

Nakahashi, Ayuno 01 1900 (has links)
Cette thèse examine deux modèles alternatifs de prises de décision motrice à travers des données comportementales humaines et des données électrophysiologiques de singes obtenues lors d'une tâche de décision multi-attributs. Les théories psychologiques classiques suggèrent que la prise de décision soit une fonction de l'exécutif central (EC). En accord avec cela, de nombreuses études ont montré des modulations neuronales concernant les décisions dans le cortex préfrontal (PFC), renforçant la notion que les décisions sont prises à un niveau abstrait dans l'exécutif central du cerveau : le PFC. Cependant, de telles corrélations neuronales se trouvent également dans les régions sensorimotrices, qui étaient traditionnellement considérées externes à l’EC. Cela a conduit à un modèle alternatif de prise de décision dans un EC, impliquant plusieurs zones cérébrales, y compris les zones exécutives et sensorimotrices. Ce second modèle suggère qu'une décision est prise lorsque les compétitions au sein et entre les aires cérébrales arrivent à une résolution, ce qui permet d'atteindre un consensus distribué (CD). L'objectif principal de cette thèse est de tester les prédictions faites par ces deux modèles. Pour ce faire, nous avons conçu une tâche d'atteinte basée sur la valeur d'attributs multiples et créé une situation dans laquelle les deux modèles font des prédictions neuronales distinctes. Dans cette tâche, deux attributs visuels indépendants indiquaient le montant de la récompense associé à chaque cible. L'un était un degré de luminosité, information ascendante (BU pour "bottom-up"), ciblant le réseau de saillance par le biais de la voie visuelle dorsale. L'autre était un indice d'orientation de ligne, information descendante (TD pour "top-down"), ciblant le réseau de catégorisation basé sur la connaissance par le biais de la voie visuelle ventrale. Nous avons effectué des enregistrements dans la région d’atteinte pariétale (PRR) et le cortex pré-moteur dorsal (PMd) du singe, dont les activités neuronales ont été précédemment impliquées comme étant modulées par des attributs BU et TD similaires. Dans la plupart des essais, les deux attributs étaient congruents – tous les deux favorisant la même cible. Cependant, un sous-ensemble d'essais avait des cibles avec la même valeur de récompense totale, mais où les deux attributs étaient en conflit (les caractéristiques BU et TD favorisant des cibles opposées). Le modèle de l'EC prédit que dans ce cas, l’activité neuronale la plus précoce doit apparaître dans une région exécutive et que les régions sensorimotrices doivent recevoir la diffusion de cette décision. Ainsi, ce modèle prédit que la différence du temps de réaction entre le PRR et le PMd sera constante, quelle que soit la manière dont la décision est prise. En revanche, le modèle CD prédit que l’intervalle de décision doit refléter le rôle d'une région dans la décision en cours. Plus précisément, si PRR et PMd font tous deux parties du réseau de décision distribué et jouent un rôle dans l'évaluation des attributs BU et TD, un choix en faveur de l'attribut BU devrait apparaître d'abord dans le PRR et par la suite dans le PMd, tandis qu'un choix en faveur de l'attribut TD devrait apparaître dans l'ordre inverse. Notre étude démontre que le temps de réaction des participants humains était plus rapide dans les essais congruents et lors de l'utilisation de l'information BU par rapport à l'utilisation de l'information TD. La distribution ne reflétait pas linéairement la complexité de l'attribut et semblait plutôt suggérer une intégration incomplète des informations disponibles. Ainsi, le résultat n'était pas entièrement explicable par un modèle d'EC pur. Le temps de réaction des participants était également plus rapide lorsqu'ils choisissaient entre deux options de grande valeur par rapport aux options de faible valeur, ce qui suggère que la loi de Weber ne s'applique pas aux attributs visuels indiquant des informations de valeur. La distribution du temps de réaction de notre premier singe était similaire à celle des participants humains. Sur le plan neuronal, l’intervalle de décision du PMd était presque toujours plus rapide que celle du PRR et le PRR ne précédait jamais le PMd; aussi, la différence de l’intervalle de décision entre ces régions n'était pas constante. Le PMd a montré un biais de base pré-stimulus dans les essais de choix libre, alors que ce n’était pas le cas pour le PRR. La distribution de l’intervalle de décision dans le PMd variait également en fonction des conditions d'essai, tandis que celle du PRR ne distinguait que les cibles uniques des cibles multiples. Une tendance similaire a été observée dans les analyses préliminaires des potentiels de champ locaux (LFP). Enfin, les résultats préliminaires suggèrent des effets plus cohérents de la micro-stimulation dans le PMd que dans le PRR. Nos résultats soutiennent le rôle causal du PMd, mais pas celui du PRR. Nos résultats sont cohérents avec les rapports précédents sur l'activité neuronale liée au choix dans les régions pariétales, car l'activité du PRR reflétait le choix du singe dans notre tâche. Nos résultats sont également cohérents avec d'autres études montrant l'absence de preuves du rôle causal des régions pariétales dans la prise de décision, car l'ordre relatif de l'activité prédictive du choix dans le PRR et le PMd ne variait pas entre les différentes conditions. À la lumière de ces deux modèles, nos résultats suggèrent une troisième alternative, qui inclut potentiellement le PMd en tant que partie du réseau de décision, mais pas le PRR. / This thesis examines two alternative models of action decisions through human behavioural and monkey electrophysiological data obtained during a multi-attribute decision task. Classic psychological theories suggest that decision-making is a function of the Central Executive (CE). In line with this, many studies showed neural correlates of decision variables in the prefrontal cortex (PFC), strengthening the notion that decisions are made at an abstract level in the brain’s central executive: PFC. However, such neural correlates are also found in sensorimotor areas, which were traditionally considered outside the CE. This has led to an alternative model to the decision making in a CE, involving multiple brain areas including both executive and sensorimotor areas. This second model suggests that a decision is made when competitions within and across brain areas come to a resolution, thus a Distributed Consensus (DC) is achieved. The main objective of this thesis is to test the predictions made by these two models. To do so, we designed a multi-attribute value-based reaching task, and created a situation in which the two models made distinct neural predictions. In this task, two independent visual attributes indicated the amount of reward associated with each reach target. One was a “bottom-up” (BU) brightness, targeting the saliency network through the dorsal visual pathway. The other was a “top-down” (TD) line orientation cue, targeting the knowledge-based categorization network through the ventral visual pathway. We recorded from monkey parietal reach region (PRR) and dorsal premotor cortex (PMd), whose activities have previously been implied to be modulated by similar BU and TD attributes. In most trials, the two attributes were congruent – both favoring the same target. However, a subset of trials consisted of a conflict between the two attributes (BU and TD features favoring opposite targets), but the targets had the same total reward values. Here, the CE model predicted that the earliest choice-predictive activity should appear in an executive region, and sensorimotor regions were expected to be receiving this decision broadcast. Thus, the model predicted the latency difference between PRR and PMd to be constant, regardless of how the decision is made. In contrast, the DC model predicted choice latency should reflect a region’s role in the ongoing decision. Specifically, if both PRR and PMd are part of the distributed decision network and play a role in evaluating the BU and TD attributes, a choice in favor of the BU attribute should appear first in PRR and then in PMd, whereas a choice in favor of the TD attribute should appear in the opposite order. We report that human participants’ reaction time (RT) was faster in congruent trials and when using the BU information compared to when using the TD information. The RT distribution did not linearly reflect the attribute complexity, and instead suggested an incomplete integration of available information. Thus, the result was not fully explainable with a pure CE model. Their RT was also faster when choosing between two high-valued options compared to low-valued options, suggesting that Weber-Fechner law does not apply to visual attributes that indicate value. Our first monkey’s RT distribution was similar to that of human participants. Neurally, choice latency of PMd was almost always faster than that of PRR and PRR never preceded PMd, and the latency difference between these regions was not consistent. PMd showed a pre-stimulus baseline bias in free-choice trials, whereas PRR did not. The distribution of choice latency in PMd also varied with trial conditions, whereas that of PRR only discriminated single versus multiple targets. A similar trend was seen in preliminary analyses of local field potentials. Finally, preliminary results suggest more consistent effects of microstimulation in PMd than in PRR. Our results support the causal role of PMd, but do not support that of PRR. This is consistent with previous reports of choice-related neural activity in the parietal regions, as PRR activity did reflect the monkey’s choice in our task. Our results are also consistent with other studies showing the absence of evidence for parietal regions’ causal role in decision-making, as the relative order of choice-predictive activity in PRR and PMd did not vary between different conditions. In light of the two models, our results suggest a third alternative, which potentially includes PMd, but not PRR, as part of the decision network.

Page generated in 0.0494 seconds