11 |
Posicionamento de múltiplos objetos a partir de visão estéreoVasquez, Ximena Mariel Zeballos January 2015 (has links)
Made available in DSpace on 2015-11-14T01:06:09Z (GMT). No. of bitstreams: 1
000476062-Texto+Completo-0.pdf: 11312926 bytes, checksum: 32b5c8685befd12b44da93360c230661 (MD5)
Previous issue date: 2015 / The following study is about the estimation of three-dimensional position of multiple objects captured in images in a stereo vision setting. The mathematical formalism begins with the representation of motion in Euclidean space. After that, the projection of the images is performed in an ideal camera perspective using homogeneous coordinates. This results in the intrinsic and extrinsic parameters, which are part of the camera calibration. From that, stereo vision is used to obtain three-dimensional position of objects that are captured in the images from two cameras. Thus, depths of various objects are obtained to reconstruct their positions. The validation of the proposed algorithms are made through an experiment built for this purpose. This experiment uses two cameras with semi-parallel views to the center. In the center of the environment there is a gimbal platform, which performs a uniform motion. Above, there is a plan with three white dots, simulating the objects position. This motion captures two images, which are processed by the proposed algorithm. The validation consists in making a comparison between the orientation planes of the gimbal servomotors and reconstruction objects. / Este trabalho trata da estimação da posição tridimensional de múltiplos objetos a partir de imagens capturadas em um ambiente de visão estéreo. O formalismo matemático utilizado no projeto do sistema de visão estéreo inicia-se com a representação de cenário, levando todo o ambiente para um espaço euclidiano, também chamado de representação em três dimensões. Depois de representar o espaço euclidiano no sistema de visão estéreo, leva-se esse formalismo às projeções das imagens numa perspectiva da câmera ideal em coordenadas homogêneas, das quais se obtém a câmera com parâmetros intrínsecos e extrínsecos. A partir disso, utilizam-se os conceitos de visão estéreo e triangularização entre as câmeras para calcular a profundidade dos diversos objetos presentes no cenário. Assim, a reconstrução tridimensional da imagem é obtida. A validação dos algoritmos propostos é feita através de um experimento construído especialmente para o sistema de visão estéreo, em que foram colocadas duas câmeras com vistas semiparalelas em um ambiente, sendo também adicionada uma plataforma do tipo gimbal movimentando-se em três dimensões. Acima dessa, é colocado um plano com três pontos (marcadores), os quais simulam o movimento de três objetos. A partir daí, são capturadas duas imagens a serem processadas mediante os algoritmos propostos, resultando na reconstrução dos pontos no espaço tridimensional. O processo de validação se dá através da comparação entre as orientações dos planos fornecidos pelo algoritmo proposto e pelos comandos dos servomotores do gimbal.
|
12 |
Análise comparativa de algoritmos de correlação local baseados em intensidade luminosa. / Comparative analysis of intensity based local correlation algorithm.Claudio Massumi Oda Nishimura 05 May 2008 (has links)
Este trabalho apresentou uma análise comparativa de algumas técnicas de correlações locais baseadas em intensidade luminosa, as quais são: Soma das Diferenças Absolutas, Soma dos Quadrados das Diferenças, Correlação Cruzada Normalizada, Transformada Rank e Transformada Censo. Para as comparações foram adotadas imagens estéreos disponíveis em repositórios de universidades e suas variantes com a inclusão de ruído e variação de intensidade luminosa. Após a implementação dos algoritmos escolhidos e a comparação de seus resultados, foi obtido que a Transformada Censo é um dos métodos com os piores resultados apresentando grande quantidade de correlações erradas. Foram apresentadas modificações para melhorar a performance desse método e os resultados obtidos foram melhores. / This work presents a comparative analysis of some local area intensity based correlation algorithm, which are: Sum of Absolute Differences, Sum of Squared Differences, Normalized Cross-Correlation, Rank Transform and Census Transform. For the tests stereo data sets are adopted. These data sets are available at universities websites and their variants with the inclusion of noise and variation of luminosity are created. After implementing the chosen algorithms a comparison were performed and the Census Transform was one of the methods that got the worst results showing large quantity of false correlations. On this work was presented some modifications to improve the performance of the Census Transform and the results obtained were better than the original Census Transform.
|
13 |
Janela 3D: uma ferramenta de telecomunicação visual sensível ao ponto de vista do usuário. / 3D window: an user\'s viewpoint sensible visual telecommunication tool.Lucas Padovani Trias 19 June 2009 (has links)
Sistemas de teleconferência e telepresença são ferramentas de comunicação cada vez mais comuns. Partindo da existência de um canal de comunicação de alta capacidade, busca-se permitir visualização tridimensional realista, sensível ao ponto de vista do usuário e que mantenha a estrutura física da cena sem conhecimento prévio de sua estrutura, por meio de câmeras estéreo. A partir de pares de imagens temporalmente coerentes são sintetizadas visões intermediárias da cena alvo, de modo que um usuário rastreado tenha a ilusão de estar vendo a cena real através de uma janela. O sistema implementado baseia-se em dispositivos que provejam melhor qualidade visual no componente de geração de imagens intermediárias e procura maximizar a facilidade de uso na parte de visualização, empregando dispositivos domésticos e dispensando procedimentos complexos de calibração. / Teleconference and telepresence systems are increasingly common. Based on the existence of a high capacity communication channel, it is aimed to provide user\'s point of view sensible realistic 3D visualization without physical distortion or any prior knowledge about the structure of the scene, using stereo cameras. Pairs of temporally coherent images are used to generate intermediary view of the target scene so that a tracked user will have the illusion of posing in front so the real scene. The implemented system is based on high visual quality components on the side of views generation and tries to maximize ease of use in the visualization part by using commodity components and being free so complex calibration procedures.
|
14 |
Navigability estimation for autonomous vehicles using machine learning / Estimação de navegabilidade para veículos autônomos usando aprendizado de máquinaMendes, Caio César Teodoro 08 June 2017 (has links)
Autonomous navigation in outdoor, unstructured environments is one of the major challenges presents in the robotics field. One of its applications, intelligent autonomous vehicles, has the potential to decrease the number of accidents on roads and highways, increase the efficiency of traffic on major cities and contribute to the mobility of the disabled and elderly. For a robot/vehicle to safely navigate, accurate detection of navigable areas is essential. In this work, we address the task of visual road detection where, given an image, the objective is to classify its pixels into road or non-road. Instead of trying to manually derive an analytical solution for the task, we have used machine learning (ML) to learn it from a set of manually created samples. We have applied both traditional (shallow) and deep ML models to the task. Our main contribution regarding traditional ML models is an efficient and versatile way to aggregate spatially distant features, effectively providing a spatial context to such models. As for deep learning models, we have proposed a new neural network architecture focused on processing time and a new neural network layer called the semi-global layer, which efficiently provides a global context for the model. All the proposed methodology has been evaluated in the Karlsruhe Institute of Technology (KIT) road detection benchmark, achieving, in all cases, competitive results. / A navegação autônoma em ambientes externos não estruturados é um dos maiores desafios no campo da robótica. Uma das suas aplicações, os veículos inteligentes autônomos, tem o potencial de diminuir o número de acidentes nas estradas e rodovias, aumentar a eficiência do tráfego nas grandes cidades e contribuir para melhoria da mobilidade de deficientes e idosos. Para que um robô/veículo navegue com segurança, uma detecção precisa de áreas navegáveis é essencial. Neste trabalho, abordamos a tarefa de detecção visual de ruas onde, dada uma imagem, o objetivo é classificar cada um de seus pixels em rua ou não-rua. Ao invés de tentar derivar manualmente uma solução analítica para a tarefa, usamos aprendizado de máquina (AM) para aprendê-la a partir de um conjunto de amostras criadas manualmente. Nós utilizamos tanto modelos tradicionais (superficiais) quanto modelos profundos para a tarefa. A nossa principal contribuição em relação aos modelos tradicionais é uma forma eficiente e versátil de agregar características espacialmente distantes, fornecendo efetivamente um contexto espacial para esses modelos. Quanto aos modelos de aprendizagem profunda, propusemos uma nova arquitetura de rede neural focada no tempo de processamento e uma nova camada de rede neural, chamada camada semi-global, que fornece eficientemente um contexto global ao modelo. Toda a metodologia proposta foi avaliada no benchmark de detecção de ruas do Instituto de Tecnologia de Karlsruhe, alcançando, em todos os casos, resultados competitivos.
|
15 |
Segmentação e reconhecimento de gestos em tempo real com câmeras e aceleração gráfica / Real-time segmentation and gesture recognition with cameras and graphical accelerationDantas, Daniel Oliveira 15 March 2010 (has links)
O objetivo deste trabalho é reconhecer gestos em tempo real apenas com o uso de câmeras, sem marcadores, roupas ou qualquer outro tipo de sensor. A montagem do ambiente de captura é simples, com apenas duas câmeras e um computador. O fundo deve ser estático, e contrastar com o usuário. A ausência de marcadores ou roupas especiais dificulta a tarefa de localizar os membros. A motivação desta tese é criar um ambiente de realidade virtual para treino de goleiros, que possibilite corrigir erros de movimentação, posicionamento e de escolha do método de defesa. A técnica desenvolvida pode ser aplicada para qualquer atividade que envolva gestos ou movimentos do corpo. O reconhecimento de gestos começa com a detecção da região da imagem onde se encontra o usuário. Nessa região, localizamos as regiões mais salientes como candidatas a extremidades do corpo, ou seja, mãos, pés e cabeça. As extremidades encontradas recebem um rótulo que indica a parte do corpo que deve representar. Um vetor com as coordenadas das extremidades é gerado. Para descobrir qual a pose do usuário, o vetor com as coordenadas das suas extremidades é classificado. O passo final é a classificação temporal, ou seja, o reconhecimento do gesto. A técnica desenvolvida é robusta, funcionando bem mesmo quando o sistema foi treinado com um usuário e aplicado a dados de outro. / Our aim in this work is to recognize gestures in real time with cameras, without markers or special clothes. The capture environment setup is simple, uses just two cameras and a computer. The background must be static, and its colors must be different the users. The absence of markers or special clothes difficults the location of the users limbs. The motivation of this thesis is to create a virtual reality environment for goalkeeper training, but the technique can be applied in any activity that involves gestures or body movements. The recognition of gestures starts with the background subtraction. From the foreground, we locate the more proeminent regions as candidates to body extremities, that is, hands, feet and head. The found extremities receive a label that indicates the body part it may represent. To classify the users pose, the vector with the coordinates of his extremities is compared to keyposes and the best match is selected. The final step is the temporal classification, that is, the gesture recognition. The developed technique is robust, working well even when the system was trained with an user and applied to another users data.
|
16 |
Visual odometry: comparing a stereo and a multi-camera approach / Odometria visual: comparando métodos estéreo e multi-câmeraPereira, Ana Rita 25 July 2017 (has links)
The purpose of this project is to implement, analyze and compare visual odometry approaches to help the localization task in autonomous vehicles. The stereo visual odometry algorithm Libviso2 is compared with a proposed omnidirectional multi-camera approach. The proposed method consists of performing monocular visual odometry on all cameras individually and selecting the best estimate through a voting scheme involving all cameras. The omnidirectionality of the vision system allows the part of the surroundings richest in features to be used in the relative pose estimation. Experiments are carried out using cameras Bumblebee XB3 and Ladybug 2, fixed on the roof of a vehicle. The voting process of the proposed omnidirectional multi-camera method leads to some improvements relatively to the individual monocular estimates. However, stereo visual odometry provides considerably more accurate results. / O objetivo deste mestrado é implementar, analisar e comparar abordagens de odometria visual, de forma a contribuir para a localização de um veículo autônomo. O algoritmo de odometria visual estéreo Libviso2 é comparado com um método proposto, que usa um sistema multi-câmera omnidirecional. De acordo com este método, odometria visual monocular é calculada para cada câmera individualmente e, seguidamente, a melhor estimativa é selecionada através de um processo de votação que involve todas as câmeras. O fato de o sistema de visão ser omnidirecional faz com que a parte dos arredores mais rica em características possa sempre ser usada para estimar a pose relativa do veículo. Nas experiências são utilizadas as câmeras Bumblebee XB3 e Ladybug 2, fixadas no teto de um veículo. O processo de votação do método multi-câmera omnidirecional proposto apresenta melhorias relativamente às estimativas monoculares individuais. No entanto, a odometria visual estéreo fornece resultados mais precisos.
|
17 |
Construção de mapas de ambiente para navegação de robôs móveis com visão omnidirecional estéreo. / Map building for mobile robot navigation with omnidirectional stereo vision.Cláudia Cristina Ghirardello Deccó 23 April 2004 (has links)
O problema de navegação de robôs móveis tem sido estudado ao longo de vários anos, com o objetivo de se construir um robô com elevado grau de autonomia. O aumento da autonomia de um robô móvel está relacionado com a capacidade de aquisição de informações e com a automatização de tarefas, tal como a construção de mapas de ambiente. Sistemas de visão são amplamente utilizados em tarefas de robôs autônomos devido a grande quantidade de informação contida em uma imagem. Além disso, sensores omnidirecionais catadióptricos permitem ainda a obtenção de informação visual em uma imagem de 360º, dispensando o movimento da câmera em direções de interesse para a tarefa do robô. Mapas de ambiente podem ser construídos para a implementação de estratégias de navegações mais autônomas. Nesse trabalho desenvolveu-se uma metodologia para a construção de mapas para navegação, os quais são a representação da geometria do ambiente. Contém a informação adquirida por um sensor catadióptrico omnidirecional estéreo, construído por uma câmera e um espelho hiperbólico. Para a construção de mapas, os processos de alinhamento, correspondência e integração, são efetuados utilizando-se métricas de diferença angular e de distância entre os pontos. A partir da fusão dos mapas locais cria-se um mapa global do ambiente. O processo aqui desenvolvido para a construção do mapa global permite a adequação de algoritmos de planejamento de trajetória, estimativa de espaço livre e auto-localização, de maneira a obter uma navegação autônoma. / The problem of mobile robot navigation has been studied for many years, aiming at build a robot with an high degree of autonomy. The increase in autonomy of a mobile robot is related to its capacity of acquisition of information and the automation of tasks, such as the environment map building. In this aspect vision has been widely used due to the great amount of information in an image. Besides that catadioptric omnidirectional sensors allow to get visual information in a 360o image, discharging the need of camera movement in directions of interest for the robot task. Environment maps may be built for an implementation of strategies of more autonomous navigations. In this work a methodology is developed for building maps for robot navigations, which are the representation of the environment geometry. The map contains the information received by a stereo omnidirectional catadioptric sensor built by a camera and a hyperbolic mirror. For the map building, the processes of alignment, registration and integration are performed using metric of angular difference and distance between the points. From the fusion of local maps a global map of the environment is created. The method developed in this work for global map building allows to be coupled with algorithms of path planning, self-location and free space estimation, so that autonomous robot navigation can be obtained.
|
18 |
Construção de mapas de ambiente para navegação de robôs móveis com visão omnidirecional estéreo. / Map building for mobile robot navigation with omnidirectional stereo vision.Deccó, Cláudia Cristina Ghirardello 23 April 2004 (has links)
O problema de navegação de robôs móveis tem sido estudado ao longo de vários anos, com o objetivo de se construir um robô com elevado grau de autonomia. O aumento da autonomia de um robô móvel está relacionado com a capacidade de aquisição de informações e com a automatização de tarefas, tal como a construção de mapas de ambiente. Sistemas de visão são amplamente utilizados em tarefas de robôs autônomos devido a grande quantidade de informação contida em uma imagem. Além disso, sensores omnidirecionais catadióptricos permitem ainda a obtenção de informação visual em uma imagem de 360º, dispensando o movimento da câmera em direções de interesse para a tarefa do robô. Mapas de ambiente podem ser construídos para a implementação de estratégias de navegações mais autônomas. Nesse trabalho desenvolveu-se uma metodologia para a construção de mapas para navegação, os quais são a representação da geometria do ambiente. Contém a informação adquirida por um sensor catadióptrico omnidirecional estéreo, construído por uma câmera e um espelho hiperbólico. Para a construção de mapas, os processos de alinhamento, correspondência e integração, são efetuados utilizando-se métricas de diferença angular e de distância entre os pontos. A partir da fusão dos mapas locais cria-se um mapa global do ambiente. O processo aqui desenvolvido para a construção do mapa global permite a adequação de algoritmos de planejamento de trajetória, estimativa de espaço livre e auto-localização, de maneira a obter uma navegação autônoma. / The problem of mobile robot navigation has been studied for many years, aiming at build a robot with an high degree of autonomy. The increase in autonomy of a mobile robot is related to its capacity of acquisition of information and the automation" of tasks, such as the environment map building. In this aspect vision has been widely used due to the great amount of information in an image. Besides that catadioptric omnidirectional sensors allow to get visual information in a 360o image, discharging the need of camera movement in directions of interest for the robot task. Environment maps may be built for an implementation of strategies of more autonomous navigations. In this work a methodology is developed for building maps for robot navigations, which are the representation of the environment geometry. The map contains the information received by a stereo omnidirectional catadioptric sensor built by a camera and a hyperbolic mirror. For the map building, the processes of alignment, registration and integration are performed using metric of angular difference and distance between the points. From the fusion of local maps a global map of the environment is created. The method developed in this work for global map building allows to be coupled with algorithms of path planning, self-location and free space estimation, so that autonomous robot navigation can be obtained.
|
19 |
Visual odometry: comparing a stereo and a multi-camera approach / Odometria visual: comparando métodos estéreo e multi-câmeraAna Rita Pereira 25 July 2017 (has links)
The purpose of this project is to implement, analyze and compare visual odometry approaches to help the localization task in autonomous vehicles. The stereo visual odometry algorithm Libviso2 is compared with a proposed omnidirectional multi-camera approach. The proposed method consists of performing monocular visual odometry on all cameras individually and selecting the best estimate through a voting scheme involving all cameras. The omnidirectionality of the vision system allows the part of the surroundings richest in features to be used in the relative pose estimation. Experiments are carried out using cameras Bumblebee XB3 and Ladybug 2, fixed on the roof of a vehicle. The voting process of the proposed omnidirectional multi-camera method leads to some improvements relatively to the individual monocular estimates. However, stereo visual odometry provides considerably more accurate results. / O objetivo deste mestrado é implementar, analisar e comparar abordagens de odometria visual, de forma a contribuir para a localização de um veículo autônomo. O algoritmo de odometria visual estéreo Libviso2 é comparado com um método proposto, que usa um sistema multi-câmera omnidirecional. De acordo com este método, odometria visual monocular é calculada para cada câmera individualmente e, seguidamente, a melhor estimativa é selecionada através de um processo de votação que involve todas as câmeras. O fato de o sistema de visão ser omnidirecional faz com que a parte dos arredores mais rica em características possa sempre ser usada para estimar a pose relativa do veículo. Nas experiências são utilizadas as câmeras Bumblebee XB3 e Ladybug 2, fixadas no teto de um veículo. O processo de votação do método multi-câmera omnidirecional proposto apresenta melhorias relativamente às estimativas monoculares individuais. No entanto, a odometria visual estéreo fornece resultados mais precisos.
|
20 |
Navigability estimation for autonomous vehicles using machine learning / Estimação de navegabilidade para veículos autônomos usando aprendizado de máquinaCaio César Teodoro Mendes 08 June 2017 (has links)
Autonomous navigation in outdoor, unstructured environments is one of the major challenges presents in the robotics field. One of its applications, intelligent autonomous vehicles, has the potential to decrease the number of accidents on roads and highways, increase the efficiency of traffic on major cities and contribute to the mobility of the disabled and elderly. For a robot/vehicle to safely navigate, accurate detection of navigable areas is essential. In this work, we address the task of visual road detection where, given an image, the objective is to classify its pixels into road or non-road. Instead of trying to manually derive an analytical solution for the task, we have used machine learning (ML) to learn it from a set of manually created samples. We have applied both traditional (shallow) and deep ML models to the task. Our main contribution regarding traditional ML models is an efficient and versatile way to aggregate spatially distant features, effectively providing a spatial context to such models. As for deep learning models, we have proposed a new neural network architecture focused on processing time and a new neural network layer called the semi-global layer, which efficiently provides a global context for the model. All the proposed methodology has been evaluated in the Karlsruhe Institute of Technology (KIT) road detection benchmark, achieving, in all cases, competitive results. / A navegação autônoma em ambientes externos não estruturados é um dos maiores desafios no campo da robótica. Uma das suas aplicações, os veículos inteligentes autônomos, tem o potencial de diminuir o número de acidentes nas estradas e rodovias, aumentar a eficiência do tráfego nas grandes cidades e contribuir para melhoria da mobilidade de deficientes e idosos. Para que um robô/veículo navegue com segurança, uma detecção precisa de áreas navegáveis é essencial. Neste trabalho, abordamos a tarefa de detecção visual de ruas onde, dada uma imagem, o objetivo é classificar cada um de seus pixels em rua ou não-rua. Ao invés de tentar derivar manualmente uma solução analítica para a tarefa, usamos aprendizado de máquina (AM) para aprendê-la a partir de um conjunto de amostras criadas manualmente. Nós utilizamos tanto modelos tradicionais (superficiais) quanto modelos profundos para a tarefa. A nossa principal contribuição em relação aos modelos tradicionais é uma forma eficiente e versátil de agregar características espacialmente distantes, fornecendo efetivamente um contexto espacial para esses modelos. Quanto aos modelos de aprendizagem profunda, propusemos uma nova arquitetura de rede neural focada no tempo de processamento e uma nova camada de rede neural, chamada camada semi-global, que fornece eficientemente um contexto global ao modelo. Toda a metodologia proposta foi avaliada no benchmark de detecção de ruas do Instituto de Tecnologia de Karlsruhe, alcançando, em todos os casos, resultados competitivos.
|
Page generated in 0.0309 seconds