41 |
Técnica para interação com mãos em superficies planares utilizando uma câmera RGB-D / A technique for hand interaction with planar surfaces using an RGB-D cameraWeber, Henrique January 2016 (has links)
Sistemas de Interação Humano-Computador baseados em toque são uma tecnologia disseminada em tablets, smartphones e notebooks. Trata-se de um grande avanço que aumenta a facilidade de comunicação e, ao mesmo tempo, diminui a necessidade de interfaces como mouse e teclado. Entretanto, a superfície de interação utilizada por esses sistemas normalmente é equipada com sensores para a captação dos movimentos realizados pelo usuário, o que impossibilita transformar uma superfície planar qualquer (uma mesa, por exemplo) em uma superfície de interação. Por outro lado, a popularização de sensores de profundidade a partir do lançamento do Microsoft Kinect propiciou o desenvolvimento de sistemas que adotam objetos do dia a dia como superfícies de interação. Nesta dissertação é proposta uma interface natural para interação com superfícies planares utilizando uma câmera RGB-D em posição descendente. Inicialmente, o plano de interação é localizado na nuvem de pontos 3D através de uma variação do algoritmo RANSAC com coerência temporal. Objetos acima do plano são segmentados a partir da transformada watershed baseada em uma função de energia que combina cor, profundidade e informação de confiança. A cor de pele é utilizada para isolar as mãos, e os dedos que interagem com o plano são identificados por um novo processo de esqueletonização 2D. Finalmente, as pontas dos dedos são rastreadas com o uso do algoritmo Húngaro, e o filtro de Kalman é usado para produzir trajetórias mais suaves. Para demonstrar a utilidade da técnica, foi desenvolvido um protótipo que permite ao usuário desenhar em uma superfície de forma natural e intuitiva. / Touch-based Human-Computer Interfaces (HCIs) are a widespread technology present in tablets, smartphones, and notebooks. This is a breakthrough which increases the ease of communication and at the same time reduces the need for interfaces such as mouse and keyboard. However, the interaction surface used by these systems is usually equipped with sensors to capture the movements made by the user, making it impossible to substitute this surface by any other such as a table, for example. On the other hand, the progress of commercial 3D depth sensing technologies in the past five years, having as a keystone Microsoft’s Kinect sensor, has increased the interest in 3D hand gesture recognition using depth data. In this dissertation, we present a natural Human-Computer Interface (HCI) for interaction with planar surfaces using a topdown RGB-D camera. Initially, the interaction plane is located in the 3D point cloud by using a variation of RANSAC with temporal coherence. Off-plane objects are segmented using the watershed transform based on an energy function that combines color, depth and confidence information. Skin color information is used to isolate the hand(s), and a novel 2D skeletonization process identifies the interaction fingers. Finally, the fingertips are tracked using the Hungarian algorithm, and a Kalman filter is applied to produce smoother trajectories. To demonstrate the usefulness of the technique, we also developed a prototype in which the user can draw on the surface using lines and sprays in a natural way.
|
42 |
Detecção e classificação de sinalização vertical de trânsito em cenários complexosHoelscher, Igor Gustavo January 2017 (has links)
A mobilidade é uma marca da nossa civilização. Tanto o transporte de carga quanto o de passageiros compartilham de uma enorme infra-estrutura de conexões operados com o apoio de um sofisticado sistema logístico. Simbiose otimizada de módulos mecânicos e elétricos, os veículos evoluem continuamente com a integração de avanços tecnológicos e são projetados para oferecer o melhor em conforto, segurança, velocidade e economia. As regulamentações organizam o fluxo de transporte rodoviário e as suas interações, estipulando regras a fim de evitar conflitos. Mas a atividade de condução pode tornar-se estressante em diferentes condições, deixando os condutores humanos propensos a erros de julgamento e criando condições de acidente. Os esforços para reduzir acidentes de trânsito variam desde campanhas de re-educação até novas tecnologias. Esses tópicos têm atraído cada vez mais a atenção de pesquisadores e indústrias para Sistemas de Transporte Inteligentes baseados em imagens. Este trabalho apresenta um estudo sobre técnicas de detecção e classificação de sinalização vertical de trânsito em imagens de cenários de tráfego complexos. O sistema de reconhecimento visual automático dos sinais destina-se a ser utilizado para o auxílio na atividade de direção de um condutor humano ou como informação para um veículo autônomo. Com base nas normas para sinalização viária, foram testadas duas abordagens para a segmentação de imagens e seleção de regiões de interesse. O primeiro, uma limiarização de cor em conjunto com Descritores de Fourier. Seu desempenho não foi satisfatório. No entanto, utilizando os seus princípios, desenvolveu-se um novo método de filtragem de cores baseado em Lógica Fuzzy que, juntamente com um algoritmo de seleção de regiões estáveis em diferentes tons de cinza (MSER), ganhou robustez à oclusão parcial e a diferentes condições de iluminação. Para classificação, duas Redes Neurais Convolucionais curtas são apresentadas para reconhecer sinais de trânsito brasileiros e alemães. A proposta é ignorar cálculos complexos ou features selecionadas manualmente para filtrar falsos positivos antes do reconhecimento, realizando a confirmação (etapa de detecção) e a classificação simultaneamente. A utilização de métodos do estado da arte para treinamento e otimização melhoraram a eficiência da técnica de aprendizagem da máquina. Além disso, este trabalho fornece um novo conjunto de imagens com cenários de tráfego em diferentes regiões do Brasil, contendo 2.112 imagens em resolução WSXGA+. As análises qualitativas são mostradas no conjunto de dados brasileiro e uma análise quantitativa com o conjunto de dados alemão apresentou resultados competitivos com outros métodos: 94% de acurácia na extração e 99% de acurácia na classificação. / Mobility is an imprint of our civilization. Both freight and passenger transport share a huge infrastructure of connecting links operated with the support of a sophisticated logistic system. As an optimized symbiosis of mechanical and electrical modules, vehicles are evolving continuously with the integration of technological advances and are engineered to offer the best in comfort, safety, speed and economy. Regulations organize the flow of road transportation machines and help on their interactions, stipulating rules to avoid conflicts. But driving can become stressing on different conditions, leaving human drivers prone to misjudgments and creating accident conditions. Efforts to reduce traffic accidents that may cause injuries and even deaths range from re-education campaigns to new technologies. These topics have increasingly attracted the attention of researchers and industries to Image-based Intelligent Transportation Systems. This work presents a study on techniques for detecting and classifying traffic signs in images of complex traffic scenarios. The system for automatic visual recognition of signs is intended to be used as an aid for a human driver or as input to an autonomous vehicle. Based on the regulations for road signs, two approaches for image segmentation and selection of regions of interest were tested. The first one, a color thresholding in conjunction with Fourier Descriptors. Its performance was not satisfactory. However, using its principles, a new method of color filtering using Fuzzy Logic was developed which, together with an algorithm that selects stable regions in different shades of gray (MSER), the approach gained robustness to partial occlusion and to different lighting conditions. For classification, two short Convolutional Neural Networks are presented to recognize both Brazilian and German traffic signs. The proposal is to skip complex calculations or handmade features to filter false positives prior to recognition, making the confirmation (detection step) and the classification simultaneously. State-of-the-art methods for training and optimization improved the machine learning efficiency. In addition, this work provides a new dataset with traffic scenarios in different regions of Brazil, containing 2,112 images in WSXGA+ resolution. Qualitative analyzes are shown in the Brazilian dataset and a quantitative analysis with the German dataset presented competitive results with other methods: 94% accuracy in extraction and 99% accuracy in the classification.
|
43 |
A framework for autonomous mission and guidance control of unmanned aerial vehicles based on computer vision techniquesBasso, Maik January 2018 (has links)
A computação visual é uma área do conhecimento que estuda o desenvolvimento de sistemas artificiais capazes de detectar e desenvolver a percepção do meio ambiente através de informações de imagem ou dados multidimensionais. A percepção visual e a manipulação são combinadas em sistemas robóticos através de duas etapas "olhar"e depois "movimentar-se", gerando um laço de controle de feedback visual. Neste contexto, existe um interesse crescimente no uso dessas técnicas em veículos aéreos não tripulados (VANTs), também conhecidos como drones. Essas técnicas são aplicadas para posicionar o drone em modo de vôo autônomo, ou para realizar a detecção de regiões para vigilância aérea ou pontos de interesse. Os sistemas de computação visual geralmente tomam três passos em sua operação, que são: aquisição de dados em forma numérica, processamento de dados e análise de dados. A etapa de aquisição de dados é geralmente realizada por câmeras e sensores de proximidade. Após a aquisição de dados, o computador embarcado realiza o processamento de dados executando algoritmos com técnicas de medição (variáveis, índice e coeficientes), detecção (padrões, objetos ou áreas) ou monitoramento (pessoas, veículos ou animais). Os dados processados são analisados e convertidos em comandos de decisão para o controle para o sistema robótico autônomo Visando realizar a integração dos sistemas de computação visual com as diferentes plataformas de VANTs, este trabalho propõe o desenvolvimento de um framework para controle de missão e guiamento de VANTs baseado em visão computacional. O framework é responsável por gerenciar, codificar, decodificar e interpretar comandos trocados entre as controladoras de voo e os algoritmos de computação visual. Como estudo de caso, foram desenvolvidos dois algoritmos destinados à aplicação em agricultura de precisão. O primeiro algoritmo realiza o cálculo de um coeficiente de reflectância visando a aplicação auto-regulada e eficiente de agroquímicos, e o segundo realiza a identificação das linhas de plantas para realizar o guiamento dos VANTs sobre a plantação. O desempenho do framework e dos algoritmos propostos foi avaliado e comparado com o estado da arte, obtendo resultados satisfatórios na implementação no hardware embarcado. / Cumputer Vision is an area of knowledge that studies the development of artificial systems capable of detecting and developing the perception of the environment through image information or multidimensional data. Nowadays, vision systems are widely integrated into robotic systems. Visual perception and manipulation are combined in two steps "look" and then "move", generating a visual feedback control loop. In this context, there is a growing interest in using computer vision techniques in unmanned aerial vehicles (UAVs), also known as drones. These techniques are applied to position the drone in autonomous flight mode, or to perform the detection of regions for aerial surveillance or points of interest. Computer vision systems generally take three steps to the operation, which are: data acquisition in numerical form, data processing and data analysis. The data acquisition step is usually performed by cameras or proximity sensors. After data acquisition, the embedded computer performs data processing by performing algorithms with measurement techniques (variables, index and coefficients), detection (patterns, objects or area) or monitoring (people, vehicles or animals). The resulting processed data is analyzed and then converted into decision commands that serve as control inputs for the autonomous robotic system In order to integrate the visual computing systems with the different UAVs platforms, this work proposes the development of a framework for mission control and guidance of UAVs based on computer vision. The framework is responsible for managing, encoding, decoding, and interpreting commands exchanged between flight controllers and visual computing algorithms. As a case study, two algorithms were developed to provide autonomy to UAVs intended for application in precision agriculture. The first algorithm performs the calculation of a reflectance coefficient used to perform the punctual, self-regulated and efficient application of agrochemicals. The second algorithm performs the identification of crop lines to perform the guidance of the UAVs on the plantation. The performance of the proposed framework and proposed algorithms was evaluated and compared with the state of the art, obtaining satisfactory results in the implementation of embedded hardware.
|
44 |
Segmentação de movimento coerente aplicada à codificação de vídeos baseada em objetosSilva, Luciano Silva da January 2011 (has links)
A variedade de dispositivos eletrônicos capazes de gravar e reproduzir vídeos digitais vem crescendo rapidamente, aumentando com isso a disponibilidade deste tipo de informação nas mais diferentes plataformas. Com isso, se torna cada vez mais importante o desenvolvimento de formas eficientes de armazenamento, transmissão, e acesso a estes dados. Nesse contexto, a codificação de vídeos tem um papel fundamental ao compactar informação, otimizando o uso de recursos aplicados no armazenamento e na transmissão de vídeos digitais. Não obstante, tarefas que envolvem a análise de vídeos, manipulação e busca baseada em conteúdo também se tornam cada vez mais relevantes, formando uma base para diversas aplicações que exploram a riqueza da informação contida em vídeos digitais. Muitas vezes a solução destes problemas passa pela segmentação de vídeos, que consiste da divisão de um vídeo em regiões que apresentam homogeneidade segundo determinadas características, como por exemplo cor, textura, movimento ou algum aspecto semântico. Nesta tese é proposto um novo método para segmentação de vídeos em objetos constituintes com base na coerência de movimento de regiões. O método de segmentação proposto inicialmente identifica as correspondências entre pontos esparsamente amostrados ao longo de diferentes quadros do vídeo. Logo após, agrupa conjuntos de pontos que apresentam trajetórias semelhantes. Finalmente, uma classificação pixel a pixel é obtida a partir destes grupos de pontos amostrados. O método proposto não assume nenhum modelo de câmera ou de movimento global para a cena e/ou objetos, e possibilita que múltiplos objetos sejam identificados, sem que o número de objetos seja conhecido a priori. Para validar o método de segmentação proposto, foi desenvolvida uma abordagem para a codificação de vídeos baseada em objetos. Segundo esta abordagem, o movimento de um objeto é representado através de transformações afins, enquanto a textura e a forma dos objetos são codificadas simultaneamente, de modo progressivo. O método de codificação de vídeos desenvolvido fornece funcionalidades tais como a transmissão progressiva e a escalabilidade a nível de objeto. Resultados experimentais dos métodos de segmentação e codificação de vídeos desenvolvidos são apresentados, e comparados a outros métodos da literatura. Vídeos codificados segundo o método proposto são comparados em termos de PSNR a vídeos codificados pelo software de referência JM H.264/AVC, versão 16.0, mostrando a que distância o método proposto está do estado da arte em termos de eficiência de codificação, ao mesmo tempo que provê funcionalidades da codificação baseada em objetos. O método de segmentação proposto no presente trabalho resultou em duas publicações, uma nos anais do SIBGRAPI de 2007 e outra no períodico IEEE Transactions on Image Processing. / The variety of electronic devices for digital video recording and playback is growing rapidly, thus increasing the availability of such information in many different platforms. So, the development of efficient ways of storing, transmitting and accessing such data becomes increasingly important. In this context, video coding plays a key role in compressing data, optimizing resource usage for storing and transmitting digital video. Nevertheless, tasks involving video analysis, manipulation and content-based search also become increasingly relevant, forming a basis for several applications that exploit the abundance of information in digital video. Often the solution to these problems makes use of video segmentation, which consists of dividing a video into homogeneous regions according to certain characteristics such as color, texture, motion or some semantic aspect. In this thesis, a new method for segmentation of videos in their constituent objects based on motion coherence of regions is proposed. The proposed segmentation method initially identifies the correspondences of sparsely sampled points along different video frames. Then, it performs clustering of point sets that have similar trajectories. Finally, a pixelwise classification is obtained from these sampled point sets. The proposed method does not assume any camera model or global motion model to the scene and/or objects. Still, it allows the identification of multiple objects, without knowing the number of objects a priori. In order to validate the proposed segmentation method, an object-based video coding approach was developed. According to this approach, the motion of an object is represented by affine transformations, while object texture and shape are simultaneously coded, in a progressive way. The developed video coding method yields functionalities such as progressive transmission and object scalability. Experimental results obtained by the proposed segmentation and coding methods are presented, and compared to other methods from the literature. Videos coded by the proposed method are compared in terms of PSNR to videos coded by the reference software JM H.264/AVC, version 16.0, showing the distance of the proposed method from the sate of the art in terms of coding efficiency, while providing functionalities of object-based video coding. The segmentation method proposed in this work resulted in two publications, one in the proceedings of SIBGRAPI 2007 and another in the journal IEEE Transactions on Image Processing.
|
45 |
[en] TOWARDS DIRECT SPATIAL MANIPULATION OF VIRTUAL 3D OBJECTS USING VISUAL TRACKING AND GESTURE RECOGNITION OF UNMARKED HANDS / [pt] RUMO À MANIPULAÇÃO DIRETA ESPACIAL DE OBJETOS VIRTUAIS 3D USANDO RASTREAMENTO BASEADO EM VISÃO E NO RECONHECIMENTO DE GESTOS DE MÃOS SEM MARCADORESSINISA KOLARIC 03 November 2008 (has links)
[pt] A necessidade de executar manipulações espaciais (como
seleção, deslocamento, rotação, e escalamento) de objetos
virtuais 3D é comum a muitos tipos de aplicações do
software, inclusive aplicações de computer-aided design
(CAD), computer-aided modeling (CAM) e aplicações de
visualização científica e de engenharia. Neste trabalho é
apresentado um protótipo de aplicação para manipulação de
objetos virtuais 3D utilizando movimentos livres de mãos e
sem o uso de marcadores, podendo-se fazer gestos com uma ou
duas mãos. O usuário move as mãos no volume de trabalho
situado imediatamente acima da mesa, e o sistema integra
ambas as mãos (seus centróides) no ambiente virtual que
corresponde a este volume de trabalho. As mãos são
detectadas e seus gestos reconhecidos usando o método
de detecção de Viola-Jones. Tal reconhecimento de gestos é
assim usado para ligar e desligar modalidades da
manipulação. O rastreamento 3D de até duas mãos é então
obtido por uma combinação de rastreamento 2D chamado flocks-
of-KLT-features e reconstrução 3D baseada em triangulação
estéreo. / [en] The need to perform spatial manipulations (like selection,
translation, rotation, and scaling) of virtual 3D objects
is common to many types of software applications, including
computer-aided design (CAD), computer-aided
modeling (CAM) and scientific and engineering visualization
applications. In this work, a prototype application for
manipulation of 3D virtual objects using free-hand 3D
movements of bare (that is, unmarked, uninstrumented)
hands, as well as using one-handed and two-handed
manipulation gestures, is demonstrated. The user moves his
hands in the work volume situated immediately above the
desktop, and the system effectively integrates both
hands (their centroids) into the virtual environment
corresponding to this work volume. The hands are being
detected and their posture recognized using the Viola-Jones
detection method, and the hand posture recognition
thus obtained is then used for switching between
manipulation modes. Full 3D tracking of up to two hands is
obtained by a combination of 2D flocksof-KLT-features
tracking and 3D reconstruction based on stereo riangulation.
|
46 |
[en] DESIGN AND COMMUNICATION IN THE ANALYSIS OF THREE BUILT LANDSCAPE MARKS: RIO CIDADE 1, OBELISK/FOOT-BRIDGE (IPANEMA) AND ORANGE (CAMPO GRANDE); PROVIDENCE`S RENAISSANCE, U.S.A., WATERFIRE (DOWNTOWN) / [pt] DESIGN E COMUNICAÇÃO NA ANÁLISE DE TRÊS MARCOS REFERENCIAIS URBANOS: RIO CIDADE 1, OBELISCO/PASSARELA (IPANEMA) E LARANJA (CAMPO GRANDE); RENASCENÇA DE PROVIDENCE, E.U.A., WATERFIRE (DOWNTOWN)BARBARA RIBEIRO 12 April 2006 (has links)
[pt] O tema desta pesquisa envolve o reconhecimento de Marcos
Referenciais
Urbanos como caracterizadores da identidade de bairros e
cidades e como
elementos-chave na formação do imaginário urbano dos
habitantes. Se bem
aceitos pela população local, os marcos transformam-se em
referência simbólica
para o tecido urbano. Este trabalho apresenta o resultado
do estudo realizado
sobre marcos construídos durante a implementação de
programas de
revitalização urbana, na cidade do Rio de Janeiro -
Brasil - e na cidade de
Providence - EUA. No programa Rio Cidade 1, os marcos
estudados foram o
conjunto Obelisco e passarela, no bairro de Ipanema -
gerador do problema da
pesquisa por ter sido rejeitado pelos usuários cariocas -,
e a Laranja, de Campo
Grande. No programa Providence`s Renaissance, nos EUA, o
WaterFire.
O principal objetivo foi examinar a expressão simbólica
dos três marcos,
mostrar a contextualização histórico-social dos programas
de revitalização e as
atuações das respectivas administrações públicas. Aplica a
técnica da visão
serial na contextualização morfológica dos elementos
construídos. Apresenta
reflexões sobre os processos projetuais, as diretrizes
metodológicas, bem como
o posicionamento dos usuários, sob análise sistemática
baseada em aspectos
fundamentais da comunicação estruturalista de Roland
Barthes, e da dialógica,
de Mikhail Bakhtin. Propõe, por fim, alguns pontos-chave
para a análise
metodológica dos Marcos Referenciais Urbanos, que puderam
ser desenvolvidos
a partir dos pressupostos teóricos e da hipótese levantada. / [en] The research theme involves the recognition of Built Urban
Landscape
Marks as active agents in the identity characterization of
neighborhoods and
cities, and as key elements in the construction of
inhabitants`s urban imaginary. If
well accepted by the local population, the marks become a
symbolic reference to
the site. Otherwise, they only amount to urban furniture
without function. This
thesis presents the results of the research developed
about marks built during
urban revitalization programs constructed in Brazil and
Providence, USA. From
Rio Cidade 1, R.J., the following marks were studied:
Ipanema`s Obelisk and
foot-bridge - the research`s problem source, once the
citizens didn`t recognize or
legitimate it , and Campo Grande`s Orange. Lastly, during
Providence`s
Renaissance (U.S.A.), the third chosen mark was built:
WaterFire.
The main goal of the research is to analyze the symbolic
expression of the
three marks. This thesis also aims to address the
historical and social contexts in
which the revitalization programs took place and the roles
played by each public
administration during the process. It applies the visual
series methodology in the
reading of the morphological contexts of the built
elements and their positions
within it. It presents an analysis about the design
processes and the
methodological procedures adopted. Moreover, this analysis
uses Barthes`s
structuralist communication model and Bakhtin`s dialogic
communication as
theory basis to address the user`s role in the processes
and procedures that have
been adopted. Finally, the thesis proposes some key points
to the methodological
analysis of Built Urban Landscape Marks that could be
developed by the theory
basis and the hypothesis adopted.
|
47 |
Segmentação de movimento coerente aplicada à codificação de vídeos baseada em objetosSilva, Luciano Silva da January 2011 (has links)
A variedade de dispositivos eletrônicos capazes de gravar e reproduzir vídeos digitais vem crescendo rapidamente, aumentando com isso a disponibilidade deste tipo de informação nas mais diferentes plataformas. Com isso, se torna cada vez mais importante o desenvolvimento de formas eficientes de armazenamento, transmissão, e acesso a estes dados. Nesse contexto, a codificação de vídeos tem um papel fundamental ao compactar informação, otimizando o uso de recursos aplicados no armazenamento e na transmissão de vídeos digitais. Não obstante, tarefas que envolvem a análise de vídeos, manipulação e busca baseada em conteúdo também se tornam cada vez mais relevantes, formando uma base para diversas aplicações que exploram a riqueza da informação contida em vídeos digitais. Muitas vezes a solução destes problemas passa pela segmentação de vídeos, que consiste da divisão de um vídeo em regiões que apresentam homogeneidade segundo determinadas características, como por exemplo cor, textura, movimento ou algum aspecto semântico. Nesta tese é proposto um novo método para segmentação de vídeos em objetos constituintes com base na coerência de movimento de regiões. O método de segmentação proposto inicialmente identifica as correspondências entre pontos esparsamente amostrados ao longo de diferentes quadros do vídeo. Logo após, agrupa conjuntos de pontos que apresentam trajetórias semelhantes. Finalmente, uma classificação pixel a pixel é obtida a partir destes grupos de pontos amostrados. O método proposto não assume nenhum modelo de câmera ou de movimento global para a cena e/ou objetos, e possibilita que múltiplos objetos sejam identificados, sem que o número de objetos seja conhecido a priori. Para validar o método de segmentação proposto, foi desenvolvida uma abordagem para a codificação de vídeos baseada em objetos. Segundo esta abordagem, o movimento de um objeto é representado através de transformações afins, enquanto a textura e a forma dos objetos são codificadas simultaneamente, de modo progressivo. O método de codificação de vídeos desenvolvido fornece funcionalidades tais como a transmissão progressiva e a escalabilidade a nível de objeto. Resultados experimentais dos métodos de segmentação e codificação de vídeos desenvolvidos são apresentados, e comparados a outros métodos da literatura. Vídeos codificados segundo o método proposto são comparados em termos de PSNR a vídeos codificados pelo software de referência JM H.264/AVC, versão 16.0, mostrando a que distância o método proposto está do estado da arte em termos de eficiência de codificação, ao mesmo tempo que provê funcionalidades da codificação baseada em objetos. O método de segmentação proposto no presente trabalho resultou em duas publicações, uma nos anais do SIBGRAPI de 2007 e outra no períodico IEEE Transactions on Image Processing. / The variety of electronic devices for digital video recording and playback is growing rapidly, thus increasing the availability of such information in many different platforms. So, the development of efficient ways of storing, transmitting and accessing such data becomes increasingly important. In this context, video coding plays a key role in compressing data, optimizing resource usage for storing and transmitting digital video. Nevertheless, tasks involving video analysis, manipulation and content-based search also become increasingly relevant, forming a basis for several applications that exploit the abundance of information in digital video. Often the solution to these problems makes use of video segmentation, which consists of dividing a video into homogeneous regions according to certain characteristics such as color, texture, motion or some semantic aspect. In this thesis, a new method for segmentation of videos in their constituent objects based on motion coherence of regions is proposed. The proposed segmentation method initially identifies the correspondences of sparsely sampled points along different video frames. Then, it performs clustering of point sets that have similar trajectories. Finally, a pixelwise classification is obtained from these sampled point sets. The proposed method does not assume any camera model or global motion model to the scene and/or objects. Still, it allows the identification of multiple objects, without knowing the number of objects a priori. In order to validate the proposed segmentation method, an object-based video coding approach was developed. According to this approach, the motion of an object is represented by affine transformations, while object texture and shape are simultaneously coded, in a progressive way. The developed video coding method yields functionalities such as progressive transmission and object scalability. Experimental results obtained by the proposed segmentation and coding methods are presented, and compared to other methods from the literature. Videos coded by the proposed method are compared in terms of PSNR to videos coded by the reference software JM H.264/AVC, version 16.0, showing the distance of the proposed method from the sate of the art in terms of coding efficiency, while providing functionalities of object-based video coding. The segmentation method proposed in this work resulted in two publications, one in the proceedings of SIBGRAPI 2007 and another in the journal IEEE Transactions on Image Processing.
|
48 |
Visualização computacional como apoio à identificação do interesse do aluno em ambientes de EADAmorim, Maurício José Viana January 2012 (has links)
Este estudo apresenta uma investigação de como o uso das técnicas de Visualização Computacional (VC) podem servir no apoio à identificação do interesse do aluno em ambientes de Educação a Distância (EaD). Esta pesquisa se fundamenta nas premissas de que grande parte da comunicação ocorre através da Comunicação Não-Verbal e o estado afetivo de interesse pode ser reconhecido através da visualização interpessoal. Na realização deste trabalho, foi necessária uma revisão da literatura relacionada aos temas Afetividade, especificamente, Estado Afetivo de Interesse, Comportamento Visualizável, Comunicação Não Verbal, Análise de Expressões Faciais, Análise de Gestos e Posturas, Cognição e Técnicas de Sensoriamento Visual. A teoria da Aprendizagem Significativa responde pela concepção epistemológica, metodológica e experimental. Sob sua ótica foram preparados os materiais didáticos que compuseram os experimentos e o objeto de aprendizagem SQLOA. Foram construídos artefatos de software que apoiam a captura dos vídeos dos alunos durante atividades de aprendizagem e que permitiram a realização dos experimentos. Os artefatos desenvolvidos são: um framework, uma ferramenta e um objeto de aprendizagem, assim denominados: WICFramework, QuizWebcamXML e SQLOA. Eles permitem dotar os ambientes de ensino de mecanismos de Visualização Computacional, razão pela qual foram importantes instrumentos para o alcance dos objetivos propostos. Trinta e um alunos, correspondendo a três turmas da disciplina de Administração para Banco de Dados do Curso de Sistema de Informação do Instituto Federal Fluminense, RJ, foram submetidos ao SQLOA e tiveram sua interação capturada em vídeos. A estratégia metodológica compôs-se do levantamento dos Movimentos Corporais Gestuais e Posturais (MCGPs) visualizáveis, e a associação desses aos Estados Afetivos de Interesse e Tédio, testando e definindo os indicadores teóricos que melhor se aplicam a técnicas de VC em ambientes de EaD. A partir da definição dos principais Indicadores de Interesse, construiu-se um Esquema para Identificação do Interesse e um Modelo para Inferência de Interesse, auxiliando profissionais da educação a aplicarem a técnica. / This study presents an investigation on how the use of Computational Visualization (CV) techniques can support the identification of learners’ interest in Virtual Learning Environments (VLEs). The research was based on the premise that communication occurs mostly through non-verbal communication and that the affective state of interest can be identified by interpersonal visualization. For this study, it was necessary to undertake a review of the literature on topics such as Affect, in particular, Affective State of Interest, Visible Behavior, Non-Verbal Communication, Analysis of Facial Expressions, Analysis of Body Gestures and Postures, Cognition, and Visual Sensing Techniques. Principles of the Meaningful Learning Theory were used in the epistemological, methodological and experimental concept of the research theme. This theoretical framework supported the preparation of didactic materials used in the experiments, and the design of the learning object SQLOA. Software artifacts were built to conduct experiments, including video recording of students during learning activities. The following artifacts were developed: a framework (WICFramework), a tool (QuizWebcamXML), and a learning object (SQLOA). Since they can provide VLEs with computational visualization mechanisms, these artifacts were important in reaching the objectives proposed for this study. Thirty-one students, enrolled in the subject Data Bank Management in the Information Systems Course at the Instituto Federal Fluminense, RJ, used SQLOA, and their interaction was captured in videos. The methodological strategy included the observation of Body Gesture and Postural Movements (BGPM), and their association with the Affective States of Interest and Boredom, as well as testing and definition of the theoretical indicators that best support CV techniques in VLEs. Following the definition of the main Indicators of Interest, guidelines were created to assist distance education professionals in the application of such technique.
|
49 |
Reconhecimento automático de padrões em imagens ecocardiográficas / Automatic pattern recognition in echocardiographic imagesSiqueira, Mozart Lemos de January 2010 (has links)
Ecocardiografia fetal é uma importante ferramenta para diagnóstico. Esta tese apresenta um método que provê localização automática de cavidades cardíacas em imagens ecocardiografias fetais, onde o diagnóstico de problemas congênitos do coração pode melhorar os resultados do tratamento. As estruturas de interesse são as quatro cavidades cardíacas (átrio direito, átrio esquerdo, ventrículo direito e ventrículo esquerdo). O método é baseado na busca por cavidades cardíacas através de uma molde de busca (template) para encontrar padrões de interesse. Este molde é calculado usando uma função densidade probabilidade que recebe como parâmetro os níveis de cinza de uma região representativa da cavidade, na imagem. Além disso, em alguns testes também foram utilizadas características espaciais da imagem para cálculo do molde de busca. Nesse sentido a busca é implementada de uma forma hierárquica: (i) primeiro, é localizada a região do coração; e (ii) em seguida, baseando na região do coração a cavidade de interesse á buscada. A comparação do molde de busca e as regiões de interesse na imagem é feita utilizando o Coeficiente de Bhattacharyya, o qual é analisado ao longo dos testes para justificar sua escolha. Uma das principais características do método é a invariância a rotação apresentada pelas estruturas. / Fetal echocardiography is an important tool for diagnosing. This thesis presents a method to provide automatic localization of cardiac cavities in fetal echocardiography images, where the early diagnostics of heart congenital diseases can greatly improve results from medical treatment. The structures of interest are the four cardiac cavities (left and right atrium, left and right ventricle). The method is based in the search of cardiac structures with a mold to find the pattern of interest. This mold is calculated using a probability density function that receives as parameter the gray level of a representative image and also uses spatial features of the images to calculate the mold. A hierarchical search is performed: (i) first, the region of interest is covered to locate the heart; and (ii) based on the position of the heart, the desired structure is found in the image. The comparison of the mold and the candidate image is made using the Bhattacharyya coefficient, which our experimental tests have shown good results. One of the main characteristics of the method is its rotation invariance.
|
50 |
Sistema de visão computacional aplicado a um robô cilíndrico acionado pneumaticamenteMedina, Betânia Vargas Oliveira January 2015 (has links)
O reconhecimento da posição e orientação de objetos em uma imagem é importante para diversos segmentos da engenharia, como robótica, automação industrial e processos de fabricação, permitindo às linhas de produção que utilizam sistemas de visão, melhorias na qualidade e redução do tempo de produção. O presente trabalho consiste na elaboração de um sistema de visão computacional para um robô cilíndrico de cinco graus de liberdade acionado pneumaticamente. Como resultado da aplicação do método desenvolvido, obtêm-se a posição e orientação de peças a fim de que as mesmas possam ser capturadas corretamente pelo robô. Para a obtenção da posição e orientação das peças, utilizou-se o método de cálculo dos momentos para extração de características de uma imagem, além da relação entre suas coordenadas em pixels com o sistema de coordenadas do robô. O desenvolvimento do presente trabalho visou também a integrar a esse sistema de visão computacional, um algoritmo de planejamento de trajetórias do robô, o qual, após receber os valores das coordenadas necessárias, gera a trajetória a ser seguida pelo robô, de forma que este possa pegar a peça em uma determinada posição e deslocá-la até outra posição pré-determinada. Também faz parte do escopo deste trabalho, a integração do sistema de visão, incluindo o planejamento de trajetórias, a um algoritmo de controle dos atuadores com compensação de atrito e a realização de testes experimentais com manipulação de peças. Para a demonstração da aplicação do método através de testes experimentais, foi montada uma estrutura para suportar as câmeras e as peças a serem manipuladas, levando em conta o espaço de trabalho do robô. Os resultados obtidos mostram que o algoritmo proposto de visão computacional determina a posição e orientação das peças permitindo ao robô a captação e manipulação das mesmas. / The recognition of the position and orientation of objects in an image is important for several technological areas in engineering, such as robotics, industrial automation and manufacturing processes, allowing production lines using vision systems, improvements in quality and reduction in production time. The present work consists of the development of a computer vision system for a pneumatically actuated cylindrical robot with five degrees of freedom. The application of the proposed method furnishes the position and orientation of pieces in a way that the robot could properly capture them. Position and orientation of the pieces are determined by means of a technique based on the method of calculating the moments for an image feature extraction and the relationship between their pixels coordinates with the robot coordinate system. The scope of the present work also comprises the integration of the computer vision system with a (previously developed) robot trajectory planning algorithm that use key-point coordinates (transmitted by the vision system) to generate the trajectory that must be followed by the robot, so that, departing from a given position, it moves suitably to another predetermined position. It is also object of this work, the integration of both vision system and trajectory planning algorithm with a (also previously developed) nonlinear control algorithm with friction compensation. Aiming at to demonstrate experimentally the application of the method, a special apparatus was mounted to support cameras and the pieces to be manipulated, taking into account the robot workspace. To validate the proposed algorithm, a case study was performed, with the results showing that the proposed computer vision algorithm determines the position and orientation of the pieces allowing the robot to capture and manipulation thereof.
|
Page generated in 0.0532 seconds