• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 126
  • 81
  • Tagged with
  • 207
  • 207
  • 141
  • 141
  • 63
  • 42
  • 42
  • 33
  • 27
  • 21
  • 21
  • 21
  • 21
  • 18
  • 18
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

An accessible approach for corneal topography / Uma abordagem acessível para topografia da córnea

Rosa, André Luís Beling da January 2013 (has links)
Topografias da córnea consistem em medir a forma da córnea, que é um fator chave para a acuidade visual. O exame é usado, por exemplo, na detecção de ceratocone, ajuste personalizado de lentes de contato, e pre e pós procedimentos associados com cirurgias refrativas e transplante de córnea. Esta dissertação apresenta, uma abordagem acessível e portátil para realizar topografias da córnea. Os resultados obtidos com o nosso protótipo mostram uma diferença média por volta de 0.02 milimetros, equivalente a 0.5% do raio médio da córnea, quando comparadas com topografias adquiridas com um topografo comercial. Nossa abordagem é baseada no disco de Plácido, a um conjunto de círculos concêntricos que são colocados na frente do olho do paciente e refletidos na córnea. Observando a deformação do padrão projetado, podemos identificar algumas condições refrativas (e.g. astigmatismo, ceratocone) e estimar a topografia da córnea do paciente. Nós construimos um dispositivo para ser utilizado com um celular para emitir os padrões, estes são então capturados pela câmera do celular. Nós usamos um sequência de procedimentos para melhor as imagens, segmentar os padrões, associar o padrão capturado com o emitido para amostrar o sinal, e finalmente estimar a superfície da córnea. A forma estimada é então decomposta, usando-se os polinômios de Zernike, em componentes com significado ótico específico. Nós avaliamos os resultados obtidos com o nosso protótipo de três maneiras: inspeção visual de ceratoscopias, detecção de ceratocone, e comparação com os resultados produzidos por um topográfo de córnea comercial. De acordo com essa análise, nosso dispositivo pode ser utilizado para o exame de indivíduos com ceratocone, e obter topografias com 0.02 milimetros de diferença em relação aos resultados obtidos com um topógrafo comercial. / Corneal topography consists of measuring the corneal shape, which is a key factor for visual acuity. The exam is used, for instance, in keratoconus detection, personalized contact lens fitting, in pre- and post-procedures associated with refractive surgery and corneal transplants. This thesis presents an accessible, inexpensive and portable approach to perform corneal topographies. The results obtained with our prototype show a mean difference of about 0.02 millimeters, equivalent to 0.5% of the mean corneal radius, when compared to topographies acquired with a commercial device. Our approach is based on Placido’s disks, a set of concentric disks that are placed in front of the patient’s eye and reflected on the cornea. Observing the deformation of the projected pattern, one can identify some refractive conditions (e.g., astigmatism, keratoconus) and estimate the patient’s corneal topography. We have built a clip-on device to be used with a cell phone to emit the patterns, which are then captured by the cell phone camera. We use a software pipeline to enhance the images, segment the patterns, associate the emitted pattern with the captured one to sample the signal, and finally estimate the corneal surface. The estimated shape is then decomposed using Zernike polynomials in components with specific optical meanings. We have evaluated the results obtained with our prototype in three ways: visual inspection of keratoscopies, keratoconus detection, and comparison with the results produced by a commercial corneal topographer. According to such analysis, our device can be used for screening of individuals with keratoconus, and to obtain corneal topographies with 0.02-millimeter differences with respect to the results obtained with a commercial corneal topographer.
142

ONNIS-GI: uma rede neural oscilatória para segmentação de imagens implementada em arquitetura maciçamente paralela

Fernandes, Dênis January 2004 (has links)
A presente tese apresenta a concepção de uma rede neural oscilatória e sua realização em arquitetura maciçamente paralela, a qual é adequada à implementação de chips de visão digitais para segmentação de imagens. A rede proposta, em sua versão final, foi denominada ONNIS-GI (Oscillatory Neural Network for Image Segmentation with Global Inhibition) e foi inspirada em uma rede denominada LEGION (Locally Excitatory Globally Inhibitory Oscillator Network), também de concepção recente. Inicialmente, é apresentada uma introdução aos procedimentos de segmentação de imagens, cujo objetivo é o de situar e enfatizar a importância do tema abordado dentro de um contexto abrangente, o qual inclui aplicações de visão artificial em geral. Outro aspecto abordado diz respeito à utilização de redes neurais artificiais em segmentação de imagens, enfatizando as denominadas redes neurais oscilatórias, as quais têm apresentado resultados estimulantes nesta área. A implementação de chips de visão, integrando sensores de imagens e redes maciçamente paralelas de processadores, é também abordada no texto, ressaltando o objetivo prático da nova rede neural proposta. No estudo da rede LEGION, são apresentados resultados de aplicações originais desenvolvidas em segmentação de imagens, nos quais é verificada sua propriedade de separação temporal dos segmentos. A versão contínua da rede, um arranjo paralelo de neurônios baseados em equações diferenciais, apresenta elevada complexidade computacional para implementação em hardware digital e muitos parâmetros, com procedimento de ajuste pouco prático. Por outro lado, sua arquitetura maciçamente paralela apresenta-se particularmente adequada à implementação de chips de visão analógicos com capacidade de segmentação de imagens. Com base nos bons resultados obtidos nas aplicações desenvolvidas, é proposta uma nova rede neural, em duas versões, ONNIS e ONNIS-GI, as quais suplantam a rede LEGION em diversos aspectos relativos à implementação prática. A estrutura dos elementos de processamento das duas versões da rede, sua implementação em arquitetura maciçamente paralela e resultados de simulações e implementações em FPGA são apresentados, demonstrando a viabilidade da proposta. Como resultado final, conclui-se que a rede ONNIS-GI apresenta maior apelo de ordem prática, sendo uma abordagem inovadora e promissora na solução de problemas de segmentação de imagens, possuindo capacidade para separar temporalmente os segmentos encontrados e facilitando a posterior identificação dos mesmos. Sob o ponto de vista prático, a nova rede pode ser utilizada para implementar chips de visão digitais com arquitetura maciçamente paralela, explorando a velocidade de tais topologias e apresentando também flexibilidade para implementação de procedimentos de segmentação de imagens mais sofisticados.
143

An accessible approach for corneal topography / Uma abordagem acessível para topografia da córnea

Rosa, André Luís Beling da January 2013 (has links)
Topografias da córnea consistem em medir a forma da córnea, que é um fator chave para a acuidade visual. O exame é usado, por exemplo, na detecção de ceratocone, ajuste personalizado de lentes de contato, e pre e pós procedimentos associados com cirurgias refrativas e transplante de córnea. Esta dissertação apresenta, uma abordagem acessível e portátil para realizar topografias da córnea. Os resultados obtidos com o nosso protótipo mostram uma diferença média por volta de 0.02 milimetros, equivalente a 0.5% do raio médio da córnea, quando comparadas com topografias adquiridas com um topografo comercial. Nossa abordagem é baseada no disco de Plácido, a um conjunto de círculos concêntricos que são colocados na frente do olho do paciente e refletidos na córnea. Observando a deformação do padrão projetado, podemos identificar algumas condições refrativas (e.g. astigmatismo, ceratocone) e estimar a topografia da córnea do paciente. Nós construimos um dispositivo para ser utilizado com um celular para emitir os padrões, estes são então capturados pela câmera do celular. Nós usamos um sequência de procedimentos para melhor as imagens, segmentar os padrões, associar o padrão capturado com o emitido para amostrar o sinal, e finalmente estimar a superfície da córnea. A forma estimada é então decomposta, usando-se os polinômios de Zernike, em componentes com significado ótico específico. Nós avaliamos os resultados obtidos com o nosso protótipo de três maneiras: inspeção visual de ceratoscopias, detecção de ceratocone, e comparação com os resultados produzidos por um topográfo de córnea comercial. De acordo com essa análise, nosso dispositivo pode ser utilizado para o exame de indivíduos com ceratocone, e obter topografias com 0.02 milimetros de diferença em relação aos resultados obtidos com um topógrafo comercial. / Corneal topography consists of measuring the corneal shape, which is a key factor for visual acuity. The exam is used, for instance, in keratoconus detection, personalized contact lens fitting, in pre- and post-procedures associated with refractive surgery and corneal transplants. This thesis presents an accessible, inexpensive and portable approach to perform corneal topographies. The results obtained with our prototype show a mean difference of about 0.02 millimeters, equivalent to 0.5% of the mean corneal radius, when compared to topographies acquired with a commercial device. Our approach is based on Placido’s disks, a set of concentric disks that are placed in front of the patient’s eye and reflected on the cornea. Observing the deformation of the projected pattern, one can identify some refractive conditions (e.g., astigmatism, keratoconus) and estimate the patient’s corneal topography. We have built a clip-on device to be used with a cell phone to emit the patterns, which are then captured by the cell phone camera. We use a software pipeline to enhance the images, segment the patterns, associate the emitted pattern with the captured one to sample the signal, and finally estimate the corneal surface. The estimated shape is then decomposed using Zernike polynomials in components with specific optical meanings. We have evaluated the results obtained with our prototype in three ways: visual inspection of keratoscopies, keratoconus detection, and comparison with the results produced by a commercial corneal topographer. According to such analysis, our device can be used for screening of individuals with keratoconus, and to obtain corneal topographies with 0.02-millimeter differences with respect to the results obtained with a commercial corneal topographer.
144

Real-time detection of planar regions in unorganized point clouds / Detecção em tempo real de regiões planares em nuvens de pontos não estruturadas

Limberger, Frederico Artur January 2014 (has links)
Detecção automática de regiões planares em nuvens de pontos é um importante passo para muitas aplicações gráficas, de processamento de imagens e de visão computacional. Enquanto a disponibilidade de digitalizadores a laser e a fotografia digital tem nos permitido capturar nuvens de pontos cada vez maiores, técnicas anteriores para detecção de planos são computacionalmente caras, sendo incapazes de alcançar desempenho em tempo real para conjunto de dados contendo dezenas de milhares de pontos, mesmo quando a detecção é feita de um modo não determinístico. Apresentamos uma abordagem determinística para detecção de planos em nuvens de pontos não estruturadas que apresenta complexidade computacional O(n log n) no número de amostras de entrada. Ela é baseada em um método eficiente de votação para a transformada de Hough. Nossa estratégia agrupa conjuntos de pontos aproximadamente coplanares e deposita votos para estes conjuntos em um acumulador esférico, utilizando núcleos Gaussianos trivariados. Uma comparação com as técnicas concorrentes mostra que nossa abordagem é consideravelmente mais rápida e escala significativamente melhor que as técnicas anteriores, sendo a primeira solução prática para detecção determinística de planos em nuvens de pontos grandes e não estruturadas. / Automatic detection of planar regions in point clouds is an important step for many graphics, image processing, and computer vision applications. While laser scanners and digital photography have allowed us to capture increasingly larger datasets, previous techniques are computationally expensive, being unable to achieve real-time performance for datasets containing tens of thousands of points, even when detection is performed in a non-deterministic way. We present a deterministic technique for plane detection in unorganized point clouds whose cost is O(n log n) in the number of input samples. It is based on an efficient Hough-transform voting scheme and works by clustering approximately co-planar points and by casting votes for these clusters on a spherical accumulator using a trivariate Gaussian kernel. A comparison with competing techniques shows that our approach is considerably faster and scales significantly better than previous ones, being the first practical solution for deterministic plane detection in large unorganized point clouds.
145

Spatially varying defocus blur estimation and applications / Estimação de borramento por desfoco especialmente variante e aplicações

Karaali, Ali January 2017 (has links)
Esta tese apresenta dois métodos diferentes de estimativa de desfocagem usando uma única imagem. Ambos os métodos assumem uma função de espalhamento de ponto (Point Spread Function - PSF) Gaussiana e exploram a razão de magnitudes de gradientes de versões re-borradas da imagem original com escalas diferentes nas bordas da imagem, o que fornece uma expressão matemática fechada para borramento local. A primeira abordagem calcula perfis 1D ao longo de pontos de borda ortogonais ao contorno local, e avalia a localização da borda (máximo da derivada primeira) para selecionar adaptativamente o número de escalas no re-borramento. Considerando o consumo de tempo de explorar perfis de aresta orientados 1D, um segundo método foi proposto com base em gradientes de imagem diretamente no domínio 2D, e os parâmetros de re-borramento locais foram selecionados com base na concordância de um detector de bordas calculado em várias escalas. Dada uma estimativa inicial da escala de desfocagem nas posições de borda proporcionada por qualquer um destes dois métodos, é também proposto um passo de correção que atenua os erros introduzidos pela discretização da formulação contínua. Um novo método de filtragem local que suaviza as estimativas refinadas ao longo dos contornos de imagem também é proposto, e um filtro de domínio conjunto (jointdomain filter) rápido é explorado para propagar informações de desfocagem para toda a imagem, gerando o mapa de desfocagem completo. Os resultados experimentais em imagens sintéticas e reais mostram que os métodos propostos apresentam resultados promissores para a estimativa de borramento por desfoco, com um bom compromisso entre qualidade e tempo de execução quando comparados a técnicas estado-da-arte. Para lidar com sequências de vídeo desfocadas, a consistência temporal também foi incluída no modelo proposto. Mais precisamente, Filtros de Kalman foram aplicados para gerar estimativas temporais suaves para cada pixel quando a aparência local da sequência de vídeo não varia muito, permitindo transições durante mudanças drásticas da aparência local, que podem se relacionar com oclusões/desoclusões. Finalmente, esta tese também mostra aplicações dos métodos propostos para a estimativa de desfocagem de imagem e vídeo. Um novo método de redimensionamento (retargeting) de imagens é proposto para fotos tiradas por câmera com baixa profundidade de campo. O método inclui informação de desfocamento local no contexto do método seam carving, visando preservar objetos em foco com melhor qualidade visual. Assumindo que os pixels em foco estejam relacionados às regiões de interesse de uma imagem com desfocamento, o método de redimensionamento proposto começa com um método de corte (cropping), o qual remove as partes sem importância (borradas) da imagem, e então o método seam carving é aplicado com uma nova função de energia que prioriza as regiões em foco. Os resultados experimentais mostram que o método proposto funciona melhor na preservação de objetos em foco do que outras técnicas de redimensionamento de imagens. A tese também explora o método de estimação de desfocagem proposto no contexto de des-borramento de imagens e sequências de vídeo, e os resultados foram comparados com vários outros métodos de estimação de desfocagem. Os resultados obtidos mostram que as métricas tipicamente usadas para avaliar métodos de estimação de desfocagem (por exemplo, erro absoluto médio) podem não estar correlacionadas com a qualidade das métricas de imagem desfocada, como a Relação Sinal-Ruído de Pico. / This dissertation presents two different defocus blur estimation methods for still images. Both methods assume a Gaussian Point Spread Function (PSF) and explore the ratio of gradient magnitudes of reblurred images computed at edge location with different scales, which provides a closed form mathematical formulation for the local blur assuming continuous-time signals. The first approach computes 1D profiles along edge points orthogonal to the local contour, and evaluate the location of the edge (maximum of the derivative) to adaptively select the number of reblurring scales. Considering the time consumption of exploring 1D oriented edge profiles, a second method was proposed based on 2D multiscale image gradients, and local reblurring parameters were selected based on the agreement of an edge detector computed at several scales. Given an initial estimate of the blur scale at edge locations provided by either of these two methods, a correction step that accounts for the discretization of the continuous formulation is also proposed. A novel local filtering method that smooths the refined estimates along the image contours is also proposed, and a fast joint domain filter is explored to propagate blur information to the whole image to generate the full blur map. Experimental results on synthetic and real images show that the proposed methods have promising results for defocus blur estimation, with a good trade off between running time and accuracy when compared to state-of-the art defocus blur estimation methods. To deal with blurry video sequences, temporal consistency was also included in the proposed model. More precisely, Kalman Filters were applied to generate smooth temporal estimates for each pixel when the local appearance of the video sequence does not vary much, and allowing sharp transitions during drastic local appearance changes, which might relate to occlusions/disocclusions. Finally, this dissertation also shows applications of the proposed methods for image and video blur estimation. A new image retargeting method is proposed for photos taken by a shallow Depth of Field (DoF) camera. The method includes defocus blur information with the seam carving framework aiming to preserve in-focus objects with better visual quality. Assuming the in-focus pixels related to regions of interest of a blurry image, the proposed retargeting method starts with a cropping method, which removes the unimportant parts (blurry) of the image, then the seam carving method is applied with a novel energy function that prioritizes in-focus regions. Experimental results show that the proposed blur aware retargeting method works better at preserving in-focus objects than other well known competitive retargeting methods. The dissertation also explores the proposed blur estimation method in the context of image and video deblurring, and results were compared with several other blur estimation methods. The obtained results show that metrics typically used to evaluate blur estimation methods (e.g. Mean Absolute Error) might not be correlated with the quality of deblurred image metrics, such as Peak Signal to Noise Ratio.
146

Um estudo sobre reconhecimento visual de caracteres através de redes neurais

Osorio, Fernando Santos January 1991 (has links)
Este trabalho apresenta um estudo sabre reconhecimento visual de caracteres através da utilização das redes neurais. São abordados os assuntos referentes ao Processamento Digital de Imagens, aos sistemas de reconhecimento de caracteres, e as redes neurais. Ao final é apresentada uma proposta de implementação de um sistema OCR orientado ao reconhecimento de caracteres impressos, que utiliza uma rede neural desenvolvida especificamente para esta aplicação. O sistema proposto, que é denominado de sistema N2OCR, possui um protótipo implementado que também é descrito neste trabalho. Em relação ao Processamento Digital de Imagens são apresentados diversos temas, abrangendo os assuntos referentes à aquisição de imagens, ao tratamento das imagens e ao reconhecimento de padrões. A respeito da aquisição de imagens são destacados os aspectos referentes aos dispositivos de aquisição e os tipos de imagens obtidas através destes. Sobre o tratamento de imagens são abordados os aspectos referentes a imagens textuais, incluindo: halftoning, geração e modificação de histograma, limiarização e operações de filtragem. Quanto ao reconhecimento de padrões é feita uma breve análise das técnicas relacionadas a este tema. Os diversos tipos de sistemas de reconhecimento de caracteres são abordados, assim coma as técnicas e algoritmos empregados por estes. Além destes tópicos é apresentada uma discussão a respeito da avaliação dos resultados obtidos por estes sistemas, assim como é feita uma análise das principais dificuldades enfrentadas por estas aplicações. Neste trabalho é feita uma apresentação a respeito das redes neurais, suas características, histórico e evolução das pesquisas nesta área. É feita uma descrição dos principais modelos de redes neurais em destaque na atualidade: Perceptron, Adaline, Madaline, redes multinível, ART, modelo de Hopfield, máquina de Boltzmann, BAM e modelo de Kohonen. A partir da análise dos diferentes modelos de redes neurais empregados na atualidade, chega-se a proposta de um novo modelo de rede a ser utilizado pelo sistema N2OCR. São descritos os itens referentes ao aprendizado, ao reconhecimento e as possíveis extensões deste novo modelo. Também é abordada a possibilidade de implementação de um hardware dedicado para este modelo. No final deste trabalho é fornecida uma visão global do sistema N2OCR, descrevendo cada um de seus módulos. Também é feita uma descrição do protótipo implementado e de suas funções. / This work presents a study of visual character recognition using neural networks. It describes some aspects related to Digital Image Processing, character recognition systems and neural networks. The implementation proposal of one OCR system, for printed character recognition, is also presented. This system uses one neural network specifically developed for this purpose. The OCR system, named N2OCR, has a prototype implementation, which is also described. Several topics related to Digital Image Processing are presented, including some referent to image acquisition, image processing and pattern recognition. Some aspects on image acquisiton are treated, like acquisition equipments and kinds of image data obtained from those equipments. The following items about text image processing are mentioned: halftoning, hystogram generation and alteration, thresholding and filtering operations. A brief analysis about pattern recognition related to this theme is done. Different kinds of character recognition systems are described, as the techniques and algorithms used by them. Besides, a di cussi on about performance estimation of this OCR systems is done, including typical OCR problems description and analysis. In this work, neural networks are presented, describing their characteristics, historical aspects and research evolution in this field. Different famous neural network models are described: Perceptron, Adaline, Madaline, multilevel networks. ART, Hopfield's model , Boltzmann machine, BAM and Kohonen's model. From the analysis of such different neural network models, we arrive to a proposal of a new neural net model, where are described items related to learning, recognition and possible model extensions. A possible hardware implementation of this model is also presented. A global vision of N2OCR system is presented at the end of this work, describing each of its modules. A description of the prototype implementation and functions is also provided.
147

Detecção visual de atividade de voz com base na movimentação labial / Visual voice activity detection using as information the lips motion

Lopes, Carlos Bruno Oliveira January 2013 (has links)
O movimento dos lábios é um recurso visual relevante para a detecção da atividade de voz do locutor e para o reconhecimento da fala. Quando os lábios estão se movendo eles transmitem a idéia de ocorrências de diálogos (conversas ou períodos de fala) para o observador, enquanto que os períodos de silêncio podem ser representados pela ausência de movimentações dos lábios (boca fechada). Baseado nesta idéia, este trabalho foca esforços para detectar a movimentação de lábios e usá-la para realizar a detecção de atividade de voz. Primeiramente, é realizada a detecção de pele e a detecção de face para reduzir a área de extração dos lábios, sendo que as regiões mais prováveis de serem lábios são computadas usando a abordagem Bayesiana dentro da área delimitada. Então, a pré-segmentação dos lábios é obtida pela limiarização da região das probabilidades calculadas. A seguir, é localizada a região da boca pelo resultado obtido na pré-segmentação dos lábios, ou seja, alguns pixels que não são de lábios e foram detectados são eliminados, e em seguida são aplicados algumas operações morfológicas para incluir alguns pixels labiais e não labiais em torno da boca. Então, uma nova segmentação de lábios é realizada sobre a região da boca depois de aplicada uma transformação de cores para realçar a região a ser segmentada. Após a segmentação, é aplicado o fechamento das lacunas internas dos lábios segmentados. Finalmente, o movimento temporal dos lábios é explorado usando o modelo das cadeias ocultas de Markov (HMMs) para detectar as prováveis ocorrências de atividades de fala dentro de uma janela temporal. / Lips motion are relevant visual feature for detecting the voice active of speaker and speech recognition. When the lips are moving, they carries an idea of occurrence of dialogues (talk) or periods of speeches to the watcher, whereas the periods of silences may be represented by the absence of lips motion (mouth closed). Based on this idea, this work focus efforts to obtain the lips motion as features and to perform visual voice activity detection. First, the algorithm performs skin segmentation and face detection to reduce the search area for lip extraction, and the most likely lip regions are computed using a Bayesian approach within the delimited area. Then, the pre-segmentation of the lips is obtained by thresholding the calculated probability region. After, it is localized the mouth region by resulted obtained in pre-segmentation of the lips, i.e., some nonlips pixels detected are eliminated, and it are applied a simple morphological operators to include some lips pixels and non-lips around the mouth. Thus, a new segmentation of lips is performed over mouth region after transformation of color to enhance the region to be segmented. And, is applied the closing of gaps internal of lips segmented. Finally, the temporal motion of the lips is explored using Hidden Markov Models (HMMs) to detect the likely occurrence of active speech within a temporal window.
148

Segmentação de movimento coerente aplicada à codificação de vídeos baseada em objetos

Silva, Luciano Silva da January 2011 (has links)
A variedade de dispositivos eletrônicos capazes de gravar e reproduzir vídeos digitais vem crescendo rapidamente, aumentando com isso a disponibilidade deste tipo de informação nas mais diferentes plataformas. Com isso, se torna cada vez mais importante o desenvolvimento de formas eficientes de armazenamento, transmissão, e acesso a estes dados. Nesse contexto, a codificação de vídeos tem um papel fundamental ao compactar informação, otimizando o uso de recursos aplicados no armazenamento e na transmissão de vídeos digitais. Não obstante, tarefas que envolvem a análise de vídeos, manipulação e busca baseada em conteúdo também se tornam cada vez mais relevantes, formando uma base para diversas aplicações que exploram a riqueza da informação contida em vídeos digitais. Muitas vezes a solução destes problemas passa pela segmentação de vídeos, que consiste da divisão de um vídeo em regiões que apresentam homogeneidade segundo determinadas características, como por exemplo cor, textura, movimento ou algum aspecto semântico. Nesta tese é proposto um novo método para segmentação de vídeos em objetos constituintes com base na coerência de movimento de regiões. O método de segmentação proposto inicialmente identifica as correspondências entre pontos esparsamente amostrados ao longo de diferentes quadros do vídeo. Logo após, agrupa conjuntos de pontos que apresentam trajetórias semelhantes. Finalmente, uma classificação pixel a pixel é obtida a partir destes grupos de pontos amostrados. O método proposto não assume nenhum modelo de câmera ou de movimento global para a cena e/ou objetos, e possibilita que múltiplos objetos sejam identificados, sem que o número de objetos seja conhecido a priori. Para validar o método de segmentação proposto, foi desenvolvida uma abordagem para a codificação de vídeos baseada em objetos. Segundo esta abordagem, o movimento de um objeto é representado através de transformações afins, enquanto a textura e a forma dos objetos são codificadas simultaneamente, de modo progressivo. O método de codificação de vídeos desenvolvido fornece funcionalidades tais como a transmissão progressiva e a escalabilidade a nível de objeto. Resultados experimentais dos métodos de segmentação e codificação de vídeos desenvolvidos são apresentados, e comparados a outros métodos da literatura. Vídeos codificados segundo o método proposto são comparados em termos de PSNR a vídeos codificados pelo software de referência JM H.264/AVC, versão 16.0, mostrando a que distância o método proposto está do estado da arte em termos de eficiência de codificação, ao mesmo tempo que provê funcionalidades da codificação baseada em objetos. O método de segmentação proposto no presente trabalho resultou em duas publicações, uma nos anais do SIBGRAPI de 2007 e outra no períodico IEEE Transactions on Image Processing. / The variety of electronic devices for digital video recording and playback is growing rapidly, thus increasing the availability of such information in many different platforms. So, the development of efficient ways of storing, transmitting and accessing such data becomes increasingly important. In this context, video coding plays a key role in compressing data, optimizing resource usage for storing and transmitting digital video. Nevertheless, tasks involving video analysis, manipulation and content-based search also become increasingly relevant, forming a basis for several applications that exploit the abundance of information in digital video. Often the solution to these problems makes use of video segmentation, which consists of dividing a video into homogeneous regions according to certain characteristics such as color, texture, motion or some semantic aspect. In this thesis, a new method for segmentation of videos in their constituent objects based on motion coherence of regions is proposed. The proposed segmentation method initially identifies the correspondences of sparsely sampled points along different video frames. Then, it performs clustering of point sets that have similar trajectories. Finally, a pixelwise classification is obtained from these sampled point sets. The proposed method does not assume any camera model or global motion model to the scene and/or objects. Still, it allows the identification of multiple objects, without knowing the number of objects a priori. In order to validate the proposed segmentation method, an object-based video coding approach was developed. According to this approach, the motion of an object is represented by affine transformations, while object texture and shape are simultaneously coded, in a progressive way. The developed video coding method yields functionalities such as progressive transmission and object scalability. Experimental results obtained by the proposed segmentation and coding methods are presented, and compared to other methods from the literature. Videos coded by the proposed method are compared in terms of PSNR to videos coded by the reference software JM H.264/AVC, version 16.0, showing the distance of the proposed method from the sate of the art in terms of coding efficiency, while providing functionalities of object-based video coding. The segmentation method proposed in this work resulted in two publications, one in the proceedings of SIBGRAPI 2007 and another in the journal IEEE Transactions on Image Processing.
149

Um estudo sobre reconhecimento visual de caracteres através de redes neurais

Osorio, Fernando Santos January 1991 (has links)
Este trabalho apresenta um estudo sabre reconhecimento visual de caracteres através da utilização das redes neurais. São abordados os assuntos referentes ao Processamento Digital de Imagens, aos sistemas de reconhecimento de caracteres, e as redes neurais. Ao final é apresentada uma proposta de implementação de um sistema OCR orientado ao reconhecimento de caracteres impressos, que utiliza uma rede neural desenvolvida especificamente para esta aplicação. O sistema proposto, que é denominado de sistema N2OCR, possui um protótipo implementado que também é descrito neste trabalho. Em relação ao Processamento Digital de Imagens são apresentados diversos temas, abrangendo os assuntos referentes à aquisição de imagens, ao tratamento das imagens e ao reconhecimento de padrões. A respeito da aquisição de imagens são destacados os aspectos referentes aos dispositivos de aquisição e os tipos de imagens obtidas através destes. Sobre o tratamento de imagens são abordados os aspectos referentes a imagens textuais, incluindo: halftoning, geração e modificação de histograma, limiarização e operações de filtragem. Quanto ao reconhecimento de padrões é feita uma breve análise das técnicas relacionadas a este tema. Os diversos tipos de sistemas de reconhecimento de caracteres são abordados, assim coma as técnicas e algoritmos empregados por estes. Além destes tópicos é apresentada uma discussão a respeito da avaliação dos resultados obtidos por estes sistemas, assim como é feita uma análise das principais dificuldades enfrentadas por estas aplicações. Neste trabalho é feita uma apresentação a respeito das redes neurais, suas características, histórico e evolução das pesquisas nesta área. É feita uma descrição dos principais modelos de redes neurais em destaque na atualidade: Perceptron, Adaline, Madaline, redes multinível, ART, modelo de Hopfield, máquina de Boltzmann, BAM e modelo de Kohonen. A partir da análise dos diferentes modelos de redes neurais empregados na atualidade, chega-se a proposta de um novo modelo de rede a ser utilizado pelo sistema N2OCR. São descritos os itens referentes ao aprendizado, ao reconhecimento e as possíveis extensões deste novo modelo. Também é abordada a possibilidade de implementação de um hardware dedicado para este modelo. No final deste trabalho é fornecida uma visão global do sistema N2OCR, descrevendo cada um de seus módulos. Também é feita uma descrição do protótipo implementado e de suas funções. / This work presents a study of visual character recognition using neural networks. It describes some aspects related to Digital Image Processing, character recognition systems and neural networks. The implementation proposal of one OCR system, for printed character recognition, is also presented. This system uses one neural network specifically developed for this purpose. The OCR system, named N2OCR, has a prototype implementation, which is also described. Several topics related to Digital Image Processing are presented, including some referent to image acquisition, image processing and pattern recognition. Some aspects on image acquisiton are treated, like acquisition equipments and kinds of image data obtained from those equipments. The following items about text image processing are mentioned: halftoning, hystogram generation and alteration, thresholding and filtering operations. A brief analysis about pattern recognition related to this theme is done. Different kinds of character recognition systems are described, as the techniques and algorithms used by them. Besides, a di cussi on about performance estimation of this OCR systems is done, including typical OCR problems description and analysis. In this work, neural networks are presented, describing their characteristics, historical aspects and research evolution in this field. Different famous neural network models are described: Perceptron, Adaline, Madaline, multilevel networks. ART, Hopfield's model , Boltzmann machine, BAM and Kohonen's model. From the analysis of such different neural network models, we arrive to a proposal of a new neural net model, where are described items related to learning, recognition and possible model extensions. A possible hardware implementation of this model is also presented. A global vision of N2OCR system is presented at the end of this work, describing each of its modules. A description of the prototype implementation and functions is also provided.
150

Quantificação de impressões diagnósticas em imagens de cintilografia renal / Quantification of diagnostic impressions in renal scintigraphy

Marcuzzo, Mônica January 2007 (has links)
A cintilografia renal é um exame amplamente utilizado para a avaliação visual do funcionamento do córtex renal. Ele permite visualizar a concentração do radiofármaco, o tamanho, a forma, a simetria e a posição dos rins. No entanto, a avaliação visual das impressões diagnósticas dessas imagens tende a ser um processo subjetivo. Isso faz com que ocorra uma significativa variabilidade entre as interpretações feitas por diferentes especialistas. Assim, este trabalho tem como objetivo propor medidas quantitativas que refletem impressões diagnósticas comumente observadas por especialistas nas imagens de cintilografia renal. São atribuídos valores numéricos a essas impressões, o que, potencialmente, reduz a subjetividade e a variabilidade da interpretação das descobertas. A fim de permitir a extração dessas medidas, um método de segmentação específico para essas imagens também é proposto. Os resultados indicam que as medidas propostas atingem níveis de concordância de no mínimo 90% dos casos quando comparadas com a avaliação visual de especialistas. Esses resultados sugerem que as medidas podem ser usadas para reduzir a subjetividade na avaliação das imagens, já que elas fornecem uma alternativa quantitativa e objetiva para reportar as impressões diagnosticas das imagens de cintilografia renal. / Renal scintigraphy is a well established functional technique for the visual evaluation of the renal cortical mass. It allows the visualization of the radiopharmaceutical tracer distribution, the size, the shape, the symmetry, and the position of the kidneys. However, the visual diagnostic impressions for these images tend to be a subjective process. It causes significant variability in the interpretation of findings. Thus, this work aims at proposing quantitative measures that reflect common diagnostic impressions for those images. These measures can potentially minimize the inter-observer variability. In order to make possible the extraction of these measures, a specific segmentation method is also proposed. The results indicate that our proposed features agree in at least 90% of the cases with the specialists visual evaluation. These results suggest that the features could be used to reduce the subjectivity in the evaluation of the images, since they provide a quantitative and objective alternative to report the diagnostic impressions.

Page generated in 0.0782 seconds