Global ETD Search

1	Caracterização e recuperação de imagens usando dicionários visuais semanticamente enriquecidos / Image characterization and retrieval using visual dictionaries semantically enriched Pedrosa, Glauco Vitor 24 August 2015 (has links) A análise automática da similaridade entre imagens depende fortemente de descritores que consigam caracterizar o conteúdo das imagens em dados compactos e discriminativos. Esses dados extraídos e representados em um vetor-de-características tem o objetivo de representar as imagens nos processos de mineração e análise para classificação e/ou recuperação. Neste trabalho foi explorado o uso de dicionários visuais e contexto para representar e recuperar as características locais das imagens utilizando formalismos estendidos com alto poder descritivo. Esta tese apresenta em destaque três novas propostas que contribuem competitivamente com outros trabalhos da literatura no avanço do estado-da-arte, desenvolvendo novas metodologias para a caracterização de imagens e para o processamento de consultas por similaridade. A primeira proposta estende a modelagem Bag-of-Visual-Words, permitindo codificar a interação entre palavras-visuais e suas disposições espaciais na imagem. Para tal fim, três novas abordagem são apresentadas: (i) Weighted Histogram (WE); (ii) Bunch-of-2-grams e (iii) Global Spatial Arrangement (GSA). Cada uma dessas técnicas permitem extrair informações semanticamente complementares, que enriquecem a representação final das imagens descritas em palavras-visuais. A segunda proposta apresenta um novo descritor, chamado de Bag-of-Salience-Points (BoSP), que caracteriza e analisa a dissimilaridade de formas (silhuetas) de objetos explorando seus pontos de saliências. O descritor BoSP se apoia no uso de um dicionário de curvaturas e em histogramas espaciais para representar sucintamente as saliências de um objeto em um único vetor-de-características de tamanho fixo, permitindo recuperar formas usando funções de distâncias computacionalmente rápidas. Por fim, a terceira proposta apresenta um novo modelo de consulta por similaridade, denominada Similarity Based on Dominant Images (SimDIm), baseada no conceito de Imagens Dominantes, que é um conjunto que representa, de uma maneira mais diversificada e reduzida, toda a coleção de imagens da base de dados. Tal conceito permite dar mais eficiência quando se deseja analisar o contexto da coleção, que é o objetivo da proposta. Os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva para caracterizar e quantificar a similaridade entre imagens por meio de abordagens estendidas baseadas em dicionários visuais e análise contextual, reduzindo a lacuna semântica existente entre a percepção humana e a descrição computacional. / The automatic similarity analysis between images depends heavily on the use of descriptors that should be able to characterize the images\' content in compact and discriminative features. These extracted features are represented by a feature-vector employed to represent the images in the process of mining and analysis for classification and/or retrieval. This work investigated the use of visual dictionaries and context to represent and retrieve the local image features using extended formalism with high descriptive power. This thesis presents three new proposals that contribute in advancing the state-of-the-art by developing new methodologies for characterizing images and for processing similarity queries by content. The first proposal extends the Bag-of-Visual-Words model, by encoding the interaction between the visual words and their spatial arrangements in the image space. For this, three new techniques are presented: (i) Weighted Histogram (WE); (ii) Bunch-of--grams and (iii) Global Spatial Arrangement (GSA). These three techniques allow to extract additional semantically information that enrich the final image representation described in visual-words. The second proposal introduces a new descriptor, called Bag-of-Salience-Points (BoSP), which characterizes and analyzes the dissimilarity of shapes (silhouettes) exploring their salient point. The BoSP descriptor is based on using a dictionary of curvatures and spatial-histograms to represent succinctly the saliences of a shape into a single fixed-length feature-vector, allowing to retrieve shapes using distance functions computationally fast. Finally, the third proposal introduces a new similarity query model, called Similarity based on Dominant Images (SimDIm), based on the concept of dominant images, which is a set of images representing the entire collection of images of the database in a more diversified and reduced manner. This concept allows to efficiently analyze the context of the entire collection, which is the final goal. The experiments showed that the proposed methods effectively contributed to characterize and quantify the similarity between images using extended approaches based on visual dictionaries and contextual analysis, reducing the semantic gap between human perception and computational description. Consultas por similaridade Dicionários visuais Extração de características Feature Extraction Image Retrieval Palavras visuais Recuperação de imagens Similarity Search Visual Dictionary Visual Words
2	Caracterização e recuperação de imagens usando dicionários visuais semanticamente enriquecidos / Image characterization and retrieval using visual dictionaries semantically enriched Glauco Vitor Pedrosa 24 August 2015 (has links) A análise automática da similaridade entre imagens depende fortemente de descritores que consigam caracterizar o conteúdo das imagens em dados compactos e discriminativos. Esses dados extraídos e representados em um vetor-de-características tem o objetivo de representar as imagens nos processos de mineração e análise para classificação e/ou recuperação. Neste trabalho foi explorado o uso de dicionários visuais e contexto para representar e recuperar as características locais das imagens utilizando formalismos estendidos com alto poder descritivo. Esta tese apresenta em destaque três novas propostas que contribuem competitivamente com outros trabalhos da literatura no avanço do estado-da-arte, desenvolvendo novas metodologias para a caracterização de imagens e para o processamento de consultas por similaridade. A primeira proposta estende a modelagem Bag-of-Visual-Words, permitindo codificar a interação entre palavras-visuais e suas disposições espaciais na imagem. Para tal fim, três novas abordagem são apresentadas: (i) Weighted Histogram (WE); (ii) Bunch-of-2-grams e (iii) Global Spatial Arrangement (GSA). Cada uma dessas técnicas permitem extrair informações semanticamente complementares, que enriquecem a representação final das imagens descritas em palavras-visuais. A segunda proposta apresenta um novo descritor, chamado de Bag-of-Salience-Points (BoSP), que caracteriza e analisa a dissimilaridade de formas (silhuetas) de objetos explorando seus pontos de saliências. O descritor BoSP se apoia no uso de um dicionário de curvaturas e em histogramas espaciais para representar sucintamente as saliências de um objeto em um único vetor-de-características de tamanho fixo, permitindo recuperar formas usando funções de distâncias computacionalmente rápidas. Por fim, a terceira proposta apresenta um novo modelo de consulta por similaridade, denominada Similarity Based on Dominant Images (SimDIm), baseada no conceito de Imagens Dominantes, que é um conjunto que representa, de uma maneira mais diversificada e reduzida, toda a coleção de imagens da base de dados. Tal conceito permite dar mais eficiência quando se deseja analisar o contexto da coleção, que é o objetivo da proposta. Os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva para caracterizar e quantificar a similaridade entre imagens por meio de abordagens estendidas baseadas em dicionários visuais e análise contextual, reduzindo a lacuna semântica existente entre a percepção humana e a descrição computacional. / The automatic similarity analysis between images depends heavily on the use of descriptors that should be able to characterize the images\' content in compact and discriminative features. These extracted features are represented by a feature-vector employed to represent the images in the process of mining and analysis for classification and/or retrieval. This work investigated the use of visual dictionaries and context to represent and retrieve the local image features using extended formalism with high descriptive power. This thesis presents three new proposals that contribute in advancing the state-of-the-art by developing new methodologies for characterizing images and for processing similarity queries by content. The first proposal extends the Bag-of-Visual-Words model, by encoding the interaction between the visual words and their spatial arrangements in the image space. For this, three new techniques are presented: (i) Weighted Histogram (WE); (ii) Bunch-of--grams and (iii) Global Spatial Arrangement (GSA). These three techniques allow to extract additional semantically information that enrich the final image representation described in visual-words. The second proposal introduces a new descriptor, called Bag-of-Salience-Points (BoSP), which characterizes and analyzes the dissimilarity of shapes (silhouettes) exploring their salient point. The BoSP descriptor is based on using a dictionary of curvatures and spatial-histograms to represent succinctly the saliences of a shape into a single fixed-length feature-vector, allowing to retrieve shapes using distance functions computationally fast. Finally, the third proposal introduces a new similarity query model, called Similarity based on Dominant Images (SimDIm), based on the concept of dominant images, which is a set of images representing the entire collection of images of the database in a more diversified and reduced manner. This concept allows to efficiently analyze the context of the entire collection, which is the final goal. The experiments showed that the proposed methods effectively contributed to characterize and quantify the similarity between images using extended approaches based on visual dictionaries and contextual analysis, reducing the semantic gap between human perception and computational description. Consultas por similaridade Dicionários visuais Extração de características Palavras visuais Recuperação de imagens Feature Extraction Image Retrieval Similarity Search Visual Dictionary Visual Words
3	Alinhamento texto-imagem em sites de notícias Veltroni, Wellington Cristiano 02 March 2018 (has links) Submitted by Wellington Veltroni (wellingtonveltroni@gmail.com) on 2018-04-10T20:01:58Z No. of bitstreams: 4 Disserta__o___Wellington_C__Veltroni-versao_final.pdf: 15387621 bytes, checksum: 73df0490e376ced1e7ca7ae3eb77db60 (MD5) FA_vELTRONI.jpg: 460462 bytes, checksum: 790b1993aa2dca9f252dac391edb16d3 (MD5) rd_vELTRONI.jpg: 817039 bytes, checksum: 9dca57906ec66fb968b138749edaf787 (MD5) tc_vELTRONI.jpg: 581847 bytes, checksum: bcc9d308881a36fbccfb47fe2349b222 (MD5) / Rejected by Eunice Nunes (eunicenunes6@gmail.com), reason: Bom dia Wellington, Informamos que faltou enviar a Carta comprovante assinada pelo orientador. Solicite o modelo em sua Secretaria de Pós-graduação, preencha e colete a assinatura com o orientador e acesse novamente o sistema para fazer o Upload. Fico no aguardo para finalizarmos o processo. Abraços Ronildo on 2018-04-17T14:16:27Z (GMT) / Submitted by Wellington Veltroni (wellingtonveltroni@gmail.com) on 2018-04-18T12:15:38Z No. of bitstreams: 5 Disserta__o___Wellington_C__Veltroni-versao_final.pdf: 15387621 bytes, checksum: 73df0490e376ced1e7ca7ae3eb77db60 (MD5) FA_vELTRONI.jpg: 460462 bytes, checksum: 790b1993aa2dca9f252dac391edb16d3 (MD5) rd_vELTRONI.jpg: 817039 bytes, checksum: 9dca57906ec66fb968b138749edaf787 (MD5) tc_vELTRONI.jpg: 581847 bytes, checksum: bcc9d308881a36fbccfb47fe2349b222 (MD5) Carta_orientadora.pdf: 386667 bytes, checksum: 7343ef875a0334174a4a5abe3fd73b3e (MD5) / Approved for entry into archive by Eunice Nunes (eunicenunes6@gmail.com) on 2018-04-26T12:03:07Z (GMT) No. of bitstreams: 5 Disserta__o___Wellington_C__Veltroni-versao_final.pdf: 15387621 bytes, checksum: 73df0490e376ced1e7ca7ae3eb77db60 (MD5) FA_vELTRONI.jpg: 460462 bytes, checksum: 790b1993aa2dca9f252dac391edb16d3 (MD5) rd_vELTRONI.jpg: 817039 bytes, checksum: 9dca57906ec66fb968b138749edaf787 (MD5) tc_vELTRONI.jpg: 581847 bytes, checksum: bcc9d308881a36fbccfb47fe2349b222 (MD5) Carta_orientadora.pdf: 386667 bytes, checksum: 7343ef875a0334174a4a5abe3fd73b3e (MD5) / Rejected by Eunice Nunes (eunicenunes6@gmail.com), reason: Bom dia Wellington, Verificamos que a folha de aprovação não está inserida em sua dissertação Tentei colocá-la aqui mas desconfigura todo o trabalho Poderia por favor enviar um novo arquivo com a folha de aprovação já inserida em sua dissertação Aguardo o retorno para finalizarmos o processo Qualquer dúvida estou à disposição Abraços Eunice on 2018-05-17T13:43:35Z (GMT) / Submitted by Wellington Veltroni (wellingtonveltroni@gmail.com) on 2018-05-28T14:50:36Z No. of bitstreams: 5 FA_vELTRONI.jpg: 460462 bytes, checksum: 790b1993aa2dca9f252dac391edb16d3 (MD5) rd_vELTRONI.jpg: 817039 bytes, checksum: 9dca57906ec66fb968b138749edaf787 (MD5) tc_vELTRONI.jpg: 581847 bytes, checksum: bcc9d308881a36fbccfb47fe2349b222 (MD5) Carta_orientadora.pdf: 386667 bytes, checksum: 7343ef875a0334174a4a5abe3fd73b3e (MD5) Disserta__o___Wellington_C__Veltroni_c_folha_aprovacao.pdf: 15849017 bytes, checksum: 2884d766f705fbe38907a8f56724796e (MD5) / Approved for entry into archive by Ronildo Prado (ri.bco@ufscar.br) on 2018-06-06T13:12:16Z (GMT) No. of bitstreams: 5 FA_vELTRONI.jpg: 460462 bytes, checksum: 790b1993aa2dca9f252dac391edb16d3 (MD5) rd_vELTRONI.jpg: 817039 bytes, checksum: 9dca57906ec66fb968b138749edaf787 (MD5) tc_vELTRONI.jpg: 581847 bytes, checksum: bcc9d308881a36fbccfb47fe2349b222 (MD5) Carta_orientadora.pdf: 386667 bytes, checksum: 7343ef875a0334174a4a5abe3fd73b3e (MD5) Disserta__o___Wellington_C__Veltroni_c_folha_aprovacao.pdf: 15849017 bytes, checksum: 2884d766f705fbe38907a8f56724796e (MD5) / Approved for entry into archive by Ronildo Prado (ri.bco@ufscar.br) on 2018-06-06T13:12:26Z (GMT) No. of bitstreams: 5 FA_vELTRONI.jpg: 460462 bytes, checksum: 790b1993aa2dca9f252dac391edb16d3 (MD5) rd_vELTRONI.jpg: 817039 bytes, checksum: 9dca57906ec66fb968b138749edaf787 (MD5) tc_vELTRONI.jpg: 581847 bytes, checksum: bcc9d308881a36fbccfb47fe2349b222 (MD5) Carta_orientadora.pdf: 386667 bytes, checksum: 7343ef875a0334174a4a5abe3fd73b3e (MD5) Disserta__o___Wellington_C__Veltroni_c_folha_aprovacao.pdf: 15849017 bytes, checksum: 2884d766f705fbe38907a8f56724796e (MD5) / Made available in DSpace on 2018-06-06T13:16:03Z (GMT). No. of bitstreams: 5 FA_vELTRONI.jpg: 460462 bytes, checksum: 790b1993aa2dca9f252dac391edb16d3 (MD5) rd_vELTRONI.jpg: 817039 bytes, checksum: 9dca57906ec66fb968b138749edaf787 (MD5) tc_vELTRONI.jpg: 581847 bytes, checksum: bcc9d308881a36fbccfb47fe2349b222 (MD5) Carta_orientadora.pdf: 386667 bytes, checksum: 7343ef875a0334174a4a5abe3fd73b3e (MD5) Disserta__o___Wellington_C__Veltroni_c_folha_aprovacao.pdf: 15849017 bytes, checksum: 2884d766f705fbe38907a8f56724796e (MD5) Previous issue date: 2018-03-02 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / Text-image alignment is the task of aligning elements in a text with elements in the image accompanying it. In this work the text-image alignment was applied in news sites. A lot of news do not make clear the correspondence between elements of a text and elements within the associated image. In this scenario, text-image alignment arises with the intention of guiding the reader, bringing clarity to the news and associated image since it explicitly explains the direct correspondence between regions of the image and words (or named entities) in the text. The goal of this work is to combine Natural Language Processing (NLP) and Computer Vision (CV) techniques to generate a text-image alignment for news: the LinkPICS aligner. LinkPICS uses the YOLO convolutional network (CNN) to detect people and objects in the image associated with the news text. Due to the limitation of the number of objects detected by YOLO (only 80 classes), we decided to use three other CNNs to generate new labels for detected objects. In this work, the text-image alignment was divided into two distinct processes: (1) people alignment and (2) objects alignment. In people alignment, the named entities identified in the text are aligned with images of people. In the evaluation performed with the Folha de São Paulo International news corpus, in English, LinkPICS obtained an accuracy of 98% precision. For the objects alignment, the physical words are aligned with objects (or animals, fruits, etc.) present in the image associated with the news. In the evaluation performed with the news corpus of BBC NEWS, also in English, LinkPICS achieved 72% precision. The main contributions of this work are the LinkPICS aligner and the proposed strategy for its implementation, which represent innovations for the NLP and CV areas. In addition to these, another contribution of this work is the possibility of generating a visual dictionary (words associated with images) containing people and objects aligned, which can be used in other researches and applications such as helping to learn a second language. / O alinhamento texto-imagem é a tarefa de alinhar elementos presentes em um texto com elementos presentes na imagem que o acompanha. Neste trabalho, o alinhamento texto-imagem foi aplicado em sites de notícias. Muitas notícias não deixam clara para o leitor a correspondência entre elementos do texto e elementos contidos na imagem associada. Nesse cenário, o alinhamento texto-imagem surge com a intenção de orientar o leitor, trazendo clareza para a notícia e a imagem associada uma vez que explicita a correspondência direta entre regiões da imagem e palavras (ou entidades) no texto. O objetivo deste trabalho é combinar técnicas de Processamento de Linguagem Natural (PLN) e Visão Computacional (VC) para gerar um alinhador texto-imagem para notícias: o alinhador LinkPICS. O LinkPICS utiliza a rede convolucional (CNN) YOLO para detectar pessoas e objetos na imagem associada ao texto da notícia. Devido à limitação do número de objetos detectados pela YOLO (80 classes de objetos), optou-se também pela utilização de outras três CNNs para a geração de novos rótulos para objetos. Neste trabalho, o alinhamento texto-imagem foi dividido em dois processos distintos: (1) o alinhamento de pessoas e (2) o alinhamento de objetos. No alinhamento de pessoas, as entidades nomeadas são alinhadas com imagens de pessoas e na avaliação realizada no córpus de notícias da Folha de São Paulo Internacional, em inglês, obteve-se uma precisão de 98%. No alinhamento de objetos, as palavras físicas são alinhadas com objetos (ou animais, frutas, etc.) contidos na imagem associada à notícia e na avaliação realizada no córpus de notícias da BBC NEWS, também em inglês, obteve-se uma precisão de 72%. As principais contribuições deste trabalho são o alinhador LinkPICS e a estratégia proposta para sua implementação, que representam inovações para as áreas de PLN e VC. Além destas, outra contribuição deste trabalho é a possibilidade de geração de um dicionário visual (palavras associadas a imagens) contendo pessoas e objetos alinhados, que poderá ser utilizado em outras pesquisas e aplicações como, por exemplo, no auxílio ao aprendizado de outro idioma. / CNPQ: 133679/2015-2 Alinhamento Texto-imagem Imagem-texto Anotação de imagem Aprendizado visual Dicionário visual Alignment Text-image Image-text Image annotation Visual learning Visual dictionary

1

Page generated in 0.0652 seconds