181 |
Caracterização de imagens utilizando redes neurais artificiaisRibeiro, Eduardo Ferreira 09 June 2009 (has links)
Fundação de Amparo a Pesquisa do Estado de Minas Gerais / Image representation in Content Based Image Retrieval systems is a
fundamental task. The
results obtained by these systems strongly depend on the choice of
features selected to represent
an image. Works in the literature show that intelligent techniques are
used to minimize the
semantic gap between the limited power of machine interpretation and
human subjectivity.
In this work the use of artificial neural networks to characterize
images in a high-level
space from an initial characterization based on low-level features
(color, shape and texture) is
proposed.
Experiments on 3 databases of various kinds, one with general images
(BD-12750 ), one with
texture images (Vistex-167 ) and other with buildings (ZuBuD) are
performed to exemplify the
application of the method and to show the effectiveness of the model.
Furthermore, the application of the proposed method in the high-level
characterization of
complex motions patterns is presented. / Em sistemas de Recuperação de Imagens Baseada em Conteúdo a
representação das imagens desempenham um papel fundamental. Os resultados obtidos por esses
sistemas dependem
fortemente da escolha das características selecionadas para representar
uma imagem. Trabalhos existentes na literatura evidenciam que técnicas inteligentes
conseguem minimizar o gap-
semântico existente entre o poder de interpretação limitado das máquinas
e a subjetividade
humana.
Neste trabalho é proposto o uso das redes neurais artificiais para
caracterizar imagens
neurosemânticamente à partir de uma caracterização inicial baseada em
características de baixo
nível (cor, forma e textura).
Testes em 3 bases de dados de naturezas diferentes, um de imagens mais
gerais (BD-12750 ),
um de texturas (Vistex-167 ) e outro de prédios (ZuBuD) exemplificam a
aplicação do método
como também mostram a eficácia do modelo.
Ainda é apresentada a aplicação do método proposto na caracterização
neurosemântica de
movimentos complexos em vídeos. / Mestre em Ciência da Computação
|
182 |
Chiffrement homomorphe et recherche par le contenu sécurisé de données externalisées et mutualisées : Application à l'imagerie médicale et l'aide au diagnostic / Homomorphic encryption and secure content based image retieval over outsourced data : Application to medical imaging and diagnostic assistanceBellafqira, Reda 19 December 2017 (has links)
La mutualisation et l'externalisation de données concernent de nombreux domaines y compris celui de la santé. Au-delà de la réduction des coûts de maintenance, l'intérêt est d'améliorer la prise en charge des patients par le déploiement d'outils d'aide au diagnostic fondés sur la réutilisation des données. Dans un tel environnement, la sécurité des données (confidentialité, intégrité et traçabilité) est un enjeu majeur. C'est dans ce contexte que s'inscrivent ces travaux de thèse. Ils concernent en particulier la sécurisation des techniques de recherche d'images par le contenu (CBIR) et de « machine learning » qui sont au c'ur des systèmes d'aide au diagnostic. Ces techniques permettent de trouver des images semblables à une image requête non encore interprétée. L'objectif est de définir des approches capables d'exploiter des données externalisées et sécurisées, et de permettre à un « cloud » de fournir une aide au diagnostic. Plusieurs mécanismes permettent le traitement de données chiffrées, mais la plupart sont dépendants d'interactions entre différentes entités (l'utilisateur, le cloud voire un tiers de confiance) et doivent être combinés judicieusement de manière à ne pas laisser fuir d'information lors d'un traitement.Au cours de ces trois années de thèse, nous nous sommes dans un premier temps intéressés à la sécurisation à l'aide du chiffrement homomorphe, d'un système de CBIR externalisé sous la contrainte d'aucune interaction entre le fournisseur de service et l'utilisateur. Dans un second temps, nous avons développé une approche de « Machine Learning » sécurisée fondée sur le perceptron multicouches, dont la phase d'apprentissage peut être externalisée de manière sûre, l'enjeu étant d'assurer la convergence de cette dernière. L'ensemble des données et des paramètres du modèle sont chiffrés. Du fait que ces systèmes d'aides doivent exploiter des informations issues de plusieurs sources, chacune externalisant ses données chiffrées sous sa propre clef, nous nous sommes intéressés au problème du partage de données chiffrées. Un problème traité par les schémas de « Proxy Re-Encryption » (PRE). Dans ce contexte, nous avons proposé le premier schéma PRE qui permet à la fois le partage et le traitement des données chiffrées. Nous avons également travaillé sur un schéma de tatouage de données chiffrées pour tracer et vérifier l'intégrité des données dans cet environnement partagé. Le message tatoué dans le chiffré est accessible que l'image soit ou non chiffrée et offre plusieurs services de sécurité fondés sur le tatouage. / Cloud computing has emerged as a successful paradigm allowing individuals and companies to store and process large amounts of data without a need to purchase and maintain their own networks and computer systems. In healthcare for example, different initiatives aim at sharing medical images and Personal Health Records (PHR) in between health professionals or hospitals with the help of the cloud. In such an environment, data security (confidentiality, integrity and traceability) is a major issue. In this context that these thesis works, it concerns in particular the securing of Content Based Image Retrieval (CBIR) techniques and machine learning (ML) which are at the heart of diagnostic decision support systems. These techniques make it possible to find similar images to an image not yet interpreted. The goal is to define approaches that can exploit secure externalized data and enable a cloud to provide a diagnostic support. Several mechanisms allow the processing of encrypted data, but most are dependent on interactions between different entities (the user, the cloud or a trusted third party) and must be combined judiciously so as to not leak information. During these three years of thesis, we initially focused on securing an outsourced CBIR system under the constraint of no interaction between the users and the service provider (cloud). In a second step, we have developed a secure machine learning approach based on multilayer perceptron (MLP), whose learning phase can be outsourced in a secure way, the challenge being to ensure the convergence of the MLP. All the data and parameters of the model are encrypted using homomorphic encryption. Because these systems need to use information from multiple sources, each of which outsources its encrypted data under its own key, we are interested in the problem of sharing encrypted data. A problem known by the "Proxy Re-Encryption" (PRE) schemes. In this context, we have proposed the first PRE scheme that allows both the sharing and the processing of encrypted data. We also worked on watermarking scheme over encrypted data in order to trace and verify the integrity of data in this shared environment. The embedded message is accessible whether or not the image is encrypted and provides several services.
|
183 |
Proposta de um histograma perceptual de cores como característica para recuperação de imagens baseada em conteúdo / Proposal of a perception color histogram as characteristic for content-based image retrievalKatia Veloso Silva 14 September 2006 (has links)
Este trabalho foi desenvolvido com o intuito de se estabelecer uma metodologia para a classificação das cores de imagens digitais em cores perceptuais para se gerar um vetor de características que permita recuperar imagens através de seu conteúdo em uma base de dados. Em trabalhos e estudos correlatos analisados, as metodologias de agrupamento das diversas cores possíveis de uma imagem não permitem uma associação entre a cor digitalizada e a cor percebida por seres humanos. Estudos mostram que a maioria das culturas humanas associam às cores apenas onze termos: vermelho, amarelo, violeta, azul, verde, rosa, marrom, preto, branco, laranja e cinza. Este trabalho propõe, portanto, uma metodologia baseada em regras da lógica fuzzy, que permite associar a todas as possíveis cores de imagens digitais uma das onze cores culturais definidas, criando assim um histograma perceptual de cores. Isso permitiu a geração de um vetor de características para a recuperação de imagens baseada em conteúdo em uma base de dados. / This work aims at establishing a digital image classification methodology based on perceptual colors, by generating a feature vector that allows retrieving images from a database by their content. In related works the methodologies of grouping the diverse possible colors of an image do not allow associate digitized colors and those colors perceived by human beings. Studies show that the majority of human being culture associates only eleven terms to all the possible colors: red, yellow, blue, green, pink, brown, black, white, purple, orange and gray. This work purpose a methodology based on fuzzy logic that allows to associate the eleven cultural color terms with all of digitized colors by a perceptual color histogram. The image color quantization generates a feature vector used for content-based image retrieval. The results show that it is possible to use the perceptual color histogram for CBIR and in the semantic gap reduction.
|
184 |
Segmentação da estrutura cerebral hipocampo por meio de nuvem de similaridade / Automatic hippocampus segmentation through similarity cloudFredy Edgar Carranza Athó 03 August 2011 (has links)
O hipocampo é uma estrutura cerebral que possui importância primordial para o sistema de memória humana. Alterações no seus tecidos levam a doenças neurodegenerativas, tais como: epilepsia, esclerose múltipla e demência, entre outras. Para medir a atrofia do hipocampo é necessário isolá-lo do restante do cérebro. A separação do hipocampo das demais partes do cérebro ajuda aos especialistas na análise e o entendimento da redução de seu volume e detecção de qualquer anomalia presente. A extração do hipocampo é principalmente realizada de modo manual, a qual é demorada, pois depende da interação do usuário. A segmentação automática do hipocampo é investigada como uma alternativa para contornar tais limitações. Esta dissertação de mestrado apresenta um novo método de segmentação automático, denominado Modelo de Nuvem de Similaridade (Similarity Cloud Model - SimCM). O processo de segmentação é dividido em duas etapas principais: i) localização por similaridade e ii) ajuste de nuvem. A primeira operação utiliza a nuvem para localizar a posição mais provável do hipocampo no volume destino. A segunda etapa utiliza a nuvem para corrigir o delineamento final baseada em um novo método de cálculo de readequação dos pesos das arestas. Nosso método foi testado em um conjunto de 235 MRI combinando imagens de controle e de pacientes com epilepsia. Os resultados alcançados indicam um rendimento superior tanto em efetividade (qualidade da segmentação) e eficiência (tempo de processamento), comparado com modelos baseados em grafos e com modelos Bayesianos. Como trabalho futuro, pretendemos utilizar seleção de características para melhorar a construção da nuvem e o delineamento dos tecidos / The hippocampus is a particular structure that plays a main role in human memory systems. Tissue modifications of the hippocampus lead to neurodegenerative diseases as epilepsy, multiple sclerosis, and dementia, among others. To measure hippocampus atrophy, it is crucial to get its isolated representation from the whole brain volume. Separating the hippocampus from the brain helps physicians in better analyzing and understanding its volume reduction, and detecting any abnormal behavior. The extraction of the hippocampus is dominated by manual segmentation, which is time consuming mainly because it depends on user interaction. Therefore, automatic segmentation of the hippocampus has being investigated as an alternative solution to overcome such limitations. This master dissertation presents a new automatic segmentation method called Similarity Cloud Model (SimCM) based on hippocampus feature extraction. The segmentation process consists of two main operations: i) localization by similarity, and ii) cloud adjustment. The first operation uses the cloud to localize the most probable position of the hippocampus in a target volume. The second process invokes the cloud to correct the final labeling, based on a new method for arc-weight re-adjustment. Our method has been tested in a dataset of 235 MRIs combining healthy and epileptic patients. Results indicate superior performance, in terms of effectiveness (segmentation quality) and efficiency (processing time), in comparison with similar graph-based and Bayesian-based models. As future work, we intend to use feature selection to improve cloud construction and tissue delineation
|
185 |
Adequando consultas por similaridade para reduzir a descontinuidade semântica na recuperação de imagens por conteúdo / Reducing the semantic gap content-based image retrieval with similarity queriesHumberto Luiz Razente 31 August 2009 (has links)
Com o crescente aumento no número de imagens geradas em mídias digitais surgiu a necessidade do desenvolvimento de novas técnicas de recuperação desses dados. Um critério de busca que pode ser utilizado na recuperação das imagens é o da dissimilaridade, no qual o usuário deseja recuperar as imagens semelhantes à uma imagem de consulta. Para a realização das consultas são empregados vetores de características extraídos das imagens e funções de distância para medir a dissimilaridade entre pares desses vetores. Infelizmente, a busca por conteúdo de imagens em consultas simples tende a gerar resultados que não correspondem ao interesse do usuário misturados aos resultados significativos encontrados, pois em geral há uma descontinuidade semântica entre as características extraídas automaticamente e a subjetividade da interpretação humana. Com o intuito de tratar esse problema, diversos métodos foram propostos para a diminuição da descontinuidade semântica. O foco principal desta tese é o desenvolvimento de métodos escaláveis para a redução da descontinuidade semântica em sistemas recuperação de imagens por conteúdo em tempo real. Nesta sentido, são apresentados: a formalização de consultas por similaridade que permitem a utilização de múltiplos centros de consulta em espaços métricos como base para métodos de realimentação de relevância; um método exato para otimização dessas consultas nesses espaços; e um modelo para tratamento da diversidade em consultas por similaridade e heurísticas para sua otimização / The increasing number of images captured in digital media fostered the developmet of new methods for the recovery of these images. Dissimilarity is a criteria that can be used for image retrieval, where the results are images that are similar to a given reference. The queries are based on feature vectors automatically extracted from the images and on distance functions to measure the dissimilarity between pair of vectors. Unfortunately, the search for images in simple queries may result in images that do not fulfill the user interest together with meaningful images, due to the semantic gap between the image features and to the subjectivity of the human interpretation. This problem leaded to the development of many methods to deal with the semantic gap. The focus of this thesis is the development of scalable methods aiming the semantic gap reduction in real time for content-based image retrieval systems. For this purpose, we present the formal definition of similarity queries based on multiple query centers in metric spaces to be used in relevance feedback methods, an exact method to optimize these queries and a model to deal with diversity in nearest neighbor queries including heuristics for its optimization
|
186 |
Modélisation stochastique pour l’analyse d’images texturées : approches Bayésiennes pour la caractérisation dans le domaine des transforméesLasmar, Nour-Eddine 07 December 2012 (has links)
Le travail présenté dans cette thèse s’inscrit dans le cadre de la modélisation d’images texturées à l’aide des représentations multi-échelles et multi-orientations. Partant des résultats d’études en neurosciences assimilant le mécanisme de la perception humaine à un schéma sélectif spatio-fréquentiel, nous proposons de caractériser les images texturées par des modèles probabilistes associés aux coefficients des sous-bandes. Nos contributions dans ce contexte concernent dans un premier temps la proposition de différents modèles probabilistes permettant de prendre en compte le caractère leptokurtique ainsi que l’éventuelle asymétrie des distributions marginales associées à un contenu texturée. Premièrement, afin de modéliser analytiquement les statistiques marginales des sous-bandes, nous introduisons le modèle Gaussien généralisé asymétrique. Deuxièmement, nous proposons deux familles de modèles multivariés afin de prendre en compte les dépendances entre coefficients des sous-bandes. La première famille regroupe les processus à invariance sphérique pour laquelle nous montrons qu’il est pertinent d’associer une distribution caractéristique de type Weibull. Concernant la seconde famille, il s’agit des lois multivariées à copules. Après détermination de la copule caractérisant la structure de la dépendance adaptée à la texture, nous proposons une extension multivariée de la distribution Gaussienne généralisée asymétrique à l’aide de la copule Gaussienne. L’ensemble des modèles proposés est comparé quantitativement en terme de qualité d’ajustement à l’aide de tests statistiques d’adéquation dans un cadre univarié et multivarié. Enfin, une dernière partie de notre étude concerne la validation expérimentale des performances de nos modèles à travers une application de recherche d’images par le contenu textural. Pour ce faire, nous dérivons des expressions analytiques de métriques probabilistes mesurant la similarité entre les modèles introduits, ce qui constitue selon nous une troisième contribution de ce travail. Finalement, une étude comparative est menée visant à confronter les modèles probabilistes proposés à ceux de l’état de l’art. / In this thesis we study the statistical modeling of textured images using multi-scale and multi-orientation representations. Based on the results of studies in neuroscience assimilating the human perception mechanism to a selective spatial frequency scheme, we propose to characterize textures by probabilistic models of subband coefficients.Our contributions in this context consist firstly in the proposition of probabilistic models taking into account the leptokurtic nature and the asymmetry of the marginal distributions associated with a textured content. First, to model analytically the marginal statistics of subbands, we introduce the asymmetric generalized Gaussian model. Second, we propose two families of multivariate models to take into account the dependencies between subbands coefficients. The first family includes the spherically invariant processes that we characterize using Weibull distribution. The second family is this of copula based multivariate models. After determination of the copula characterizing the dependence structure adapted to the texture, we propose a multivariate extension of the asymmetric generalized Gaussian distribution using Gaussian copula. All proposed models are compared quantitatively using both univariate and multivariate statistical goodness of fit tests. Finally, the last part of our study concerns the experimental validation of the performance of proposed models through texture based image retrieval. To do this, we derive closed-form metrics measuring the similarity between probabilistic models introduced, which we believe is the third contribution of this work. A comparative study is conducted to compare the proposed probabilistic models to those of the state-of-the-art.
|
187 |
Análise da influência de funções de distância para o processamento de consultas por similaridade em recuperação de imagens por conteúdo / Analysis of the influence of distance functions to answer similarity queries in content-based image retrieval.Pedro Henrique Bugatti 16 April 2008 (has links)
A recuperação de imagens baseada em conteúdo (Content-based Image Retrieval - CBIR) embasa-se sobre dois aspectos primordiais, um extrator de características o qual deve prover as características intrínsecas mais significativas dos dados e uma função de distância a qual quantifica a similaridade entre tais dados. O grande desafio é justamente como alcançar a melhor integração entre estes dois aspectos chaves com intuito de obter maior precisão nas consultas por similaridade. Apesar de inúmeros esforços serem continuamente despendidos para o desenvolvimento de novas técnicas de extração de características, muito pouca atenção tem sido direcionada à importância de uma adequada associação entre a função de distância e os extratores de características. A presente Dissertação de Mestrado foi concebida com o intuito de preencher esta lacuna. Para tal, foi realizada a análise do comportamento de diferentes funções de distância com relação a tipos distintos de vetores de características. Os três principais tipos de características intrínsecas às imagens foram analisados, com respeito a distribuição de cores, textura e forma. Além disso, foram propostas duas novas técnicas para realização de seleção de características com o desígnio de obter melhorias em relação à precisão das consultas por similaridade. A primeira técnica emprega regras de associação estatísticas e alcançou um ganho de até 38% na precisão, enquanto que a segunda técnica utilizando a entropia de Shannon alcançou um ganho de aproximadamente 71% ao mesmo tempo em que reduz significantemente a dimensionalidade dos vetores de características. O presente trabalho também demonstra que uma adequada utilização das funções de distância melhora efetivamente os resultados das consultas por similaridade. Conseqüentemente, desdobra novos caminhos para realçar a concepção de sistemas CBIR / The retrieval of images by visual content relies on a feature extractor to provide the most meaningful intrinsic characteristics (features) from the data, and a distance function to quantify the similarity between them. A challenge in this field supporting content-based image retrieval (CBIR) to answer similarity queries is how to best integrate these two key aspects. There are plenty of researching on algorithms for feature extraction of images. However, little attention have been paid to the importance of the use of a well-suited distance function associated to a feature extractor. This Master Dissertation was conceived to fill in this gap. Therefore, herein it was investigated the behavior of different distance functions regarding distinct feature vector types. The three main types of image features were evaluated, regarding color distribution, texture and shape. It was also proposed two new techniques to perform feature selection over the feature vectors, in order to improve the precision when answering similarity queries. The first technique employed statistical association rules and achieve up to 38% gain in precision, while the second one employing the Shannon entropy achieved 71%, while siginificantly reducing the size of the feature vector. This work also showed that the proper use of a distance function effectively improves the similarity query results. Therefore, it opens new ways to enhance the acceptance of CBIR systems
|
188 |
Sistematização da percepção médica na construção de sistemas para recuperação de imagens por conteúdo / Systematization of medical perception in implementing of content-based image retrieval systemsMarcelo Ponciano da Silva 27 February 2014 (has links)
Nos últimos anos o mundo tem vivenciado uma avalanche de novas tecnologias para auxílio ao diagnóstico médico. Esses esforços buscam um diagnóstico rápido e preciso através de exames e informações sobre a condição física do paciente. Através do uso de imagens médicas, a radiologia busca a visualização de órgãos ou estruturas internas do corpo humano para encontrar respostas às suspeitas de problemas físicos expressos por sinais e sintomas relatados pelo paciente. Nessa área, os Sistemas de Comunicação e Armazenamento de Imagens (PACS) têm ajudado no armazenamento e organização do crescente número de imagens geradas pelos exames realizados nos hospitais. Trabalhos de pesquisa médica têm evidenciado o potencial de uso dessas imagens como auxílio à prática da Medicina Baseada em Casos Similares (MBCS). Por esse motivo, há na literatura um esforço contínuo em desenvolver técnicas computacionais para recuperação de imagens baseada em conteúdos similares (CBIR) em grandes conjuntos de dados. As consultas por similaridade são essenciais para apoiar a prática da MBCS e a descoberta de comportamentos de lesões causadas por diversas doenças. A evolução e intensificação das pesquisas em CBIR têm encontrado vários desafios. Um desses é a divergência entre os resultados obtidos automaticamente e aqueles esperados pelos radiologistas (descontinuidade semântica). Outro desafio é a falta de estudos sobre a viabilidade clínica dessas ferramentas como forma de auxílio ao diagnóstico. Esses obstáculos são dois dos principais responsáveis pela não efetivação dessa tecnologia no ambiente médico-hospitalar. Mediante o exposto acima, este trabalho de pesquisa propõe um mecanismo para contornar essa descontinuidade semântica e ao mesmo tempo aproximar o CBIR do ambiente real de aplicação. A contribuição principal deste trabalho foi o desenvolvimento de uma metodologia baseada em parâmetros perceptuais que aproximam o sistema ao nível de percepção do usuário médico. Em seguida, foi realizado um estudo sobre a viabilidade clínica do sistema CBIR no Hospital das Clínicas de Ribeirão Preto. A metodologia proposta foi aplicada e os resultados comprovaram a aplicabilidade de Sistemas CBIR como ferramenta de auxílio ao diagnóstico em um ambiente clínico real / In recent years the world has experienced an avalanche of new technologies to aid medical diagnosis. These efforts seek a quick and accurate diagnosis through exams and information about the patient\'s physical condition. The radiology studies the visualization of the organs or structures through the use of images. In this area, the Picture Archiving and Communication Systems (PACS) have helped in the storage and organization of the growing number of images generated by exams performed in hospitals. Medical research papers have shown the potential use of these images as an aid to the Similar Case-Based Reasoning (SCBR) practice in Medicine. For this reason, there is an ongoing effort in the literature to develop computational techniques for Content-Based Image Retrieval (CBIR) in large data sets. Similarity queries are essential to support the practice of SCBR. The evolution and intensification of research in CBIR have encountered several challenges. One of these is the discrepancy between the results obtained automatically and those expected by radiologists (semantic gap). Another challenge is the lack of studies on the clinical viability of these tools as a way to assist in diagnosis. These obstacles are the two main responsible for reservation in using this technology in the medical hospital environment. Considering this scenario, this research proposes a mechanism to overcome this semantic gap and bring the real environment to the CBIR application. The main contribution for this research was the development of a methodology based on Perceptual Parameters to approximate the system to the level of user perception. Then we conducted a study on the clinical viability of a CBIR system at the Clinical Hospital of the University of São Paulo at Ribeirão Preto. The proposed methodology was applied and the results showed the applicability of CBIR systems as a computer aided diagnosis tool in a real clinical environment
|
189 |
TSS e TSB: novos descritores de forma baseados em tensor scale / TSS & TSB: new shape descriptors based on tensor scaleAnderson Meirelles Freitas 24 October 2017 (has links)
Neste trabalho são apresentados dois novos descritores de forma para tarefas de recuperação de imagens por conteúdo (CBIR) e análise de formas, que são construídos sobre uma extensão do conceito de tensor scale baseada na Transformada de Distância Euclidiana (EDT). Primeiro, o algoritmo de tensor scale é utilizado para extrair informações da forma sobre suas estruturas locais (espessura, orientação e anisotropia) representadas pela maior elipse contida em uma região homogênea centrada em cada pixel da imagem. Nos novos descritores, o limite do intervalo das orientações das elipses do modelo de tensor scale é estendido de 180º para 360º, de forma a melhor discriminar a descrição das estruturas locais. Então, com base em diferentes abordagens de amostragem, visando resumir informações mais relevantes, os novos descritores são construídos. No primeiro descritor proposto, Tensor Scale Sector (TSS), a distribuição das orientações relativas das estruturas locais em setores circulares é utilizada para compor um vetor de características de tamanho fixo, para uma caracterização de formas baseada em região. No segundo descritor, o Tensor Scale Band (TSB), foram considerados histogramas das orientações relativas extraídos de bandas concêntricas, formando também um vetor de características de tamanho fixo, com uma função de distância de tempo linear. Resultados experimentais com diferentes bases de formas (MPEG-7 e MNIST) são apresentados para ilustrar e validar os métodos. TSS demonstra resultados comparáveis aos métodos estado da arte, que geralmente dependem de algoritmos custosos de otimização de correspondências. Já o TSB, com sua função de distância em tempo linear, se demonstra como uma solução adequada para grandes coleções de formas. / In this work, two new shape descriptors are proposed for tasks in Content-Based Image Retrieval (CBIR) and Shape Analysis tasks, which are built upon an extended tensor scale based on the Euclidean Distance Transform (EDT). First, the tensor scale algorithm is applied to extract shape attributes from its local structures (thickness, orientation, and anisotropy) as represented by the largest ellipse within a homogeneous region centered at each image pixel. In the new descriptors, the upper limit of the interval of local orientation of tensor scale ellipses is extended from 180º to 360º, to better discriminate the description of local structures. Then, the new descriptors are built based on different sampling approaches, aiming to summarize the most relevant features. In the first proposed descriptor, Tensor Scale Sector descriptor (TSS), the local distributions of relative orientations within circular sectors are used to compose a fixed-length feature vector, for a region-based shape characterization. For the second method, the Tensor Scale Band (TSB) descriptor, histograms of relative orientations are considered for each circular concentric band, to also compose a fixed-length feature vector, with linear time distance function for matching. Experimental results for different shape datasets (MPEG-7 and MNIST) are presented to illustrate and validate the methods. TSS can achieve high retrieval values comparable to state-of-the-art methods, which usually rely on time-consuming correspondence optimization algorithms, but uses a simpler and faster distance function, while the even faster linear complexity of TSB leads to a suitable solution for very large shape collections.
|
190 |
New methods for image classification, image retrieval and semantic correspondence / Nouvelles méthodes pour classification d'image, recherche d'image et correspondence sémantiqueSampaio de Rezende, Rafael 19 December 2017 (has links)
Le problème de représentation d’image est au cœur du domaine de vision. Le choix de représentation d’une image change en fonction de la tâche que nous voulons étudier. Un problème de recherche d’image dans des grandes bases de données exige une représentation globale compressée, alors qu’un problème de segmentation sémantique nécessite une carte de partitionnement de ses pixels. Les techniques d’apprentissage statistique sont l’outil principal pour la construction de ces représentations. Dans ce manuscrit, nous abordons l’apprentissage des représentations visuels dans trois problèmes différents : la recherche d’image, la correspondance sémantique et classification d’image. Premièrement, nous étudions la représentation vectorielle de Fisher et sa dépendance sur le modèle de mélange Gaussien employé. Nous introduisons l’utilisation de plusieurs modèles de mélange Gaussien pour différents types d’arrière-plans, e.g., différentes catégories de scènes, et analyser la performance de ces représentations pour objet classification et l’impact de la catégorie de scène en tant que variable latente. Notre seconde approche propose une extension de la représentation l’exemple SVM pipeline. Nous montrons d’abord que, en remplaçant la fonction de perte de la SVM par la perte carrée, on obtient des résultats similaires à une fraction de le coût de calcul. Nous appelons ce modèle la « square-loss exemplar machine », ou SLEM en anglais. Nous introduisons une variante de SLEM à noyaux qui bénéficie des même avantages computationnelles mais affiche des performances améliorées. Nous présentons des expériences qui établissent la performance et l’efficacité de nos méthodes en utilisant une grande variété de représentations de base et de jeux de données de recherche d’images. Enfin, nous proposons un réseau neuronal profond pour le problème de l’établissement sémantique correspondance. Nous utilisons des boîtes d’objets en tant qu’éléments de correspondance pour construire une architecture qui apprend simultanément l’apparence et la cohérence géométrique. Nous proposons de nouveaux scores géométriques de cohérence adaptés à l’architecture du réseau de neurones. Notre modèle est entrainé sur des paires d’images obtenues à partir des points-clés d’un jeu de données de référence et évaluées sur plusieurs ensembles de données, surpassant les architectures d’apprentissage en profondeur récentes et méthodes antérieures basées sur des caractéristiques artisanales. Nous terminons la thèse en soulignant nos contributions et en suggérant d’éventuelles directions de recherche futures. / The problem of image representation is at the heart of computer vision. The choice of feature extracted of an image changes according to the task we want to study. Large image retrieval databases demand a compressed global vector representing each image, whereas a semantic segmentation problem requires a clustering map of its pixels. The techniques of machine learning are the main tool used for the construction of these representations. In this manuscript, we address the learning of visual features for three distinct problems: Image retrieval, semantic correspondence and image classification. First, we study the dependency of a Fisher vector representation on the Gaussian mixture model used as its codewords. We introduce the use of multiple Gaussian mixture models for different backgrounds, e.g. different scene categories, and analyze the performance of these representations for object classification and the impact of scene category as a latent variable. Our second approach proposes an extension to the exemplar SVM feature encoding pipeline. We first show that, by replacing the hinge loss by the square loss in the ESVM cost function, similar results in image retrieval can be obtained at a fraction of the computational cost. We call this model square-loss exemplar machine, or SLEM. Secondly, we introduce a kernelized SLEM variant which benefits from the same computational advantages but displays improved performance. We present experiments that establish the performance and efficiency of our methods using a large array of base feature representations and standard image retrieval datasets. Finally, we propose a deep neural network for the problem of establishing semantic correspondence. We employ object proposal boxes as elements for matching and construct an architecture that simultaneously learns the appearance representation and geometric consistency. We propose new geometrical consistency scores tailored to the neural network’s architecture. Our model is trained on image pairs obtained from keypoints of a benchmark dataset and evaluated on several standard datasets, outperforming both recent deep learning architectures and previous methods based on hand-crafted features. We conclude the thesis by highlighting our contributions and suggesting possible future research directions.
|
Page generated in 0.0634 seconds