• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 264
  • 20
  • 2
  • Tagged with
  • 287
  • 236
  • 78
  • 70
  • 55
  • 50
  • 45
  • 37
  • 35
  • 33
  • 33
  • 30
  • 29
  • 28
  • 27
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
181

Processamento de consultas por similaridade em imagens médicas visando à recuperação perceptual guiada pelo usuário / Similarity Queries Processing Aimed at Retrieving Medical Images Guided by the User´s Perception

Marcelo Ponciano da Silva 19 March 2009 (has links)
O aumento da geração e do intercâmbio de imagens médicas digitais tem incentivado profissionais da computação a criarem ferramentas para manipulação, armazenamento e busca por similaridade dessas imagens. As ferramentas de recuperação de imagens por conteúdo, foco desse trabalho, têm a função de auxiliar na tomada de decisão e na prática da medicina baseada em estudo de casos semelhantes. Porém, seus principais obstáculos são conseguir uma rápida recuperação de imagens armazenadas em grandes bases e reduzir o gap semântico, caracterizado pela divergência entre o resultado obtido pelo computador e aquele esperado pelo médico. No presente trabalho, uma análise das funções de distância e dos descritores computacionais de características está sendo realizada com o objetivo de encontrar uma aproximação eficiente entre os métodos de extração de características de baixo nível e os parâmetros de percepção do médico (de alto nível) envolvidos na análise de imagens. O trabalho de integração desses três elementos (Extratores de Características, Função de Distância e Parâmetro Perceptual) resultou na criação de operadores de similaridade, que podem ser utilizados para aproximar o sistema computacional ao usuário final, visto que serão recuperadas imagens de acordo com a percepção de similaridade do médico, usuário final do sistema / The continuous growth of the medical images generation and their use in the day-to-day procedures in hospitals and medical centers has motivated the computer science researchers to develop algorithms, methods and tools to store, search and retrieve images by their content. Therefore, the content-based image retrieval (CBIR) field is also growing at a very fast pace. Algorithms and tools for CBIR, which are at the core of this work, can help on the decision making process when the specialist is composing the images analysis. This is based on the fact that the specialist can retrieve similar cases to the one under evaluation. However, the main reservation about the use of CBIR is to achieve a fast and effective retrieval, in the sense that the specialist gets what is expected for. That is, the problem is to bridge the semantic gap given by the divergence among the result automatically delivered by the system and what the user is expecting. In this work it is proposed the perceptual parameter, which adds to the relationship between the feature extraction algorithms and distance functions aimed at finding the best combination to deliver to the user what he/she expected from the query. Therefore, this research integrated the three main elements of similarity queries: the image features, the distance function and the perceptual parameter, what resulted in searching operators. The experiments performed show that these operators can narrow the distance between the system and the specialist, contributing to bridge the semantic gap
182

Operadores físicos binários para consultas por similaridade em SGBDR / Physical binary operators for similarity queries in RDBMS

Luiz Olmes Carvalho 26 March 2018 (has links)
O operador de Junção é um operador importante da Álgebra Relacional que combina os pares de tuplas que atendem a uma dada condição de comparação entre os valores dos atributos de duas relações. Quando a comparação avalia a similaridade entre pares de valores, o operador é chamado Junção por Similaridade. Esse operador tem aplicações em diversos contextos, tais como o suporte de tarefas de mineração e análise de dados em geral, e a detecção de quase-duplicatas, limpeza de dados e casamento de cadeias de caracteres em especial. Dentre os operadores de junção por similaridade existentes, a Junção por Abrangência (range join) é a mais explorada na literatura. Contudo, ela apresenta limitações, tal como a dificuldade para se encontrar um limiar de similaridade adequado. Nesse contexto, a Junção por k-vizinhos mais próximos (knearest neighbor join kNN join) é considerada mais intuitiva, e portanto mais útil que o range join. Entretanto, executar um kNN join é computacionalmente mais caro, o que demanda por abordagens baseadas na técnica de laço aninhado, e as técnicas existentes para a otimização do algoritmo são restritas a um domínio de dados em particular. Visando agilizar e generalizar a execução do kNN join, a primeira contribuição desta tese foi o desenvolvimento do algoritmo QuickNearest, baseado na técnica de divisão e conquista, que é independente do domínio dos dados, independente da função de distância utilizada, e que computa kNNjoins de maneira muito eficiente. Os experimentos realizados apontam que o QuickNearest chega a ser 4 ordens de magnitude mais rápido que os métodos atuais. Além disso, o uso de operadores de junção por similaridade em ambientes relacionais é problemático, principalmente por dois motivos: (i)emgeral o resultado tem cardinalidade muito maior do que o realmente necessário ou esperado pela maioria das aplicações de análise de dados; e (ii) as consultas que os utilizam envolvem também operações de ordenação, embora a ordem seja um conceito não associado à teoria relacional. A segunda contribuição da tese aborda esses dois problemas, tratando os operadores de junção por similaridade existentes como casos particulares de um conjunto mais amplo de operadores binários, para o qual foi definido o conceito de Wide-joins. Os operadores wide-joins recuperam os pares mais similares em geral e incorporam a ordenação como uma operação interna ao processamento, de forma compatível com a teoria relacional e que permite restringir a cardinalidade dos resultados a tuplas de maior interesse para as aplicações. Os experimentos realizados mostram que os wide-joins são rápidos o suficiente para serem usados em aplicações reais, retornam resultados de qualidade melhor do que os métodos concorrentes e são mais adequados para execução num ambiente relacional do que os operadores de junção por similaridade tradicionais. / Joins are important Relational Algebra operators. They pair tuples from two relations that meet a given comparison condition between the attribute values. When the evaluation compares the similarity among the values, the operator is called a Similarity Join. This operator has application to a variety of contexts, such as supporting data mining tasks and data analysis in general, and near-duplicate detection, data cleaning and string matching in particular. Among the existing types of similarity joins, the range join is the most explored one in the literature. However, it has several shortcomings, such as the diculty to find adequate similarity thresholds. In such context, the k-nearest neighbors join (kNN join) is considered more intuitive, and therefore more useful than the range join. However, the kNN join execution is computationally well more expensive, thus demanding implementations either based on nested loop techniques, which are generic, or on optimizing techniques but that are specific data given domains. In order to accelerate and generalize kNN join execution, the first contribution of this thesis was the development of the QuickNearest algorithm, based on the divide and conquest approach that is independent of the data domain, independent of the distance function used, and that computes kNN joins very eciently. Experiments performed with the QuickNearest algorithm show that it is up to four orders of magnitude faster than current methods. Nevertheless, using similarity join operators in relational environments remains generally troublesome, due to two main reasons: (i) the result often has a cardinality much larger than what is actually needed or expected by most of the data analysis applications; and (ii) queries that use them almost always also require sorting operations, but order concept is not present in the relational theory. The second contribution of the thesis addresses these two problems through the definition of the concept of Wide-joins, which turns the existing similarity join operators just as particular cases of a more powerful set of binary operators. Awide-join operator retrieves the pairs most similar in general and already incorporates ordering as an internal operation to its processing, what makes it fully compatible with the relational theory. The concept also provides powerful ways to restrict the result cardinality just to tuples really meaningful for the applications. In fact, the experiments have also shown that wide-joins are fast enough to be useful for real applications, they return results of better quality than competing methods, and are more suitable for execution in a relational environment than the traditional similarity join operators.
183

Seleção de características por meio de algoritmos genéticos para aprimoramento de rankings e de modelos de classificação / Feature selection by genetic algorithms to improve ranking and classification models

Sérgio Francisco da Silva 25 April 2011 (has links)
Sistemas de recuperação de imagens por conteúdo (Content-based image retrieval { CBIR) e de classificação dependem fortemente de vetores de características que são extraídos das imagens considerando critérios visuais específicos. É comum que o tamanho dos vetores de características seja da ordem de centenas de elementos. Conforme se aumenta o tamanho (dimensionalidade) do vetor de características, também se aumentam os graus de irrelevâncias e redundâncias, levando ao problema da \"maldição da dimensionalidade\". Desse modo, a seleção das características relevantes é um passo primordial para o bom funcionamento de sistemas CBIR e de classificação. Nesta tese são apresentados novos métodos de seleção de características baseados em algoritmos genéticos (do inglês genetic algorithms - GA), visando o aprimoramento de consultas por similaridade e modelos de classificação. A família Fc (\"Fitness coach\") de funções de avaliação proposta vale-se de funções de avaliação de ranking, para desenvolver uma nova abordagem de seleção de características baseada em GA que visa aprimorar a acurácia de sistemas CBIR. A habilidade de busca de GA considerando os critérios de avaliação propostos (família Fc) trouxe uma melhora de precisão de consultas por similaridade de até 22% quando comparado com métodos wrapper tradicionais para seleção de características baseados em decision-trees (C4.5), naive bayes, support vector machine, 1-nearest neighbor e mineração de regras de associação. Outras contribuições desta tese são dois métodos de seleção de características baseados em filtragem, com aplicações em classificação de imagens, que utilizam o cálculo supervisionado da estatística de silhueta simplificada como função de avaliação: o silhouette-based greedy search (SiGS) e o silhouette-based genetic algorithm search (SiGAS). Os métodos propostos superaram os métodos concorrentes na literatura (CFS, FCBF, ReliefF, entre outros). É importante também ressaltar que o ganho em acurácia obtido pela família Fc, e pelos métodos SiGS e SiGAS propostos proporcionam também um decréscimo significativo no tamanho do vetor de características, de até 90% / Content-based image retrieval (CBIR) and classification systems rely on feature vectors extracted from images considering specific visual criteria. It is common that the size of a feature vector is of the order of hundreds of elements. When the size (dimensionality) of the feature vector is increased, a higher degree of redundancy and irrelevancy can be observed, leading to the \"curse of dimensionality\" problem. Thus, the selection of relevant features is a key aspect in a CBIR or classification system. This thesis presents new methods based on genetic algorithms (GA) to perform feature selection. The Fc (\"Fitness coach\") family of fitness functions proposed takes advantage of single valued ranking evaluation functions, in order to develop a new method of genetic feature selection tailored to improve the accuracy of CBIR systems. The ability of the genetic algorithms to boost feature selection by employing evaluation criteria (fitness functions) improves up to 22% the precision of the query answers in the analyzed databases when compared to traditional wrapper feature selection methods based on decision-tree (C4.5), naive bayes, support vector machine, 1-nearest neighbor and association rule mining. Other contributions of this thesis are two filter-based feature selection algorithms for classification purposes, which calculate the simplified silhouette statistic as evaluation function: the silhouette-based greedy search (SiGS) and the silhouette-based genetic algorithm search (SiGAS). The proposed algorithms overcome the state-of-the-art ones (CFS, FCBF and ReliefF, among others). It is important to stress that the gain in accuracy of the proposed methods family Fc, SiGS and SIGAS is allied to a significant decrease in the feature vector size, what can reach up to 90%
184

[pt] METODOS DE BUSCA POR SIMILARIDADE EM SEQUÊNCIAS TEMPORAIS DE VETORES COM UMA APLICAÇÃO À RECUPERAÇÃO DE ANÚNCIOS CLASSIFICADOS / [en] STAGED VECTOR STREAM SIMILARITY SEARCH METHODS WITH AN APPLICATION TO CLASSIFIED AD RETRIEVA

BRUNO FRANCISCO MARTINS DA SILVA 22 February 2024 (has links)
[pt] Uma sequência temporal de vetores (vector stream) pode ser modeladacomo uma sequência de pares ((v1, t1). . .(vn, tn)), onde vk é um vetor e tk écarimbo de tempo tais que todos os vetores são da mesma dimensão e tkmenor que tk+1. O problema de busca por similaridade em sequências temporais devetores é definido como: Dado um vetor (de alta dimensão) v e um intervalode tempo T, encontre uma lista ranqueada de vetores, recuperados de umasequência temporal de vetores, que sejam similares a v e que foram recebidosdentro do intervalo de tempo T. Esta dissertação primeiro introduz umafamília de métodos de busca por similaridade em sequências temporais devetores que não dependem da sequência completa, mas se adaptam à medidaque os vetores são incluídos na sequência. Os métodos geram uma sequênciade índices, que são então usados para implementar uma busca aproximadado vizinho mais próximo na sequência temporal de vetores. Em seguida, adissertação descreve uma implementação de um método da família baseado em Hierarchical Navigable Small World graphs. Utilizando esta implementação,a dissertação apresenta uma ferramenta de busca de anúncios classificadosque oferece recuperação de anúncios à medida que usuários continuamentesubmetem novos anúncios. A ferramenta é estruturada em um módulo principale três módulos auxiliares, sendo que o módulo principal é responsável porcoordenar os módulos auxiliares e prover uma interface para o usuário, e osmódulos auxiliares são responsáveis pela codificação dos textos e imagens emvetores, a indexação dos vetores, e o armazenamento dos textos, imagens evetores. Por fim, para avaliar a ferramenta, a dissertação utiliza um conjuntode aproximadamente 1 milhão de registros com as descrições de anúnciosclassificados e suas imagens. Os resultados mostraram que a ferramenta atingiuuma precisão de 98 por cento e um recall de 97 por cento. / [en] A vector stream can be modeled as a sequence of pairs ((v1, t1). . .(vn, tn)), where vk is a vector and tk is a timestamp such that all vectors are of the same dimension and tk less than tk+1. The vector stream similarity search problem is defined as: Given a (high-dimensional) vector q and a time interval T, find a ranked list of vectors, retrieved from a vector stream, that are similar to q and that were received in the time interval T. This dissertation first introduces a family of vector stream similarity search methods that do not depend on having the full set of vectors available beforehand but adapt to the vector stream as the vectors are added. The methods generate a sequence of indices that are used to implement approximated nearest neighbor search over the vector stream. Then, the dissertation describes an implementation of a method in the family based on Hierarchical Navigable Small World graphs. Based on this implementation, the dissertation presents a Classified Ad Retrieval tool that supports classified ad retrieval as new ads are continuously submitted. The tool is structured into a main module and three auxiliary modules, where the main module is responsible for coordinating the auxiliary modules and for providing a user interface, and the auxiliary modules are responsible for text and image encoding, vector stream indexing, and data storage. To evaluate the tool, the dissertation uses a dataset with approximately 1 million records with descriptions of classified ads and their respective images. The results showed that the tool reached an average precision of 98 percent and an average recall of 97 percent.
185

[en] DATA ENRICHMENT BASED ON SIMILARITY GRAPH STATISTICS TO IMPROVE PERFORMANCE IN CLASSIFICATION SUPERVISED ML MODELS / [pt] ENRIQUECIMENTO DE DADOS COM BASE EM ESTATÍSTICAS DE GRAFO DE SIMILARIDADE PARA MELHORAR O DESEMPENHO EM MODELOS DE ML SUPERVISIONADOS DE CLASSIFICAÇÃO

NEY BARCHILON 19 September 2024 (has links)
[pt] A otimização do desempenho dos modelos de aprendizado de máquina supervisionados representa um desafio constante, especialmente em contextos com conjuntos de dados de alta dimensionalidade ou com numerosos atributos correlacionados. Neste estudo, é proposto um método para o enriquecimento de conjuntos de dados tabulares, fundamentado na utilização de estatísticas provenientes de um grafo construído a partir da similaridade entre as instâncias presentes neste conjunto de dados, buscando capturar correlações estruturais entre esses dados. As instâncias assumem o papel de vértices no grafo, enquanto as conexões entre elas refletem sua similaridade. O conjunto de características originais (FO) é enriquecido com as estatísticas extraídas do grafo (FG) na busca pela melhora do poder preditivo dos modelos de aprendizado de máquina. O método foi avaliado em dez conjuntos de dados públicos de distintas áreas de conhecimento, em dois cenários distintos, sobre sete modelos de aprendizado de máquina, comparando a predição sobre o conjunto de dados inicial (FO) com o conjunto de dados enriquecido com as estatísticas extraídas do seu grafo (FO+FG). Os resultados revelaram melhorias significativas na métrica de acurácia, com um aprimoramento médio de aproximadamente 4,9 por cento. Além de sua flexibilidade para integração com outras técnicas de enriquecimento existentes, o método se apresenta como uma alternativa eficaz, sobretudo em situações em que os conjuntos de dados originais carecem das características necessárias para as abordagens tradicionais de enriquecimento com a utilização de grafo. / [en] The optimization of supervised machine learning models performancerepresents a constant challenge, especially in contexts with high-dimensionaldatasets or numerous correlated attributes. In this study, we propose a methodfor enriching tabular datasets, based on the use of statistics derived from agraph constructed from the similarity between instances in the dataset, aimingto capture structural correlations among the data. Instances take on the role ofvertices in the graph, while connections between them reflect their similarity.The original feature set (FO) is enriched with statistics extracted from thegraph (FG) to enhance the predictive power of machine learning models. Themethod was evaluated on ten public datasets from different domains, in twodistinct scenarios, across seven machine learning models, comparing predictionon the initial dataset (FO) with the dataset enriched with statistics extractedfrom its graph (FO+FG). The results revealed significant improvements inaccuracy metrics, with an average enhancement of approximately 4.9 percent. Inaddition to its flexibility for integration with existing enrichment techniques,the method presents itself as a effective alternative, particularly in situationswhere original datasets lack the necessary characteristics for traditional graph-based enrichment approaches.
186

Modelagem de Adequabilidade de Habitat de Corais Azooxantelados na Margem Continental do Brasil, com ênfase na Bacia de Campos / Modelling Azooxanthellate, Corals on the Brazilian Continental Margin, with emphasis on the Campos Basin

Barbosa, Romina Vanessa 25 October 2016 (has links)
Na presente dissertação eu estudei a distribuição potencial dos corais de águas profundas ao longo da margem continental brasileira e o efeito da resolução das variáveis ambientais em modelos de adequabilidade de habitat (MAH). Primeiramente foi determinada a distribuição potencial de corais de águas profundas a partir de modelos de adequabilidade de habitat de máxima entropia (MaxEnt). Os modelos foram alimentados com diversas camadas de dados SIG de variáveis ambientais e dados de ocorrência de espécies extraídos de bancos de dados e de novos registros. Foram estudados os grupos Scleractinia e Octocorallia, assim como quatro espécies de corais formadores de recifes (Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata e Enallopsammia rostrata) e duas espécies de escleractínios não formadores de recifes (Cladocora debilis e Deltocyathus spp.). O nicho ambiental ocupado pelos táxons foi representado a partir de uma análise multivariada, sendo determinada a sobreposição entre os nichos. A partir disso foi avaliada a similaridade e equivalência de nicho ambiental entre as espécies. Os modelos resultantes indicaram que Scleractinia apresenta distribuição potencial na margem continental leste e sudeste do Brasil (porção Central e Sul), enquanto que Octocorallia apresenta uma distribuição potencial mais ampla abarcando toda a margem continental brasileira, com maior adequabilidade nas margens norte e nordeste. Assim, as áreas de distribuição potencial compartilhada entre octocorais e escleractínios foram aquelas ao largo da porção leste e sudeste do Brasil, sendo estas prioritárias para futuras pesquisas. Os nichos ambientais específicos indicaram menos tolerância de Scleractinia a altas temperaturas em comparação com Octocorallia. Os octocorais ocuparam uma maior amplitude do gradiente ambiental, principalmente relacionado às condições de carbono orgânico particulado, oxigênio dissolvido e temperatura. Isto possivelmente permite aos octocorais habitar a porção norte da margem continental brasileira, onde os modelos de escleractínios indicaram baixa adequabilidade de habitat. A margem continental sudeste do Brasil teve a maior adequabilidade para as espécies de escleractínios formadores de recifes profundos. Isto é de grande valor para planos de conservação nesta área que atualmente apresenta atividades de extração de óleo e gás e que, futuramente, pode ser explotada para a extração de minério. Além disso, as espécies formadoras de recifes ocuparam nichos ambientais similares e, portanto, mudanças nas condições ambientais, como por exemplo as associadas às mudanças climáticas, podem afetar todas elas. Contudo, seus nichos não são equivalentes e, portanto, cada uma delas faz um uso diferente do espaço ambiental da margem continental brasileira. Por último, foram desenvolvidos modelos MaxEnt para Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata e Enallopsammia rostrata em duas resoluções de análise, uma de baixa (i.e., com um tamanho de pixel de aproximadamente 1000 m2) e uma de alta resolução (i.e., pixel de aproximadamente 100 m2) para determinar o efeito da resolução das variáveis ambientais utilizadas na performance e na extensão de área predita de modelos de adequabilidade de habitat. A diferença na extensão da área adequada predita por ambas resoluções foi medida de acordo a três limiares de corte diferentes. Os resultados indicaram diferenças na performance dependendo da resolução, com maior performance nos modelos de alta resolução. Além disso, a extensão de área adequada predita foi geralmente maior nos modelos de baixa resolução, com algumas exceções dependendo da espécie e do limiar de corte. Estes resultados ressaltam a importância da resolução das variáveis ambientais e suas implicações no uso de MAH no planejamento e manejo de Áreas Marinhas Protegidas (MPAs). / In this thesis I studied the deep-sea coral distribution along the Southwestern Atlantic Ocean and the effect of the environmental variables resolution on habitat suitability models (HSM). In the second chapter, I developed HSM based on the Maximum Entropy (MaxEnt) algorithm to identify the potential distribution of deep-water corals. To perform the models, I have used species presence data from existing datasets together with new species records and global environmental variables. I used the main environmental variables to identify suitable areas by modeling niches of different coral taxa. The studied taxa were Scleractinia and Octocorallia, as well as four reef-forming scleractinian species (Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata and Enallopsammia rostrata), and two non-reef-building scleractinians (Cladocora debilis and Deltocyathus spp.). Furthermore, I used multivariate approach to compare their environmental occupied niche in order to assess the spatial niche overlap and test niche similarity and equivalence. The resulting cold-water coral models showed that the most suitable areas occur along the west and southwestern continental margin of Brazil, which permitted to determine areas of priority for future exploration/research to determine conservation areas. Specific environmental niches suggested lower tolerance to high temperatures for Scleractinia than for Octocorallia. Besides, octocorals occupied a wider range of the environmental gradient, which was mainly related to particulate organic carbon, oxygen and temperature. This probably enables them to inhabit the northern part of Brazil where scleratinian models classified as poor habitats for this group. In addition, the Southwestern Brazilian continental margin encloses the most suitable habitats for deep reef-building species. This has important implications for conservation plans in that area already facing gas and oil exploitation and probably future mineral extraction. On the other hand, results suggest that different scleractinian cold-water coral species occupy similar environmental niches and, for this reason, I concluded that changes in environmental conditions, such as those associated to climate change, may affect them all. However, their niches are not equivalent and this suggests that each environmental factor could affect each species in different ways. In the third chapter, I performed HSM based on Maximum Entropy for Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata and Enallopsammia rostrata with two different environmental variables resolution, a low (i.e., a coarse resolution data with pixel size of ca. 1000 m2) and a high resolution (pixel of ca. 100 m2) to determine the effect of the environmental variables resolution on habitat suitability model performances and spatial extent of predicted suitable areas. From the final suitability maps, the changes in area extent depending of both resolution models were measured based in different thresholds. The results showed different performances of the models depending on data resolution, with higher performance at higher resolution. Furthermore, the predicted area varied between resolutions and threshold chosen. These results highlight the importance of environmental variables resolution and their implications for the use of HSM in planning and managing Marine Protected Areas (MPAs).
187

Arcabouço para recuperação de imagens por conteúdo visando à percepção do usuário / Content-based image retrieval aimed at reaching user´s perception

Bugatti, Pedro Henrique 29 October 2012 (has links)
Na última década observou-se grande interesse pra o desenvolvimento de técnicas para Recuperação de Imagens Baseada em Conteúdo devido à explosão na quantidade de imagens capturadas e à necessidade de armazenamento e recuperação dessas imagens. A área médica especificamente é um exemplo que gera um grande fluxo de informações, principalmente imagens digitais para a realização de diagnósticos. Porém um problema ainda permanecia sem solução que tratava-se de como atingir a similaridade baseada na percepção do usuário, uma vez que para que se consiga uma recuperação eficaz, deve-se caracterizar e quantificar o melhor possível tal similaridade. Nesse contexto, o presente trabalho de Doutorado visou trazer novas contribuições para a área de recuperação de imagens por contúdo. Dessa forma, almejou ampliar o alcance de consultas por similaridade que atendam às expectativas do usuário. Tal abordagem deve permitir ao sistema CBIR a manutenção da semântica da consulta desejada pelo usuário. Assim, foram desenvolvidos três métodos principais. O primeiro método visou a seleção de características por demanda baseada na intenção do usuário, possibilitando dessa forma agregação de semântica ao processo de seleção de características. Já o segundo método culminou no desenvolvimento de abordagens para coleta e agragação de perfis de usuário, bem como novas formulações para quantificar a similaridade perceptual dos usuários, permitindo definir dinamicamente a função de distância que melhor se adapta à percepção de um determinado usuário. O terceiro método teve por objetivo a modificação dinâmica de funções de distância em diferentes ciclos de realimentação. Para tanto foram definidas políticas para realizar tal modificação as quais foram baseadas na junção de informações a priori da base de imagens, bem como, na percepção do usuário no processo das consultas por similaridade. Os experimentos realizados mostraram que os métodos propostos contribuíram de maneira efetiva para caracterizar e quantificar a similaridade baseada na percepção do usuário, melhorando consideravelmente a busca por conteúdo segundo as expectativas dos usuários / In the last decade techniques for content-based image retrieval (CBIR) have been intensively explored due to the increase in the amount of capttured images and the need of fast retrieval of them. The medical field is a specific example that generates a large flow of information, especially digital images employed for diagnosing. One issue that still remains unsolved deals with how to reach the perceptual similarity. That is, to achieve an effectivs retrieval, one must characterize and quantify the perceptual similarity regarding the specialist in the field. Therefore, the present thesis was conceived tofill in this gap creating a consistent support to perform similarity queries over images, maintaining the semantics of a given query desired by tyhe user, bringing new contribuitions to the content-based retrieval area. To do so, three main methods were developed. The first methods applies a novel retrieval approach that integrates techniques of feature selection and relevance feedback to preform demand-driven feature selection guided by perceptual similarity, tuning the mining process on the fly, according to the user´s intention. The second method culminated in the development of approaches for harvesting and surveillance of user profiles, as well as new formulations to quantify the perceptual similarity of users , allowing to dynamically set the distance function that best fits the perception of a given user. The third method introduces a novel approach to enhance the retrieval process through user feedback and profiling, modifying the distance function in each feedback cycle choosing the best one for each cycle according to the user expectation. The experiments showed that the proposed metods effectively contributed to capture the perceptual similarity, improving in a great extent the image retrieval according to users´expectations
188

Técnicas de projeção para identificação de grupos e comparação de dados multidimensionais usando diferentes medidas de similaridade / Projection techniques for group identification and multidimensional data comparison by using different similarity measures

Joia Filho, Paulo 14 October 2015 (has links)
Técnicas de projeção desempenham papel importante na análise e exploração de dados multidimensionais, já que permitem visualizar informações muitas vezes ocultas na alta dimensão. Esta tese explora o potencial destas técnicas para resolver problemas relacionados à: 1) identificação de agrupamentos e 2) busca por similaridade em dados multidimensionais. Para identificação de agrupamentos foi desenvolvida uma técnica de projeção local e interativa que, além de projetar dados com ótima preservação de distâncias, permite que o usuário modifique o layout da projeção, agrupando um número reduzido de amostras representativas no espaço visual, de acordo com suas características. Os mapeamentos produzidos tendem a seguir o layout das amostras organizadas pelo usuário, facilitando a organização dos dados e identificação de agrupamentos. Contudo, nem sempre é possível selecionar ou agrupar amostras com base em suas características visuais de forma confiável, principalmente quando os dados não são rotulados. Para estas situações, um novo método para identificação de agrupamentos baseado em projeção foi proposto, o qual opera no espaço visual, garantindo que os grupos obtidos não fiquem fragmentados durante a visualização. Além disso, é orientado por um mecanismo de amostragem determinístico, apto a identificar instâncias que representam bem o conjunto de dados como um todo e capaz de operar mesmo em conjuntos de dados desbalanceados. Para o segundo problema: busca por similaridade em dados multidimensionais, uma família de métricas baseada em classes foi construída para projetar os dados, com o objetivo de minimizar a dissimilaridade entre pares de objetos pertencentes à mesma classe e, ao mesmo tempo, maximizá-la para objetos pertencentes a classes distintas. As métricas classes-específicas são avaliadas no contexto de recuperação de imagens com base em conteúdo. Com o intuito de aumentar a precisão da família de métricas classes-específicas, outra técnica foi desenvolvida, a qual emprega a teoria dos conjuntos fuzzy para estimar um valor de incerteza que é transferido para a métrica, aumentando sua precisão. Os resultados confirmam a efetividade das técnicas desenvolvidas, as quais representam significativa contribuição na tarefa de identificação de grupos e busca por similaridade em dados multidimensionais. / Projection techniques play an important role in multidimensional data analysis and exploration, since they allow to visualize information frequently hidden in high-dimensional spaces. This thesis explores the potential of those techniques to solve problems related to: 1) clustering and 2) similarity search in multidimensional data. For clustering data, a local and interactive projection technique capable of projecting data with effective preservation of distances was developed. This one allows the user to manipulate a reduced number of representative samples in the visual space so as to better organize them. The final mappings tend to follow the layout of the samples organized by the user, therefore, the user can interactively steer the projection. This makes it easy to organize and group large data sets. However, it is not always possible to select or group samples visually, in a reliable manner, mainly when handling unlabeled data. For these cases, a new clustering method based on multidimensional projection was proposed, which operates in the visual space, ensuring that clusters are not fragmented during the visualization. Moreover, it is driven by a deterministic sampling mechanism, able to identify instances that are good representatives for the whole data set. The proposed method is versatile and robust when dealing with unbalanced data sets. For the second problem: similarity search in multidimensional data, we build a family of class-specific metrics to project data. Such metrics were tailored to minimize the dissimilarity measure among objects from the same class and, simultaneously to maximize the dissimilarity among objects in distinct classes. The class-specific metrics are assessed in the context of content-based image retrieval. With the aim of increasing the precision of the class-specific metrics, another technique was developed. This one, uses the fuzzy set theory to estimate a degree of uncertainty, which is embedded in the metric, increasing its precision. The results confirm the effectiveness of the developed techniques, which represent significant contributions for clustering and similarity search in multidimensional data.
189

Processamento de consultas analíticas com predicados de similaridade entre imagens em ambientes de data warehousing / Processing of analytical with similarity search predicates over images in data warehousing environments

Teixeira, Jefferson William 29 May 2015 (has links)
Um ambiente de data warehousing oferece suporte ao processo de tomada de decisão. Ele consolida dados de fontes de informação distribuições, autônomas e heterogêneas em um único componente, o data warehouse, e realiza o processamento eficiente de consultas analíticas, denominadas OLAP (on-line analytical processing). Um data warehouse convencional armazena apenas dados alfanuméricos. Por outro lado, um data warehouse de imagens armazena, além desses dados convencionais, características intrínsecas de imagens, permitindo a realização de consultas analíticas estendidas com predicados de similaridade entre imagens. Esses ambientes demandam, portanto, a criação de estratégias que possibilitem o processamento eficiente dessas consultas complexas e custosas. Apesar de haver na literatura trabalhos voltados a índices bitmap para ambientes de data warehousing e métodos de acesso métricos para melhorar o desempenho de consultas por similaridade entre imagens, no melhor do nosso conhecimento, não há uma técnica que investigue essas duas questões em um mesmo contexto. Esta dissertação visa preencher essa lacuna na literatura por meio das seguintes contribuições: (i) proposta do ImageDWindex, um mecanismo para a otimização de consultas analíticas estendidas com predicados de similaridade entre imagens; e (ii) definição de diferentes estratégias de processamento de consultas sobre data warehouses de imagens usando o ImageDW-index. Para validar as soluções propostas, foram desenvolvidas duas outras contribuições secundárias, que são: (iii) o ImageDW-Gen, um gerador de dados com o objetivo de povoar o data warehouse de imagens; e (iv) a proposta de quatro classes de consulta, as quais enfocam em diferentes custos de processamento dos predicados de similaridade entre imagens. Utilizando o ImageDW-Gen, foram realizados testes de desempenho para investigar as vantagens introduzidas pelas estratégias propostas, de acordo com as classes de consultas definidas. Comparado com o trabalho mais correlato existente na literatura, o uso do ImageDWindex proveu uma melhora no desempenho do processamento de consultas IOLAP que variou em média de 55,57% até 82,16%, considerando uma das estratégias propostas. / A data warehousing environment offers support to the decision-making process. It consolidates data from distributed, autonomous and heterogeneous information sources into one of its main components, the data warehouse. Furthermore, it provides effcient processing of analytical queries (i.e. OLAP queries). A conventional data warehouse stores only alphanumeric data. On the other hand, an image data warehouse stores not only alphanumeric data but also intrinsic features of images, thus allowing data warehousing environments to perform analytical similarity queries over images. This requires the development of strategies to provide efficient processing of these complex and costly queries. Although there are a number of approaches in the literature aimed at the development of bitmap index for data warehouses and metric access methods for the efficient processing of similarity queries over images, to the best of our knowledge, there is not an approach that investigate these two issues in the same setting. In this research, we fill this gap in the literature by introducing the following main contributions: (i) the proposal of the ImageDW-index, an optimization mechanism aimed at the efficient processing of analytical queries extended with similarity predicates over images; and (ii) definition of different processing strategies for image data warehouses using the ImageDW-index. In order to validate these main proposals, we also introduce two secondary contributions, as follows: (iii) the ImageDW-Gen, a data generator to populate image data warehouses; and (iv) the proposal of four query classes, each one enforcing different query processing costs associated to the similarity predicates in image data warehousing environments. Using the ImageDW-Gen, performance tests were carried out in order to investigate the advantages introduced by the proposed strategies, according to the query classes. Compared to the most related work available in the literature, the ImageDW-index provided a performance gain that varied from 55.57% to 82.16%, considering one of the proposed strategies.
190

Redução da taxa de transmissão de vídeo digital por meio da aplicação de segmentação de objetos aplicado ao estudo de abelhas. / Digital video transmission rates reduction by object segmentation applied to bees study.

Amâncio, Silvio Miyadaira 02 December 2008 (has links)
A utilização de vídeos em laboratórios baseados em redes de computadores (weblabs) para pesquisa de abelhas está sendo conduzida como parte do projeto ViNCES (Virtual Network Center of Ecosystem Services), um consórcio de pesquisa composto pelo LAA (Laboratório de Automação Agrícola da Escola Politécnica da Universidade de São Paulo) e o Laboratório de Abelhas do Departamento de Ecologia do Instituto de Biociências da Universidade de São Paulo. O ViNCES é um membro do Kyatera, uma rede de computadores acadêmica de alta velocidade que tem como objetivos o desenvolvimento de aplicações e tecnologias para a Internet Avançada. Nesse contexto, o Weblab de abelhas, denominado BBBee, permite a realização de pesquisa e observação à distância da entrada de uma colméias, sendo coletadas e transmitidas informações de condições climáticas, de áudio e vídeo. O áudio e o vídeo da colméia são transmitidos em rede local e pela Internet por meio de streaming em tempo real. Os requisitos de largura de banda para transmissões de vídeo costumam ser elevados, e a qualidade obtida após o processo de compressão convencional, em geral, é baixa, podendo afetar ou dificultar a pesquisa. Além disso, está prevista a transmissão de vídeos de Alta Definição para weblab com o objetivo de melhorar a qualidade da informação, o que irá demandar maior largura de banda. Este trabalho propõe um algoritmo de codificação de vídeo para melhorar a qualidade das imagens transmitidas, ao mesmo tempo em que se reduzem os requisitos de largura de banda de transmissão e armazenagem, por meio da aplicação de técnicas de segmentação e rastreamento de objetos de vídeo. O algoritmo proposto foi implementado e testado utilizando vídeos capturados nas colméias e os resultados das análises em diversas condições são apresentados neste documento. Para avaliar a qualidade resultante do processo, foi utilizada uma métrica objetiva que permite avaliar a qualidade das imagens em relação às imagens de origem. Os resultados das análises proveram informações e direções para melhorias e futuras implementações. / The use of videos in web based laboratories over computer networks, known as weblabs, is being conducted for bee research as part of the ViNCES (Virtual Network Center of Ecosystem Services) project, a research consortium composed by: LAA (Laboratório de Automação Agrícola da Escola Politécnica) and the Laboratório de Abelhas of the Ecology Department of the Biosciences Institute. ViNCES is a member of Kyatera, a high speed academic computer network which aims at developing aplications and technologies for the Advanced Internet. The bee weblab, called BBBee, allows the research and observation of the interior of a beehive, in which are collected climate, audio and video data. Real time audio and video are broadcasted over the Internet and through a local network using streaming format. The bandwidth requirements for video transmission are usually high and the video quality after conventional compression standards is, in general, low and can interfere in the biological research. Also, High-Definition video transmission for weblab is planned to be implemented in order to provide better tools for the researcher, which will demand even higher network bandwidth. On this scenario, this work intends to provide a video codification algorithm to enhance the quality of the transmitted images, at the region of interest, and also reduce the transmission and storage requirements for some situations by using segmentation and tracking techniques for videos. A complete CODEC was implemented and tested with actual video, quality and data rates were measured and evaluated using an objective metric. The results of the analysis provided some indications of directions for future enhancements and implementations.

Page generated in 0.0527 seconds