251 |
Techniques for indexing large and complex datasets with missing attribute values. / Técnicas de indexação de grandes conjuntos de dados complexos com valores de atributos faltantes.Safia Brinis 18 July 2016 (has links)
Due to the increasing amount and complexity of data processed in real world applications, similarity search became a vital task to store and retrieve such data. However, missing attribute values are very frequent and metric access methods (MAMs), designed to support similarity search, do not operate on datasets when attribute values are missing. Currently, the approach to use the existing indexing techniques on datasets with missing attribute values just use an indicator to identify the missing values and employ a traditional indexing technique. Although, this approach can be applied over multidimensional indexing techniques, it is impractical for metric access methods. This dissertation presents the results of a research conducted to identify and deal with the issues related to indexing and querying datasets with missing values in metric spaces. An empirical analysis of the metric access methods when applied on incomplete datasets leads us to identify two main issues: distortion of the internal structure of the index when data are missing at random and skew of the index structure when data are not missing at random. Based on those findings, a new variant of the Slim-tree access method, called Hollow-tree, is presented. It employs new techniques that are capable to handle missing data issues when missingness is ignorable. The first technique includes a set of indexing policies that allow to index objects with missing attribute values and prevent distortions to occur in the internal structure of the indexes. The second technique targets the similarity queries to improve the query performance over incomplete datasets. This technique employs the fractal dimension of the dataset and the local density around the query object to estimate an ideal radius able to achieve an accurate query answer, considering data with missing values as a potential response. Results from experiments with a variety of real and synthetic datasets show that Hollow-tree achieves nearly 100% of precision and recall for Range queries and more than 90% for k Nearest Neighbor queries, while Slim-tree access method deteriorates with the increasing amount of missing values. The results confirm that the indexing technique helps to establish consistency in the index structure and the searching technique achieves a remarkable performance. When combined, the new techniques allow to explore properly all the available data even with high amounts of missing attribute values. As they are independent of the underlying access method, they can be adopted by a broad range of metric access methods, allowing to extend the class of MAMs. / O crescimento em quantidade e complexidade dos dados processados e armazenados torna a busca por similaridade uma tarefa fundamental para tratar esses dados. No entanto, atributos faltantes ocorrem freqüentemente, inviabilizando os métodos de acesso métricos (MAMs) projetados para apoiar a busca por similaridade. Assim, técnicas de tratamento de dados faltantes precisam ser desenvolvidas. A abordagem mais comum para executar as técnicas de indexação existentes sobre conjuntos de dados com valores faltantes é usar um indicador de valores faltantes e usar as técnicas de indexação tradicionais. Embora, esta técnica seja útil para os métodos de indexação multidimensionais, é impraticável para os métodos de acesso métricos. Esta dissertação apresenta os resultados da pesquisa realizada para identificar e lidar com os problemas de indexação e recuperação de dados em espaços métricos com valores faltantes. Uma análise experimental dos MAMs aplicados a conjuntos de dados incompletos identificou dois problemas principais: distorção na estrutura interna do índice quando a falta é aleatória e busca tendenciosa na estrutura do índice quando o processo de falta não é aleatório. Uma variante do MAM Slim-tree, chamada Hollow-tree foi proposta com base nestes resultados. A Hollow-tree usa novas técnicas de indexação e de recuperação de dados com valores faltantes quando o processo de falta é aleatório. A técnica de indexação inclui um conjunto de políticas de indexação que visam a evitar distorções na estrutura interna dos índices. A técnica de recuperação de dados melhora o desempenho das consultas por similaridade sobre bases de dados incompletas. Essas técnicas utilizam o conceito de dimensão fractal do conjunto de dados e a densidade local da região de busca para estimar um raio de busca ideal para obter uma resposta mais correta, considerando os dados com valores faltantes como uma resposta potencial. As técnicas propostas foram avaliadas sobre diversos conjuntos de dados reais e sintéticos. Os resultados mostram que a Hollow-tree atinge quase 100% de precisão e revocação para consultas por abrangência e mais de 90% para k vizinhos mais próximos, enquanto a Slim-tree rapidamente deteriora com o aumento da quantidade de valores faltantes. Tais resultados indicam que a técnica de indexação proposta ajuda a estabelecer a consistência na estrutura do índice e a técnica de busca pode ser realizada com um desempenho notável. As técnicas propostas são independentes do MAM básico usado e podem ser aplicadas em uma grande variedade deles, permitindo estender a classe dos MAMs em geral para tratar dados faltantes.
|
252 |
Transformação de espaços métricos otimizando a recuperação de imagens por conteúdo e avaliação por análise visual / Metric space transformation optimizing content-based image retrieval and visual analysis evaluationLetrícia Pereira Soares Avalhais 30 January 2012 (has links)
O problema da descontinuidade semântica tem sido um dos principais focos de pesquisa no desenvolvimento de sistemas de recuperação de imagens baseada em conteúdo (CBIR). Neste contexto, as pesquisas mais promissoras focam principalmente na inferência de pesos de características contínuos e na seleção de características. Entretanto, os processos tradicionais de inferência de pesos contínuos são computacionalmente caros e a seleção de características equivale a uma ponderação binária. Visando tratar adequadamente o problema de lacuna semântica, este trabalho propõe dois métodos de transformação de espaço de características métricos baseados na inferência de funções de transformação por meio de algoritmo genético. O método WF infere funções de ponderação para ajustar a função de dissimilaridade e o método TF infere funções para transformação das características. Comparados às abordagens de inferência de pesos contínuos da literatura, ambos os métodos propostos proporcionam uma redução drástica do espaço de busca ao limitar a busca à escolha de um conjunto ordenado de funções de transformação. Análises visuais do espaço transformado e de gráficos de precisão vs. revocação confirmam que TF e WF superam a abordagem tradicional de ponderação de características. Adicionalmente, foi verificado que TF supera significativamente WF em termos de precisão dos resultados de consultas por similaridade por permitir transformação não lineares no espaço de característica, conforme constatado por análise visual. / The semantic gap problem has been a major focus of research in the development of content-based image retrieval (CBIR) systems. In this context, the most promising research focus primarily on the inference of continuous feature weights and feature selection. However, the traditional processes of continuous feature weighting are computationally expensive and feature selection is equivalent to a binary weighting. Aiming at alleviating the semantic gap problem, this master dissertation proposes two methods for the transformation of metric feature spaces based on the inference of transformation functions using Genetic Algorithms. The WF method infers weighting functions and the TF method infers transformation functions for the features. Compared to the existing methods, both proposed methods provide a drastic searching space reduction by limiting the search to the choice of an ordered set of transformation functions. Visual analysis of the transformed space and precision. vs. recall graphics confirm that both TF and WF outperform the traditional feature eighting methods. Additionally, we found that TF method significantly outperforms WF regarding the query similarity accuracy by performing non linear feature space transformation, as found in the visual analysis.
|
253 |
Uma abordagem baseada em técnicas de visualização de informações para avaliação de características de imagens e aplicações / Approach based on information visualization techniques for evaluation of image features and applicationsLaura Elizabeth Florian Cruz 24 September 2012 (has links)
Na maioria dos processos de análise de imagens há a necessidade de um pré-processamento, no qual são extraídos e calculados vetores de características que representem as imagens são utilizados no cálculo de similaridade. Uma dificuldade nessas tarefas é o grande número de características que definem um espaço de alta dimensionalidade, afetando fortemente o desempenho das tarefas que seguem, que podem envolver uma análise visual, um agrupamento ou uma classificação de dados, por exemplo. Lidar com esse problema normalmente exige técnicas de redução de dimensionalidade ou seleção de características. O presente trabalho dá sequência a trabalhos que utilizam técnicas de visualização como suporte para avaliar espaços de características gerados a partir de coleções de imagens. Nele, objetiva-se aprimorar um método baseado na análise visual de conjuntos de imagens empregando a árvore de similaridade Neighbor-Joining que apoia o usuário a selecionar um subespaço de características que mantenha ou melhore os resultados das visualizações do conjunto de imagens. A partir da metodologia proposta, a avaliação e a seleção de características representativas é realizada usando a visualização NJ. A maior parte dos experimentos responde positivamente para diferentes conjuntos de imagens representados por vários extratores, obtendo-se processos de seleção personalizados mais precisos e eficazes, em termos de agrupamento, do que abordagens automáticas reportadas na literatura / In the majority of the image analysis processes there is need for a pre-processing step, in which feature vectors representative of the images are extracted and similarity methods are calculates. A difficult step in the process is to choose amongst the large number of features available, that will define a feature space of high dimensionality, impacting the cost of the subsequent processing tasks, such as visual analysis, clustering and classification. This problem is usually handled by dimension reduction of feature selection techniques. This work extends and improves previous work that employs visualization and visual analysis techniques to support evaluation of feature spaces created from image collections. The goal is to improve a previous method of feature selection through visualization to employ similarity trees via the Neighbor Joining (NJ) algorithm as the basis for the visual layout, as well as to improve the choices of the analyst regarding tools for visual selection of features. The same process can be employed to support evaluation of feature spaces using the NJ visualization. The majorities of experiments results in improvement of spaces generated by various extractors, yielding personalized selection process that are more precisely related to user\'s perspective of the data set and are perform similarly or better than automatic approaches available in the literature. Keywords: information visualization, mining, visual images, visual analysis of the feature space, similarity trees
|
254 |
Generation of semantic layouts for interactive multidimensional data visualization / Geração de layouts semânticos para a visualização interativa de dados multidimensionaisErick Mauricio Gomez Nieto 24 February 2017 (has links)
Visualization methods make use of interactive graphical representations embedded on a display area in order to enable data exploration and analysis. These typically rely on geometric primitives for representing data or building more sophisticated representations to assist the visual analysis process. One of the most challenging tasks in this context is to determinate an optimal layout of these primitives which turns out to be effective and informative. Existing algorithms for building layouts from geometric primitives are typically designed to cope with requirements such as orthogonal alignment, overlap removal, optimal area usage, hierarchical organization, dynamic update among others. However, most techniques are able to tackle just a few of those requirements simultaneously, impairing their use and flexibility. In this dissertation, we propose a set of approaches for building layouts from geometric primitives that concurrently addresses a wider range of requirements. Relying on multidimensional projection and optimization formulations, our methods arrange geometric objects in the visual space so as to generate well-structured layouts that preserve the semantic relation among objects while still making an efficient use of display area. A comprehensive set of quantitative comparisons against existing methods for layout generation and applications on text, image, and video data set visualization prove the effectiveness of our approaches. / Métodos de visualização fazem uso de representações gráficas interativas embutidas em uma área de exibição para exploração e análise de dados. Esses recursos visuais usam primitivas geométricas para representar dados ou compor representações mais sofisticadas que facilitem a extração visual de informações. Uma das tarefas mais desafiadoras é determinar um layout ótimo visando explorar suas capacidades para transmitir informação dentro de uma determinada visualização. Os algoritmos existentes para construir layouts a partir de primitivas geométricas são tipicamente projetados para lidar com requisitos como alinhamento ortogonal, remoção de sobreposição, área usada, organização hierárquica, atualização dinâmica entre outros. No entanto, a maioria das técnicas são capazes de lidar com apenas alguns desses requerimentos simultaneamente, prejudicando sua utilização e flexibilidade. Nesta tese, propomos um conjunto de abordagens para construir layouts a partir de primitivas geométricas que simultaneamente lidam com uma gama mais ampla de requerimentos. Baseando-se em projeções multidimensionais e formulações de otimização, os nossos métodos organizam objetos geométricos no espaço visual para gerar layouts bem estruturados que preservam a relação semântica entre objetos enquanto ainda fazem um uso eficiente da área de exibição. Um conjunto detalhado de comparações quantitativas com métodos existentes para a geração de layouts e aplicações em visualização de conjunto de dados de texto, imagem e vídeo comprova a eficácia das técnicas propostas.
|
255 |
Desenvolvimento de métodos para extração, comparação e análise de características intrínsecas de imagens médicas, visando à recuperação perceptual por conteúdo / Development of methods for extraction, comparison and analysis of intrinsic features of medical images, aiming at perceptual content-based retrievalJoaquim Cezar Felipe 16 December 2005 (has links)
A possibilidade de recuperar e comparar imagens usando as suas características visuais intrínsecas é um recurso valioso para responder a consultas por similaridade em imagens médicas. Desse modo, a agregação desses recursos aos Sistemas de Arquivamento e Comunicação de Imagens (Picture Archiving and Communication Systems - PACS) vêm potencializar a utilidade e importância destes no contexto de atividades tais como ensino e treinamento de novos radiologistas, estudos de casos e auxílio ao diagnóstico de forma geral, uma vez que as consultas por similaridade permitem que casos parecidos possam ser facilmente recuperados. O trabalho apresentado nesta tese possui duas vertentes. Primeiro, ele apresenta novos métodos de extração e de características, com o objetivo de obter a essência das imagens, considerando um critério específico. Os atributos obtidos pelos algoritmos de extração são armazenados em vetores de características para posteriormente serem utilizados para indexar e recuperar as imagens baseando-se em seu conteúdo, para responder a consultas por similaridade. Há uma relação próxima entre os vetores de características e as funções de distância utilizadas para compará-los. Assim, a segunda parte deste trabalho trata da proposta, análise e comparação de novas famílias de funções de distância. As funções de distância propostas têm por objetivo tratar o problema do gap semântico, o qual representa o principal obstáculo das funções de distância tradicionais, derivadas da família Lp, quando processam consultas por similaridade. As principais contribuições desta tese incluem o desenvolvimento de novos métodos de extração e comparação de características de imagens, que operam sobre os três principais descritores de baixo nível de imagens: distribuição de cor, textura e forma. Os experimentos realizados mostraram que os ganhos em precisão são maiores para os métodos propostos, quando comparados com algoritmos tradicionais. No que diz respeito às famílias de funções de distância propostas (WAID e SAID), pelos resultados iniciais obtidos, podemos afirmar que eles são bastante promissores no sentido de se aproximarem da expectativa do usuário, no momento de comparar imagens. Os resultados obtidos com esse trabalho podem ser futuramente integrados aos PACS. Particularmente, pretendemos acrescentar novos algoritmos e métodos ao cbPACS, que consiste em um sistema PACS em construção, desenvolvido em uma colaboração entre o Grupo de Bases de Dados e Imagens (GBDI) do Instituto de Ciências Matemáticas e de Computação - USP e o Centro de Ciências da Imagens e Física Médica (CCIFM) da Faculdade de Medicina de Ribeirão Preto - USP / The ability of retrieving and comparing images using their inherent pictorial information is a valuable asset to answer similarity queries over medical images. Thus, having such resources added in Picture Archiving and Communication Systems (PACS) increase their applicability and importance in the context of teaching and training new radiologists on diagnosing, since that similar cases can be easily retrieved. Similarity queries also play an important role on gathering close images, what allows to perform case studies, as well as to aid on diagnosing. The work presented in this thesis is twofold. First, it presents new feature extraction techniques, which aim at obtaining the essence of the images regarding a given criteria. The features obtained by the algorithms are stored in feature vectors and employed to index and retrieve the images by content, in order to answer similarity queries. There is a close relationship among feature vectors and the distance function employed to compare them. Thus, the second, part of this work concerns the comparison, analysis and proposal of new families of distance functions to compare the features extracted from the images. The distance functions proposed intend to deal with the semantic gap problem, which is the main drawback of the traditional distance functions derived from the Lp metrics when processing similarity queries. The main contributions of this thesis include the development of new image feature extractors that works on the three aspects of raw image data (color distribution, texture and shape). The experiments have shown that the gain in precision are higher for all the feature extractors proposed, when comparing with the state-of-the-art algorithms. Regarding the two families of distance functions WAID and SAID proposed, by the initial experiments performed we can claim that they are very promising on preserving the user expectation when comparing images. The results provided by this work can be straightforwardly integrated to PACS. Particularly, we intend to add the new algorithms and methods to cbPACS, which is under joined development between the Image Data Base Group of Instituto de CiLncias Matemáticas e de Computaçno of USP and Centro de CiLncias de Imagens e Física Médica of Faculdade de Medicina de Ribeirno Preto of USP
|
256 |
Recomendação de conteúdo baseada em informações semânticas extraídas de bases de conhecimento / Content recommendation based on semantic information extracted from knowledge basesSalmo Marques da Silva Junior 10 May 2017 (has links)
A fim de auxiliar usuários durante o consumo de produtos, sistemas Web passaram a incorporar módulos de recomendação de itens. As abordagens mais populares são a baseada em conteúdo, que recomenda itens a partir de características que são do seu interesse, e a filtragem colaborativa, que recomenda itens bem avaliados por usuários com perfis semelhantes ao do usuário alvo, ou que são semelhantes aos que foram bem avaliados pelo usuário alvo. Enquanto que a primeira abordagem apresenta limitações como a sobre-especialização e a análise limitada de conteúdo, a segunda enfrenta problemas como o novo usuário e/ou novo item, também conhecido como partida fria. Apesar da variedade de técnicas disponíveis, um problema comum existente na maioria das abordagens é a falta de informações semânticas para representar os itens do acervo. Trabalhos recentes na área de Sistemas de Recomendação têm estudado a possibilidade de usar bases de conhecimento da Web como fonte de informações semânticas. Contudo, ainda é necessário investigar como usufruir de tais informações e integrá-las de modo eficiente em sistemas de recomendação. Dessa maneira, este trabalho tem o objetivo de investigar como informações semânticas provenientes de bases de conhecimento podem beneficiar sistemas de recomendação por meio da descrição semântica de itens, e como o cálculo da similaridade semântica pode amenizar o desafio enfrentado no cenário de partida fria. Como resultado, obtém-se uma técnica que pode gerar recomendações adequadas ao perfil dos usuários, incluindo itens novos do acervo que sejam relevantes. Pode-se observar uma melhora de até 10% no RMSE, no cenário de partida fria, quando se compara o sistema proposto com o sistema cuja predição de notas é baseada na correlação de notas. / In order to support users during the consumption of products,Web systems have incorporated recommendation techniques. The most popular approaches are content-based, which recommends items based on interesting features to the user, and collaborative filtering, which recommends items that were well evaluated by users with similar preferences to the target user, or that have similar features to items which were positively evaluated. While the first approach has limitations such as overspecialization and limited content analysis, the second technique has problems such as the new user and the new item, limitation also known as cold start. In spite of the variety of techniques available, a common problem is the lack of semantic information to represent items features. Recent works in the field of recommender systems have been studying the possibility to use knowledge databases from the Web as a source of semantic information. However, it is still necessary to investigate how to use and integrate such semantic information in recommender systems. In this way, this work has the proposal to investigate how semantic information gathered from knowledge databases can help recommender systems by semantically describing items, and how semantic similarity can overcome the challenge confronted in the cold-start scenario. As a result, we obtained a technique that can produce recommendations suited to users profiles, including relevant new items available in the database. It can be observed an improvement of up to 10% in the RMSE in the cold start scenario when comparing the proposed system with the system whose rating prediction is based on the correlation of rates.
|
257 |
Caracterização e recuperação de imagens usando dicionários visuais semanticamente enriquecidos / Image characterization and retrieval using visual dictionaries semantically enrichedGlauco Vitor Pedrosa 24 August 2015 (has links)
A análise automática da similaridade entre imagens depende fortemente de descritores que consigam caracterizar o conteúdo das imagens em dados compactos e discriminativos. Esses dados extraídos e representados em um vetor-de-características tem o objetivo de representar as imagens nos processos de mineração e análise para classificação e/ou recuperação. Neste trabalho foi explorado o uso de dicionários visuais e contexto para representar e recuperar as características locais das imagens utilizando formalismos estendidos com alto poder descritivo. Esta tese apresenta em destaque três novas propostas que contribuem competitivamente com outros trabalhos da literatura no avanço do estado-da-arte, desenvolvendo novas metodologias para a caracterização de imagens e para o processamento de consultas por similaridade. A primeira proposta estende a modelagem Bag-of-Visual-Words, permitindo codificar a interação entre palavras-visuais e suas disposições espaciais na imagem. Para tal fim, três novas abordagem são apresentadas: (i) Weighted Histogram (WE); (ii) Bunch-of-2-grams e (iii) Global Spatial Arrangement (GSA). Cada uma dessas técnicas permitem extrair informações semanticamente complementares, que enriquecem a representação final das imagens descritas em palavras-visuais. A segunda proposta apresenta um novo descritor, chamado de Bag-of-Salience-Points (BoSP), que caracteriza e analisa a dissimilaridade de formas (silhuetas) de objetos explorando seus pontos de saliências. O descritor BoSP se apoia no uso de um dicionário de curvaturas e em histogramas espaciais para representar sucintamente as saliências de um objeto em um único vetor-de-características de tamanho fixo, permitindo recuperar formas usando funções de distâncias computacionalmente rápidas. Por fim, a terceira proposta apresenta um novo modelo de consulta por similaridade, denominada Similarity Based on Dominant Images (SimDIm), baseada no conceito de Imagens Dominantes, que é um conjunto que representa, de uma maneira mais diversificada e reduzida, toda a coleção de imagens da base de dados. Tal conceito permite dar mais eficiência quando se deseja analisar o contexto da coleção, que é o objetivo da proposta. Os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva para caracterizar e quantificar a similaridade entre imagens por meio de abordagens estendidas baseadas em dicionários visuais e análise contextual, reduzindo a lacuna semântica existente entre a percepção humana e a descrição computacional. / The automatic similarity analysis between images depends heavily on the use of descriptors that should be able to characterize the images\' content in compact and discriminative features. These extracted features are represented by a feature-vector employed to represent the images in the process of mining and analysis for classification and/or retrieval. This work investigated the use of visual dictionaries and context to represent and retrieve the local image features using extended formalism with high descriptive power. This thesis presents three new proposals that contribute in advancing the state-of-the-art by developing new methodologies for characterizing images and for processing similarity queries by content. The first proposal extends the Bag-of-Visual-Words model, by encoding the interaction between the visual words and their spatial arrangements in the image space. For this, three new techniques are presented: (i) Weighted Histogram (WE); (ii) Bunch-of--grams and (iii) Global Spatial Arrangement (GSA). These three techniques allow to extract additional semantically information that enrich the final image representation described in visual-words. The second proposal introduces a new descriptor, called Bag-of-Salience-Points (BoSP), which characterizes and analyzes the dissimilarity of shapes (silhouettes) exploring their salient point. The BoSP descriptor is based on using a dictionary of curvatures and spatial-histograms to represent succinctly the saliences of a shape into a single fixed-length feature-vector, allowing to retrieve shapes using distance functions computationally fast. Finally, the third proposal introduces a new similarity query model, called Similarity based on Dominant Images (SimDIm), based on the concept of dominant images, which is a set of images representing the entire collection of images of the database in a more diversified and reduced manner. This concept allows to efficiently analyze the context of the entire collection, which is the final goal. The experiments showed that the proposed methods effectively contributed to characterize and quantify the similarity between images using extended approaches based on visual dictionaries and contextual analysis, reducing the semantic gap between human perception and computational description.
|
258 |
[pt] ESTRATÉGIAS PARA ENTENDER A CONECTIVIDADE DE PARES DE ENTIDADES EM BASES DE CONHECIMENTO / [en] STRATEGIES TO UNDERSTAND THE CONNECTIVITY OF ENTITY PAIRS IN KNOWLEDGE BASESJAVIER GUILLOT JIMENEZ 04 November 2021 (has links)
[pt] O problema do relacionamento de entidades refere-se à questão de
explorar uma base de conhecimento, representada como um grafo RDF, para
descobrir e entender como duas entidades estão conectadas. Esta questão pode
ser resolvida implementando-se uma estratégia de busca de caminhos que
combina uma medida de similaridade de entidades, um limite para o grau das
entidades, e um limite de expansão para reduzir o espaço de busca de caminhos,
e uma medida de ranqueamento de caminhos para ordenar os caminhos
relevantes entre um determinado par de entidades no grafo RDF. Esta tese
inicialmente apresenta um framework, chamado CoEPinKB, juntamente com
uma implementação, para experimentar estratégias de busca de caminhos. O
framework apresenta como pontos de flexibilização a medida de similaridade
entre entidades, o limite máximo do grau das entidades, o limite de expansão,
a medida de classificação de caminhos, e a base de conhecimento. Em seguida,
a tese apresenta uma avaliação de desempenho de nove estratégias de busca de
caminhos usando um benchmark envolvendo dois domínios de entretenimento
sobre o OpenLink Virtuoso SPARQL protocol endpoint da DBpedia. Por fim, a
tese apresenta o DCoEPinKB, uma versão distribuída do framework baseado
em Apache Spark, que suporta a avaliação empírica de estratégias de busca de
caminhos, e apresenta uma avaliação de seis estratégias de busca de caminhos
em dois domínios de entretenimento sobre dados reais coletados da DBpedia.
Os resultados fornecem intuições sobre o desempenho das estratégias de busca
de caminhos e sugerem que a implementação do framework, instanciado com
o par de medidas de melhor desempenho, pode ser usado, por exemplo, para
expandir os resultados dos motores de busca em bases de conhecimento para
incluir entidades relacionadas. / [en] The entity relatedness problem refers to the question of exploring a
knowledge base, represented as an RDF graph, to discover and understand how
two entities are connected. This question can be addressed by implementing a
path search strategy that combines an entity similarity measure with an entity
degree limit and an expansion limit to reduce the path search space and a path
ranking measure to order the relevant paths between a given pair of entities in
the RDF graph. This thesis first introduces a framework, called CoEPinKB,
together with an implementation, to experiment with path search strategies.
The framework features as hot spots the entity similarity measure, the entity
degree limit, the expansion limit, the path ranking measure, and the knowledge
base. The thesis moves on to present a performance evaluation of nine path
search strategies using a benchmark from two entertainment domains over
the OpenLink Virtuoso SPARQL protocol endpoint of the DBpedia. The
thesis then introduces DCoEPinKB, a distributed version of the framework
based on Apache Spark, that supports the empirical evaluation of path
search strategies, and presents an evaluation of six path search strategies
over two entertainment domains over real-data collected from DBpedia. The
results provide insights about the performance of the path search strategies
and suggest that the framework implementation, instantiated with the best performing pair of measures, can be used, for example, to expand the results
of search engines over knowledge bases to include related entities.
|
259 |
[en] ENRICHING AND ANALYZING SEMANTIC TRAJECTORIES WITH LINKED OPEN DATA / [pt] ENRIQUECENDO E ANALISANDO TRAJETÓRIAS SEMÂNTICAS COM DADOS ABERTOS INTERLIGADOSLIVIA COUTO RUBACK RODRIGUES 26 February 2018 (has links)
[pt] Os últimos anos testemunharam o uso crescente de dispositivos que rastreiam objetos móveis: equipamentos com GPS e telefones móveis, veículos ou outros sensores da Internet das Coisas, além de dados de localização de check-ins de redes sociais. Estes dados de mobilidade são representados como trajetórias, e armazenam a sequência de posições de um objeto móvel. Porém, estas sequências
representam somente os dados de posição originais, que precisam ser semanticamente enriquecidos para permitir tarefas de análise e apoiar um entendimento profundo sobre o comportamento do movimento. Um outro espaço de dados global sem precedentes tem crescido rapidamente, a Web de Dados,
graças à iniciativa de Dados Interligados. Estes dados semânticos ricos e livremente disponíveis fornecem uma nova maneira de enriquecer dados de trajetória. Esta tese apresenta contribuições para os desafios que surgem considerando este cenário. Em primeiro lugar, a tese investiga como dados de trajetória podem se beneficiar da iniciativa de dados interligados, guiando todo o processo de enriquecimento semântico utilizando fontes de dados externas. Em segundo lugar, aborda o tópico de computação de similaridade entre entidades representadas como dados interligados com o objetivo de computar a similaridade entre trajetórias semanticamente enriquecidas. A novidade da abordagem apresentada nesta tese consiste em considerar as características relevantes das entidades como listas ranqueadas. Por último, a tese aborda a computação da similaridade entre trajetórias enriquecidas comparando a similaridade entre todas as entidades representadas como dados interligados que representam as trajetórias
enriquecidas. / [en] The last years witnessed a growing number of devices that track moving objects: personal GPS equipped devices and GSM mobile phones, vehicles or other sensors from the Internet of Things but also the location data deriving from the Social Networks check-ins. These mobility data are represented as trajectories, recording the sequence of locations of the moving object. However, these sequences only represent the raw location data and they need to be semantically enriched to be meaningful in the analysis tasks and to support a deep understanding of the movement behavior. Another unprecedented global space that is also growing at a fast pace is the Web of Data, thanks to the emergence of the Linked Data initiative. These freely available semantic rich datasets provide a novel way to enhance trajectory data. This thesis presents a contribution to the many challenges that arise from this scenario. First, it investigates how trajectory data may benefit from the Linked Data Initiative by guiding the whole trajectory enrichment process with the use of external datasets. Then, it addresses the pivotal topic of the similarity computation between Linked Data entities with the final objective of computing the similarity between semantically enriched trajectories. The novelty of our approach is that the thesis considers the relevant entity features as a ranked list. Finally, the thesis targets the computation of the similarity between enriched trajectories by comparing the similarity of the Linked Data entities that represent the enriched trajectories.
|
260 |
Similaridade morfológica e seus efeitos na distribuição da assembleias de percevejos semiaquáticos (Gerromorpha: Heteroptera) em igarapés da Amazônia OrientalGUTERRES, Alana Patricia Meguy 07 February 2017 (has links)
Submitted by Carmen Torres (carmensct@globo.com) on 2018-02-22T18:58:41Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_SimilaridadeMorfologicaEfeitos.pdf: 1126425 bytes, checksum: 5c79e261d1d8daf281374b14b99a44bd (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2018-02-26T14:58:30Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_SimilaridadeMorfologicaEfeitos.pdf: 1126425 bytes, checksum: 5c79e261d1d8daf281374b14b99a44bd (MD5) / Made available in DSpace on 2018-02-26T14:58:32Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_SimilaridadeMorfologicaEfeitos.pdf: 1126425 bytes, checksum: 5c79e261d1d8daf281374b14b99a44bd (MD5)
Previous issue date: 2017-02-07 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / Estudos sobre padrões de distribuição e coexistência das espécies em comunidades naturais estão ganhando destaque na área de ecologia de comunidades, pois servem como base para outros estudos, como os de conservação, de ecologia teórica e outros. Neste estudo, utilizamos os insetos aquáticos da Subordem Heteroptera (Infraordem Gerromorpha), para avaliar a relação entre similaridade morfológica e padrões de coexistência de Gerromorpha. Duas hipóteses foram testadas: (i) a existência de divergência morfológica entre as espécies coexistentes; (ii) o ambiente exerce baixa influência sobre o padrão de coocorrência das espécies. O estudo foi realizado em 32 riachos (igarapés) dentro e no entorno de uma unidade de conservação na Amazônia Oriental. A hipótese sobre divergência morfológica entre as espécies de insetos semiaquáticos e de ausência de um efeito ambiental nas assembleias foram corroboradas. As espécies da comunidade de Gerromorpha apresentaram um padrão de coocorrência não aleatório. A divergência morfológica entre espécies pode ser o resultado de intensa competição interespecífica. Nas assembleias de Gerromorpha estudadas, as relações de competição foram mais importantes que o ambiente, resultando no deslocamento de caracteres morfológicos, com espécies coexistentes mais distantes entre si morfologicamente do que o esperado para os modelos avaliados. / Studies on patterns of distribution and coexistence of species in natural communities are gaining prominence in the area of community ecology, as they serve as a basis for other studies, such as conservation studies, theoretical ecology and others. In this study, we used the aquatic insects of the Heteroptera Suborder (Infraorder Gerromorpha) to evaluate the relationship between morphological similarity and Gerromorpha coexistence patterns. Two hypotheses were tested: (i) the existence of morphological divergence between coexisting species; (ii) the environment has a low influence on the co-occurrence pattern of the species. The study was done in 32 creeks (streams) in and around a conservation unit in the Eastern Amazon. The hypothesis about morphological divergence between semiaquatic insect species and absence of an environmental effect in the assemblies was corroborated. Species of the Gerromorpha community presented a pattern of non-random co-occurrence. The morphological divergence between species may be the result of intense interspecific competition. In the Gerromorpha assemblages studied, the competition relations were more important than the environment, resulting in the displacement of morphological characters, with coexistent species more distant morphologically than expected for the evaluated models.
|
Page generated in 0.0713 seconds