1 |
[en] CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS / [pt] ALINHAMENTO DE ESQUEMAS CONCEITUAIS BASEADO EM HEURÍSTICAS DE SIMILARIDADELUIZ ANDRE PORTES PAES LEME 07 January 2016 (has links)
[pt] Alinhamento de esquema é uma questão fundamental em aplicações de banco de dados, tais como mediação de consultas, integração de banco de dados e armazéns de dados. Nesta tese, abordamos inicialmente o alinhamento de catálogos. Um catálogo é um banco de dados simples que contém informações sobre conjuntos de objetos, tipicamente classificados usando-se termos de um dado tesauro. Inicialmente apresentamos uma técnica de alinhamento baseada na noção de similaridade, que se aplica a pares de tesauros e de listas de propriedades. Descrevemos, então, o alinhamento baseado na noção de informação mútua e introduzimos variações que exploram certas heurísticas. Ao final, discutimos resultados experimentais que avaliam a precisão do método e comparam a influência das heurísticas. Após as técnicas para alinhamento de catálogos, nos concentramos no problema mais complexo de alinhamento de dois esquemas descritos em um subconjunto de OWL. Adotamos uma técnica baseada em instâncias e, por isso, assumimos que conjuntos de instâncias de cada esquema estão disponíveis. Decompomos este problema nos subproblemas de alinhamento de vocabulário e de alinhamento de conceitos. Introduzimos também condições suficientes para garantir que o alinhamento de vocabulário induz um alinhamento de conceitos correto. Em seguida, descrevemos uma técnica de alinhamento de esquemas OWL baseada no conceito de similaridade. Finalmente, avaliamos a precisão da técnica usando dados disponíveis na Web. De forma diferente de outras técnicas anteriores baseadas em instâncias, o processo de alinhamento que descrevemos usa funções de similaridade para induzir alinhamento de vocabulários de uma forma não trivial. Ilustramos, também, que a estrutura de esquemas OWL pode nos levar a mapeamentos de conceitos errados e indicamos como evitar tais problemas. / [en] Schema matching is a fundamental issue in many database applications, such as query mediation, database integration, catalog matching and data warehousing. In this thesis, we first address hot to match catalogue schemas. A catalogue is a simple database that holds information about a set of objects, typically classified using terms taken from a given thesaurus. We introduce a matching approach, based on the notion of similarity, which applies to pairs of thesauri and to pairs of lists of properties. We then describe matchings based on cooccurrence of information and introduce variations that explore certain heuristics. Lastly, we discuss experimental results that evaluate the precision of the matchings introduced and that measure the influence of the heuristics. We then focus on the mre complex problem of matching two schemas that belong to an expressive OWL dialect. We adopt an instance-based approach and, therefore, assume that a set of instances from each schema is available. We first decompose the problem of OWL schema matching into the problem of vocabulary matching and the problem of concept mapping. We also introduce sufficient conditions guaranteeing that a vocabulary matching induces a correct concept mapping. Next, we describe OWL schema matching technique based on the notion of similarity. Lastly, we evaluate the precision of the technique using data available on the Web. Unlike any of the previous instance-based techniques, the matching process we describe uses similarity functions to induce vocabulary matchings in a non-trivial, coping with an expressive OWL dialect. We also illustrate, through a set of examples, that the structure of OWL schemas may lead to incorrect concept mappings and indicate how to avoid such pitfalls.
|
2 |
[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION / [pt] ARQUITETURA PARA RECOMENDAÇÃO DE FONTES DE DADOS RDFJOSE EDUARDO TALAVERA HERRERA 25 March 2013 (has links)
[pt] Dentro do processo de publicação de dados na Web recomenda-se interligar
os dados entre diferentes fontes, através de recursos similares que descrevam
um domínio em comum. No entanto, com o crescimento do número dos conjuntos
de dados publicados na Web de Dados, as tarefas de descoberta e
seleção de dados tornam-se cada vez mais complexas. Além disso, a natureza
distribuída e interconectada dos dados, fazem com que a sua análise
e entendimento sejam muito demorados. Neste sentido, este trabalho visa
oferecer uma arquitetura Web para a identificação de fontes de dados em
RDF, com o objetivo de prover melhorias nos processos de publicação, interconex
ão, e exploração de dados na Linked Open Data. Para tal, nossa
abordagem utiliza o modelo de MapReduce sobre o paradigma de computa
ção nas nuvens. Assim, podemos efetuar buscas paralelas por palavraschave
sobre um índice de dados semânticos existente na Web. Estas buscas
permitem identificar fontes candidatas para ligar os dados. Por meio desta
abordagem, foi possível integrar diferentes ferramentas da web semântica em
um processo de busca para descobrir fontes de dados relevantes, e relacionar
tópicos de interesse denidos pelo usuário. Para atingir nosso objetivo foi
necessária a indexação e análise de texto para aperfeiçoar a busca de recursos
na Linked Open Data. Para mostrar a ecácia de nossa abordagem
foi desenvolvido um estudo de caso, utilizando um subconjunto de dados de
uma fonte na Linked Open Data, através do seu serviço SPARQL endpoint.
Os resultados do nosso trabalho revelam que a geração de estatísticas sobre
os dados da fonte é, de fato, um grande diferencial no processo de busca. Estas estatísticas ajudam ao usuário no processo de escolha de indivíduos. Um processo especializado de extração de palavras-chave é aplicado para cada indivíduo com o objetivo de gerar diferentes buscas sobre o índice semântico. Mostramos a escalabilidade de nosso processo de recomendação de fontes RDF através de diferentes amostras de indivíduos. / [en] In the Web publishing process of data it is recommended to link the data
from different sources using similar resources that describe a domain in
common. However, the growing number of published data sets on the Web
have made the data discovery and data selection tasks become increasingly
complex. Moreover, the distributed and interconnected nature of the data
causes the understanding and analysis to become too prolonged. In this
context, this work aims to provide a Web architecture for identifying RDF
data sources with the goal of improving the publishing, interconnection, and
data exploration processes within the Linked Open Data. Our approach
utilizes the MapReduce computing model on top of the cloud computing
paradigm. In this manner, we are able to make parallel keyword searches
over existing semantic data indexes available on the web. This will allow
to identify candidate sources to link the data. Through this approach, it
was possible to integrate different semantic web tools and relevant data
sources in a search process, and also to relate topics of interest denied
by the user. In order to achieve our objectives it was necessary to index
and analyze text to improve the search of resources in the Linked Open
Data. To show the effectiveness of our approach we developed a case study
using a subset of data from a source in the Linked Open Data through
its SPARQL endpoint service. The results of our work reveal that the
generation and usage of data source s statistics do make a great difference
within the search process. These statistics help the user within the choosing
individuals process. Furthermore, a specialized keyword extraction process
is run for each individual in order to create different search processes using
the semantic index. We show the scalability of our RDF recommendation
process by sampling several individuals.
|
3 |
[pt] METODOS DE BUSCA POR SIMILARIDADE EM SEQUÊNCIAS TEMPORAIS DE VETORES COM UMA APLICAÇÃO À RECUPERAÇÃO DE ANÚNCIOS CLASSIFICADOS / [en] STAGED VECTOR STREAM SIMILARITY SEARCH METHODS WITH AN APPLICATION TO CLASSIFIED AD RETRIEVABRUNO FRANCISCO MARTINS DA SILVA 22 February 2024 (has links)
[pt] Uma sequência temporal de vetores (vector stream) pode ser modeladacomo uma sequência de pares ((v1, t1). . .(vn, tn)), onde vk é um vetor e tk écarimbo de tempo tais que todos os vetores são da mesma dimensão e tkmenor que tk+1. O problema de busca por similaridade em sequências temporais devetores é definido como: Dado um vetor (de alta dimensão) v e um intervalode tempo T, encontre uma lista ranqueada de vetores, recuperados de umasequência temporal de vetores, que sejam similares a v e que foram recebidosdentro do intervalo de tempo T. Esta dissertação primeiro introduz umafamília de métodos de busca por similaridade em sequências temporais devetores que não dependem da sequência completa, mas se adaptam à medidaque os vetores são incluídos na sequência. Os métodos geram uma sequênciade índices, que são então usados para implementar uma busca aproximadado vizinho mais próximo na sequência temporal de vetores. Em seguida, adissertação descreve uma implementação de um método da família baseado em Hierarchical Navigable Small World graphs. Utilizando esta implementação,a dissertação apresenta uma ferramenta de busca de anúncios classificadosque oferece recuperação de anúncios à medida que usuários continuamentesubmetem novos anúncios. A ferramenta é estruturada em um módulo principale três módulos auxiliares, sendo que o módulo principal é responsável porcoordenar os módulos auxiliares e prover uma interface para o usuário, e osmódulos auxiliares são responsáveis pela codificação dos textos e imagens emvetores, a indexação dos vetores, e o armazenamento dos textos, imagens evetores. Por fim, para avaliar a ferramenta, a dissertação utiliza um conjuntode aproximadamente 1 milhão de registros com as descrições de anúnciosclassificados e suas imagens. Os resultados mostraram que a ferramenta atingiuuma precisão de 98 por cento e um recall de 97 por cento. / [en] A vector stream can be modeled as a sequence of pairs ((v1, t1). . .(vn, tn)),
where vk is a vector and tk is a timestamp such that all vectors are of the
same dimension and tk less than tk+1. The vector stream similarity search problem is
defined as: Given a (high-dimensional) vector q and a time interval T, find a
ranked list of vectors, retrieved from a vector stream, that are similar to q and
that were received in the time interval T. This dissertation first introduces
a family of vector stream similarity search methods that do not depend on
having the full set of vectors available beforehand but adapt to the vector
stream as the vectors are added. The methods generate a sequence of indices
that are used to implement approximated nearest neighbor search over the
vector stream. Then, the dissertation describes an implementation of a method
in the family based on Hierarchical Navigable Small World graphs. Based on
this implementation, the dissertation presents a Classified Ad Retrieval tool
that supports classified ad retrieval as new ads are continuously submitted.
The tool is structured into a main module and three auxiliary modules, where
the main module is responsible for coordinating the auxiliary modules and for
providing a user interface, and the auxiliary modules are responsible for text
and image encoding, vector stream indexing, and data storage. To evaluate the
tool, the dissertation uses a dataset with approximately 1 million records with
descriptions of classified ads and their respective images. The results showed
that the tool reached an average precision of 98 percent and an average recall of 97 percent.
|
4 |
[en] DATA ENRICHMENT BASED ON SIMILARITY GRAPH STATISTICS TO IMPROVE PERFORMANCE IN CLASSIFICATION SUPERVISED ML MODELS / [pt] ENRIQUECIMENTO DE DADOS COM BASE EM ESTATÍSTICAS DE GRAFO DE SIMILARIDADE PARA MELHORAR O DESEMPENHO EM MODELOS DE ML SUPERVISIONADOS DE CLASSIFICAÇÃONEY BARCHILON 19 September 2024 (has links)
[pt] A otimização do desempenho dos modelos de aprendizado de máquina
supervisionados representa um desafio constante, especialmente em contextos
com conjuntos de dados de alta dimensionalidade ou com numerosos atributos
correlacionados. Neste estudo, é proposto um método para o enriquecimento
de conjuntos de dados tabulares, fundamentado na utilização de estatísticas
provenientes de um grafo construído a partir da similaridade entre as instâncias
presentes neste conjunto de dados, buscando capturar correlações estruturais
entre esses dados. As instâncias assumem o papel de vértices no grafo, enquanto
as conexões entre elas refletem sua similaridade. O conjunto de características
originais (FO) é enriquecido com as estatísticas extraídas do grafo (FG)
na busca pela melhora do poder preditivo dos modelos de aprendizado de
máquina. O método foi avaliado em dez conjuntos de dados públicos de
distintas áreas de conhecimento, em dois cenários distintos, sobre sete modelos
de aprendizado de máquina, comparando a predição sobre o conjunto de dados
inicial (FO) com o conjunto de dados enriquecido com as estatísticas extraídas
do seu grafo (FO+FG). Os resultados revelaram melhorias significativas na
métrica de acurácia, com um aprimoramento médio de aproximadamente
4,9 por cento. Além de sua flexibilidade para integração com outras técnicas de
enriquecimento existentes, o método se apresenta como uma alternativa eficaz,
sobretudo em situações em que os conjuntos de dados originais carecem das
características necessárias para as abordagens tradicionais de enriquecimento
com a utilização de grafo. / [en] The optimization of supervised machine learning models performancerepresents a constant challenge, especially in contexts with high-dimensionaldatasets or numerous correlated attributes. In this study, we propose a methodfor enriching tabular datasets, based on the use of statistics derived from agraph constructed from the similarity between instances in the dataset, aimingto capture structural correlations among the data. Instances take on the role ofvertices in the graph, while connections between them reflect their similarity.The original feature set (FO) is enriched with statistics extracted from thegraph (FG) to enhance the predictive power of machine learning models. Themethod was evaluated on ten public datasets from different domains, in twodistinct scenarios, across seven machine learning models, comparing predictionon the initial dataset (FO) with the dataset enriched with statistics extractedfrom its graph (FO+FG). The results revealed significant improvements inaccuracy metrics, with an average enhancement of approximately 4.9 percent. Inaddition to its flexibility for integration with existing enrichment techniques,the method presents itself as a effective alternative, particularly in situationswhere original datasets lack the necessary characteristics for traditional graph-based enrichment approaches.
|
5 |
[pt] MEDIDAS DE SIMILARIDADE ENTRE SÉRIES TEMPORAIS / [en] TIME SERIES SYMILARITY MEASURESJOSE LUIZ DO NASCIMENTO DE AGUIAR 27 October 2016 (has links)
[pt] Atualmente, uma tarefa muito importante na mineração de dados é compreender como extrair os dados mais informativos dentre um número muito grande de dados. Uma vez que todos os campos de conhecimento apresentam uma grande quantidade de dados que precisam ser reduzidas até as informações mais representativas, a abordagem das séries temporais é definitivamente um método muito forte para representar e extrair estas informações. No entanto nós precisamos ter uma ferramenta apropriada para inferir os dados mais significativos destas séries temporais, e para nos ajudar, podemos utilizar alguns métodos de medida de similaridade para saber o grau de igualdade entre duas séries temporais, e nesta pesquisa nós vamos realizar um estudo utilizando alguns métodos de similaridade baseados em medidas de distância e aplicar estes métodos em alguns algoritmos de clusterização para fazer uma avaliação de se existe uma combinação (método de similaridade baseado em distância / algoritmo de clusterização) que apresenta uma performance melhor em relação a todos os outros utilizados neste estudo, ou se existe um método de similaridade baseado em distância que mostra um desempenho melhor que os demais. / [en] Nowadays a very important task in data mining is to understand how to collect the most informative data in a very amount of data. Once every single field of knowledge have lots of data to summarize in the most representative information, the time series approach is definitely a very strong way to represent and collect this information from it (12, 22). On other hand we need to have an appropriate tool to extract the most significant data from this time series. To help us we can use some similarity methods to know how similar is one time series from another In this work we will perform a research using some distance-based similarity methods and apply it in some clustering algorithms to do an assessment to see if there is a combination (distance-based similarity methods / clustering algorithm) that present a better performance in relation with all the others used in this work or if there exists one distancebased similarity method that shows a better performance between the others.
|
6 |
[en] ENRICHING AND ANALYZING SEMANTIC TRAJECTORIES WITH LINKED OPEN DATA / [pt] ENRIQUECENDO E ANALISANDO TRAJETÓRIAS SEMÂNTICAS COM DADOS ABERTOS INTERLIGADOSLIVIA COUTO RUBACK RODRIGUES 26 February 2018 (has links)
[pt] Os últimos anos testemunharam o uso crescente de dispositivos que rastreiam objetos móveis: equipamentos com GPS e telefones móveis, veículos ou outros sensores da Internet das Coisas, além de dados de localização de check-ins de redes sociais. Estes dados de mobilidade são representados como trajetórias, e armazenam a sequência de posições de um objeto móvel. Porém, estas sequências
representam somente os dados de posição originais, que precisam ser semanticamente enriquecidos para permitir tarefas de análise e apoiar um entendimento profundo sobre o comportamento do movimento. Um outro espaço de dados global sem precedentes tem crescido rapidamente, a Web de Dados,
graças à iniciativa de Dados Interligados. Estes dados semânticos ricos e livremente disponíveis fornecem uma nova maneira de enriquecer dados de trajetória. Esta tese apresenta contribuições para os desafios que surgem considerando este cenário. Em primeiro lugar, a tese investiga como dados de trajetória podem se beneficiar da iniciativa de dados interligados, guiando todo o processo de enriquecimento semântico utilizando fontes de dados externas. Em segundo lugar, aborda o tópico de computação de similaridade entre entidades representadas como dados interligados com o objetivo de computar a similaridade entre trajetórias semanticamente enriquecidas. A novidade da abordagem apresentada nesta tese consiste em considerar as características relevantes das entidades como listas ranqueadas. Por último, a tese aborda a computação da similaridade entre trajetórias enriquecidas comparando a similaridade entre todas as entidades representadas como dados interligados que representam as trajetórias
enriquecidas. / [en] The last years witnessed a growing number of devices that track moving objects: personal GPS equipped devices and GSM mobile phones, vehicles or other sensors from the Internet of Things but also the location data deriving from the Social Networks check-ins. These mobility data are represented as trajectories, recording the sequence of locations of the moving object. However, these sequences only represent the raw location data and they need to be semantically enriched to be meaningful in the analysis tasks and to support a deep understanding of the movement behavior. Another unprecedented global space that is also growing at a fast pace is the Web of Data, thanks to the emergence of the Linked Data initiative. These freely available semantic rich datasets provide a novel way to enhance trajectory data. This thesis presents a contribution to the many challenges that arise from this scenario. First, it investigates how trajectory data may benefit from the Linked Data Initiative by guiding the whole trajectory enrichment process with the use of external datasets. Then, it addresses the pivotal topic of the similarity computation between Linked Data entities with the final objective of computing the similarity between semantically enriched trajectories. The novelty of our approach is that the thesis considers the relevant entity features as a ranked list. Finally, the thesis targets the computation of the similarity between enriched trajectories by comparing the similarity of the Linked Data entities that represent the enriched trajectories.
|
7 |
[en] ON THE PROCESSING OF COURSE SURVEY COMMENTS IN HIGHER EDUCATION INSTITUTIONS / [pt] PROCESSAMENTO DE COMENTÁRIOS DE PESQUISAS DE CURSOS EM INSTITUIÇÕES DE ENSINO SUPERIORHAYDÉE GUILLOT JIMÉNEZ 10 January 2022 (has links)
[pt] A avaliação sistemática de uma Instituição de Ensino Superior (IES) fornece à sua administração um feedback valioso sobre vários aspectos da vida acadêmica, como a reputação da instituição e o desempenho individual do corpo docente. Em particular, as pesquisas com alunos são uma fonte de informação de primeira mão que ajuda a avaliar o desempenho do professor e a adequação do curso. Os objetivos principais desta tese são criar e avaliar modelos de análise de sentimento dos comentários dos alunos e estratégias para resumir os comentários dos alunos. A tese primeiro descreve duas abordagens
para classificar a polaridade dos comentários dos alunos, ou seja, se eles são positivos, negativos ou neutros. A primeira abordagem depende de um dicionário criado manualmente que lista os termos que representam o sentimento a ser detectado nos comentários dos alunos. A segunda abordagem adota um
modelo de representação de linguagem, que não depende de um dicionário criado manualmente, mas requer algum conjunto de teste anotado manualmente. Os resultados indicaram que a primeira abordagem superou uma ferramenta de linha de base e que a segunda abordagem obteve um desempenho muito
bom, mesmo quando o conjunto de comentários anotados manualmente é pequeno.
A tese então explora várias estratégias para resumir um conjunto de comentários com interpretações semelhantes. O desafio está em resumir um conjunto de pequenas frases, escritas por pessoas diferentes, que podem transmitir ideias repetidas. Como estratégias, a tese testou Market Basket Analysis,
Topic Models, Text Similarity, TextRank e Entailment, adotando um método de inspeção humana para avaliar os resultados obtidos, uma vez que as métricas tradicionais de sumarização de textos se mostraram inadequadas. Os resultados sugerem que o agrupamento combinado com a estratégia baseada
em centróide atinge os melhores resultados. / [en] The systematic evaluation of a Higher Education Institution (HEI) provides its administration with valuable feedback about several aspects of academic life, such as the reputation of the institution and the individual performance of teachers. In particular, student surveys are a first-hand source of information that help assess teacher performance and course adequacy. The primary goals of this thesis are to create and evaluate sentiment analysis models of students comments, and strategies to summarize students comments. The thesis first describes two approaches to classify the polarity of students comments, that is, whether they are positive, negative, or neutral. The first approach depends on a manually created dictionary that lists terms that represent the sentiment to be detected in the students comments. The second approach adopts a language representation model, which does not depend on a manually created dictionary, but requires some manually annotated test set. The results indicated that the first approach outperformed a baseline tool, and that the second approach achieved very good performance, even when the set of manually annotated comments is small. The thesis then explores several strategies to summarize a set of comments with similar interpretations. The challenge lies in summarizing a set of small sentences, written by different people, which may convey repeated ideas. As strategies, the thesis tested Market
Basket Analysis, Topic Models, Text Similarity, TextRank, and Entailment, adopting a human inspection method to evaluate the results obtained, since traditional text summarization metrics proved inadequate. The results suggest that clustering combined with the centroid-based strategy achieves the best
results.
|
8 |
[pt] GERAÇÃO AUTOMÁTICA DE CONEXÕES PARA GESTÃO DE CONHECIMENTO / [en] ON AUTOMATIC GENERATION OF KNOWLEDGE CONNECTIONSFELIPE POGGI DE ARAGAO FRAGA 10 November 2022 (has links)
[pt] Recentemente, o tópico de Gestão de Conhecimento Pessoal vem ganhando muita popularidade. Ilustrado pelo rápido crescimento de aplicativos
como Notion, Obsidian, e Roam Research e da aparição de livros como How
to Take Smart Notes e Building a Second Brain.
Contudo, ainda é uma área que não foi fortemente envolvida pelo
Processamento de Linguagem Natural (NLP). Isso abre uma bela oportunidade
para a aplicação de NLP em operações com conhecimento.
Nosso objetivo é o desenvolvimento de um sistema de software que
utiliza NLP e aplicatovps de anotação para transformar uma coleção de textos
isolados em uma coleção de textos interconectada e inter-navegável. Isso é
feito usando mecanismos de navegação baseados em conceitos mencionados e
recomendações semânticas.
Neste trabalho apresentamos a metodologia para construir o sistema,
demonstrações com exemplos palpáveis, assim como uma avaliação para determinar a coerência dos resultados. / [en] Recently, the topic of Personal Knowledge Management (PKM) has seen
a surge in popularity. This is illustrated by the accelerated growth of apps
such as Notion, Obsidian, and Roam Research, and the appearance of books
like How to Take Smart Notes and Building a Second Brain.
However, the area of PKM has not seen much integration with the field of
Natural Language Processing (NLP). This opens up an interesting opportunity
to apply NLP techniques to knowledge operations tasks.
Our objective is the development of a Software System that uses NLP and
note-taking apps to transform a siloed text collection into an interconnected
and inter-navigable text collection. The system uses navigation mechanisms
based on shared concepts and semantic relatedness between texts.
In this study, we present a methodology to build this system, the research
context, demonstrations using examples, and an evaluation to determine if the
system functions properly and if the proposed connections are coherent.
|
Page generated in 0.0487 seconds