• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • 1
  • Tagged with
  • 3
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

[pt] MEDIDAS DE SIMILARIDADE ENTRE SÉRIES TEMPORAIS / [en] TIME SERIES SYMILARITY MEASURES

JOSE LUIZ DO NASCIMENTO DE AGUIAR 27 October 2016 (has links)
[pt] Atualmente, uma tarefa muito importante na mineração de dados é compreender como extrair os dados mais informativos dentre um número muito grande de dados. Uma vez que todos os campos de conhecimento apresentam uma grande quantidade de dados que precisam ser reduzidas até as informações mais representativas, a abordagem das séries temporais é definitivamente um método muito forte para representar e extrair estas informações. No entanto nós precisamos ter uma ferramenta apropriada para inferir os dados mais significativos destas séries temporais, e para nos ajudar, podemos utilizar alguns métodos de medida de similaridade para saber o grau de igualdade entre duas séries temporais, e nesta pesquisa nós vamos realizar um estudo utilizando alguns métodos de similaridade baseados em medidas de distância e aplicar estes métodos em alguns algoritmos de clusterização para fazer uma avaliação de se existe uma combinação (método de similaridade baseado em distância / algoritmo de clusterização) que apresenta uma performance melhor em relação a todos os outros utilizados neste estudo, ou se existe um método de similaridade baseado em distância que mostra um desempenho melhor que os demais. / [en] Nowadays a very important task in data mining is to understand how to collect the most informative data in a very amount of data. Once every single field of knowledge have lots of data to summarize in the most representative information, the time series approach is definitely a very strong way to represent and collect this information from it (12, 22). On other hand we need to have an appropriate tool to extract the most significant data from this time series. To help us we can use some similarity methods to know how similar is one time series from another In this work we will perform a research using some distance-based similarity methods and apply it in some clustering algorithms to do an assessment to see if there is a combination (distance-based similarity methods / clustering algorithm) that present a better performance in relation with all the others used in this work or if there exists one distancebased similarity method that shows a better performance between the others.
2

Uma plataforma intervalar para agrupamentos de dados

Silva, Liliane Ribeiro da 17 April 2015 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2016-05-30T21:50:59Z No. of bitstreams: 1 LilianeRibeiroDaSilva_TESE.pdf: 2192966 bytes, checksum: a48a20dce1782c21212b8ae76c5e0fbb (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2016-06-01T00:36:02Z (GMT) No. of bitstreams: 1 LilianeRibeiroDaSilva_TESE.pdf: 2192966 bytes, checksum: a48a20dce1782c21212b8ae76c5e0fbb (MD5) / Made available in DSpace on 2016-06-01T00:36:02Z (GMT). No. of bitstreams: 1 LilianeRibeiroDaSilva_TESE.pdf: 2192966 bytes, checksum: a48a20dce1782c21212b8ae76c5e0fbb (MD5) Previous issue date: 2015-04-17 / Este trabalho prop?e uma plataforma para m?todos de agrupamentode dados do tipo intervalar e uma solu??o para dados h?bridos que contenham esse tipo de dados. O principal objetivo do uso de dados com natureza intervalar ? representar informa??o num?rica dotada de imprecis?es, que s?o normalmente capturadas a partir de medidas do mundo real. Para isso, ? necess?rio adaptar t?cnicas de valores reais para serem utilizadas em dados intervalares.Para aplica??es de agrupamento intervalares, por exemplo, ? necess?rio propor uma dist?ncia intervalar e tamb?m adaptar algoritmos de agrupamento para serem utilizados nesse contexto. Neste caso, adaptamos uma dist?ncia intervalar, chamada $d_{km}$, e propomos algoritmos de agrupamento fuzzy intervalares, Fuzzy C-Means baseado em intervalos e ckMeans baseado em intervalos, e tr?s ?ndices de valida??o intervalares. Para validar a estrutura baseada em intervalos proposta, uma an?lise emp?rica foi realizada com conjuntos de dados sint?ticos e reais. A an?lise emp?rica ? baseada em um ?ndice de validade de cluster externo, Correct Rand, e seis ?ndices de valida??o interna, sendo que tr?s s?o necess?rias adequa??es para serem utilizados com dados intervalares.? realizada uma an?lise comparativa entre os resultados existentes na literatura e os resultados obtidos. E mais, para trabalhar com dados h?bridos uma investiga??o sobre fun??es de agrega??es de i-dist?ncias ? realizada.
3

[pt] ESTRATÉGIAS PARA ENTENDER A CONECTIVIDADE DE PARES DE ENTIDADES EM BASES DE CONHECIMENTO / [en] STRATEGIES TO UNDERSTAND THE CONNECTIVITY OF ENTITY PAIRS IN KNOWLEDGE BASES

JAVIER GUILLOT JIMENEZ 04 November 2021 (has links)
[pt] O problema do relacionamento de entidades refere-se à questão de explorar uma base de conhecimento, representada como um grafo RDF, para descobrir e entender como duas entidades estão conectadas. Esta questão pode ser resolvida implementando-se uma estratégia de busca de caminhos que combina uma medida de similaridade de entidades, um limite para o grau das entidades, e um limite de expansão para reduzir o espaço de busca de caminhos, e uma medida de ranqueamento de caminhos para ordenar os caminhos relevantes entre um determinado par de entidades no grafo RDF. Esta tese inicialmente apresenta um framework, chamado CoEPinKB, juntamente com uma implementação, para experimentar estratégias de busca de caminhos. O framework apresenta como pontos de flexibilização a medida de similaridade entre entidades, o limite máximo do grau das entidades, o limite de expansão, a medida de classificação de caminhos, e a base de conhecimento. Em seguida, a tese apresenta uma avaliação de desempenho de nove estratégias de busca de caminhos usando um benchmark envolvendo dois domínios de entretenimento sobre o OpenLink Virtuoso SPARQL protocol endpoint da DBpedia. Por fim, a tese apresenta o DCoEPinKB, uma versão distribuída do framework baseado em Apache Spark, que suporta a avaliação empírica de estratégias de busca de caminhos, e apresenta uma avaliação de seis estratégias de busca de caminhos em dois domínios de entretenimento sobre dados reais coletados da DBpedia. Os resultados fornecem intuições sobre o desempenho das estratégias de busca de caminhos e sugerem que a implementação do framework, instanciado com o par de medidas de melhor desempenho, pode ser usado, por exemplo, para expandir os resultados dos motores de busca em bases de conhecimento para incluir entidades relacionadas. / [en] The entity relatedness problem refers to the question of exploring a knowledge base, represented as an RDF graph, to discover and understand how two entities are connected. This question can be addressed by implementing a path search strategy that combines an entity similarity measure with an entity degree limit and an expansion limit to reduce the path search space and a path ranking measure to order the relevant paths between a given pair of entities in the RDF graph. This thesis first introduces a framework, called CoEPinKB, together with an implementation, to experiment with path search strategies. The framework features as hot spots the entity similarity measure, the entity degree limit, the expansion limit, the path ranking measure, and the knowledge base. The thesis moves on to present a performance evaluation of nine path search strategies using a benchmark from two entertainment domains over the OpenLink Virtuoso SPARQL protocol endpoint of the DBpedia. The thesis then introduces DCoEPinKB, a distributed version of the framework based on Apache Spark, that supports the empirical evaluation of path search strategies, and presents an evaluation of six path search strategies over two entertainment domains over real-data collected from DBpedia. The results provide insights about the performance of the path search strategies and suggest that the framework implementation, instantiated with the best performing pair of measures, can be used, for example, to expand the results of search engines over knowledge bases to include related entities.

Page generated in 0.1157 seconds