Spelling suggestions: "subject:"[een] SIMILARITY"" "subject:"[enn] SIMILARITY""
511 |
Modelos de custo e estatísticas para consultas por similaridade / Cost models and statistics for similarity searchingMarcos Vinícius Naves Bêdo 10 October 2017 (has links)
Consultas por similaridade constituem um paradigma de busca que fornece suporte à diversas tarefas computacionais, tais como agrupamento, classificação e recuperação de informação. Neste contexto, medir a similaridade entre objetos requer comparar a distância entre eles, o que pode ser formalmente modelado pela teoria de espaços métricos. Recentemente, um grande esforço de pesquisa tem sido dedicado à inclusão de consultas por similaridade em Sistemas Gerenciadores de Bases de Dados (SGBDs), com o objetivo de (i) permitir a combinação de comparações por similaridade com as comparações por identidade e ordem já existentes em SGBDs e (ii) obter escalabilidade para grandes bases de dados. Nesta tese, procuramos dar um próximo passo ao estendermos também o otimizador de consultas de um SGBD. Em particular, propomos a ampliação de dois módulos do otimizador: o módulo de Espaço de Distribuição de Dados e o módulo de Modelo de Custo. Ainda que o módulo de Espaço de Distribuição de Dados permita representar os dados armazenados, essas representações são insuficientes para modelar o comportamento das comparações em espaços métricos, sendo necessário estender este módulo para contemplar distribuições de distância. De forma semelhante, o módulo Modelo de Custo precisa ser ampliado para dar suporte à modelos de custo que utilizem estimativas sobre distribuições de distância. Toda a investigação aqui conduzida se concentra em cinco contribuições. Primeiro, foi criada uma nova sinopse para distribuições de distância, o Histograma Compactado de Distância (CDH), de onde é possível inferir valores de seletividade e raios para consultas por similaridade. Uma comparação experimental permitiu mostrar os ganhos das estimativas da sinopse CDH com relação à diversos competidores. Também foi proposto um modelo de custo baseado na sinopse CDH, o modelo Stockpile, cujas estimativas se mostraram mais precisas na comparação com outros modelos. Os Histogramas-Omni são apresentados como a terceira contribuição desta tese. Estas estruturas de indexação, construídas a partir de restrições de particionamento de histogramas, permitem a execução otimizada de consultas que mesclam comparações por similaridade, identidade e ordem. A quarta contribuição de nossa investigação se refere ao modelo RVRM, que é capaz de indicar quanto é possível empregar as estimativas das sinopses de distância para otimizar consultas por similaridade em conjuntos de dados de alta dimensionalidade. O modelo RVRM se mostrou capaz de identificar intervalos de dimensões para os quais essas consultas podem ser executadas eficientes. Finalmente, a última contribuição desta tese propõe a integração das sinopses e modelos revisados em um sistema com sintaxe de alto nível que pode ser acoplado em um otimizador de consultas. / Similarity searching is a foundational paradigm for many modern computer applications, such as clustering, classification and information retrieval. Within this context, the meaning of similarity is related to the distance between objects, which can be formally expressed by the Metric Spaces Theory. Many studies have focused on the inclusion of similarity search into Database Management Systems (DBMSs) for (i) enabling similarity comparisons to be combined with the DBMSs identity and order comparisons and (ii) providing scalability for very large databases. As a step further, we propose the extension of the DBMS Query Optimizer and, particularly, the extension of two modules of the Query Optimizer, namely Data Distribution Space and Cost Model modules. Although the Data Distribution Space enables representations of stored data, such representations are unsuitable for modeling the behavior of similarity comparisons, which requires the extension of the module to support distance distributions. Likewise, the Cost Model module must be extended to support cost models that depend on distance distributions. Our study is based on five contributions. A new synopsis for distance distributions, called Compact-Distance Histogram (CDH), is proposed and enables radius and selectivity estimation for similarity searching. An experimental comparison showed the gains of the estimates drawn from CDH in comparison to several competitors. A cost model based on the CDH synopsis and with accurate estimates, called Stockpile, is also proposed. Omni-Histograms are presented as the third contribution of the thesis. Such indexing structures are constructed according to histogram partition constraints and enable the optimization of queries that combine similarity, identity and order comparisons. The fourth contribution refers to the model RVRM, which indicates the possible use of the estimates obtained from distance-based synopses for the query optimization of high-dimensional datasets and identifies intervals of dimensions where similarity searching can be efficiently executed. Finally, the thesis proposes the integration of the reviewed synopses and cost models into a single system with a high-level language that can be coupled to a DBMS Query Optimizer.
|
512 |
Modelo de custo para consultas por similaridade em espaços métricos / Cost model for similarity queries in metric spacesGisele Busichia Baioco 24 January 2007 (has links)
Esta tese apresenta um modelo de custo para estimar o número de acessos a disco (custo de I/O) e o número de cálculos de distância (custo de CPU) para consultas por similaridade executadas sobre métodos de acesso métricos dinâmicos. O objetivo da criação do modelo é a otimização de consultas por similaridade em Sistemas de Gerenciamento de Bases de Dados relacionais e objeto-relacionais. Foram considerados dois tipos de consultas por similaridade: consulta por abrangência e consulta aos k-vizinhos mais próximos. Como base para a criação do modelo de custo foi utilizado o método de acesso métrico dinâmico Slim-Tree. O modelo estima a dimensão intrínseca do conjunto de dados pela sua dimensão de correlação fractal. A validação do modelo é confirmada por experimentos com conjuntos de dados sintéticos e reais, de variados tamanhos e dimensões, que mostram que as estimativas obtidas em geral estão dentro da faixa de variação medida em consultas reais / This thesis presents a cost model to estimate the number of disk accesses (I/O costs) and the number of distance calculations (CPU costs) to process similarity queries over data indexed by dynamic metric access methods. The goal of the model is to optimize similarity queries on relational and object-relational Database Management Systems. Two types of similarity queries were taken into consideration: range queries and k-nearest neighbor queries. The dynamic metric access method Slim-Tree was used as the basis for the creation of the cost model. The model takes advantage of the intrinsic dimension of the data set, estimated by its correlation fractal dimension. Experiments were performed on real and synthetic data sets, with different sizes and dimensions, in order to validate the proposed model. They confirmed that the estimations are accurate, being always within the range achieved executing real queries
|
513 |
PathSim : um algoritmo para calcular a similaridade entre caminhos XML / PathSim: A XML path similarity algorithmVinson, Alexander Richard January 2007 (has links)
Algoritmos de similaridade que comparam dados expressos em XML são importantes em diversas aplicações que manipulam informações armazenadas nesse padrão. Sistemas de integração de dados XML e de consulta a instâncias XML são exemplos dessas aplicações. A utilização de funções de similaridade para efetuar as comparações nessas aplicações melhora seus resultados finais. A melhora ocorre porque as funções de similaridade possibilitam encontrar estruturas não idênticas às apresentadas nos parâmetros das consultas mas que armazenam informações relevantes. Uma característica importante que pode ser utilizada para definir se dois elementos XML representam o mesmo objeto real é os caminhos que chegam a estes elementos nas suas respectivas árvores. No entanto, os nodos que representam um determinado objeto real em duas instâncias XML diferentes podem se acessados por caminhos distintos, devido a opções de modelagem dos documentos. Portanto um algoritmo para calcular a similaridade entre caminhos XML é importante para as aplicações descritas acima. Neste contexto, esta dissertação objetiva desenvolver um algoritmo de similaridade entre caminhos XML. O resultado principal do trabalho é um algoritmo de similaridade entre caminhos XML, nomeado PathSim, que efetua o cálculo de similaridade entre dois caminhos baseado no número mínimo de operações de edição (inserção, remoção e substituição de nomes de elementos) necessárias para transformar um caminho no outro. Além deste algoritmo, foram desenvolvidas três funções de pré-processamento para simplificar os caminhos XML e melhoram os resultados do algoritmo. Adicionalmente, duas variações do algoritmo PathSim são apresentadas, uma incrementada com comparações entre combinações de nomes de elementos, nomeada PathSimC, e a outra auxiliada por técnicas de alinhamento, nomeada PathSimA. Experimentos utilizando documentos XML criados por terceiros, validam empiricamente os algoritmos PathSim e PathSimC.Nos experimentos, os algoritmos foram comparados a uma abordagem para mensurar a similaridade entre caminhos encontrada na literatura. Os algoritmos apresentam melhores resultados que o baseline. Os ganhos variam de acordo com o ambiente onde os caminhos foram extraídos e com as funções de pré-processamento que foram aplicadas aos caminhos. / Similarity algorithms for comparing XML data are important in various applications that manipulate information stored according to this standard. XML data integration systems and XML instance querying systems are examples of such applications. The use of similarity functions to evaluate comparisons in these applications improves their final results. The improvement occurs because similarity functions allow finding structures that are not identical to the query parameter but store relevant information. One important feature that may be used to define if two XML elements represent the same real world object is the paths that lead to those objects in their corresponding trees. However, the nodes that represent a specific real world object in two different XML instances may be accessed by distinct paths, due to XML design decisions. Thus a method for assessing the similarity of XML paths is important in the applications described above. In this context, the goal of this dissertation is to develop a XML path similarity algorithm. The main contribution of this work is a XML path similarity algorithm, named Path- Sim, that calculates the similarity between two paths by computing the minimum number of edit operations (element name insertions, deletions and substitutions) required to transform one path into another. Besides the algorithm, three preprocessing functions were developed to simplify XML paths and improve the results of the algorithm. Additionally, two variations of PathSim algorithm are presented, one enhanced with comparisons among combinations of element names, named PathSimC, and the other one assisted by alignment techniques, named PathSimA. Experiments using XML documents created by third parties validate the algorithms PathSim and PathSimC empirically. On the experiments, the algorithms are compared to a path similarity algorithm found in the literature. The proposed algorithms presents better results than the baseline. The gains vary according to the environment from which the paths were extracted and to the preprocessing functions applied.
|
514 |
Estudo dos efeitos de escala em ensaios de penetração dinâmica / Study of scale effects in dynamic penetration testsDalla Rosa, Salete January 2008 (has links)
A engenharia geotécnica brasileira é fortemente dependente dos resultados do ensaio SPT, sendo de fundamental importância aprimorar os métodos de investigação e elaboração de projetos nesta área. Embora bastante utilizado, o ensaio tem sido objeto freqüente de críticas, abrangendo tanto aspectos relacionados à dispersão de resultados, quanto à dependência do operador e diversidade de equipamentos e procedimentos. Devido a estas limitações, estudos de medição de energia têm sido desenvolvidos visando a padronização do ensaio, sendo inúmeras as contribuições nesta área. Para validar abordagens baseadas em conceitos de energia e dinâmica foram projetados, construídos e testados equipamentos de penetração dentro dos princípios de escala e similaridade com o objetivo de avaliar as semelhanças geométricas envolvidas no processo de cravação dinâmico. Os equipamentos foram projetados de acordo com uma análise dimensional, que objetiva estabelecer condições de semelhança física entre os ensaios considerando-se relações entre as áreas transversais dos amostradores correspondentes a 0,5, 1,5 e 2,0 vezes a área do amostrador padrão. A engenharia geotécnica brasileira é fortemente dependente dos resultados do ensaio SPT, sendo de fundamental importância aprimorar os métodos de investigação e elaboração de projetos nesta área. Embora bastante utilizado, o ensaio tem sido objeto freqüente de críticas, abrangendo tanto aspectos relacionados à dispersão de resultados, quanto à dependência do operador e diversidade de equipamentos e procedimentos. Devido a estas limitações, estudos de medição de energia têm sido desenvolvidos visando a padronização do ensaio, sendo inúmeras as contribuições nesta área. Para validar abordagens baseadas em conceitos de energia e dinâmica foram projetados, construídos e testados equipamentos de penetração dentro dos princípios de escala e similaridade com o objetivo de avaliar as semelhanças geométricas envolvidas no processo de cravação dinâmico. Os equipamentos foram projetados de acordo com uma análise dimensional, que objetiva estabelecer condições de semelhança física entre os ensaios considerando-se relações entre as áreas transversais dos amostradores correspondentes a 0,5, 1,5 e 2,0 vezes a área do amostrador padrão. / The Brazilian geotechnical practice is heavily dependent on SPT tests and for this reason it is fundamental the improvements of interpretation method throughout systematic research in this area. Although widely used, the test has been the object of frequent criticism, due to aspects related to scatter in test data, dependence of the operator and diversity of equipment and procedures. Because of these limitations, studies of measured energy have been developed to standardize the test are of ultimate importance and so are the methods of interpretation based on energy. To validate approaches based on the concepts of energy and dynamic, an equipment was constructed and tested following the principles of scale and similarity in an attempt of evaluating the geometrical similarities involved in the dynamic driving process. The equipment has been designed according to a dimensional analysis, which aims to establish conditions of physical similarity between the tests considered to be 0.5, 1.5 and 2.0 times the area of the standard sampler. The use of a numerical program developed by Lobo et al (2007) allowed numerical simulations to be carried out in order to predict the sampler penetration ρ, as well as the energy and dynamic force produced during penetration. Through experimental analysis performed, it was possible to test the different geometries, using open and closed samplers, and two different lifting mechanisms for lifting the hammer, using steel wire and sisal rope. Despite the scatter, the various equipments and procedures produce similar when the principles of scale and similarity have been considered. Scatter is attributed to soil heterogeneity, efficiency and other factors inherent to dynamic penetration testing. From the experimental program, it has been concluded that concepts of similarity applied to dynamic tests have great potential in the interpretation of SPT data, which opens up new alternatives to the empirical methods currently adopted in practice.
|
515 |
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade / Automatizing the process of estimating recall and precision of similarity functionsSantos, Juliana Bonato dos January 2008 (has links)
Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. / Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision.
|
516 |
Similarity, structure and spaces : representation of part-whole relations in conceptual spaces / Similaridade, estruturas e espaços: representação de relações de parte-todo em espaços conceituaisFiorini, Sandro Rama January 2014 (has links)
Um dos principais desafios remanescentes em Inteligência Artificial é como fazer sistemas inteligentes ancorar abstrações de alto nível na realidade. Pelo menos parte do problema vai em direção da questão de qual arcabouço de representação é mais apropriado de maneira que facilite o reconhecimento de objetos. A cognição em animais, particularmente em humanos, pode dar pistas de como tal arcabouço de representação se parece. Estudos na cognição do reconhecimento de objetos sugere que o problema da representação na cognição incorpora informações a respeito de similaridade e informação holística-estrutural (i.e. todo-parte) a respeito de conceitos. Temos a visão de que sistemas computacionais que lidam com relações de todo-parte deveriam representar informações holístico-estruturais e similaridade. No entanto, não existe arcabouço de representação que permite tais informações serem representadas de forma integrada. Esta tese propõe um arcabouço de representação de informação de similaridade entre estruturas de todo-parte. Nossa proposta é baseada na teoria dos espaços conceituais. Estes são espaços matemáticos onde regiões e pontos representam conceitos e objetos respectivamente, tal que a distância entre estas entidades denota a sua similaridade. Na nossa proposta, todos e partes são representados em espaços conceituais distintos, chamados espaços holísticos e estruturais. Espaços holísticos permitem o julgamento de similaridade sistemático entre todos. Por outro lado, espaços estruturais permitem o julgamento de similaridade sistemático entre estrutura de partes. Um ponto em um espaço estrutural denota uma estrutura particular de partes; regiões neste espaço representam diferentes tipos de estruturas de parte. Através da redefinição de espaços conceituais como um produto de espaços holísticos e estruturais, nosso objetivo é permitir a representação de informações de similaridade entre diferentes todos, levando em consideração a similaridade entre partes compartilhadas e suas configurações. Esta tese tem três contribuições principais: uma teoria geral sobre espaços holísticos e estruturais; uma formalização da teoria fundada em produto de espaços métricos; e um algoritmo genérico para reconhecimento de objetos, implementando processamento holístico-estrutural. / One of main remaining challenges in Artificial Intelligence is how to make intelligent systems to ground high-level abstractions in reality. At least part of this problem comes down to the question of what representation framework is best suited in a way that facilitates object recognition. Animal cognition, particularly in humans, can give a clue of how such representation framework looks like. Studies on the cognition of object recognition suggests that representation in cognition incorporates similarity and holistic-structural (i.e. whole-part) information about concepts. We hold the view that computer systems dealing with part-whole relations should be able to represent similarity and holistic-structural information. However, there exists no representation framework that allows such information to be represented in an integrated way. This thesis proposes a concept representation framework for representing information about similarity between part-whole structures. We base our proposal on the theory of conceptual spaces, which are mathematical spaces where regions and points represent concepts and objects respectively, such that their distance denotes their similarity. In our proposal, parts and wholes are represented in distinct conceptual spaces called holistic and structure spaces. Holistic spaces allow for systematic similarity judgements between wholes. On the other hand, structure spaces allow for systematic similarity judgement between structures of parts. A point in the structure space denotes a particular part structure; regions in the space represent different general types of part structures. By redefining conceptual spaces as a product of holistic and structure spaces, our goal is to allow one to represent similarity information between different wholes, taking into consideration the similarity between shared parts and their configurations. This thesis has three main contributions: a general theory about holistic and structure spaces; a formulation of the theory founded on products of metric spaces; and a generic algorithm for object recognition implementing holistic-structural processing.
|
517 |
Um método para recuperação de composições polifônicas aplicado na busca de tablaturas textuais da web / A method for retrieving polyphonic compositions applied in the search for textual tablatures on WebCruz, Luiz Fernando Castro da January 2014 (has links)
Dentre as diversas operações que podem ser realizadas com composições musicais, representadas através de uma notação, está a avaliação de similaridade melódica, utilizada principalmente na busca e recuperação dessas obras. O presente trabalho apresenta o método de avaliação de similaridade melódica denominado Correspondência de Monofonia Contida (CMC), focado na operação de busca de composições. Também estão descritos os detalhes de implementação de uma ferramenta para busca de tablaturas textuais da web utilizando o método proposto. A análise dos experimentos realizados demonstrou que o método CMC consegue localizar composições específicas em dois terços das consultas (69,44%), conseguindo colocar o resultado esperado, em média, na 11ª posição de ranqueamento. / Among the various operations that can be performed with musical compositions, represented through a notation, is the evaluation of melodic similarity mainly for search and retrieval of these works. This paper presents the method of evaluation of melodic similarity named Monophonic Contained Matching, focused on the search of compositions. Also describes the implementation details of a tool to search textual tabs in web using the proposed method. The analysis of the experiments demonstrated that the CMC method can locate specific compositions in two-thirds of queries (69.44%), managing to place the expected result on average in the 11th ranking position.
|
518 |
PhenoVis : a visual analysis tool to phenological phenomena / PhenoVis : uma ferramenta de análise visual para fenômenos fenológicosLeite, Roger Almeida January 2015 (has links)
Phenology studies recurrent periodic phenomena of plants and their relationship to environmental conditions. Monitoring forest ecosystems using digital cameras allows the study of several phenological events, such as leaf expansion or leaf fall. Since phenological phenomena are cyclic, the comparative analysis of successive years is capable of identifying interesting variation on annual patterns. However, the number of images collected rapidly gets significant since the goal is to compare data from several years. Instead of performing the analysis over images, experts prefer to use derived statistics (such as average values). We propose PhenoVis, a visual analytics tool that provides insightful ways to analyze phenological data. The main idea behind PhenoVis is the Chronological Percentage Maps (CPMs), a visual mapping that offers a summary view of one year of phenological data. CPMs are highly customizable, encoding more information about the images using a pre-defined histogram, a mapping function that translates histogram values into colors, and a normalized stacked bar chart to display the results. PhenoVis supports different color encodings, visual pattern analysis over CPMs, and similarity searches that rank vegetation patterns found at various time periods. Results for datasets comprising data of up to nine consecutive years show that PhenoVis is capable of finding relevant phenological patterns along time. Fenologia estuda os fenômenos recorrentes e periódicos que ocorrem com as plantas. Estes podem vir a ser relacionados com as condições ambientais. O monitoramento de florestas, através de câmeras, permite o estudo de eventos fenológicos como o crescimento e queda de folhas. Uma vez que os fenômenos fenológicos são cíclicos, análises comparativas de anos sucessivos podem identificar variações interessantes no comportamento destes. No entanto, o número de imagens cresce rapidamente para que sejam comparadas lado a lado. PhenoVis é uma ferramenta para análise visual que apresenta formas para analisar dados fenológicos através de comparações estatísticas (preferência dos especialistas) derivadas dos valores dos pixels destas imagens. A principal ideia por trás de PhenoVis são os mapas percentuais cronológicos (CPMs), um mapeamento visual com uma visão resumida de um período de um ano de dados fenológicos. CPMs são personalizáveis e conseguem representar mais informações sobre as imagens do que um gráfico de linha comum. Isto é possível pois o processo envolve o uso de histogramas pré-definidos, um mapeamento que transforma valores em cores e um empilhamento dos mapas de percentagem que visa a criação da CPM. PhenoVis suporta diferentes codificações de cores e análises de padrão visual sobre as CPMs. Pesquisas de similaridade ranqueiam padrões parecidos encontrados nos diferentes anos. Dados de até nove anos consecutivos mostram que PhenoVis é capaz de encontrar padrões fenológicos relevantes ao longo do tempo.
|
519 |
Descoberta de cross-language links ausentes na wikipédia / Identifying missing cross-language links in wikipediaMoreira, Carlos Eduardo Manzoni January 2014 (has links)
A Wikipédia é uma enciclopédia pública composta por milhões de artigos editados diariamente por uma comunidade de autores de diferentes regiões do mundo. Os artigos que constituem a Wikipédia possuem um tipo de link chamado de Cross-language Link que relaciona artigos correspondentes em idiomas diferentes. O objetivo principal dessa estrutura é permitir a navegação dos usuários por diferentes versões de um mesmo artigo em busca da informação desejada. Além disso, por permitir a obtenção de corpora comparáveis, os Cross-language Links são extremamente importantes para aplicações que trabalham com tradução automática e recuperação de informações multilíngues. Visto que os Cross-language Links são inseridos manualmente pelos autores dos artigos, quando o autor não reconhece o seu correspondente em determinado idioma ocorre uma situação de Cross-language Links ausente. Sendo assim, é importante o desenvolvimento de uma abordagem que realize a descoberta de Cross-language Links entre artigos que são correspondentes, porém, não estão conectados por esse tipo link. Nesta dissertação, é apresentado o CLLFinder, uma abordagem para a descoberta de Cross-language Links ausentes. A nossa abordagem utiliza o relacionamento entre as categorias e a indexação e consulta do conteúdo dos artigos para realizar a seleção do conjunto de candidatos. Para a identificação do artigo correspondente, são utilizados atributos que exploram a transitividade de Cross-language Links entre outros idiomas bem como características textuais dos artigos. Os resultados demonstram a criação de um conjunto de candidatos com 84,3% de presença do artigo correspondente, superando o trabalho utilizado como baseline. A avaliação experimental com mais de dois milhões de pares de artigos aponta uma precisão de 99,2% e uma revocação geral de 78,9%, superando, também, o baseline. Uma inspeção manual dos resultados do CLLFinder aplicado em um cenário real indica que 73,6% dos novos Cross-language Links sugeridos pela nossa abordagem eram de fato correspondentes. / Wikipedia is a public encyclopedia composed of millions of articles written daily by volunteer authors from different regions of the world. The articles contain links called Cross-language Links which relate corresponding articles across different languages. This feature is extremely useful for applications that work with automatic translation and multilingual information retrieval as it allows the assembly of comparable corpora. Since these links are created manually, in many occasions, the authors fail to do so. Thus, it is important to have a mechanism that automatically creates such links. This has been motivating the development of techniques to identify missing cross-language links. In this work, we present CLLFinder, an approach for finding missing cross-language links. The approach makes use of the links between categories and an index of the content of the articles to select candidates. In order to identify corresponding articles, the method uses the transitivity between existing cross-language links in other languages as well as textual features extracted from the articles. Experiments on over two million pairs of articles from the English and Portuguese Wikipedias show that our approach has a recall of 78.9% and a precision of 99.2%, outperforming the baseline system.A manual inspection of the results of CLLFinder applied to a real situation indicates that our approach was able to identify the Cross-language Link correctly 73.6% of the time.
|
520 |
Ontology-based clustering in a Peer Data Management SystemPires, Carlos Eduardo Santos 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:49:23Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Faculdade de Amparo à Ciência e Tecnologia do Estado de Pernambuco / Os Sistemas P2P de Gerenciamento de Dados (PDMS) são aplicações P2P
avançadas que permitem aos usuários consultar, de forma transparente, várias
fontes de dados distribuídas, heterogêneas e autônomas. Cada peer representa
uma fonte de dados e exporta seu esquema de dados completo ou apenas uma
parte dele. Tal esquema, denominado esquema exportado, representa os dados a
serem compartilhados com outros peers no sistema e é comumente descrito por
uma ontologia.
Os dois aspectos mais estudados sobre gerenciamento de dados em PDMS
estão relacionados com mapeamentos entre esquemas e processamento de
consultas. Estes aspectos podem ser melhorados se os peers estiverem
eficientemente dispostos na rede overlay de acordo com uma abordagem
baseada em semântica. Nesse contexto, a noção de comunidade semântica de
peers é bastante importante visto que permite aproximar logicamente peers com
interesses comuns sobre um tópico específico. Entretanto, devido ao
comportamento dinâmico dos peers, a criação e manutenção de comunidades
semânticas é um aspecto desafiador no estágio atual de desenvolvimento dos
PDMS.
O objetivo principal desta tese é propor um processo baseado em
semântica para agrupar, de modo incremental, peers semanticamente similares
que compõem comunidades em um PDMS. Nesse processo, os peers são
agrupados de acordo com o respectivo esquema exportado (uma ontologia) e
processos de gerenciamento de ontologias (por exemplo, matching e
sumarização) são utilizados para auxiliar a conexão dos peers. Uma arquitetura
de PDMS é proposta para facilitar a organização semântica dos peers na rede
overlay. Para obter a similaridade semântica entre duas ontologias de peers,
propomos uma medida de similaridade global como saída de um processo de
ontology matching. Para otimizar o matching entre ontologias, um processo
automático para sumarização de ontologias também é proposto. Um simulador
foi desenvolvido de acordo com a arquitetura do PDMS. Os processos de
gerenciamento de ontologias propostos também foram desenvolvidos e incluídos no simulador. Experimentações de cada processo no contexto do
PDMS assim como os resultados obtidos a partir dos experimentos são apresentadas
|
Page generated in 0.0506 seconds