Return to search

[pt] METODOS DE BUSCA POR SIMILARIDADE EM SEQUÊNCIAS TEMPORAIS DE VETORES COM UMA APLICAÇÃO À RECUPERAÇÃO DE ANÚNCIOS CLASSIFICADOS / [en] STAGED VECTOR STREAM SIMILARITY SEARCH METHODS WITH AN APPLICATION TO CLASSIFIED AD RETRIEVA

[pt] Uma sequência temporal de vetores (vector stream) pode ser modeladacomo uma sequência de pares ((v1, t1). . .(vn, tn)), onde vk é um vetor e tk écarimbo de tempo tais que todos os vetores são da mesma dimensão e tkmenor que tk+1. O problema de busca por similaridade em sequências temporais devetores é definido como: Dado um vetor (de alta dimensão) v e um intervalode tempo T, encontre uma lista ranqueada de vetores, recuperados de umasequência temporal de vetores, que sejam similares a v e que foram recebidosdentro do intervalo de tempo T. Esta dissertação primeiro introduz umafamília de métodos de busca por similaridade em sequências temporais devetores que não dependem da sequência completa, mas se adaptam à medidaque os vetores são incluídos na sequência. Os métodos geram uma sequênciade índices, que são então usados para implementar uma busca aproximadado vizinho mais próximo na sequência temporal de vetores. Em seguida, adissertação descreve uma implementação de um método da família baseado em Hierarchical Navigable Small World graphs. Utilizando esta implementação,a dissertação apresenta uma ferramenta de busca de anúncios classificadosque oferece recuperação de anúncios à medida que usuários continuamentesubmetem novos anúncios. A ferramenta é estruturada em um módulo principale três módulos auxiliares, sendo que o módulo principal é responsável porcoordenar os módulos auxiliares e prover uma interface para o usuário, e osmódulos auxiliares são responsáveis pela codificação dos textos e imagens emvetores, a indexação dos vetores, e o armazenamento dos textos, imagens evetores. Por fim, para avaliar a ferramenta, a dissertação utiliza um conjuntode aproximadamente 1 milhão de registros com as descrições de anúnciosclassificados e suas imagens. Os resultados mostraram que a ferramenta atingiuuma precisão de 98 por cento e um recall de 97 por cento. / [en] A vector stream can be modeled as a sequence of pairs ((v1, t1). . .(vn, tn)),
where vk is a vector and tk is a timestamp such that all vectors are of the
same dimension and tk less than tk+1. The vector stream similarity search problem is
defined as: Given a (high-dimensional) vector q and a time interval T, find a
ranked list of vectors, retrieved from a vector stream, that are similar to q and
that were received in the time interval T. This dissertation first introduces
a family of vector stream similarity search methods that do not depend on
having the full set of vectors available beforehand but adapt to the vector
stream as the vectors are added. The methods generate a sequence of indices
that are used to implement approximated nearest neighbor search over the
vector stream. Then, the dissertation describes an implementation of a method
in the family based on Hierarchical Navigable Small World graphs. Based on
this implementation, the dissertation presents a Classified Ad Retrieval tool
that supports classified ad retrieval as new ads are continuously submitted.
The tool is structured into a main module and three auxiliary modules, where
the main module is responsible for coordinating the auxiliary modules and for
providing a user interface, and the auxiliary modules are responsible for text
and image encoding, vector stream indexing, and data storage. To evaluate the
tool, the dissertation uses a dataset with approximately 1 million records with
descriptions of classified ads and their respective images. The results showed
that the tool reached an average precision of 98 percent and an average recall of 97 percent.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:66060
Date22 February 2024
CreatorsBRUNO FRANCISCO MARTINS DA SILVA
ContributorsMARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA
PublisherMAXWELL
Source SetsPUC Rio
LanguageEnglish
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.0026 seconds