• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 1
  • Tagged with
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Protótipo de procura semântica aplicado a um motor de busca documental

Barreto, Luís José Frederico January 2008 (has links)
Tese de mestrado integrado. Engenharia Electrotécnica e de Computadores (Major Automação). Faculdade de Engenharia. Universidade do Porto. 2008
2

Agrupamento automático de páginas web utilizando técnicas de web content mining

Campos, Ricardo Nuno Taborda Dias, January 2005 (has links)
Tese de mestrado. Engenharia Informática. Departamento de Informática. Universidade da Beira Interior. 2005
3

Feedback de relevância orientado a termos: um novo método para ordenação de resultados de motores de busca. / Term-oriented relevance feedback: a novel ranking method for search engines.

Hattori, Fernando 23 May 2016 (has links)
O modelo de recuperação de informação mais amplamente utilizado no contexto de acervos digitais é o Vector Space Model. Algoritmos implementados para este modelo que aproveitam informações sobre relevância obtidas dos usuários (chamados feedbacks) na tentativa de melhorar os resultados da busca. Porém, estes algoritmos de feedback de relevância não possuem uma estratégia global e permanente, as informações obtidas desses feedbacks são descartadas para cada nova sessão de usuário (são perenes) ou não modificam os documentos como um todo (são alterações locais). Este trabalho apresenta um método de feedbacks de relevância denominado orientado a termos, permitindo que as modificações realizadas por influência dos feedbacks dos usuários sejam globais e permanentes. Foram realizados experimentos utilizando o dataset ClueWeb09 que dão evidências de que este método melhora a qualidade dos resultados da busca em relação ao modelo tradicional Vector Space Model. / The Vector Space Model is the most widely used information retrieval model within digital libraries\' systems. Algorithms developed to be used with this model use relevance information obtained from users (called feedbacks) to improve the search results. However, the relevance feedback algorithms developed are not global nor permanent, the feedbacks are discarded in users new sessions and do not affect every document. This paper presents a method that uses of relevance feedback named terms oriented. In this method, users\' feedbacks lead to modifications in the terms\' vectors representations. These modifications are global and permanent, influencing further searches. An experiment was conducted using the ClueWeb09 dataset, giving evidence that this method improves the quality of search results when compared with Vector Space Model.
4

Feedback de relevância orientado a termos: um novo método para ordenação de resultados de motores de busca. / Term-oriented relevance feedback: a novel ranking method for search engines.

Fernando Hattori 23 May 2016 (has links)
O modelo de recuperação de informação mais amplamente utilizado no contexto de acervos digitais é o Vector Space Model. Algoritmos implementados para este modelo que aproveitam informações sobre relevância obtidas dos usuários (chamados feedbacks) na tentativa de melhorar os resultados da busca. Porém, estes algoritmos de feedback de relevância não possuem uma estratégia global e permanente, as informações obtidas desses feedbacks são descartadas para cada nova sessão de usuário (são perenes) ou não modificam os documentos como um todo (são alterações locais). Este trabalho apresenta um método de feedbacks de relevância denominado orientado a termos, permitindo que as modificações realizadas por influência dos feedbacks dos usuários sejam globais e permanentes. Foram realizados experimentos utilizando o dataset ClueWeb09 que dão evidências de que este método melhora a qualidade dos resultados da busca em relação ao modelo tradicional Vector Space Model. / The Vector Space Model is the most widely used information retrieval model within digital libraries\' systems. Algorithms developed to be used with this model use relevance information obtained from users (called feedbacks) to improve the search results. However, the relevance feedback algorithms developed are not global nor permanent, the feedbacks are discarded in users new sessions and do not affect every document. This paper presents a method that uses of relevance feedback named terms oriented. In this method, users\' feedbacks lead to modifications in the terms\' vectors representations. These modifications are global and permanent, influencing further searches. An experiment was conducted using the ClueWeb09 dataset, giving evidence that this method improves the quality of search results when compared with Vector Space Model.
5

Removing DUST using multiple alignment of sequences

Rodrigues, Kaio Wagner Lima, 92991221146 21 September 2016 (has links)
Submitted by Kaio Wagner Lima Rodrigues (kaiowagner@gmail.com) on 2018-08-23T05:45:00Z No. of bitstreams: 3 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) kaio-tese.pdf: 3615178 bytes, checksum: dc547b203670c1159f46136e021a4825 (MD5) kaio-folha-de-aprovacao.jpg: 3343904 bytes, checksum: b00e5c4807f5a7e10eddc2eed2de5f12 (MD5) / Approved for entry into archive by Secretaria PPGI (secretariappgi@icomp.ufam.edu.br) on 2018-08-23T19:08:57Z (GMT) No. of bitstreams: 3 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) kaio-tese.pdf: 3615178 bytes, checksum: dc547b203670c1159f46136e021a4825 (MD5) kaio-folha-de-aprovacao.jpg: 3343904 bytes, checksum: b00e5c4807f5a7e10eddc2eed2de5f12 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-08-24T13:43:58Z (GMT) No. of bitstreams: 3 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) kaio-tese.pdf: 3615178 bytes, checksum: dc547b203670c1159f46136e021a4825 (MD5) kaio-folha-de-aprovacao.jpg: 3343904 bytes, checksum: b00e5c4807f5a7e10eddc2eed2de5f12 (MD5) / Made available in DSpace on 2018-08-24T13:43:58Z (GMT). No. of bitstreams: 3 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) kaio-tese.pdf: 3615178 bytes, checksum: dc547b203670c1159f46136e021a4825 (MD5) kaio-folha-de-aprovacao.jpg: 3343904 bytes, checksum: b00e5c4807f5a7e10eddc2eed2de5f12 (MD5) Previous issue date: 2016-09-21 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / A large number of URLs collected by web crawlers correspond to pages with duplicate or near-duplicate contents. These duplicate URLs, generically known as DUST (Different URLs with Similar Text), adversely impact search engines since crawling, storing and using such data imply waste of resources, the building of low quality rankings and poor user experiences. To deal with this problem, several studies have been proposed to detect and remove duplicate documents without fetching their contents. To accomplish this, the proposed methods learn normalization rules to transform all duplicate URLs into the same canonical form. This information can be used by crawlers to avoid fetching DUST. A challenging aspect of this strategy is to efficiently derive the minimum set of rules that achieve larger reductions with the smallest false positive rate. As most methods are based on pairwise analysis, the quality of the rules is affected by the criterion used to select the examples and the availability of representative examples in the training sets. To avoid processing large numbers of URLs, they employ techniques such as random sampling or by looking for DUST only within sites, preventing the generation of rules involving multiple DNS names. As a consequence of these issues, current methods are very susceptible to noise and, in many cases, derive rules that are very specific. In this thesis, we present a new approach to derive quality rules that take advantage of a multi-sequence alignment strategy. We demonstrate that a full multi-sequence alignment of URLs with duplicated content, before the generation of the rules, can lead to the deployment of very effective rules. Experimental results demonstrate that our approach achieved larger reductions in the number of duplicate URLs than our best baseline in two different web collections, in spite of being much faster. We also present a distributed version of our method, using the MapReduce framework, and demonstrate its scalability by evaluating it using a set of 7.37 million URLs. / Um grande número de URLs obtidas por coletores corresponde a páginas com conteúdo duplicado ou quase duplicado, conhecidas em Inglês pelo acrônimo DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST são prejudiciais para sistemas de busca porque ao serem coletadas, armazenadas e utilizadas, contribuem para o desperdício de recursos, a criação de rankings de baixa qualidade e, consequentemente, uma experiência pior para o usuário. Para lidar com este problema, muita pesquisa tem sido realizada com intuito de detectar e remover DUST antes mesmo de coletar as URLs. Para isso, esses métodos se baseiam no aprendizado de regras de normalização que transformam todas as URLs com conteúdo duplicado para uma mesma forma canônica. Tais regras podem ser então usadas por coletores com o intuito de reconhecer e ignorar DUST. Para isto, é necessário derivar, de forma eficiente, um conjunto mínimo de regras que alcance uma grande taxa de redução com baixa incidência de falsos-positivos. Como a maioria dos métodos propostos na literatura é baseada na análise de pares, a qualidade das regras é afetada pelo critério usado para selecionar os exemplos de pares e a disponibilidade de exemplos representativos no treino. Para evitar processar um número muito alto de exemplos, em geral, são aplicadas técnicas de amostragem ou a busca por DUST é limitada apenas a sites, o que impede a geração de regras que envolvam diferentes nomes de DNS. Como consequência, métodos atuais são muito suscetíveis a ruído e, em muitos casos, derivam regras muito específicas. Nesta tese, é proposta uma nova técnica para derivar regras, baseada em uma estratégia de alinhamento múltiplo de sequências. Em particular, mostramos que um alinhamento prévio das URLs com conteúdo duplicado contribui para uma melhor generalização, o que resulta na geração de regras mais efetivas. Através de experimentos em duas diferentes coleções extraídas da Web, observa-se que a técnica proposta, além de ser mais rápida, filtra um número maior de URLs duplicadas. Uma versão distribuída do método, baseada na arquitetura MapReduce, proporciona a possibilidade de escalabilidade para coleções com dimensões compatíveis com a Web.

Page generated in 0.0586 seconds