Return to search

Aplicação de técnicas de aprendizagem de máquina na geração de índices para sistemas de busca

Submitted by Lúcia Brandão (lucia.elaine@live.com) on 2015-07-27T17:43:06Z
No. of bitstreams: 1
Tese - André Luiz da Costa Carvalho.pdf: 766182 bytes, checksum: 6eecaa1fef5e14867610e7e4c889e91b (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-07-28T18:37:39Z (GMT) No. of bitstreams: 1
Tese - André Luiz da Costa Carvalho.pdf: 766182 bytes, checksum: 6eecaa1fef5e14867610e7e4c889e91b (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-07-28T18:47:09Z (GMT) No. of bitstreams: 1
Tese - André Luiz da Costa Carvalho.pdf: 766182 bytes, checksum: 6eecaa1fef5e14867610e7e4c889e91b (MD5) / Made available in DSpace on 2015-07-28T18:47:09Z (GMT). No. of bitstreams: 1
Tese - André Luiz da Costa Carvalho.pdf: 766182 bytes, checksum: 6eecaa1fef5e14867610e7e4c889e91b (MD5)
Previous issue date: 2012-11-26 / CNPq - Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico / Search engines station between main Ways to Get INFORMATION on the Internet, receiving
Million daily queries. This volume Query topping generates a considerable burden
In Query processors of search machines, that should NOT JUST worry
with a quality fi nal ANSWER received by users, but Also with a latency This
consultation, JA What A delay excessive on MAY rhythm harm a RESPONSE Experience
Users ITS.
In the Last Year HAS A considerable effort been Research in Technical Application
Machine Learning During Query Processing, aiming mainly
um increase in the fi nal quality of YOUR answers. This thesis studied the Technical Application
machine learning During the generation of indexes, rather than apply them to processing
Queries, therefore opening a new front for the Technical Application of Learning
Machine in search systems. Within the study, we propose two techniques for the Application
Machine learning in the Document Indexing in search of machines with Showing
THAT That there Space paragraph enhance an indexing with the use of these techniques.
The advantage of this approach is that as THAT Processing And Done Before Consultations
Made to be looking machine, Regardless of how costly this computationally BE
Process, THIS IS NOT re fl directly etirá In Query Processing Time. We propose here
Two techniques: LePrEF, One Evidence Fusion Technique Indexing Time Who Has
As a search Purpose Machines Performance Improvement During Processing
Consultations, THROUGH indexes Generation que CODI fi cam a Better importance of each term
Each Document, AND A phrasal TERMS detection technique (phrases OS), with the objective of
improve the quality of the responses obtained FOR THEM.
The Technical LePrEF Performs a Relevance of Evidence Sources Fusion pace in Indexing
using for both machine learning. The need for evidence of fusion not
Drift Query Processing What do FACT search Systems in General Several use
Evidence Sources To compute answers YOUR Such As the text of web pages, the text of
IN pointers received each page, pointing Analysis Methods As the PageRank,
Among many others. However, the recent increase Evidence Sources lev Also one New
custodian processing. This is, coupled with the constant growth in the Content Quantity / Máquinas de busca estão entre as principais formas de se obter informações na internet,recebendo
milhões de consultas diárias. Este volume avantajado de consultas gera uma considerável carga
nos processadores de consultas das máquinas de busca, que devem não apenas se preocupar
com a qualidade da resposta final recebida pelos usuários, mas também com a latência desta
consulta ,já que uma demora excessiva no tempo de resposta pode prejudicar a experiência de
seus usuários.
Nos últimos anos tem havido um considerável esforço de pesquisa na aplicação de técnicas
de aprendizado de máquina durante o processamento de consultas, objetivando-se principalmente
um aumento na qualidade final de suas respostas. Nesta tese estudamos a aplicação de técnicas de
aprendizagem de máquina durante a geração de índices, ao invés de aplicá-las ao processamento
de consultas, abrindo portanto uma nova frente para a aplicação de técnicas de aprendizagem de
máquina em sistemas de busca. Dentro do estudo, propomos duas técnicas para a aplicação de
aprendizado de máquina na indexação de documentos em máquinas de busca, mostrando com
isso que há espaço para melhorar a indexação com o uso dessas técnicas.
A vantagem de tal abordagem é que, como esse processamento é feito antes das consultas
serem feitas à maquina de busca, independente de quão custoso computacionalmente seja este
processo, isto não refletirá diretamente no tempo de processamento de consultas. Propomos aqui
duas técnicas: LePrEF, uma técnica de fusão de evidências em tempo de indexação que tem
como objetivo a melhoria do desempenho de máquinas de busca durante o processamento de
consultas, por meio da geração de índices que codificam melhor a importância de cada termo em
cada documento, e uma técnica de detecção de termos frasais (os sintagmas), com o objetivo de
melhorar a qualidade das respostas obtidas por elas.
A técnica LePrEF realiza a fusão de fontes de evidência de relevância em tempo de indexação
utilizando para tanto aprendizagem de máquina. A necessidade da fusão de evidências no
processamento de consultas deriva do fato de que sistemas de busca em geral utilizam diversas
fontes de evidência para computar suas respostas, tais como o texto das páginas web, o texto dos
apontadores recebidos por cada página, métodos de análise de apontadores como o PageRank,
dentre muitos outros. Porém, o acréscimo de novas fontes de evidência leva também a novos
custos de processamento. Isto, aliado ao constante crescimento na quantidade de conteúdo

Identiferoai:union.ndltd.org:IBICT/oai:http://localhost:tede/4517
Date26 November 2012
CreatorsCarvalho, André Luiz Costa
ContributorsMoura, Edleno Silva de, Cristo, Marco, Cavalcanti, João Marcos Bastos, Silva, Altigran Soares da, Ziviani, Nivio, Heuser, Carlos A.
PublisherUniversidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, Brasil, Instituto de Computação
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM
Rightsinfo:eu-repo/semantics/openAccess
Relation-312656415484870643, 600

Page generated in 0.0034 seconds