1 |
[en] RANKING OF WEB PAGES BY LEARNING MULTIPLE LATENT CATEGORIES / [pt] CLASSIFICAÇÃO DE PÁGINAS WEB POR APRENDIZAGEM DE MÚLTIPLAS CATEGORIAS LATENTESFRANCISCO BENJAMIM FILHO 17 May 2012 (has links)
[pt] O crescimento explosivo e a acessibilidade generalizada da World Wide
Web (WWW) levaram ao aumento da atividade de pesquisa na área da
recuperação de informação para páginas Web. A WWW é um rico e imenso
ambiente em que as páginas se assemelham a uma comunidade grande de
elementos conectada através de hiperlinks em razão da semelhança entre
o conteúdo das páginas, a popularidade da página, a autoridade sobre o
assunto e assim por diante, sabendo-se que, em verdade, quando um autor
de uma página a vincula à outra, está concebendo-a como importante
para si. Por isso, a estrutura de hiperlink da WWW é conhecida por
melhorar significativamente o desempenho das pesquisas para além do uso
de estatísticas de distribuição simples de texto. Nesse sentido, a abordagem
Hyperlink Induced Topic Search (HITS) introduz duas categorias básicas
de páginas Web, hubs e autoridades, que revelam algumas informações
semânticas ocultas a partir da estrutura de hiperlink. Em 2005, fizemos uma
primeira extensão do HITS, denominada de Extended Hyperlink Induced
Topic Search (XHITS), que inseriu duas novas categorias de páginas Web,
quais sejam, novidades e portais. Na presente tese, revisamos o XHITS,
transformando-o em uma generalização do HITS, ampliando o modelo
de duas categorias para várias e apresentando um algoritmo eficiente de
aprendizagem de máquina para calibrar o modelo proposto valendo-se de
múltiplas categorias latentes. As descobertas aqui expostas indicam que a
nova abordagem de aprendizagem fornece um modelo XHITS mais preciso.
É importante registrar, por fim, que os experimentos realizados com a coleção ClueWeb09 25TB de páginas da WWW, baixadas em 2009, mostram que o XHITS pode melhorar significativamente a eficácia da pesquisa Web e produzir resultados comparáveis aos do TREC 2009/2010 Web Track,
colocando-o na sexta posição, conforme os resultados publicados. / [en] The rapid growth and generalized accessibility of the World Wide Web
(WWW) have led to an increase in research in the field of the information
retrieval for Web pages. The WWW is an immense and prodigious environment
in which Web pages resemble a huge community of elements. These
elements are connected via hyperlinks on the basis of similarity between the
content of the pages, the popularity of a given page, the extent to which the
information provided is authoritative in relation to a given field etc. In fact,
when the author of a Web page links it to another, s/he is acknowledging
the importance of the linked page to his/her information. As such the hyperlink
structure of the WWW significantly improves research performance
beyond the use of simple text distribution statistics. To this effect, the HITS
approach introduces two basic categories of Web pages, hubs and authorities
which uncover certain hidden semantic information using the hyperlink
structure. In 2005, we made a first extension of HITS, called Extended Hyperlink
Induced Topic Search (XHITS), which inserted two new categories
of Web pages, which are novelties and portals. In this thesis, we revised the
XHITS, transforming it into a generalization of HITS, broadening the model
from two categories to various and presenting an efficient machine learning
algorithm to calibrate the proposed model using multiple latent categories.
The findings we set out here indicate that the new learning approach
provides a more precise XHITS model. It is important to note, in closing,
that experiments with the ClueWeb09 25TB collection of Web pages,
downloaded in 2009, demonstrated that the XHITS is capable of significantly
improving Web research efficiency and producing results comparable
to those of the TREC 2009/2010 Web Track.
|
2 |
[en] COLLABORATIVE FILTERING APPLIED TO TARGETED ADVERTISING / [pt] FILTRAGEM COLABORATIVA APLICADA A PUBLICIDADE DIRECIONADAROBERTO PEREIRA CAVALCANTE 27 October 2008 (has links)
[pt] O surgimento da World Wide Web representou uma nova
oportunidade de
publicidade, disponível para qualquer empresa:
A possibilidade de exposição
global para uma grande audiência a um custo extremamente
pequeno. Como
conseqüência disso, surgiu toda uma nova indústria
oferecendo serviços
relacionados à publicidade de busca, na qual uma empresa
anunciante paga por
uma posição de destaque em listas de anúncios. A fim de
manter a credibilidade e
a participação de mercado do serviço que os veicula - por
exemplo, uma máquina
de busca - os anúncios devem ser exibidos apenas para os
usuários que se
interessem por eles, no que se chama de Publicidade
Direcionada. Em virtude
disso, surge a necessidade de se utilizar um sistema de
recomendação que seja
capaz de escolher que anúncios exibir para quais usuários.
Nos sistemas de
recomendação baseados em filtragem colaborativa, as
preferências de outros
usuários são utilizadas como atributos para um sistema de
aprendizado, pois estas
podem ser bastante detalhadas, gerando recomendações não só
para os itens mais
populares como também para nichos de itens. Neste trabalho,
é desenvolvido um
sistema de recomendação de anúncios que aplica Filtragem
Colaborativa baseada
em fatoração de matrizes ao problema de predição do Click-
Through Rate, uma
métrica em Publicidade Direcionada que expressa a
relevância de um anúncio
para os usuários que buscam por uma determinada palavra-
chave. A fim de
validar o método proposto de predição do Click-Through
Rate, realizamos vários
experimentos em um conjunto de dados sintéticos.
Adicionalmente, o trabalho
contribui para o projeto do LearnAds, um framework de
recomendação de
anúncios baseado em Aprendizado de Máquina. / [en] The emergence of the World Wide Web represented a new
advertising
opportunity available to any company: The possibility of
global exposure to a large
audience at a very small cost. As a result, a whole new
industry has emerged by
offering services related to search advertising, in which
an advertiser pays for a
prominent position in lists of ads. In order to maintain
the credibility and market
share of the service that conveys them - for example, a
search engine - such ads
must be displayed only to users who are interested in them,
on what is called
Targeted Advertising. Therefore, those services need to use
a recommendation
system that can choose which ads show to which users.
Recommendation systems
based on collaborative filtering use the preferences of
other users as features to a
learning system, since such preferences can be quite
detailed, generating
recommendations not only for the most popular items but
also to item niches. In
this work, we develop an ads recommendation system that
applies Collaborative
Filtering based on matrix factorization to the problem of
predicting the
Click-Through Rate, a Targeted Advertising metric that
expresses the relevance of
a particular ad for the users searching for a specific
keyword. In order to validate
the proposed method of Click-Through Rate prediction, we
carry out several
experiments on a synthetic data set. Additionally, the work
contributes to the
design of LearnAds, a framework for ads recommendation
systems based on
Machine Learning.
|
Page generated in 0.0416 seconds