Global ETD Search

Return to search

ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.

Made available in DSpace on 2016-06-02T19:05:19Z (GMT). No. of bitstreams: 1
DissPPS.pdf: 2486545 bytes, checksum: 45bf3bd34f1453685126954dc3708459 (MD5)
Previous issue date: 2006-07-10 / Financiadora de Estudos e Projetos / This dissertation presents an automatic summarizer of Web documents based on
both HTML tags and ontological knowledge. It has been derived from two independent
approaches: one that focuses solely upon HTML tags, and another that focuses only on
ontological knowledge. The three approaches were implemented and assessed,
indicating that associating both knowledge types have a promising descriptive power for
Web documents. The resulting prototype has been named ExtraWeb.
The ExtraWeb system explores the HTML structure of Web documents in
Portuguese and semantic information using the Yahoo ontology in Portuguese. This has
been enriched with additional terms extracted from both a thesaurus, Diadorim and the
Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to
Google one, showing its potential to signal through extracts the relevance of the
retrieved documents. This has been an important issue recently. Extracts may be
particularly useful as surrogates of the current descriptions provided by the existing
search engines. They may even substitute the corresponding source documents. In the
former case, those descriptions do not necessarily convey relevant content of the
documents; in the latter, reading full documents demands a substantial overhead of Web
users. In both cases, extracts may improve the search task, provided that they actually
signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to
improve their descriptions. However, its scability and insertion in a real setting have not
yet been explored. / Esta dissertação propõe um sumarizador de documentos Web baseado em
etiquetas HTML e conhecimento ontológico, derivado de outras duas abordagens
independentes: uma que contempla somente etiquetas HTML e outra, somente
conhecimento ontológico. As três abordagens foram implementadas e avaliadas,
indicando que a composição desses dois tipos de conhecimento tem um bom potencial
descritivo de documentos Web. O protótipo resultante é denominado ExtraWeb.
O ExtraWeb explora a estrutura de marcação de documentos em português e
informações de nível semântico usando a ontologia do Yahoo em português,
enriquecida com vocabulário extraído de um thesaurus, Diadorim, e da Wikipédia. Em
uma tarefa simulada por internautas, de busca de documentos, o ExtraWeb obteve um
grau de utilidade próximo ao do Google, evidenciando seu potencial para indicar, por
meio de extratos, a relevância de documentos recuperados na Web. Esse foco é de
grande interesse atualmente, pois os extratos podem ser particularmente úteis como
substitutos das descrições atuais das ferramentas de busca ou, mesmo, como substitutos
dos documentos correspondentes completos. No primeiro caso, as descrições nem
sempre contemplam as informações mais relevantes dos documentos; no segundo, sua
leitura implica um esforço considerável por parte do internauta. Em ambos os casos,
extratos podem otimizar essa tarefa, se comprovada sua utilidade para a indicação da
relevância dos documentos. Assim, o ExtraWeb tem potencial para ser um acessório das
ferramentas de busca, para melhorar a forma como os resultados são apresentados,
muito embora sua escalabilidade e implantação em um ambiente real ainda não tenham
sido exploradas.

Inteligência artificial

Processamento da linguagem natural

Sumarização automática

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/322
Date	10 July 2006
Creators	Silva, Patrick Pedreira
Contributors	Rino, Lúcia Helena Machado
Publisher	Universidade Federal de São Carlos, Programa de Pós-graduação em Ciência da Computação, UFSCar, BR
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Source	reponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0021 seconds

ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.

Description

Links & Downloads

Tags

Additional Fields