Return to search

Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb / THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER

Made available in DSpace on 2016-03-22T17:26:45Z (GMT). No. of bitstreams: 1
Dissertacao_Eduardo_Revisado.pdf: 3489154 bytes, checksum: 3c327ee0bc47d79cd4af46e065105650 (MD5)
Previous issue date: 2011-03-29 / Text retrieved from the Internet through Google and Yahoo queries are evaluated
using Flesch-Kincaid Grade Level, a simple assessment measure of text readability. This
kind of metrics were created to help writers to evaluate their text, and recently in automatic
text simplification for undercapable readers. In this work we apply these metrics
to documents freely retrieved from the Internet, seeking to find correlations between legibility
and relevance acknowledged to then by search engines. The initial premise guiding
the comparison between readability and relevance is the statement known as Occam s
Principle, or Principle of Economy. This study employs Flesch-Kincaid Grade Level in
text documents retrieved from the Internet through search-engines queries and correlate
it with the position. It was found a centralist trend in the texts recovered. The centralist
tendency mean that the average spacing of groups of files from the average of the
category they belong is meaningfull. With this measure is possible to establish a correlation
between relevance and legibility, and also, to detect diferences in the way both
search engines derive their relevance calculation. A subsequent experiment seeks to determine
whether the measure of legibility can be employed to assist him or her choosing
a document combined with original search engine ranking and if it is useful as advance
information for choice and user navigation. In a final experiment, based on previously
obtained knowledge, a comparison between Wikipedia and Britannica encyclopedias by
employing the metric of understandability Flesch-Kincaid / Textos recuperados da Internet por interm´edio de consultas ao Google e Yahoo
s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais
m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram
empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes.
Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da
Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que
lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao
entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam,
ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do
pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em
relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que
se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com
essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia
do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar
se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet
a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados
´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento
final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias
Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid
Grade Level

Identiferoai:union.ndltd.org:IBICT/oai:tede.ucpel.edu.br:tede/220
Date29 March 2011
CreatorsLondero, Eduardo Bauer
ContributorsLoh, Stanley
PublisherUniversidade Catolica de Pelotas, Mestrado em Ciência da Computação, Ucpel, BR, Informática
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do UCpel, instname:Universidade Católica de Pelotas, instacron:UCPEL
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0117 seconds