Return to search

Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web / ENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXTBASED GEOREFERENCING ON THE WEB

Made available in DSpace on 2016-03-22T17:26:21Z (GMT). No. of bitstreams: 1
dissertacao_mestrado_cleber.pdf: 565462 bytes, checksum: 906465b0884050d40a2c09bf52b60526 (MD5)
Previous issue date: 2009-03-23 / Georeferencing of texts, that is, the identification of the geographical context of
texts is becoming popular in the Web due to the high demand for geographical
information and due to the raising of services for query and retrieval like Google Earth
(geobrowsers). The main challenge is to relate texts to geographical locations. These
associations are stored in structures called gazetteers. Although there are gazetteers like
Geonames and TGN, they fail in coverage, lacking information about some countries,
and they also fail by weak specialization, lacking detailed references to locations (fine
granularity) as for example names of streets, squares, monuments, rivers,
neighborhoods, etc. This kind of information that acts as indirect references to
geographical locations is defined as Location Indicators .
This dissertation presents an approach that identifies Location Indicators related
to geographical locations, by analyzing texts of news published in the Web. The goal is
to enrich create gazetteers with the identified relations and then perform geo-referencing
of news. Location Indicators include non-geographical entities that are dynamic and
may change along the time. The use of news published in the Web is a useful way to
discover Location Indicators, covering a great number of locations and maintaining
detailed information about each location. Different training news corpora are compared
for the creation of gazetteers and evaluated by their ability to correctly identify cities in
texts of news
Georeferencing of texts, that is, the identification of the geographical context of
texts is becoming popular in the Web due to the high demand for geographical
information and due to the raising of services for query and retrieval like Google Earth
(geobrowsers). The main challenge is to relate texts to geographical locations. These
associations are stored in structures called gazetteers. Although there are gazetteers like
Geonames and TGN, they fail in coverage, lacking information about some countries,
and they also fail by weak specialization, lacking detailed references to locations (fine
granularity) as for example names of streets, squares, monuments, rivers,
neighborhoods, etc. This kind of information that acts as indirect references to
geographical locations is defined as Location Indicators .
This dissertation presents an approach that identifies Location Indicators related
to geographical locations, by analyzing texts of news published in the Web. The goal is
to enrich create gazetteers with the identified relations and then perform geo-referencing
of news. Location Indicators include non-geographical entities that are dynamic and
may change along the time. The use of news published in the Web is a useful way to
discover Location Indicators, covering a great number of locations and maintaining
detailed information about each location. Different training news corpora are compared
for the creation of gazetteers and evaluated by their ability to correctly identify cities in
texts of news / Com o advento da Internet e o crescente número de informações disponíveis
torna-se necessária a definição de estratégias especiais que permitam aos usuários o
acesso rápido a informações relevantes. Como a Web possui grande volume de
informações principalmente com o foco geográfico torna-se necessário recuperar e
estruturar essas informações de forma a poder relacioná-las com o contexto e realidade
das pessoas através de métodos e sistemas automáticos. Para isso uma das necessidades
é possibilitar o georreferenciamento dos textos, ou seja, identificar as entidades
geográficas presentes e associá-las com sua correta localização espacial. Nesse sentido,
os topônimos (ex: nomes de localidades como cidades, países, etc.), devido à
possibilidade de identificar de forma precisa determinada região espacial, apresentam-se
como ideais para a identificação do contexto geográfico dos textos. Essa tarefa,
denominada de Resolução de Topônimos apresenta, no entanto, desafios importantes
principalmente do ponto de vista lingüístico, já que uma localidade pode possuir
variados tipos de ambigüidade. Com relação a isso a principal estratégia para superar
estes problemas compreende a identificação de evidências que auxiliem na identificação
e desambiguação das localidades nos textos. Para essa verificação são utilizados
geralmente os serviços de um ou mais dicionários toponímicos (Gazetteers). Como são
criados de forma manual eles apresentam, no entanto deficiência de informações
relacionadas principalmente a entidades que podem identificar, embora de forma
indireta, determinados tipos de lugares como ruas, praças, universidades etc., as quais
são definidas como Indicadores de Localidade. O presente trabalho propõe uma
abordagem para a recuperação dessas entidades aproveitando para isso o caráter
geográfico das informações jornalísticas. Para ilustrar a viabilidade do processo
diferentes tipos de corpora de notícias foram testados e comparados pela habilidade de
criação de Gazetteers com os Indicadores recuperados, sendo os Gazetteers avaliados
então pela capacidade de identificação das cidades relacionadas às notícias testadas. Os
resultados demonstram a utilidade da abordagem para o enriquecimento de Gazetteers e
consequentemente para a recuperação de Indicadores de Localidade com maior
simplicidade e extensibilidade que os trabalhos atuais

Identiferoai:union.ndltd.org:IBICT/oai:tede.ucpel.edu.br:tede/98
Date23 March 2009
CreatorsGouvêa, Cleber
ContributorsLoh, Stanley
PublisherUniversidade Catolica de Pelotas, Mestrado em Ciência da Computação, Ucpel, BR, Informática
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do UCpel, instname:Universidade Católica de Pelotas, instacron:UCPEL
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0032 seconds