[pt] O objetivo deste trabalho é apresentar subsídios para a
elaboração
automática, a partir de corpus, de ontologias específicas
quanto ao domínio. Para
tanto, assumo que determinadas relações semânticas, como a
hiperonímia, podem
estar sistematicamente expressas em textos por meio de
determinados padrões
léxico-sintáticos. Tomando como ponto de partida alguns
desses padrões,
descritos originalmente em Hearst (1992, 1998), (i)
identifico novos padrões para
a expressão da relação de hiperonímia; (ii) adapto e
refino três padrões já
existentes (Hearst, 1992), tendo em vista especificidades
da língua portuguesa;
(iii) faço um cruzamento entre as informações extraídas
com os padrões, a fim de
gerar inferências. A perspectiva teórica subjacente é
inspirada por reflexões
wittgensteinianas sobre o significado, e se mostrou
produtiva na medida em que
legitima os dados vindos do corpus e as relações de
significado que nele
aparecem. O modelo de ontologia proposto caracteriza-se
principalmente por: (i)
não conter categorias pré-definidas, já que categorias são
construtos humanos,
abstrações que refletem uma perspectiva particular do
mundo. A idéia de sustentar
a ontologia em corpus busca deslocar o espaço de discussão
sobre quais seriam as
categorias relevantes de um domínio: as categorias que
emergem do corpus
refletiriam o conhecimento implícito do domínio em
questão; (ii) não conter
definições criadas a priori, sendo o significado de cada
item decorrente das
relações entre as palavras. A metodologia - extração das
relações por meio de
regras e posterior cruzamento para a realização de
inferências - foi aplicada em
um corpus do domínio saúde e um corpus genérico. Os
resultados positivos
indicam que sua utilização pode ser uma importante aliada
na elaboração de
ontologias e, também, uma ferramenta de auxílio a
lexicógrafos e a sistemas de
classificação semântica de nomes próprios. Em termos
gerais, a metodologia
apresenta como principais vantagens (i) a facilidade na
automação do processo,
minimizando a intervenção humana; (ii) facilidade na
categorização de domínios especializados; (iii) maior
dinamicidade, pois o fato de o corpus poder ser
constantemente atualizado faz com que esteja menos sujeito
a falhas. / [en] The main goal of this work is to present an automated
method for building
domain-specific corpus-based ontologies. The assumption is
that semantic
relationships, such as hypernym, can be systematically
expressed through lexicalsyntactic
patterns. Starting with some of these patterns, originally
described in Hearst
(1992), I (i) identify new patterns that express hypernym;
(ii) adapt three other
patterns (Hearst, 1992), considering specificities of the
Portuguese language; and (iii)
intersect these results, in order to produce inferences.
The theoretical approach is
inspired by the wittgensteinian ideas about meaning. The
resulting ontology´s most
prominent features are: (i) the fact that it does not have
a priori categories, since
categories are human constructs, abstractions that reflect
a particular world view.
Instead of discussing what should be the main categories
in a domain, sustaining the
ontology on corpora assumes that the corpus reflects the
implicit knowledge of a
given domain; and (ii) the fact that it does not have a
priori definitions: the meaning of
a word is derived from its relations with other words. The
method - automatic
extraction of semantic relations through rules, and the
intersection of this information
in order to produce inferences - was applied to two
corpora: a health domain corpus
and a generic corpus. The positive results show that the
method can be very useful in
ontology building and it can also be a valuable tool for
lexicographers and named
entity recognition systems. The main advantages of the
method are (i) the simplicity
of automating the process of ontology building; (ii) the
ease of categorizing
specialized domains, and (iii) its dynamicity, since the
possibility of constantly
updating the corpus makes it less subject to errors.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:9826 |
Date | 25 April 2007 |
Creators | MARIA CLAUDIA DE FREITAS |
Contributors | VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0028 seconds