Global ETD Search

Return to search

[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS / [pt] ELABORAÇÃO AUTOMÁTICA DE ONTOLOGIAS DE DOMÍNIO: DISCUSSÃO E RESULTADOS

[pt] O objetivo deste trabalho é apresentar subsídios para a
elaboração
automática, a partir de corpus, de ontologias específicas
quanto ao domínio. Para
tanto, assumo que determinadas relações semânticas, como a
hiperonímia, podem
estar sistematicamente expressas em textos por meio de
determinados padrões
léxico-sintáticos. Tomando como ponto de partida alguns
desses padrões,
descritos originalmente em Hearst (1992, 1998), (i)
identifico novos padrões para
a expressão da relação de hiperonímia; (ii) adapto e
refino três padrões já
existentes (Hearst, 1992), tendo em vista especificidades
da língua portuguesa;
(iii) faço um cruzamento entre as informações extraídas
com os padrões, a fim de
gerar inferências. A perspectiva teórica subjacente é
inspirada por reflexões
wittgensteinianas sobre o significado, e se mostrou
produtiva na medida em que
legitima os dados vindos do corpus e as relações de
significado que nele
aparecem. O modelo de ontologia proposto caracteriza-se
principalmente por: (i)
não conter categorias pré-definidas, já que categorias são
construtos humanos,
abstrações que refletem uma perspectiva particular do
mundo. A idéia de sustentar
a ontologia em corpus busca deslocar o espaço de discussão
sobre quais seriam as
categorias relevantes de um domínio: as categorias que
emergem do corpus
refletiriam o conhecimento implícito do domínio em
questão; (ii) não conter
definições criadas a priori, sendo o significado de cada
item decorrente das
relações entre as palavras. A metodologia - extração das
relações por meio de
regras e posterior cruzamento para a realização de
inferências - foi aplicada em
um corpus do domínio saúde e um corpus genérico. Os
resultados positivos
indicam que sua utilização pode ser uma importante aliada
na elaboração de
ontologias e, também, uma ferramenta de auxílio a
lexicógrafos e a sistemas de
classificação semântica de nomes próprios. Em termos
gerais, a metodologia
apresenta como principais vantagens (i) a facilidade na
automação do processo,
minimizando a intervenção humana; (ii) facilidade na
categorização de domínios especializados; (iii) maior
dinamicidade, pois o fato de o corpus poder ser
constantemente atualizado faz com que esteja menos sujeito
a falhas. / [en] The main goal of this work is to present an automated
method for building
domain-specific corpus-based ontologies. The assumption is
that semantic
relationships, such as hypernym, can be systematically
expressed through lexicalsyntactic
patterns. Starting with some of these patterns, originally
described in Hearst
(1992), I (i) identify new patterns that express hypernym;
(ii) adapt three other
patterns (Hearst, 1992), considering specificities of the
Portuguese language; and (iii)
intersect these results, in order to produce inferences.
The theoretical approach is
inspired by the wittgensteinian ideas about meaning. The
resulting ontology´s most
prominent features are: (i) the fact that it does not have
a priori categories, since
categories are human constructs, abstractions that reflect
a particular world view.
Instead of discussing what should be the main categories
in a domain, sustaining the
ontology on corpora assumes that the corpus reflects the
implicit knowledge of a
given domain; and (ii) the fact that it does not have a
priori definitions: the meaning of
a word is derived from its relations with other words. The
method - automatic
extraction of semantic relations through rules, and the
intersection of this information
in order to produce inferences - was applied to two
corpora: a health domain corpus
and a generic corpus. The positive results show that the
method can be very useful in
ontology building and it can also be a valuable tool for
lexicographers and named
entity recognition systems. The main advantages of the
method are (i) the simplicity
of automating the process of ontology building; (ii) the
ease of categorizing
specialized domains, and (iii) its dynamicity, since the
possibility of constantly
updating the corpus makes it less subject to errors.

[pt] HIERARQUIA LEXICAL

[en] LEXICAL HIERARCHY

[pt] NOMES PROPRIOS

[en] PROPER NOUNS

Identifer	oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:9826
Date	25 April 2007
Creators	MARIA CLAUDIA DE FREITAS
Contributors	VIOLETA DE SAN TIAGO DANTAS BARBOSA QUENTAL
Publisher	MAXWELL
Source Sets	PUC Rio
Language	Portuguese
Detected Language	Portuguese
Type	TEXTO

Page generated in 0.003 seconds

[en] AUTOMATIC BUILDING OF DOMAIN ONTOLOGIES: DISCUSSION AND RESULTS / [pt] ELABORAÇÃO AUTOMÁTICA DE ONTOLOGIAS DE DOMÍNIO: DISCUSSÃO E RESULTADOS

Description

Links & Downloads

Tags

Additional Fields