Evaluation of methods for taxonomic relation extraction from text / Avalia??o de m?todos para extra??o autom?tica de rela??es a partir de textos

Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2016-12-26T16:34:57Z
No. of bitstreams: 1
TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf: 2483840 bytes, checksum: 8f81d3f0496d8fa8d3a1b013dfdf932b (MD5) / Made available in DSpace on 2016-12-26T16:34:57Z (GMT). No. of bitstreams: 1
TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf: 2483840 bytes, checksum: 8f81d3f0496d8fa8d3a1b013dfdf932b (MD5)
Previous issue date: 2015-09-28 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / Sistemas de informa??o modernos t?m mudado a ideia ?processamento de dados? para a ideia de ?processamento de conceitos?, assim, ao inv?s de processarem palavras, tais sistemas fazem o processamento de conceitos que cont?m ignificado e que compartilham contextos com outros contextos. Ontologias s?o normalmente utilizadas como uma estrutura que captura o conhecimento a cerca de uma certa ?rea, provendo conceitos e rela??es entre tais conceitos. Tradicionalmente, hierarquias de conceitos s?o constru?das manualmente por engenheiros do conhecimento ou especialistas do dom?nio. Entretanto, este tipo de constru??o sofre com diversas limita??es, tais como, cobertura e o alto custo de extens?o e manuten??o. Assim, se faz necess?ria a constru??o de tais estruturas automaticamente. O suporte (semi-)automatico no desenvolvimento de ontologias ? comumente referenciado como aprendizagem de ontologias e ? normalmente dividido em etapas, como identifica??o de conceitos, detec??o de rela??es hierarquicas e n?o hierarquicas, e extra??o de axiomas. ? razo?vel dizer que entre tais passos a fronteira est? no estabelecimento de hierarquias de conceitos, pois ? a espinha dorsal das ontologias e, por consequ?ncia, uma boa hierarquia de conceitos ? um recurso v?lido para v?rias aplica??es de ontologias. Hierarquias de conceitos s?o representadas por estruturas em ?rvore com relacionamentos de especializa??o/generaliza??o, onde conceitos nos n?veis mais baixos s?o mais espec?ficos e conceitos nos n?veis mais altos s?o mais gerais. A constru??o autom?tica de tais hierarquias ? uma tarefa complexa e desde a d?cada de 80 muitos trabalhos t?m proposto melhores formas para fazer a extra??o de rela??es entre conceitos. Estas propostas nunca foram contrastadas usando um mesmo conjunto de dados. Tal compara??o ? importante para ver se os m?todos s?o complementares ou incrementais, bem como se apresentam diferentes tend?ncias em rela??o ? precis?o e abrang?ncia, i.e., alguns podem ser bastante precisos e ter uma baixa abrang?ncia enquanto outros t?m uma abrang?ncia melhor por?m com uma baixa precis?o. Outro aspecto refere-se ? varia??o dos resultados em diferentes l?nguas. Esta tese avalia os m?todos utilizando m?tricas de hierarquias como densidade e profundidade, e m?tricas de evalia??o como precis?o e abrang?ncia. A avalia??o ? realizada utilizando o mesmo corpora, consistindo de textos paralelos e compar?veis em ingl?s e portugu?s. S?o realizadas avalia??es autom?tica e manual, sendo a sa?da de sete m?todos avaliados automaticamente e quatro manualmente. Os resultados d?o uma luz sobre a abrang?ncia dos m?todos que s?o utilizados no estado da arte de acordo com a literatura. / Modern information systems are changing the idea of ?data processing? to the idea of ?concept
processing?, meaning that instead of processing words, such systems process semantic concepts
which carry meaning and share contexts with other concepts. Ontology is commonly used as a
structure that captures the knowledge about a certain area via providing concepts and relations
between them. Traditionally, concept hierarchies have been built manually by knowledge engineers or domain
experts. However, the manual construction of a concept hierarchy suffers from several limitations
such as its coverage and the enormous costs of extension and maintenance. Furthermore, keeping
up with a hand-crafted concept hierarchy along with the evolution of domain knowledge is an
overwhelming task, being necessary to build concept hierarchies automatically. The (semi-)automatic support in ontology development is usually referred to as ontology learning.
The ontology learning from texts is usually divided in steps, going from concepts identification,
passing through hierarchy and non-hierarchy relations detection and, seldom, axiom extraction. It
is reasonable to say that among these steps the current frontier is in the establishment of concept
hierarchies, since this is the backbone of ontologies and, therefore, a good concept hierarchy is
already a valuable resource for many ontology applications. A concept hierarchy is represented with a tree-structured form with specialization/generalization
relations between concepts, in which lower-level concepts are more specific while higher-level are
more general. The automatic construction of concept hierarchies from texts is a complex task and
since the 1980 decade a large number of works have been proposing approaches to better extract
relations between concepts. These different proposals have never been contrasted against each other
on the same set of data and across different languages. Such comparison is important to see whether
they are complementary or incremental, also we can see whether they present different tendencies
towards recall and precision, i.e., some can be very precise but with very low recall and others can
achieve better recall but low precision. Another aspect concerns to the variation of results for different languages. This thesis evaluates
these different methods on the basis of hierarchy metrics such as density and depth, and evaluation
metrics such as Recall and Precision. The evaluation is performed over the same corpora, which
consist of English and Portuguese parallel and comparable texts. Both automatic and manual
evaluations are presented. The output of seven methods are evaluated automatically and the output
of four methods are evaluated manually. Results shed light over the comprehensive set of methods
that are the state of the art according to the literature in the area.

Identiferoai:union.ndltd.org:IBICT/oai:tede2.pucrs.br:tede/7108
Date28 September 2015
CreatorsGranada, Roger Leitzke
ContributorsVieira, Renata, Aussenac-Gilles, Nathalie, Santos, C?ssia Trojahn dos
PublisherPontif?cia Universidade Cat?lica do Rio Grande do Sul, Programa de P?s-Gradua??o em Ci?ncia da Computa??o, PUCRS, Brasil, Faculdade de Inform?tica
Source SetsIBICT Brazilian ETDs
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS
Rightsinfo:eu-repo/semantics/openAccess
Relation1974996533081274470, 600, 600, 600, 600, -3008542510401149144, 3671711205811204509, 2075167498588264571

Page generated in 0.0593 seconds