Submitted by Nayara Passos (nayara.passos@ufpe.br) on 2015-03-13T12:33:46Z
No. of bitstreams: 2
TESE Rinaldo José de Lima.pdf: 8678943 bytes, checksum: e88c290e414329ee00d2d6a35a466de0 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:16:54Z (GMT) No. of bitstreams: 2
TESE Rinaldo José de Lima.pdf: 8678943 bytes, checksum: e88c290e414329ee00d2d6a35a466de0 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:16:54Z (GMT). No. of bitstreams: 2
TESE Rinaldo José de Lima.pdf: 8678943 bytes, checksum: e88c290e414329ee00d2d6a35a466de0 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014 / CNPq, CAPES. / Information Extraction (IE) consists in the task of discovering and structuring information found
in a semi-structured or unstructured textual corpus. Named Entity Recognition (NER) and Relation
Extraction (RE) are two important subtasks in IE. The former aims at finding named entities,
including the name of people, locations, among others, whereas the latter consists in detecting
and characterizing relations involving such named entities in text. Since the approach of manually
creating extraction rules for performing NER and RE is an intensive and time-consuming task,
researchers have turned their attention to how machine learning techniques can be applied to
IE in order to make IE systems more adaptive to domain changes. As a result, a myriad of
state-of-the-art methods for NER and RE relying on statistical machine learning techniques
have been proposed in the literature. Such systems typically use a propositional hypothesis
space for representing examples, i.e., an attribute-value representation. In machine learning, the
propositional representation of examples presents some limitations, particularly in the extraction
of binary relations, which mainly demands not only contextual and relational information about
the involving instances, but also more expressive semantic resources as background knowledge.
This thesis attempts to mitigate the aforementioned limitations based on the hypothesis that, to
be efficient and more adaptable to domain changes, an IE system should exploit ontologies and
semantic resources in a framework for IE that enables the automatic induction of extraction rules
by employing machine learning techniques. In this context, this thesis proposes a supervised
method to extract both entity and relation instances from textual corpora based on Inductive
Logic Programming, a symbolic machine learning technique. The proposed method, called
OntoILPER, benefits not only from ontologies and semantic resources, but also relies on a highly
expressive relational hypothesis space, in the form of logical predicates, for representing examples
whose structure is relevant to the information extraction task. OntoILPER automatically
induces symbolic extraction rules that subsume examples of entity and relation instances from
a tailored graph-based model of sentence representation, another contribution of this thesis.
Moreover, this graph-based model for representing sentences also enables the exploitation of
domain ontologies and additional background knowledge in the form of a condensed set of
features including lexical, syntactic, semantic, and relational ones. Differently from most of
the IE methods (a comprehensive survey is presented in this thesis, including the ones that also
apply ILP), OntoILPER takes advantage of a rich text preprocessing stage which encompasses
various shallow and deep natural language processing subtasks, including dependency parsing,
coreference resolution, word sense disambiguation, and semantic role labeling. Further mappings
of nouns and verbs to (formal) semantic resources are also considered. OntoILPER Framework,
the OntoILPER implementation, was experimentally evaluated on both NER and RE tasks.
This thesis reports the results of several assessments conducted using six standard evaluationcorpora from two distinct domains: news and biomedical. The obtained results demonstrated
the effectiveness of OntoILPER on both NER and RE tasks. Actually, the proposed framework
outperforms some of the state-of-the-art IE systems compared in this thesis. / A área de Extração de Informação (IE) visa descobrir e estruturar informações dispostas em
documentos semi-estruturados ou desestruturados. O Reconhecimento de Entidades Nomeadas
(REN) e a Extração de Relações (ER) são duas subtarefas importantes em EI. A primeira visa
encontrar entidades nomeadas, incluindo nome de pessoas e lugares, entre outros; enquanto
que a segunda, consiste na detecção e caracterização de relações que envolvem as entidades
nomeadas presentes no texto. Como a tarefa de criar manualmente as regras de extração para
realizar REN e ER é muito trabalhosa e onerosa, pesquisadores têm voltado suas atenções na
investigação de como as técnicas de aprendizado de máquina podem ser aplicadas à EI a fim de
tornar os sistemas de ER mais adaptáveis às mudanças de domínios. Como resultado, muitos
métodos do estado-da-arte em REN e ER, baseados em técnicas estatísticas de aprendizado de
máquina, têm sido propostos na literatura. Tais sistemas normalmente empregam um espaço
de hipóteses com expressividade propositional para representar os exemplos, ou seja, eles são
baseado na tradicional representação atributo-valor. Em aprendizado de máquina, a representação
proposicional apresenta algums fatores limitantes, principalmente na extração de relações binárias
que exigem não somente informações contextuais e estruturais (relacionais) sobre as instâncias,
mas também outras formas de como adicionar conhecimento prévio do problema durante o
processo de aprendizado. Esta tese visa atenuar as limitações acima mencionadas, tendo como
hipótese de trabalho que, para ser eficiente e mais facilmente adaptável às mudanças de domínio,
os sistemas de EI devem explorar ontologias e recursos semânticos no contexto de um arcabouço
para EI que permita a indução automática de regras de extração de informação através do
emprego de técnicas de aprendizado de máquina. Neste contexto, a presente tese propõe um
método supervisionado capaz de extrair instâncias de entidades (ou classes de ontologias) e de
relações a partir de textos apoiando-se na Programação em Lógica Indutiva (PLI), uma técnica de
aprendizado de máquina supervisionada capaz de induzir regras simbólicas de classificação. O
método proposto, chamado OntoILPER, não só se beneficia de ontologias e recursos semânticos,
mas também se baseia em um expressivo espaço de hipóteses, sob a forma de predicados
lógicos, capaz de representar exemplos cuja estrutura é relevante para a tarefa de EI consideradas
nesta tese. OntoILPER automaticamente induz regras simbólicas para classificar exemplos de
instâncias de entidades e relações a partir de um modelo de representação de frases baseado
em grafos. Tal modelo de representação é uma das constribuições desta tese. Além disso, o
modelo baseado em grafos para representação de frases e exemplos (instâncias de classes e
relações) favorece a integração de conhecimento prévio do problema na forma de um conjunto
reduzido de atributos léxicos, sintáticos, semânticos e estruturais. Diferentemente da maioria dos
métodos de EI (uma pesquisa abrangente é apresentada nesta tese, incluindo aqueles que também
se aplicam a PLI), OntoILPER faz uso de várias subtarefas do Processamento de Linguagem
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/12425 |
Date | 31 January 2014 |
Creators | Lima, Rinaldo José de, Freitas, Frederico Luiz Gonçalves de |
Publisher | Universidade Federal de Pernambuco |
Source Sets | IBICT Brazilian ETDs |
Language | English |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess |
Page generated in 0.003 seconds