Return to search

CLASSIFICAÇÃO DE RELAÇÕES SEMÂNTICAS ABERTAS BASEADA EM SIMILARIDADE DE ESTRUTURAS GRAMATICAIS NA LÍNGUA PORTUGUESA

Submitted by Santos Davilene (davilenes@ufba.br) on 2016-05-25T12:52:22Z
No. of bitstreams: 1
erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5) / Made available in DSpace on 2016-05-25T12:52:22Z (GMT). No. of bitstreams: 1
erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5) / FAPESB / A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela
descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a
extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation
Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas
geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre
um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra
ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência
decorre da di culdade inerente à determinação do conjunto de features mais representativo para o
problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases
de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado,
recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo
de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto
um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que
constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de
identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da
aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho
corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode
ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com
número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através
da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com
custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e
validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste
tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não
limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações
abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é
possível comparar a qualidade de classi cação do método proposto com as principais abordagens
baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE

Identiferoai:union.ndltd.org:IBICT/oai:192.168.11:11:ri/19271
Date22 July 2014
CreatorsSouza, Erick Nilsen Pereira de
ContributorsClaro, Daniela Barreiro, Salvador, Laís do Nascimento, Freitas, Frederico Luiz Gonçalves de
PublisherInstituto de Matemática. Departamento de Ciência da Computação, Mestrado Multiinstitucional em Ciência da Computação, UFBA, brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFBA, instname:Universidade Federal da Bahia, instacron:UFBA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0018 seconds