Return to search

RePort : um sistema de extração aberta de informações para língua portuguesa / RePort ¿ An Open Information Extraction System for Portuguese Language (Inglês)

Made available in DSpace on 2019-03-30T00:01:38Z (GMT). No. of bitstreams: 0
Previous issue date: 2016-11-28 / An emerging Natural Language Processing (NLP) research field proposes Open Information Extraction Systems (Open IE systems) which the main feature is do not need predefined semantic relations for text extraction and instead of this aims at generic standards to extract any domain-independent information. Following this paradigm, this work introduces RePort - an Open Information Extraction System for Portuguese Language, which is designed to scale massive data bases and extract any kind of verb-mediated relationships from Portuguese plain text files. The work¿s other contributions are as follows: a Golden Standard relation-labeled sentences in Portuguese; a lexical database of verbal relations generated from CETENFolha corpus; and generic methods for the creation and evolution of this lexical database of verbal relations via corpora or web queries. Experimental evaluations in English-Portuguese bilingual corpus show the need for linguistic knowledge to adapt the correlated system ¿ ReVerb from English to Portuguese. Based on a second analysis, an automatic evaluation of RePort achieves best results using the extended lexical database of verbal relations and is near to the state-of-the art, when considered only the extraction¿s verbal relations. Finally, it is important to point out the importance of the RePort system, and of the other contributions and analyzes show here aim at evolution of the Open IE system area for Portuguese Language.

Keywords: Computational Linguistics, Artificial Intelligence, Natural Language Processing, Information Extraction, Open Information Extraction System, Portuguese Language. / Um campo emergente de pesquisa em Processamento e Linguagem Natural (PLN) propõe Sistemas de Extração de Informações Aberta (em inglês - Open Information Extraction Systems - Open IE systems, em inglês) que têm como a principal característica não necessitar de definição a priori dos tipos de relações semânticas a serem extraídas de textos, visando padrões genéricos para a extração de quaisquer informações independente de domínio. Seguindo este paradigma, este trabalho apresenta o RePort ¿ um Sistema de Extração de Informações Aberta para Língua Portuguesa, projetado para escalar bases massivas de dados e extrair de quaisquer tipos de relações mediadas por verbo a partir de documentos textuais em português. Como contribuições secundárias deste trabalho têm-se um Golden Standard composto dos textos e suas respectivas relações semânticas anotadas; um léxico de relações verbais gerado a partir do corpus CETENFolha; e métodos genéricos para criação e evolução do léxico de relações verbais a partir de corpora ou consultas na Web. Avaliações experimentais em corpus bilíngue inglês-português evidenciou a necessidade de conhecimento linguístico para adaptar o sistema correlato em língua inglesa ¿ ReVerb. Em uma segunda análise, avaliações automáticas do RePort apontou que este obteve seus melhores resultados utilizando o léxico de relações verbais ampliado, próximo ao estado da arte, quando considerada apenas a extração de relações verbais. Por fim, cumpre salientar a importância do sistema RePort, e das demais contribuições e análises aqui apresentadas para evolução da área de Open IE system para o português.

Palavras-chave: Linguística Computacional, Inteligência Artificial, Processamento de Linguagem Natural, Extração de Informações, Sistemas de Extração de Informações Aberta, Língua Portuguesa.

Identiferoai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/100015
Date28 November 2016
CreatorsPereira, Victor dos Santos
ContributorsPinheiro, Vladia Celia Monteiro, Furtado, João José Vasco Peixoto, Pinheiro, Vladia Celia Monteiro, Araripe, Leonel Figueiredo de Alencar
PublisherUniversidade de Fortaleza, Mestrado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR
Rightsinfo:eu-repo/semantics/openAccess
Relation5443571202788449035, 500, 500, -7645770940771915222

Page generated in 0.0019 seconds