[pt] Extração de relacionamentos é uma etapa chave para o problema de
identificação de uma estrutura em um texto em formato de linguagem natural. Em
geral, estruturas são compostas por entidades e relacionamentos entre elas. As
propostas de solução com maior sucesso aplicam aprendizado de máquina
supervisionado a corpus anotados à mão para a criação de classificadores de alta
precisão. Embora alcancem boa robustez, corpus criados à mão não são escaláveis
por serem uma alternativa de grande custo. Neste trabalho, nós aplicamos um
paradigma alternativo para a criação de um número considerável de exemplos de
instâncias para classificação. Tal método é chamado de supervisão à distância. Em
conjunto com essa alternativa, usamos ontologias da Web semântica para propor e
usar novas características para treinar classificadores. Elas são baseadas na
estrutura e semântica descrita por ontologias onde recursos da Web semântica são
definidos. O uso de tais características tiveram grande impacto na precisão e recall
dos nossos classificadores finais. Neste trabalho, aplicamos nossa teoria em um
corpus extraído da Wikipedia. Alcançamos uma alta precisão e recall para um
número considerável de relacionamentos. / [en] Relation extraction is a key step for the problem of rendering a structure
from natural language text format. In general, structures are composed by entities
and relationships among them. The most successful approaches on relation
extraction apply supervised machine learning on hand-labeled corpus for creating
highly accurate classifiers. Although good robustness is achieved, hand-labeled
corpus are not scalable due to the expensive cost of its creation. In this work we
apply an alternative paradigm for creating a considerable number of examples of
instances for classification. Such method is called distant supervision. Along with
this alternative approach we adopt Semantic Web ontologies to propose and use
new features for training classifiers. Those features are based on the structure and
semantics described by ontologies where Semantic Web resources are defined.
The use of such features has a great impact on the precision and recall of our final
classifiers. In this work, we apply our theory on corpus extracted from Wikipedia.
We achieve a high precision and recall for a considerable number of relations.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:24296 |
Date | 18 March 2015 |
Creators | PEDRO HENRIQUE RIBEIRO DE ASSIS |
Contributors | MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | English |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0033 seconds