Made available in DSpace on 2019-03-29T23:38:45Z (GMT). No. of bitstreams: 0
Previous issue date: 2013-09-17 / Identify references in a text and group them into coreference chains is
the main purpose of a coreference resolution system. This paper reports
a systematic experimental study on the use of an approach based on
genetic programming (GP) for automatic resolution of this prominent task
of natural language processing (NLP).
Although various methods for the identification of references are
described in the literature, including those based on machine learning
(ML), and for the assessment of results generated by coreference
resolution systems through the use of custom metrics, the results
obtained until the present moment are still below expectations.
Therefore, we investigated the possibility of adopting an evolutionary
approach based on GP, since the class of evolutionary algorithms has
successfully solved several complex problems of machine learning and text
mining. In this particular study, we investigated the impact of the use of
different evaluation metrics (MUC, B$^3$, CEAF$_e$ and BLANC) as the fitness
function of the individuals (classifiers) generated by GP. Moreover, the
performance of different schemes of combination of genetic programs into committee machines
was investigated, aimed to increase performance. For validation of the
proposed methodology, a comprehensive empirical study was conducted on the English
corpus made available in recent international competitions organized by
the CoNLL (Conference on Computational Natural Language Learning),
which is the main conference on the theme ``AM + PLN". The performance
results obtained by the generated ensembles of genetic programs
was generally satisfactory, although less significant than those obtained by
the best ranked coreference resolution systems in CoNLL contests. On
the other hand, the comparative study on the effect of using the different evaluation metrics
as the fitness function of GP showed that this choice has an impact
on the performance of the genetic programs generated. Besides, there is
a strong correlation between the performance profiles generated by some
metrics. In particular, the BLANC's capability in differentiating solutions
is very similar to the exhibited by the metric used
in CoNLL competitions.
Keywords: coreference analysis, coreference resolution, genetic programming, genetic programming ensembles. / Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal
objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um
estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho.
Para fins de validação da metodologia proposta, foi conduzido um estudo empírico
abrangente sobre o corpus de língua inglesa utilizado em recentes competições
internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito
das métricas de avaliação como função de aptidão da PG evidenciou que há sim
um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos
gerados. Além disso, há fortes correlações entre os perfis de desempenho
gerados por algumas das métricas, sendo que a sensibilidade de discriminação
das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida
pela métrica efetivamente utilizada nas competições do CoNLL.
Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.
Identifer | oai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/91429 |
Date | 17 September 2013 |
Creators | Carvalho, Davi Lopes |
Contributors | Coelho, Andre Luis Vasconcelos, Santos, Cícero Nogueira dos, Coelho, Andre Luis Vasconcelos, Pinheiro, Vladia Celia Monteiro |
Publisher | Universidade de Fortaleza, Mestrado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR |
Rights | info:eu-repo/semantics/openAccess |
Relation | 5443571202788449035, 500, 500, -7645770940771915222 |
Page generated in 0.0028 seconds