Global ETD Search

Return to search

Um método para incrementar a extração automática de palavras-chave de textos baseado na expansão do conjunto de treinamento com termos candidatos inferidos a partir de modelos de conhecimento / A method to increment the automatic keyphrases extraction of texts based on the expansion of the training set with candidate terms inferred from knowledge models (Inglês)

Made available in DSpace on 2019-03-30T00:06:02Z (GMT). No. of bitstreams: 0
Previous issue date: 2018-04-18 / Extraction keyphrase systems traditionally use classification algorithms and do not consider the fact that part of the keyphrases may not be found in the text, reducing the accuracy of such algorithms a priori. In this work, it is proposed to improve the accuracy of these systems, expanding the training set used by classification algorithms with terms that are not in the text (not-in-text terms) inferred from knowledge models such as knowledge bases and distributional semantics. The basic assumption of the thesis is that not-in-text terms have a semantic relationship with terms that are in the text. For capturing and representing this relationship, we have defined three new heuristics to characterize the relevance of the not-in-text terms to be keyphrases. The first heuristic have the objective of capturing if the semantic relatedness of a not-in-text term (in relation to the other terms in the text) is higher than the semantic relatedness of the textual term from which it was inferred. The intuition is that terms that are more semantically related to other terms in the document are more likely to represent the text. The second feature refers to the power of discrimination of the inferred not-in-text term. The intuition behind this is that good candidates to be a keyphrase are those that are deduced from various textual terms in a specific document and that are not often deduced in other documents. The other feature represents the descriptive strength of a not-in-text candidate. We argue that not-in-text keyphrases must have a strong semantic relationship with the text and that the power of this semantic relationship can be measured in a similar way as popular metrics like TFxIDF. The method proposed in this work was compared with state-of-the-art systems using seven corpora and the results show that it has significantly improved automatic keyphrase extraction, dealing with the limitation of extracting keyphrases absent of the text.

Keywords: Keyphrases extraction. Keyphrases absent from the text. Deduction of keyphrases. Knowledge models. / Sistemas de extração de palavras-chave tradicionalmente usam algoritmos de classificação e não consideram o fato que parte das palavras-chave podem não ser encontradas no texto, reduzindo a acurácia desses algoritmos. Neste trabalho, propõe-se melhorar a acurácia desses sistemas, expandindo o conjunto de treinamento usado pelos algoritmos de classificação com termos que não estão no texto (termos não-texto) inferidos de modelos de conhecimento, tais como bases de conhecimento e semântica distributiva. A suposição básica da tese é que termos não-texto têm um relacionamento semântico com os termos que estão no texto. Para capturar e representar esse relacionamento, foram definidas três novas heurísticas para caracterizar a relevância dos termos não-texto a serem palavras-chave. A primeira heurística tem o objetivo de capturar se o relacionamento semântico de um termo não-texto (em relação aos outros termos no texto) é maior que o relacionamento semântico do termo do texto que o inferiu. A intuição é que termos que são mais relacionados semanticamente a outros termos no documento são mais prováveis para representar o texto. A segunda heurística refere-se ao poder de discriminação do termo não-texto. A intuição é que bons candidatos para ser uma palavra-chave são aqueles que são deduzidos de vários termos do texto em um documento específico e que não são frequentemente deduzidos em outros documentos. A outra heurística representa o poder descritivo de um candidato não-texto. Argumenta-se que palavras-chave não-texto devem ter um forte relacionamento semântico com o texto e que o poder desse relacionamento semântico pode ser medido em uma maneira similar como métricas populares, tal como TFxIDF. O método proposto neste trabalho foi comparado com sistemas de estado-da-arte usando sete corpora e os resultados exibem que o método proposto tem melhorado significativamente a extração automática de palavras-chave em documentos desses corpora, lidando com a limitação de extrair palavras-chave ausentes do texto.

Palavras-chave: Extração de palavras-chave. Palavras-chave ausentes do texto. Dedução de palavras-chave. Modelos de conhecimento.

Algoritmos

Linguística computacional

Palavras-chave

Identifer	oai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/105559
Date	18 April 2018
Creators	Silveira, Francisca Raquel de Vasconcelos
Contributors	Furtado, João José Vasco Peixoto, Pinheiro, Vladia Celia Monteiro, Furtado, João José Vasco Peixoto, Pinheiro, Plácido Rogério, Pardo, Thiago Alexandre Salgueiro, Pequeno, Tarcísio Haroldo Cavalcante, Macêdo, José Antônio Fernandes de
Publisher	Universidade de Fortaleza, Doutorado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Source	reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR
Rights	info:eu-repo/semantics/openAccess
Relation	1028774923510350190, 500, 500, -7645770940771915222

Page generated in 0.0028 seconds

Description

Links & Downloads

Tags

Additional Fields