Made available in DSpace on 2019-03-30T00:06:02Z (GMT). No. of bitstreams: 0
Previous issue date: 2018-04-18 / Extraction keyphrase systems traditionally use classification algorithms and do not consider the fact that part of the keyphrases may not be found in the text, reducing the accuracy of such algorithms a priori. In this work, it is proposed to improve the accuracy of these systems, expanding the training set used by classification algorithms with terms that are not in the text (not-in-text terms) inferred from knowledge models such as knowledge bases and distributional semantics. The basic assumption of the thesis is that not-in-text terms have a semantic relationship with terms that are in the text. For capturing and representing this relationship, we have defined three new heuristics to characterize the relevance of the not-in-text terms to be keyphrases. The first heuristic have the objective of capturing if the semantic relatedness of a not-in-text term (in relation to the other terms in the text) is higher than the semantic relatedness of the textual term from which it was inferred. The intuition is that terms that are more semantically related to other terms in the document are more likely to represent the text. The second feature refers to the power of discrimination of the inferred not-in-text term. The intuition behind this is that good candidates to be a keyphrase are those that are deduced from various textual terms in a specific document and that are not often deduced in other documents. The other feature represents the descriptive strength of a not-in-text candidate. We argue that not-in-text keyphrases must have a strong semantic relationship with the text and that the power of this semantic relationship can be measured in a similar way as popular metrics like TFxIDF. The method proposed in this work was compared with state-of-the-art systems using seven corpora and the results show that it has significantly improved automatic keyphrase extraction, dealing with the limitation of extracting keyphrases absent of the text.
Keywords: Keyphrases extraction. Keyphrases absent from the text. Deduction of keyphrases. Knowledge models. / Sistemas de extração de palavras-chave tradicionalmente usam algoritmos de classificação e não consideram o fato que parte das palavras-chave podem não ser encontradas no texto, reduzindo a acurácia desses algoritmos. Neste trabalho, propõe-se melhorar a acurácia desses sistemas, expandindo o conjunto de treinamento usado pelos algoritmos de classificação com termos que não estão no texto (termos não-texto) inferidos de modelos de conhecimento, tais como bases de conhecimento e semântica distributiva. A suposição básica da tese é que termos não-texto têm um relacionamento semântico com os termos que estão no texto. Para capturar e representar esse relacionamento, foram definidas três novas heurísticas para caracterizar a relevância dos termos não-texto a serem palavras-chave. A primeira heurística tem o objetivo de capturar se o relacionamento semântico de um termo não-texto (em relação aos outros termos no texto) é maior que o relacionamento semântico do termo do texto que o inferiu. A intuição é que termos que são mais relacionados semanticamente a outros termos no documento são mais prováveis para representar o texto. A segunda heurística refere-se ao poder de discriminação do termo não-texto. A intuição é que bons candidatos para ser uma palavra-chave são aqueles que são deduzidos de vários termos do texto em um documento específico e que não são frequentemente deduzidos em outros documentos. A outra heurística representa o poder descritivo de um candidato não-texto. Argumenta-se que palavras-chave não-texto devem ter um forte relacionamento semântico com o texto e que o poder desse relacionamento semântico pode ser medido em uma maneira similar como métricas populares, tal como TFxIDF. O método proposto neste trabalho foi comparado com sistemas de estado-da-arte usando sete corpora e os resultados exibem que o método proposto tem melhorado significativamente a extração automática de palavras-chave em documentos desses corpora, lidando com a limitação de extrair palavras-chave ausentes do texto.
Palavras-chave: Extração de palavras-chave. Palavras-chave ausentes do texto. Dedução de palavras-chave. Modelos de conhecimento.
Identifer | oai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/105559 |
Date | 18 April 2018 |
Creators | Silveira, Francisca Raquel de Vasconcelos |
Contributors | Furtado, João José Vasco Peixoto, Pinheiro, Vladia Celia Monteiro, Furtado, João José Vasco Peixoto, Pinheiro, Plácido Rogério, Pardo, Thiago Alexandre Salgueiro, Pequeno, Tarcísio Haroldo Cavalcante, Macêdo, José Antônio Fernandes de |
Publisher | Universidade de Fortaleza, Doutorado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR |
Rights | info:eu-repo/semantics/openAccess |
Relation | 1028774923510350190, 500, 500, -7645770940771915222 |
Page generated in 0.0019 seconds