Extra??o autom?tica de conceitos a partir de textos em l?ngua portuguesa

Made available in DSpace on 2015-04-14T14:49:48Z (GMT). No. of bitstreams: 1
439085.pdf: 7508888 bytes, checksum: c69f67a5ec361212f83a17a4407866ce (MD5)
Previous issue date: 2012-01-26 / This thesis describes a process to extract concepts from texts in portuguese language. The proposed process starts with linguistic annotated corpora from specific domains, and it generates lists of concepts for each corpus. The proposal of a linguistic oriented extraction procedure based on noun phrase detection, and a set of heuristics to improve the overall quality of concept candidate extraction is made. The improvement in precision and recall of extracted term list is from approximatively from 10% to more more than 60%. A new index (tf-dcf) based on contrastive corpora is proposed to sort the concept candidate terms according to the their relevance to their respective domain. The precision results achieved by this new index are superior to to the results achieved by indices proposed in similar works. Cut-off points are proposed in order to identify, among extracted concept candidate terms sorted according to their relevance, which of them will be considered concepts. A hybrid approach to choose cut-off points delivers reasonable F-measure values, and it brings quality to the concept identification process. Additionally, four applications are proposed in order to facilitate the comprehension, handling, and visualization of extracted terms and concepts. Such applications enlarge this thesis contributions available to a broader community of researchers and users of Natural Language Processing area. The proposed process is described in detail, and experiments empirically evaluate each process step. Besides the scientific contribution made with the process proposal, this thesis also delivers extracted concept lists for five different domain corpora, and the prototype of a software tool (EχATOLP) implementing all steps of the proposed process. / Essa tese descreve um processo para extrair conceitos de textos em l?ngua portuguesa. O processo proposto inicia com corpora de dom?nio linguisticamente anotados, e gera listas de conceitos dos dom?nios de cada corpus. Utiliza-se uma abordagem lingu?stica, que baseia-se na identifica??o de sintagmas nominais e um conjunto de heur?sticas que melhoram a qualidade da extra??o de candidatos a conceitos. Essa melhora ? expressa por incrementos aproximadamente de 10% para mais de 60% nos valores de precis?o e abrang?ncia das listas de termos extra?das. Prop?e-se um novo ?ndice (tf-dcf) baseado na compara??o com corpora contrastantes, para ordenar os termos candidatos a conceito extra?dos de acordo com suas relev?ncias para o corpus de dom?nio. Os resultados obtidos com esse novo ?ndice s?o superiores aos resultados obtidos com ?ndices propostos em trabalhos similares. Aplicam-se pontos de corte para identificar, dentre os termos candidatos classificados segundo sua relev?ncia, quais ser?o considerados conceitos. O uso de uma abordagem h?brida para escolha de pontos de corte fornece valores adequados de medida F, trazendo qualidade ao processo de identifica??o de conceitos. Adicionalmente. prop?em-se quatro aplica??es para facilitar a compreens?o, manipula??o e visualiza??o dos termos e conceitos extra?dos. Essas aplica??es tornam as contribui??es dessa tese acess?veis a um maior n?mero de pesquisadores e usu?rios da ?rea de Processamento de Linguagem Natural. Todo o processo proposto ? descrito em detalhe, e experimentos avaliam empiricamente cada passo. Al?m das contribui??es cient?ficas feitas com a proposta do processo, essa tese tamb?m apresenta listas de conceitos extra?dos para cinco diferentes corpora de dom?nio, e o prot?tipo de numa ferramenta de software (EXATOLP) que implementa todos os passos propostos.

Identiferoai:union.ndltd.org:IBICT/oai:tede2.pucrs.br:tede/5175
Date26 January 2012
CreatorsLopes, Lucelene
ContributorsVieira, Renata
PublisherPontif?cia Universidade Cat?lica do Rio Grande do Sul, Programa de P?s-Gradua??o em Ci?ncia da Computa??o, PUCRS, BR, Faculdade de Inform?ca
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS
Rightsinfo:eu-repo/semantics/openAccess
Relation1974996533081274470, 500, 600, 1946639708616176246

Page generated in 0.0029 seconds