Nas últimas décadas, o grande avanço da ciência e tecnologia com suas invenções, novos materiais, equipamentos e métodos gerou a necessidade da criação de novos nomes, chamados aqui de termos, e alterações nos seus significados, para nomear adequadamente esses avanços, principalmente em áreas dinâmicas como a Ciência da Computação, a Genética e a Medicina. Dado que o desenvolvimento de repertórios terminológicos é um trabalho difícil quando realizado manualmente, lingüistas computacionais, lingüistas aplicados, tradutores, intérpretes, jornalistas científicos têm se interessado pela extração automática de terminologias (EAT) de textos. O crescimento explosivo de dados do tipo texto disponíveis na Web foi um fator contribuinte para a facilidade na construção de córpus eletrônicos de textos técnicos e científicos, propiciando a implementação de métodos de EAT. A EAT tem sido de grande interesse para todos os tipos de aplicações do Processamento de Línguas Naturais (PLN) que trabalham com domínios especializados e que, conseqüentemente, necessitam de um vocabulário especial. O objetivo desse projeto de mestrado foi avaliar métodos de EAT para o português do Brasil, ainda carente do tratamento automatizado para a criação de terminologias. Especificamente, foram implementados e avaliados métodos de EAT das abordagens estatística, lingüística e híbrida para unigramas, bigramas e trigramas a partir de um córpus de textos do domínio de Revestimentos Cerâmicos. Esses métodos empregam recursos simples como (a) uma stoplist para eliminar palavras como advérbios, (b) padrões sintáticos para os termos do domínio, por exemplo <substantivo adjetivo>, <substantivo preposição adjetivo>, levantados após a aplicação de um etiquetador Part-Of-Speech, (c) uma lista de expressões e palavras características de definições, descrições, classificações como 'definido(a)(s) como', 'caracterizado(a)', 'conhecido(a)(s) como', 'significa(m)', entre outras que são concentradoras de termos. As medidas estatísticas utilizadas nos métodos estatísticos e híbridos para indicar a relevância de termos no domínio são a informação mútua, o log-likelihood, o coeficiente dice e a freqüência. Os métodos propostos foram avaliados pelas medidas de precisão, revocação e medida F, utilizando uma lista de referência da área de Revestimentos Cerâmicos. Os melhores resultados da precisão são do método híbrido para unigramas (7%), bigramas (17%) e trigramas (26%), enquanto que a revocação é melhor nos métodos puramente lingüísticos tanto para unigramas (95%) como para bigramas (90%) e trigramas (100%). Os melhores valores da medida F foram dos métodos híbridos (11%, 17% e 33% para uni, bi e trigramas, respectivamente). Esses valores, embora tenham se apresentado os mais relevantes, foram bastante inferiores àqueles normalmente encontrados na literatura que trata da EAT, cujo desempenho obtido para essa tarefa fica em torno de 60%. Esses valores motivam a busca e implementação de métodos mais avançados para tratar o português, bem como a obtenção de recursos mais elaborados, a fim de encontrar resultados mais significantes para essa tarefa, facilitando, conseqüentemente o trabalho do especialista da área, que vai analisar os candidatos a termos extraídos pelos métodos automáticos, visto que é possível fornecer a ele informações mais precisas (poucas palavras da língua geral) e completas (uma maior quantidade de termos) sobre o córpus considerado. / During the last decades, the great advance in science and technology and their inventions, new materials, equipment and methods had as one result the necessity of creation of new names, called here terms, and alterations on their meanings, to name adequately these advances, mainly in areas as Computer Science, Genetics and Medicine. Considering that the development of terminological lists is an arduous work if manually executed, computational linguists, applied linguists, translators, interpreters and scientific journalists have been interested on automatic extraction of terminologies (AET) from texts. The sudden growing of data available on the Web was a contributing factor to facilitate the construction of electronic corpus of technical and scientific texts, providing implementation of AET methods. AET is very important for every sort of Natural Language Processing (NLP) applications that works on specialized domains and, consequently, needs special vocabulary. The purpose of this MS project was to evaluate AET methods for Brazilian Portuguese particularly, which is a language still in need of development of automatic treatment for terminology. Specifically, AET methods with statistic, linguistic and hybrid approaches were implemented and evaluated for unigrams, bigrams and trigrams for a corpus of texts in the domain of Ceramic Tiles. These methods use simple resources as (a) stoplist to eliminate words as adverbs, (b) syntactic patterns for terms from the domain, as, for instance, <substantive adjective>, <substantive preposition adjective>, considered after the application of a tagger Part-Of-Speech, (c) list of expressions and words typical of definitions, descriptions and classifications, like, for instance, 'defined as', 'characterized as', 'known as', 'that means', among others that concentrate terms. The statistic measures used by statistic and hybrid methods to indicate the terms relevance in the domain are mutual information, log-likelihood, dice coefficient, and frequency. The methods proposed were evaluated by precision, recall and F-measure, using a reference list in the area of Ceramic Tiles. The best results for precision are from the hybrid method for unigrams (7%), bigrams (17%) and trigrams (26%), while for recall the best results are from purely linguistic methods for unigrams (95%) as well as for bigrams (90%) and trigrams (100%). The best values for F-measure are from hybrid methods (11%, 17% and 33% for uni, bi and trigrams, respectively). These values, although presented as the most relevant ones, were quite inferior when compared to those commonly found in the literature concerned with AET, whose performance obtained for this task is around 60%. These values motivate the search and implementation of more advanced methods for Portuguese treatment, as well as the obtainment of more elaborated resources, in order to find more significant results for this task. In this way, the work of analysis of possible terms extracted by automatic methods done by the specialist of the area becomes much easier, since it is possible to provide him/her more precise (few word from general language) and complete (greater number of terms) information about the corpus under consideration.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-25052004-012204 |
Date | 19 March 2004 |
Creators | Maria Fernanda Teline |
Contributors | Sandra Maria Aluisio, Gladis Maria de Barcellos Almeida, Osvaldo Novais de Oliveira Junior |
Publisher | Universidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0072 seconds