Global ETD Search

1	"Avaliação de métodos para a extração automática de terminologia de textos em português" Teline, Maria Fernanda 19 March 2004 (has links) Nas últimas décadas, o grande avanço da ciência e tecnologia com suas invenções, novos materiais, equipamentos e métodos gerou a necessidade da criação de novos nomes, chamados aqui de termos, e alterações nos seus significados, para nomear adequadamente esses avanços, principalmente em áreas dinâmicas como a Ciência da Computação, a Genética e a Medicina. Dado que o desenvolvimento de repertórios terminológicos é um trabalho difícil quando realizado manualmente, lingüistas computacionais, lingüistas aplicados, tradutores, intérpretes, jornalistas científicos têm se interessado pela extração automática de terminologias (EAT) de textos. O crescimento explosivo de dados do tipo texto disponíveis na Web foi um fator contribuinte para a facilidade na construção de córpus eletrônicos de textos técnicos e científicos, propiciando a implementação de métodos de EAT. A EAT tem sido de grande interesse para todos os tipos de aplicações do Processamento de Línguas Naturais (PLN) que trabalham com domínios especializados e que, conseqüentemente, necessitam de um vocabulário especial. O objetivo desse projeto de mestrado foi avaliar métodos de EAT para o português do Brasil, ainda carente do tratamento automatizado para a criação de terminologias. Especificamente, foram implementados e avaliados métodos de EAT das abordagens estatística, lingüística e híbrida para unigramas, bigramas e trigramas a partir de um córpus de textos do domínio de Revestimentos Cerâmicos. Esses métodos empregam recursos simples como (a) uma stoplist para eliminar palavras como advérbios, (b) padrões sintáticos para os termos do domínio, por exemplo &ltsubstantivo adjetivo&gt, &ltsubstantivo preposição adjetivo&gt, levantados após a aplicação de um etiquetador Part-Of-Speech, (c) uma lista de expressões e palavras características de definições, descrições, classificações como 'definido(a)(s) como', 'caracterizado(a)', 'conhecido(a)(s) como', 'significa(m)', entre outras que são concentradoras de termos. As medidas estatísticas utilizadas nos métodos estatísticos e híbridos para indicar a relevância de termos no domínio são a informação mútua, o log-likelihood, o coeficiente dice e a freqüência. Os métodos propostos foram avaliados pelas medidas de precisão, revocação e medida F, utilizando uma lista de referência da área de Revestimentos Cerâmicos. Os melhores resultados da precisão são do método híbrido para unigramas (7%), bigramas (17%) e trigramas (26%), enquanto que a revocação é melhor nos métodos puramente lingüísticos tanto para unigramas (95%) como para bigramas (90%) e trigramas (100%). Os melhores valores da medida F foram dos métodos híbridos (11%, 17% e 33% para uni, bi e trigramas, respectivamente). Esses valores, embora tenham se apresentado os mais relevantes, foram bastante inferiores àqueles normalmente encontrados na literatura que trata da EAT, cujo desempenho obtido para essa tarefa fica em torno de 60%. Esses valores motivam a busca e implementação de métodos mais avançados para tratar o português, bem como a obtenção de recursos mais elaborados, a fim de encontrar resultados mais significantes para essa tarefa, facilitando, conseqüentemente o trabalho do especialista da área, que vai analisar os candidatos a termos extraídos pelos métodos automáticos, visto que é possível fornecer a ele informações mais precisas (poucas palavras da língua geral) e completas (uma maior quantidade de termos) sobre o córpus considerado. / During the last decades, the great advance in science and technology and their inventions, new materials, equipment and methods had as one result the necessity of creation of new names, called here terms, and alterations on their meanings, to name adequately these advances, mainly in areas as Computer Science, Genetics and Medicine. Considering that the development of terminological lists is an arduous work if manually executed, computational linguists, applied linguists, translators, interpreters and scientific journalists have been interested on automatic extraction of terminologies (AET) from texts. The sudden growing of data available on the Web was a contributing factor to facilitate the construction of electronic corpus of technical and scientific texts, providing implementation of AET methods. AET is very important for every sort of Natural Language Processing (NLP) applications that works on specialized domains and, consequently, needs special vocabulary. The purpose of this MS project was to evaluate AET methods for Brazilian Portuguese particularly, which is a language still in need of development of automatic treatment for terminology. Specifically, AET methods with statistic, linguistic and hybrid approaches were implemented and evaluated for unigrams, bigrams and trigrams for a corpus of texts in the domain of Ceramic Tiles. These methods use simple resources as (a) stoplist to eliminate words as adverbs, (b) syntactic patterns for terms from the domain, as, for instance, &ltsubstantive adjective&gt, &ltsubstantive preposition adjective&gt, considered after the application of a tagger Part-Of-Speech, (c) list of expressions and words typical of definitions, descriptions and classifications, like, for instance, 'defined as', 'characterized as', 'known as', 'that means', among others that concentrate terms. The statistic measures used by statistic and hybrid methods to indicate the terms relevance in the domain are mutual information, log-likelihood, dice coefficient, and frequency. The methods proposed were evaluated by precision, recall and F-measure, using a reference list in the area of Ceramic Tiles. The best results for precision are from the hybrid method for unigrams (7%), bigrams (17%) and trigrams (26%), while for recall the best results are from purely linguistic methods for unigrams (95%) as well as for bigrams (90%) and trigrams (100%). The best values for F-measure are from hybrid methods (11%, 17% and 33% for uni, bi and trigrams, respectively). These values, although presented as the most relevant ones, were quite inferior when compared to those commonly found in the literature concerned with AET, whose performance obtained for this task is around 60%. These values motivate the search and implementation of more advanced methods for Portuguese treatment, as well as the obtainment of more elaborated resources, in order to find more significant results for this task. In this way, the work of analysis of possible terms extracted by automatic methods done by the specialist of the area becomes much easier, since it is possible to provide him/her more precise (few word from general language) and complete (greater number of terms) information about the corpus under consideration. bigramas candidato(s) termo(s) trigramas unigramas
2	"Avaliação de métodos para a extração automática de terminologia de textos em português" Maria Fernanda Teline 19 March 2004 (has links) Nas últimas décadas, o grande avanço da ciência e tecnologia com suas invenções, novos materiais, equipamentos e métodos gerou a necessidade da criação de novos nomes, chamados aqui de termos, e alterações nos seus significados, para nomear adequadamente esses avanços, principalmente em áreas dinâmicas como a Ciência da Computação, a Genética e a Medicina. Dado que o desenvolvimento de repertórios terminológicos é um trabalho difícil quando realizado manualmente, lingüistas computacionais, lingüistas aplicados, tradutores, intérpretes, jornalistas científicos têm se interessado pela extração automática de terminologias (EAT) de textos. O crescimento explosivo de dados do tipo texto disponíveis na Web foi um fator contribuinte para a facilidade na construção de córpus eletrônicos de textos técnicos e científicos, propiciando a implementação de métodos de EAT. A EAT tem sido de grande interesse para todos os tipos de aplicações do Processamento de Línguas Naturais (PLN) que trabalham com domínios especializados e que, conseqüentemente, necessitam de um vocabulário especial. O objetivo desse projeto de mestrado foi avaliar métodos de EAT para o português do Brasil, ainda carente do tratamento automatizado para a criação de terminologias. Especificamente, foram implementados e avaliados métodos de EAT das abordagens estatística, lingüística e híbrida para unigramas, bigramas e trigramas a partir de um córpus de textos do domínio de Revestimentos Cerâmicos. Esses métodos empregam recursos simples como (a) uma stoplist para eliminar palavras como advérbios, (b) padrões sintáticos para os termos do domínio, por exemplo &ltsubstantivo adjetivo&gt, &ltsubstantivo preposição adjetivo&gt, levantados após a aplicação de um etiquetador Part-Of-Speech, (c) uma lista de expressões e palavras características de definições, descrições, classificações como 'definido(a)(s) como', 'caracterizado(a)', 'conhecido(a)(s) como', 'significa(m)', entre outras que são concentradoras de termos. As medidas estatísticas utilizadas nos métodos estatísticos e híbridos para indicar a relevância de termos no domínio são a informação mútua, o log-likelihood, o coeficiente dice e a freqüência. Os métodos propostos foram avaliados pelas medidas de precisão, revocação e medida F, utilizando uma lista de referência da área de Revestimentos Cerâmicos. Os melhores resultados da precisão são do método híbrido para unigramas (7%), bigramas (17%) e trigramas (26%), enquanto que a revocação é melhor nos métodos puramente lingüísticos tanto para unigramas (95%) como para bigramas (90%) e trigramas (100%). Os melhores valores da medida F foram dos métodos híbridos (11%, 17% e 33% para uni, bi e trigramas, respectivamente). Esses valores, embora tenham se apresentado os mais relevantes, foram bastante inferiores àqueles normalmente encontrados na literatura que trata da EAT, cujo desempenho obtido para essa tarefa fica em torno de 60%. Esses valores motivam a busca e implementação de métodos mais avançados para tratar o português, bem como a obtenção de recursos mais elaborados, a fim de encontrar resultados mais significantes para essa tarefa, facilitando, conseqüentemente o trabalho do especialista da área, que vai analisar os candidatos a termos extraídos pelos métodos automáticos, visto que é possível fornecer a ele informações mais precisas (poucas palavras da língua geral) e completas (uma maior quantidade de termos) sobre o córpus considerado. / During the last decades, the great advance in science and technology and their inventions, new materials, equipment and methods had as one result the necessity of creation of new names, called here terms, and alterations on their meanings, to name adequately these advances, mainly in areas as Computer Science, Genetics and Medicine. Considering that the development of terminological lists is an arduous work if manually executed, computational linguists, applied linguists, translators, interpreters and scientific journalists have been interested on automatic extraction of terminologies (AET) from texts. The sudden growing of data available on the Web was a contributing factor to facilitate the construction of electronic corpus of technical and scientific texts, providing implementation of AET methods. AET is very important for every sort of Natural Language Processing (NLP) applications that works on specialized domains and, consequently, needs special vocabulary. The purpose of this MS project was to evaluate AET methods for Brazilian Portuguese particularly, which is a language still in need of development of automatic treatment for terminology. Specifically, AET methods with statistic, linguistic and hybrid approaches were implemented and evaluated for unigrams, bigrams and trigrams for a corpus of texts in the domain of Ceramic Tiles. These methods use simple resources as (a) stoplist to eliminate words as adverbs, (b) syntactic patterns for terms from the domain, as, for instance, &ltsubstantive adjective&gt, &ltsubstantive preposition adjective&gt, considered after the application of a tagger Part-Of-Speech, (c) list of expressions and words typical of definitions, descriptions and classifications, like, for instance, 'defined as', 'characterized as', 'known as', 'that means', among others that concentrate terms. The statistic measures used by statistic and hybrid methods to indicate the terms relevance in the domain are mutual information, log-likelihood, dice coefficient, and frequency. The methods proposed were evaluated by precision, recall and F-measure, using a reference list in the area of Ceramic Tiles. The best results for precision are from the hybrid method for unigrams (7%), bigrams (17%) and trigrams (26%), while for recall the best results are from purely linguistic methods for unigrams (95%) as well as for bigrams (90%) and trigrams (100%). The best values for F-measure are from hybrid methods (11%, 17% and 33% for uni, bi and trigrams, respectively). These values, although presented as the most relevant ones, were quite inferior when compared to those commonly found in the literature concerned with AET, whose performance obtained for this task is around 60%. These values motivate the search and implementation of more advanced methods for Portuguese treatment, as well as the obtainment of more elaborated resources, in order to find more significant results for this task. In this way, the work of analysis of possible terms extracted by automatic methods done by the specialist of the area becomes much easier, since it is possible to provide him/her more precise (few word from general language) and complete (greater number of terms) information about the corpus under consideration. bigramas candidato(s) termo(s) trigramas unigramas
3	Aprendizado semissupervisionado multidescrição em classificação de textos / Multi-view semi-supervised learning in text classification Braga, Ígor Assis 23 April 2010 (has links) Algoritmos de aprendizado semissupervisionado aprendem a partir de uma combinação de dados rotulados e não rotulados. Assim, eles podem ser aplicados em domínios em que poucos exemplos rotulados e uma vasta quantidade de exemplos não rotulados estão disponíveis. Além disso, os algoritmos semissupervisionados podem atingir um desempenho superior aos algoritmos supervisionados treinados nos mesmos poucos exemplos rotulados. Uma poderosa abordagem ao aprendizado semissupervisionado, denominada aprendizado multidescrição, pode ser usada sempre que os exemplos de treinamento são descritos por dois ou mais conjuntos de atributos disjuntos. A classificação de textos é um domínio de aplicação no qual algoritmos semissupervisionados vêm obtendo sucesso. No entanto, o aprendizado semissupervisionado multidescrição ainda não foi bem explorado nesse domínio dadas as diversas maneiras possíveis de se descrever bases de textos. O objetivo neste trabalho é analisar o desempenho de algoritmos semissupervisionados multidescrição na classificação de textos, usando unigramas e bigramas para compor duas descrições distintas de documentos textuais. Assim, é considerado inicialmente o difundido algoritmo multidescrição CO-TRAINING, para o qual são propostas modificações a fim de se tratar o problema dos pontos de contenção. É também proposto o algoritmo COAL, o qual pode melhorar ainda mais o algoritmo CO-TRAINING pela incorporação de aprendizado ativo como uma maneira de tratar pontos de contenção. Uma ampla avaliação experimental desses algoritmos foi conduzida em bases de textos reais. Os resultados mostram que o algoritmo COAL, usando unigramas como uma descrição das bases textuais e bigramas como uma outra descrição, atinge um desempenho significativamente melhor que um algoritmo semissupervisionado monodescrição. Levando em consideração os bons resultados obtidos por COAL, conclui-se que o uso de unigramas e bigramas como duas descrições distintas de bases de textos pode ser bastante compensador / Semi-supervised learning algorithms learn from a combination of both labeled and unlabeled data. Thus, they can be applied in domains where few labeled examples and a vast amount of unlabeled examples are available. Furthermore, semi-supervised learning algorithms may achieve a better performance than supervised learning algorithms trained on the same few labeled examples. A powerful approach to semi-supervised learning, called multi-view learning, can be used whenever the training examples are described by two or more disjoint sets of attributes. Text classification is a domain in which semi-supervised learning algorithms have shown some success. However, multi-view semi-supervised learning has not yet been well explored in this domain despite the possibility of describing textual documents in a myriad of ways. The aim of this work is to analyze the effectiveness of multi-view semi-supervised learning in text classification using unigrams and bigrams as two distinct descriptions of text documents. To this end, we initially consider the widely adopted CO-TRAINING multi-view algorithm and propose some modifications to it in order to deal with the problem of contention points. We also propose the COAL algorithm, which further improves CO-TRAINING by incorporating active learning as a way of dealing with contention points. A thorough experimental evaluation of these algorithms was conducted on real text data sets. The results show that the COAL algorithm, using unigrams as one description of text documents and bigrams as another description, achieves significantly better performance than a single-view semi-supervised algorithm. Taking into account the good results obtained by COAL, we conclude that the use of unigrams and bigrams as two distinct descriptions of text documents can be very effective Aprendizado de máquina Aprendizado multidescrição Aprendizado semissupervisionado Bigrams Biogramas Classificação de textos Co-training Co-Training cial Coal Machine learning Multi-view learning Self-training Self-training Semi-supervised learning Text classification Unigramas Unigrams
4	Aprendizado semissupervisionado multidescrição em classificação de textos / Multi-view semi-supervised learning in text classification Ígor Assis Braga 23 April 2010 (has links) Algoritmos de aprendizado semissupervisionado aprendem a partir de uma combinação de dados rotulados e não rotulados. Assim, eles podem ser aplicados em domínios em que poucos exemplos rotulados e uma vasta quantidade de exemplos não rotulados estão disponíveis. Além disso, os algoritmos semissupervisionados podem atingir um desempenho superior aos algoritmos supervisionados treinados nos mesmos poucos exemplos rotulados. Uma poderosa abordagem ao aprendizado semissupervisionado, denominada aprendizado multidescrição, pode ser usada sempre que os exemplos de treinamento são descritos por dois ou mais conjuntos de atributos disjuntos. A classificação de textos é um domínio de aplicação no qual algoritmos semissupervisionados vêm obtendo sucesso. No entanto, o aprendizado semissupervisionado multidescrição ainda não foi bem explorado nesse domínio dadas as diversas maneiras possíveis de se descrever bases de textos. O objetivo neste trabalho é analisar o desempenho de algoritmos semissupervisionados multidescrição na classificação de textos, usando unigramas e bigramas para compor duas descrições distintas de documentos textuais. Assim, é considerado inicialmente o difundido algoritmo multidescrição CO-TRAINING, para o qual são propostas modificações a fim de se tratar o problema dos pontos de contenção. É também proposto o algoritmo COAL, o qual pode melhorar ainda mais o algoritmo CO-TRAINING pela incorporação de aprendizado ativo como uma maneira de tratar pontos de contenção. Uma ampla avaliação experimental desses algoritmos foi conduzida em bases de textos reais. Os resultados mostram que o algoritmo COAL, usando unigramas como uma descrição das bases textuais e bigramas como uma outra descrição, atinge um desempenho significativamente melhor que um algoritmo semissupervisionado monodescrição. Levando em consideração os bons resultados obtidos por COAL, conclui-se que o uso de unigramas e bigramas como duas descrições distintas de bases de textos pode ser bastante compensador / Semi-supervised learning algorithms learn from a combination of both labeled and unlabeled data. Thus, they can be applied in domains where few labeled examples and a vast amount of unlabeled examples are available. Furthermore, semi-supervised learning algorithms may achieve a better performance than supervised learning algorithms trained on the same few labeled examples. A powerful approach to semi-supervised learning, called multi-view learning, can be used whenever the training examples are described by two or more disjoint sets of attributes. Text classification is a domain in which semi-supervised learning algorithms have shown some success. However, multi-view semi-supervised learning has not yet been well explored in this domain despite the possibility of describing textual documents in a myriad of ways. The aim of this work is to analyze the effectiveness of multi-view semi-supervised learning in text classification using unigrams and bigrams as two distinct descriptions of text documents. To this end, we initially consider the widely adopted CO-TRAINING multi-view algorithm and propose some modifications to it in order to deal with the problem of contention points. We also propose the COAL algorithm, which further improves CO-TRAINING by incorporating active learning as a way of dealing with contention points. A thorough experimental evaluation of these algorithms was conducted on real text data sets. The results show that the COAL algorithm, using unigrams as one description of text documents and bigrams as another description, achieves significantly better performance than a single-view semi-supervised algorithm. Taking into account the good results obtained by COAL, we conclude that the use of unigrams and bigrams as two distinct descriptions of text documents can be very effective Aprendizado de máquina Aprendizado multidescrição Aprendizado semissupervisionado Biogramas Classificação de textos Co-Training cial Self-training Unigramas Bigrams Co-training Coal Machine learning Multi-view learning Self-training Semi-supervised learning Text classification Unigrams

1

Page generated in 0.0501 seconds