Spelling suggestions: "subject:"agrupamento dde texto"" "subject:"agrupamento dee texto""
1 |
Uso de informações lingüísticas na etapa de pré - processamento em mineração de textosSilva, Cassiana Fagundes da 27 February 2004 (has links)
Made available in DSpace on 2015-03-05T13:53:43Z (GMT). No. of bitstreams: 0
Previous issue date: 27 / Nenhuma / Este trabalho apresenta estudos, com realização de experimentos e análise de
resultados, da aplicação de informações lingüísticas na etapa de pré-processamento no
processo de Mineração de Textos para as tarefas de Categorização e Agrupamento de
Documentos.
Usualmente, o pré-processamento utilizado no processo de Mineração de Textos
para estas tarefas consiste na remoção de termos irrelevantes (tais como, preposição,
artigos, pronomes, entre outros), normalização morfológica e seleção dos termos (ao
que denominamos baseado em métodos usuais). Propõe-se, ao longo deste trabalho, um
pré-processamento que faz o uso de informações lingüísticas, ou seja, um préprocessamento
baseado em combinações gramaticais, visando avaliar a repercussão do
uso dessas informações nos resultados de tarefas de Mineração de Textos.
Foram realizados diversos experimentos para a validação da abordagem
proposta junto à língua portuguesa. O corpus utilizado nos experimentos consiste de um
extrato do corpus NILC (Núcleo Inter
|
2 |
Redução de características baseada em grupos semânticos aplicados à classificação de textosMARQUES, Elaine Cristina Moreira 17 July 2018 (has links)
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-11-08T12:02:13Z
No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) / Made available in DSpace on 2018-11-08T12:02:13Z (GMT). No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5)
Previous issue date: 2018-07-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The classification of texts is a technique that aims to organize and categorize information,
from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics.
Characteristic selection is widely used in the literature because it has a lower computational
cost compared to other techniques . In this technique, characteristics are selected without
presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others. / A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a
grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo
conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados,
principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras.
|
Page generated in 0.0599 seconds