1 |
Técnicas de classificação textual utilizando grafos / Text classification techniques using graphsSilva, Allef Páblo Araújo da 15 March 2019 (has links)
O grande volume de informação textual sendo gerado a todo momento torna necessário o aprimoramento constante de sistemas capazes de classificar textos em categorias específicas. Essa categorização visa, por exemplo, separar notícias indexadas por mecanismos de buscas, identificar a autoria de livros e cartas antigas ou detectar plágio em artigos científicos. As técnicas de classificação textual existentes, baseadas em conteúdo, apesar de conseguirem uma boa performance quantitativamente, ainda apresentam dificuldades em lidar com aspectos semânticos presentes nos textos escritos em língua natural. Neste sentido, abordagens alternativas vem sendo propostas, como as baseadas em redes complexas, que levam em consideração apenas o relacionamento entre as palavras. Neste estudo, aplicamos a modelagem de textos como redes complexas e utilizamos as métricas extraídas como atributos para classificação, utilizando um problema de reconhecimento de autoria para ilustrar a aplicação das técnicas descritas ao longo deste texto / The large volume of textual information being generated at all times makes it necessary to constantly improve systems capable of classifying texts into specific categories. This categorization aims, for example, to separate news items indexed by search engines, identify authorship of old books and letters, or detect plagiarism in scientific articles. Existing textual classification techniques, based on content, despite achieving good quantitative performance, still present difficulties in dealing with semantic aspects present in texts written in natural language. In this sense, alternative approaches have been proposed, such as those based on complex networks, which take into account only the relationship between words. In this study, we applied text modeling as graphs and extracted metrics typically used in the study of complex networks to be used as classifier attributes. To illustrate these techniques, a problem of authorship recognition in small texts was chosen as an example
|
2 |
Classificação de textos com redes complexas / Using complex networks to classify textsAmancio, Diego Raphael 29 October 2013 (has links)
A classificação automática de textos em categorias pré-estabelecidas tem despertado grande interesse nos últimos anos devido à necessidade de organização do número crescente de documentos. A abordagem dominante para classificação é baseada na análise de conteúdo dos textos. Nesta tese, investigamos a aplicabilidade de atributos de estilo em tarefas tradicionais de classificação, usando a modelagem de textos como redes complexas, em que os vértices representam palavras e arestas representam relações de adjacência. Estudamos como métricas topológicas podem ser úteis no processamento de línguas naturais, sendo a tarefa de classificação apoiada por métodos de aprendizado de máquina, supervisionado e não supervisionado. Um estudo detalhado das métricas topológicas revelou que várias delas são informativas, por permitirem distinguir textos escritos em língua natural de textos com palavras distribuídas aleatoriamente. Mostramos também que a maioria das medidas de rede depende de fatores sintáticos, enquanto medidas de intermitência são mais sensíveis à semântica. Com relação à aplicabilidade da modelagem de textos como redes complexas, mostramos que existe uma dependência significativa entre estilo de autores e topologia da rede. Para a tarefa de reconhecimento de autoria de 40 romances escritos por 8 autores, uma taxa de acerto de 65% foi obtida com métricas de rede e intermitência de palavras. Ainda na análise de estilo, descobrimos que livros pertencentes ao mesmo estilo literário tendem a possuir estruturas topológicas similares. A modelagem de textos como redes também foi útil para discriminar sentidos de palavras ambíguas, a partir apenas de informação topológica dos vértices, evidenciando uma relação não trivial entre sintaxe e semântica. Para algumas palavras, a discriminação com redes complexas foi ainda melhor que a estratégia baseada em padrões de recorrência contextual de palavras polissêmicas. Os estudos desenvolvidos nesta tese confirmam que aspectos de estilo e semânticos influenciam na organização estrutural de conceitos em textos modelados como rede. Assim, a modelagem de textos como redes de adjacência de palavras pode ser útil não apenas para entender mecanismos fundamentais da linguagem, mas também para aperfeiçoar aplicações reais quando combinada com métodos tradicionais de processamento de texto. / The automatic classification of texts in pre-established categories is drawing increasing interest owing to the need to organize the ever growing number of electronic documents. The prevailing approach for classification is based on analysis of textual contents. In this thesis, we investigate the applicability of attributes based on textual style using the complex network (CN) representation, where nodes represent words and edges are adjacency relations. We studied the suitability of CN measurements for natural language processing tasks, with classification being assisted by supervised and unsupervised machine learning methods. A detailed study of topological measurements in texts revealed that several measurements are informative in the sense that they are able to distinguish meaningful from shuffled texts. Moreover, most measurements depend on syntactic factors, while intermittency measurements are more sensitive to semantic factors. As for the use of the CN model in practical scenarios, there is significant correlation between authors style and network topology. We achieved an accuracy rate of 65% in discriminating eight authors of novels with the use of network and intermittency measurements. During the stylistic analysis, we also found that books belonging to the same literary movement could be identified from their similar topological features. The network model also proved useful for disambiguating word senses. Upon employing only topological information to characterize nodes representing polysemous words, we found a strong relationship between syntax and semantics. For several words, the CN approach performed surprisingly better than the method based on recurrence patterns of neighboring words. The studies carried out in this thesis confirm that stylistic and semantic aspects play a crucial role in the structural organization of word adjacency networks. The word adjacency model investigated here might be useful not only to provide insight into the underlying mechanisms of the language, but also to enhance the performance of real applications implementing both CN and traditional approaches.
|
3 |
Classificação de textos com redes complexas / Using complex networks to classify textsDiego Raphael Amancio 29 October 2013 (has links)
A classificação automática de textos em categorias pré-estabelecidas tem despertado grande interesse nos últimos anos devido à necessidade de organização do número crescente de documentos. A abordagem dominante para classificação é baseada na análise de conteúdo dos textos. Nesta tese, investigamos a aplicabilidade de atributos de estilo em tarefas tradicionais de classificação, usando a modelagem de textos como redes complexas, em que os vértices representam palavras e arestas representam relações de adjacência. Estudamos como métricas topológicas podem ser úteis no processamento de línguas naturais, sendo a tarefa de classificação apoiada por métodos de aprendizado de máquina, supervisionado e não supervisionado. Um estudo detalhado das métricas topológicas revelou que várias delas são informativas, por permitirem distinguir textos escritos em língua natural de textos com palavras distribuídas aleatoriamente. Mostramos também que a maioria das medidas de rede depende de fatores sintáticos, enquanto medidas de intermitência são mais sensíveis à semântica. Com relação à aplicabilidade da modelagem de textos como redes complexas, mostramos que existe uma dependência significativa entre estilo de autores e topologia da rede. Para a tarefa de reconhecimento de autoria de 40 romances escritos por 8 autores, uma taxa de acerto de 65% foi obtida com métricas de rede e intermitência de palavras. Ainda na análise de estilo, descobrimos que livros pertencentes ao mesmo estilo literário tendem a possuir estruturas topológicas similares. A modelagem de textos como redes também foi útil para discriminar sentidos de palavras ambíguas, a partir apenas de informação topológica dos vértices, evidenciando uma relação não trivial entre sintaxe e semântica. Para algumas palavras, a discriminação com redes complexas foi ainda melhor que a estratégia baseada em padrões de recorrência contextual de palavras polissêmicas. Os estudos desenvolvidos nesta tese confirmam que aspectos de estilo e semânticos influenciam na organização estrutural de conceitos em textos modelados como rede. Assim, a modelagem de textos como redes de adjacência de palavras pode ser útil não apenas para entender mecanismos fundamentais da linguagem, mas também para aperfeiçoar aplicações reais quando combinada com métodos tradicionais de processamento de texto. / The automatic classification of texts in pre-established categories is drawing increasing interest owing to the need to organize the ever growing number of electronic documents. The prevailing approach for classification is based on analysis of textual contents. In this thesis, we investigate the applicability of attributes based on textual style using the complex network (CN) representation, where nodes represent words and edges are adjacency relations. We studied the suitability of CN measurements for natural language processing tasks, with classification being assisted by supervised and unsupervised machine learning methods. A detailed study of topological measurements in texts revealed that several measurements are informative in the sense that they are able to distinguish meaningful from shuffled texts. Moreover, most measurements depend on syntactic factors, while intermittency measurements are more sensitive to semantic factors. As for the use of the CN model in practical scenarios, there is significant correlation between authors style and network topology. We achieved an accuracy rate of 65% in discriminating eight authors of novels with the use of network and intermittency measurements. During the stylistic analysis, we also found that books belonging to the same literary movement could be identified from their similar topological features. The network model also proved useful for disambiguating word senses. Upon employing only topological information to characterize nodes representing polysemous words, we found a strong relationship between syntax and semantics. For several words, the CN approach performed surprisingly better than the method based on recurrence patterns of neighboring words. The studies carried out in this thesis confirm that stylistic and semantic aspects play a crucial role in the structural organization of word adjacency networks. The word adjacency model investigated here might be useful not only to provide insight into the underlying mechanisms of the language, but also to enhance the performance of real applications implementing both CN and traditional approaches.
|
4 |
Coh-Metrix-Dementia: análise automática de distúrbios de linguagem nas demências utilizando Processamento de Línguas Naturais / Coh-Metrix-Dementia: automatic analysis of language impairment in dementia using Natural Language ProcessingCunha, Andre Luiz Verucci da 27 October 2015 (has links)
(Contexto) Segundo a Organização Mundial da Saúde, as demências são um problema de custo social elevado, cujo manejo é um desafio para as próximas décadas. Demências comuns incluem a Doença de Alzheimer (DA), bastante conhecida. Outra síndrome menos conhecida, o Comprometimento Cognitivo Leve (CCL), é relevante por ser o estágio inicial clinicamente definido da DA. Embora o CCL não seja tão conhecido do público, pessoas com um tipo especial dessa síndrome, o CCL amnéstico, evoluem para a DA a uma taxa bastante maior que a da população em geral. O diagnóstico das demências e síndromes relacionadas é feito com base na análise de aspectos linguísticos e cognitivos do paciente. Testes clássicos incluem testes de fluência, nomeação, e repetição. Entretanto, pesquisas recentes têm reconhecido cada vez mais a importância da análise da produção discursiva, especialmente de narrativas, como uma alternativa mais adequada, principalmente para a detecção do CCL. (Lacuna) Enquanto uma análise qualitativa do discurso pode revelar o tipo da doença apresentada pelo paciente, uma análise quantitativa é capaz de revelar a intensidade do dano cerebral existente. A grande dificuldade de análises quantitativas de discurso é sua exigência de esforços: o processo de análise rigorosa e detalhada da produção oral é bastante laborioso, o que dificulta sua adoção em larga escala. Nesse cenário, análises computadorizadas despontam como uma solução de interesse. Ferramentas de análise automática de discurso com vistas ao diagnóstico de demências de linguagem já existem para o inglês, mas nenhum trabalho nesse sentido foi feito para o português até o presente momento. (Objetivo) Este projeto visa criar um ambiente unificado, intitulado Coh-Metrix-Dementia, que se valerá de recursos e ferramentas de Processamento de Línguas Naturais (PLN) e de Aprendizado de Máquina para possibilitar a análise e o reconhecimento automatizados de demências, com foco inicial na DA e no CCL. (Hipótese) Tendo como base o ambiente Coh-Metrix adaptado para o português do Brasil, denominado Coh-Metrix-Port, e incluindo a adaptação para o português e inserção de vinte e cinco novas métricas para calcular a complexidade sintática, a densidade de ideias, e a coerência textual, via semântica latente, é possível classificar narrativas de sujeitos normais, com DA, e com CCL, em uma abordagem de aprendizado de máquina, com precisão comparável a dos testes clássicos. (Conclusão) Nos resultados experimentais, foi possível separar os pacientes entre controles, CCL, e DA com medida F de 81,7%, e separar controles e CCL com medida F de 90%. Os resultados indicam que o uso das métricas da ferramenta Coh-Metrix-Dementia é bastante promissor como recurso na detecção precoce de declínio nas habilidades de linguagem. / (Backgroung) According to the World Health Organization, dementia is a costly social issue, whose management will be a challenge on the coming decades. One common form of dementia is Alzheimers Disease (AD). Another less known syndrome, Mild Cognitive Impairment (MCI), is relevant for being the initial clinically defined stage of AD. Even though MCI is less known by the public, patients with a particular variant of this syndrome, Amestic MCI, evolve to AD in a considerably larger proportion than that of the general population. The diagnosis of dementia and related syndromes is based on the analysis of linguistic and cognitive aspects. Classical exams include fluency, naming, and repetition tests. However, recent research has been recognizing the importance of discourse analysis, specially narrative-based, as a more suitable alternative, specially for MCI detection. (Gap) While qualitative discourse analyses can determine the nature of the patients disease, quantitative analyses can reveal the extent of the existing brain damage. The greatest challenge in quantitative discourse analyses is that a rigorous and thorough evaluation of oral production is very labor-intensive, which hinders its large-scale adoption. In this scenario, computerized analyses become of increasing interest. Automated discourse analysis tools aiming at the diagnosis of language-impairing dementias already exist for the English language, but no such work has been made for Brasilian Portuguese so far. (Goal) This project aims to create a unified environment, entitled Coh-Metrix-Dementia, that will make use of Natural Language Processing and Machine Learning resources and tools to enable automated dementia analysis and classification, initially focusing on AD and MCI. (Hypothesis) Basing our work on Coh-Metrix-Port, the Brazilian Portuguese adaption of Coh-Metrix, and including the adaptation and inclusion of twenty-five new metrics for measuring syntactical complexity, idea density, and text cohesion through latent semantics, it is possible to classify narratives of healthy, AD, and MCI patients, in a machine learning approach, with a precision comparable to classical tests. (Conclusion) In our experiments, it was possible to separate patients in controls, DA, and CCL with 81.7% F-measure, and separate controls and CCL with 90% F-measure. These results indicate that Coh-Metrix-Dementia is a very promising resource in the early detection of language impairment.
|
5 |
Coh-Metrix-Dementia: análise automática de distúrbios de linguagem nas demências utilizando Processamento de Línguas Naturais / Coh-Metrix-Dementia: automatic analysis of language impairment in dementia using Natural Language ProcessingAndre Luiz Verucci da Cunha 27 October 2015 (has links)
(Contexto) Segundo a Organização Mundial da Saúde, as demências são um problema de custo social elevado, cujo manejo é um desafio para as próximas décadas. Demências comuns incluem a Doença de Alzheimer (DA), bastante conhecida. Outra síndrome menos conhecida, o Comprometimento Cognitivo Leve (CCL), é relevante por ser o estágio inicial clinicamente definido da DA. Embora o CCL não seja tão conhecido do público, pessoas com um tipo especial dessa síndrome, o CCL amnéstico, evoluem para a DA a uma taxa bastante maior que a da população em geral. O diagnóstico das demências e síndromes relacionadas é feito com base na análise de aspectos linguísticos e cognitivos do paciente. Testes clássicos incluem testes de fluência, nomeação, e repetição. Entretanto, pesquisas recentes têm reconhecido cada vez mais a importância da análise da produção discursiva, especialmente de narrativas, como uma alternativa mais adequada, principalmente para a detecção do CCL. (Lacuna) Enquanto uma análise qualitativa do discurso pode revelar o tipo da doença apresentada pelo paciente, uma análise quantitativa é capaz de revelar a intensidade do dano cerebral existente. A grande dificuldade de análises quantitativas de discurso é sua exigência de esforços: o processo de análise rigorosa e detalhada da produção oral é bastante laborioso, o que dificulta sua adoção em larga escala. Nesse cenário, análises computadorizadas despontam como uma solução de interesse. Ferramentas de análise automática de discurso com vistas ao diagnóstico de demências de linguagem já existem para o inglês, mas nenhum trabalho nesse sentido foi feito para o português até o presente momento. (Objetivo) Este projeto visa criar um ambiente unificado, intitulado Coh-Metrix-Dementia, que se valerá de recursos e ferramentas de Processamento de Línguas Naturais (PLN) e de Aprendizado de Máquina para possibilitar a análise e o reconhecimento automatizados de demências, com foco inicial na DA e no CCL. (Hipótese) Tendo como base o ambiente Coh-Metrix adaptado para o português do Brasil, denominado Coh-Metrix-Port, e incluindo a adaptação para o português e inserção de vinte e cinco novas métricas para calcular a complexidade sintática, a densidade de ideias, e a coerência textual, via semântica latente, é possível classificar narrativas de sujeitos normais, com DA, e com CCL, em uma abordagem de aprendizado de máquina, com precisão comparável a dos testes clássicos. (Conclusão) Nos resultados experimentais, foi possível separar os pacientes entre controles, CCL, e DA com medida F de 81,7%, e separar controles e CCL com medida F de 90%. Os resultados indicam que o uso das métricas da ferramenta Coh-Metrix-Dementia é bastante promissor como recurso na detecção precoce de declínio nas habilidades de linguagem. / (Backgroung) According to the World Health Organization, dementia is a costly social issue, whose management will be a challenge on the coming decades. One common form of dementia is Alzheimers Disease (AD). Another less known syndrome, Mild Cognitive Impairment (MCI), is relevant for being the initial clinically defined stage of AD. Even though MCI is less known by the public, patients with a particular variant of this syndrome, Amestic MCI, evolve to AD in a considerably larger proportion than that of the general population. The diagnosis of dementia and related syndromes is based on the analysis of linguistic and cognitive aspects. Classical exams include fluency, naming, and repetition tests. However, recent research has been recognizing the importance of discourse analysis, specially narrative-based, as a more suitable alternative, specially for MCI detection. (Gap) While qualitative discourse analyses can determine the nature of the patients disease, quantitative analyses can reveal the extent of the existing brain damage. The greatest challenge in quantitative discourse analyses is that a rigorous and thorough evaluation of oral production is very labor-intensive, which hinders its large-scale adoption. In this scenario, computerized analyses become of increasing interest. Automated discourse analysis tools aiming at the diagnosis of language-impairing dementias already exist for the English language, but no such work has been made for Brasilian Portuguese so far. (Goal) This project aims to create a unified environment, entitled Coh-Metrix-Dementia, that will make use of Natural Language Processing and Machine Learning resources and tools to enable automated dementia analysis and classification, initially focusing on AD and MCI. (Hypothesis) Basing our work on Coh-Metrix-Port, the Brazilian Portuguese adaption of Coh-Metrix, and including the adaptation and inclusion of twenty-five new metrics for measuring syntactical complexity, idea density, and text cohesion through latent semantics, it is possible to classify narratives of healthy, AD, and MCI patients, in a machine learning approach, with a precision comparable to classical tests. (Conclusion) In our experiments, it was possible to separate patients in controls, DA, and CCL with 81.7% F-measure, and separate controls and CCL with 90% F-measure. These results indicate that Coh-Metrix-Dementia is a very promising resource in the early detection of language impairment.
|
6 |
An analysis of hierarchical text classification using word embeddingsStein, Roger Alan 28 March 2018 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2019-03-07T14:41:05Z
No. of bitstreams: 1
Roger Alan Stein_.pdf: 476239 bytes, checksum: a87a32ffe84d0e5d7a882e0db7b03847 (MD5) / Made available in DSpace on 2019-03-07T14:41:05Z (GMT). No. of bitstreams: 1
Roger Alan Stein_.pdf: 476239 bytes, checksum: a87a32ffe84d0e5d7a882e0db7b03847 (MD5)
Previous issue date: 2018-03-28 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Efficient distributed numerical word representation models (word embeddings) combined with modern machine learning algorithms have recently yielded considerable improvement on automatic document classification tasks. However, the effectiveness of such techniques has
not been assessed for the hierarchical text classification (HTC) yet. This study investigates application of those models and algorithms on this specific problem by means of experimentation and analysis. Classification models were trained with prominent machine learning algorithm implementations—fastText, XGBoost, and Keras’ CNN—and noticeable word embeddings generation methods—GloVe, word2vec, and fastText—with publicly available data and evaluated them with measures specifically appropriate for the hierarchical context. FastText achieved an LCAF1 of 0.871 on a single-labeled version of the RCV1 dataset. The results analysis indicates that using word embeddings is a very promising approach for HTC. / Modelos eficientes de representação numérica textual (word embeddings) combinados com algoritmos modernos de aprendizado de máquina têm recentemente produzido uma melhoria considerável em tarefas de classificação automática de documentos. Contudo, a efetividade de tais técnicas ainda não foi avaliada com relação à classificação hierárquica de texto. Este estudo investiga a aplicação daqueles modelos e algoritmos neste problema em específico através de experimentação e análise. Modelos de classificação foram treinados usando implementações proeminentes de algoritmos de aprendizado de máquina—fastText, XGBoost e CNN (Keras)— e notórios métodos de geração de word embeddings—GloVe, word2vec e fastText—com dados disponíveis publicamente e avaliados usando métricas especificamente adequadas ao contexto hierárquico. Nesses experimentos, fastText alcançou um LCAF1 de 0,871 usando uma versão da base de dados RCV1 com apenas uma categoria por tupla. A análise dos resultados indica que a utilização de word embeddings é uma abordagem muito promissora para classificação hierárquica de texto.
|
Page generated in 0.097 seconds