Spelling suggestions: "subject:"classificação dde textos"" "subject:"classificação dde sextos""
1 |
Recuperação de informação e classificação de entidades organizacionais em textos não estruturadosFrutuoso, Danielle Guedes 28 April 2014 (has links)
Submitted by Haroudo Xavier Filho (haroudo.xavierfo@ufpe.br) on 2015-05-21T18:24:45Z
No. of bitstreams: 1
Dissertação Danielle Guedes Frutuoso.pdf: 1821107 bytes, checksum: 27b0bc0583b46c7a6fc0b2951b6887f3 (MD5) / Made available in DSpace on 2015-05-21T18:24:45Z (GMT). No. of bitstreams: 1
Dissertação Danielle Guedes Frutuoso.pdf: 1821107 bytes, checksum: 27b0bc0583b46c7a6fc0b2951b6887f3 (MD5)
Previous issue date: 2014-04-28 / A explosão de dados na internet deixou de ter foco apenas em grandes empresas para ser amplamente utilizada por usuários comuns. Esse crescimento elevado traz consigo grandes desafios em relação à disponibilização da informação. A natureza descentralizada e desestruturada na qual esses dados estão disponíveis, tornam a tarefa de encontrar, analisar e sintetizar comentários sobre uma dada empresa, produto ou serviço extremamente complicada, ocasionando resultados de baixa qualidade. Esta pesquisa tem como foco a extração de informação de textos livres gerados pela rede social Twitter, onde na maioria das vezes apresentam uma estrutura linguística irregular. Dentre os diversos trabalhos relacionados à extração de informação podemos destacar o Reconhecimento de Entidades Mencionadas (REM), cujo objetivo consiste em localizar e classificar elementos do texto em categorias pré-definidas como Organizações, Pessoas, Local, etc. Neste trabalho será considerada apenas a categoria Organização, com ênfase em palavras homônimas. O experimento deste trabalho foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que no primeiro exige o conhecimento do especialista para determinar todos os atributos considerados relevantes para o aprendizado supervisionado. No segundo cenário, um processo automatizado define parte desses atributos. Os experimentos foram realizados usando a ferramenta Weka onde foram avaliados os classificadores: Naive Bayes, Máquinas de Vetores de Suporte (SVM), K-Vizinhos mais Próximos e Árvores de Decisão. Como medidas de desempenho foram analisadas taxas de acerto, precisão, cobertura e medida-F. Apesar dos resultados apresentados pelos classificadores se mostrarem bastante aproximados, o algoritmo K-Vizinhos mais Próximos obteve em boa parte dos testes melhores resultados. Nos dois cenários os resultados chegaram próximos um do outro, porém o primeiro cenário obteve como resultado médio de acerto, um percentual de 91,7% se destacando em relação à média alcançada de 88,9% para a segunda etapa.
|
2 |
Um sistema de extração de informação em referências bibliográficas baseado em aprendizagem e máquinaFraga do Amaral e Silva, Eduardo January 2004 (has links)
Made available in DSpace on 2014-06-12T15:58:49Z (GMT). No. of bitstreams: 2
arquivo4727_1.pdf: 1069518 bytes, checksum: f7d66b889164069c63fdfafe11edf163 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2004 / Existe atualmente uma gigantesca quantidade de informações disponibilizada em
formato de texto na Internet e nas redes das grandes corporações. Essas informações
encontram-se em um formato não estruturado, dificilmente manipulável por programas
de computador.
A Extração de Informação (EI) tem como objetivo transformar documentos
textuais em um formato estruturado, mapeando a informação contida em um documento
em uma estrutura tabular. Tal estrutura é mais facilmente tratável por programas de
computador, possibilitando assim a sua utilização por variadas aplicações inteligentes .
Dentro da Inteligência Artificial, vemos duas abordagens para tratar o problema da EI:
os sistemas baseados em conhecimento e a aprendizagem automática.
O trabalho apresentado tem como objetivo a construção de um sistema para
extrair informações a partir de textos contendo citações científicas (ou referências
bibliográficas) através de uma abordagem baseada em aprendizagem automática. Dentre
as diversas técnicas existentes, escolhemos tratar o problema através de uma abordagem
híbrida, que combina o uso de técnicas de classificação de textos com os Modelos de
Markov Escondidos (HMM). Esta combinação mostrou resultados superiores aos
obtidos usando exclusivamente as técnicas de classificação e sua idéia básica é gerar
com o uso das técnicas de classificação de textos para EI uma saída inicial para o
sistema e refiná-la depois por meio de um HMM. Experimentos realizados com um
conjunto de teste contendo 3000 referências resultaram em uma precisão de 87,48%.
|
3 |
Aspectos semânticos na representação de textos para classificação automática / Semantic aspects in the representation of texts for automatic classificationSinoara, Roberta Akemi 24 May 2018 (has links)
Dada a grande quantidade e diversidade de dados textuais sendo criados diariamente, as aplicações do processo de Mineração de Textos são inúmeras e variadas. Nesse processo, a qualidade da solução final depende, em parte, do modelo de representação de textos adotado. Por se tratar de textos em língua natural, relações sintáticas e semânticas influenciam o seu significado. No entanto, modelos tradicionais de representação de textos se limitam às palavras, não sendo possível diferenciar documentos que possuem o mesmo vocabulário, mas que apresentam visões diferentes sobre um mesmo assunto. Nesse contexto, este trabalho foi motivado pela diversidade das aplicações da tarefa de classificação automática de textos, pelo potencial das representações no modelo espaço-vetorial e pela lacuna referente ao tratamento da semântica inerente aos dados em língua natural. O seu desenvolvimento teve o propósito geral de avançar as pesquisas da área de Mineração de Textos em relação à incorporação de aspectos semânticos na representação de coleções de documentos. Um mapeamento sistemático da literatura da área foi realizado e os problemas de classificação foram categorizados em relação à complexidade semântica envolvida. Aspectos semânticos foram abordados com a proposta, bem como o desenvolvimento e a avaliação de sete modelos de representação de textos: (i) gBoED, modelo que incorpora a semântica obtida por meio de conhecimento do domínio; (ii) Uni-based, modelo que incorpora a semântica por meio da desambiguação lexical de sentidos e hiperônimos de conceitos; (iii) SR-based Terms e SR-based Sentences, modelos que incorporam a semântica por meio de anotações de papéis semânticos; (iv) NASARIdocs, Babel2Vec e NASARI+Babel2Vec, modelos que incorporam a semântica por meio de desambiguação lexical de sentidos e embeddings de palavras e conceitos. Representações de coleções de documentos geradas com os modelos propostos e outros da literatura foram analisadas e avaliadas na classificação automática de textos, considerando datasets de diferentes níveis de complexidade semântica. As propostas gBoED, Uni-based, SR-based Terms e SR-based Sentences apresentam atributos mais expressivos e possibilitam uma melhor interpretação da representação dos documentos. Já as propostas NASARIdocs, Babel2Vec e NASARI+Babel2Vec incorporam, de maneira latente, a semântica obtida de embeddings geradas a partir de uma grande quantidade de documentos externos. Essa propriedade tem um impacto positivo na performance de classificação. / Text Mining applications are numerous and varied since a huge amount of textual data are created daily. The quality of the final solution of a Text Mining process depends, among other factors, on the adopted text representation model. Despite the fact that syntactic and semantic relations influence natural language meaning, traditional text representation models are limited to words. The use of such models does not allow the differentiation of documents that use the same vocabulary but present different ideas about the same subject. The motivation of this work relies on the diversity of text classification applications, the potential of vector space model representations and the challenge of dealing with text semantics. Having the general purpose of advance the field of semantic representation of documents, we first conducted a systematic mapping study of semantics-concerned Text Mining studies and we categorized classification problems according to their semantic complexity. Then, we approached semantic aspects of texts through the proposal, analysis, and evaluation of seven text representation models: (i) gBoED, which incorporates text semantics by the use of domain expressions; (ii) Uni-based, which takes advantage of word sense disambiguation and hypernym relations; (iii) SR-based Terms and SR-based Sentences, which make use of semantic role labels; (iv) NASARIdocs, Babel2Vec and NASARI+Babel2Vec, which take advantage of word sense disambiguation and embeddings of words and senses.We analyzed the expressiveness and interpretability of the proposed text representation models and evaluated their classification performance against different literature models. While the proposed models gBoED, Uni-based, SR-based Terms and SR-based Sentences have improved expressiveness, the proposals NASARIdocs, Babel2Vec and NASARI+Babel2Vec are latently enriched by the embeddings semantics, obtained from the large training corpus. This property has a positive impact on text classification performance.
|
4 |
Classificação automática de textos por meio de aprendizado de máquina baseado em redes / Text automatic classification through machine learning based on networksRossi, Rafael Geraldeli 26 October 2015 (has links)
Nos dias atuais há uma quantidade massiva de dados textuais sendo produzida e armazenada diariamente na forma de e-mails, relatórios, artigos e postagens em redes sociais ou blogs. Processar, organizar ou gerenciar essa grande quantidade de dados textuais manualmente exige um grande esforço humano, sendo muitas vezes impossível de ser realizado. Além disso, há conhecimento embutido nos dados textuais, e analisar e extrair conhecimento de forma manual também torna-se inviável devido à grande quantidade de textos. Com isso, técnicas computacionais que requerem pouca intervenção humana e que permitem a organização, gerenciamento e extração de conhecimento de grandes quantidades de textos têm ganhado destaque nos últimos anos e vêm sendo aplicadas tanto na academia quanto em empresas e organizações. Dentre as técnicas, destaca-se a classificação automática de textos, cujo objetivo é atribuir rótulos (identificadores de categorias pré-definidos) à documentos textuais ou porções de texto. Uma forma viável de realizar a classificação automática de textos é por meio de algoritmos de aprendizado de máquina, que são capazes de aprender, generalizar, ou ainda extrair padrões das classes das coleções com base no conteúdo e rótulos de documentos textuais. O aprendizado de máquina para a tarefa de classificação automática pode ser de 3 tipos: (i) indutivo supervisionado, que considera apenas documentos rotulados para induzir um modelo de classificação e classificar novos documentos; (ii) transdutivo semissupervisionado, que classifica documentos não rotulados de uma coleção com base em documentos rotulados; e (iii) indutivo semissupervisionado, que considera documentos rotulados e não rotulados para induzir um modelo de classificação e utiliza esse modelo para classificar novos documentos. Independente do tipo, é necessário que as coleções de documentos textuais estejam representadas em um formato estruturado para os algoritmos de aprendizado de máquina. Normalmente os documentos são representados em um modelo espaço-vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a um termo ou atributo da coleção de documentos. Algoritmos baseados no modelo espaço-vetorial consideram que tanto os documentos quanto os termos ou atributos são independentes, o que pode degradar a qualidade da classificação. Uma alternativa à representação no modelo espaço-vetorial é a representação em redes, que permite modelar relações entre entidades de uma coleção de textos, como documento e termos. Esse tipo de representação permite extrair padrões das classes que dificilmente são extraídos por algoritmos baseados no modelo espaço-vetorial, permitindo assim aumentar a performance de classificação. Além disso, a representação em redes permite representar coleções de textos utilizando diferentes tipos de objetos bem como diferentes tipos de relações, o que permite capturar diferentes características das coleções. Entretanto, observa-se na literatura alguns desafios para que se possam combinar algoritmos de aprendizado de máquina e representações de coleções de textos em redes para realizar efetivamente a classificação automática de textos. Os principais desafios abordados neste projeto de doutorado são (i) o desenvolvimento de representações em redes que possam ser geradas eficientemente e que também permitam realizar um aprendizado de maneira eficiente; (ii) redes que considerem diferentes tipos de objetos e relações; (iii) representações em redes de coleções de textos de diferentes línguas e domínios; e (iv) algoritmos de aprendizado de máquina eficientes e que façam um melhor uso das representações em redes para aumentar a qualidade da classificação automática. Neste projeto de doutorado foram propostos e desenvolvidos métodos para gerar redes que representem coleções de textos, independente de domínio e idioma, considerando diferentes tipos de objetos e relações entre esses objetos. Também foram propostos e desenvolvidos algoritmos de aprendizado de máquina indutivo supervisionado, indutivo semissupervisionado e transdutivo semissupervisionado, uma vez que não foram encontrados na literatura algoritmos para lidar com determinados tipos de relações, além de sanar a deficiência dos algoritmos existentes em relação à performance e/ou tempo de classificação. É apresentado nesta tese (i) uma extensa avaliação empírica demonstrando o benefício do uso das representações em redes para a classificação de textos em relação ao modelo espaço-vetorial, (ii) o impacto da combinação de diferentes tipos de relações em uma única rede e (iii) que os algoritmos propostos baseados em redes são capazes de superar a performance de classificação de algoritmos tradicionais e estado da arte tanto considerando algoritmos de aprendizado supervisionado quanto semissupervisionado. As soluções propostas nesta tese demonstraram ser úteis e aconselháveis para serem utilizadas em diversas aplicações que envolvam classificação de textos de diferentes domínios, diferentes características ou para diferentes quantidades de documentos rotulados. / A massive amount of textual data, such as e-mails, reports, articles and posts in social networks or blogs, has been generated and stored on a daily basis. The manual processing, organization and management of this huge amount of texts require a considerable human effort and sometimes these tasks are impossible to carry out in practice. Besides, the manual extraction of knowledge embedded in textual data is also unfeasible due to the large amount of texts. Thus, computational techniques which require little human intervention and allow the organization, management and knowledge extraction from large amounts of texts have gained attention in the last years and have been applied in academia, companies and organizations. The tasks mentioned above can be carried out through text automatic classification, in which labels (identifiers of predefined categories) are assigned to texts or portions of texts. A viable way to perform text automatic classification is through machine learning algorithms, which are able to learn, generalize or extract patterns from classes of text collections based on the content and labels of the texts. There are three types of machine learning algorithms for automatic classification: (i) inductive supervised, in which only labeled documents are considered to induce a classification model and this model are used to classify new documents; (ii) transductive semi-supervised, in which all known unlabeled documents are classified based on some labeled documents; and (iii) inductive semi-supervised, in which labeled and unlabeled documents are considered to induce a classification model in order to classify new documents. Regardless of the learning algorithm type, the texts of a collection must be represented in a structured format to be interpreted by the algorithms. Usually, the texts are represented in a vector space model, in which each text is represented by a vector and each dimension of the vector corresponds to a term or feature of the text collection. Algorithms based on vector space model consider that texts, terms or features are independent and this assumption can degrade the classification performance. Networks can be used as an alternative to vector space model representations. Networks allow the representations of relations among the entities of a text collection, such as documents and terms. This type of representation allows the extraction patterns which are not extracted by algorithms based on vector-space model. Moreover, text collections can be represented by networks composed of different types of entities and relations, which provide the extraction of different patterns from the texts. However, there are some challenges to be solved in order to allow the combination of machine learning algorithms and network-based representations to perform text automatic classification in an efficient way. The main challenges addressed in this doctoral project are (i) the development of network-based representations efficiently generated which also allows an efficient learning; (ii) the development of networks which represent different types of entities and relations; (iii) the development of networks which can represent texts written in different languages and about different domains; and (iv) the development of efficient learning algorithms which make a better use of the network-based representations and increase the classification performance. In this doctoral project we proposed and developed methods to represent text collections into networks considering different types of entities and relations and also allowing the representation of texts written in any language or from any domain. We also proposed and developed supervised inductive, semi-supervised transductive and semi-supervised inductive learning algorithms to interpret and learn from the proposed network-based representations since there were no algorithms to handle certain types of relations considered in this thesis. Besides, the proposed algorithms also attempt to obtain a higher classification performance and a faster classification than the existing network-based algorithms. In this doctoral thesis we present (i) an extensive empirical evaluation demonstrating the benefits about the use of network-based representations for text classification, (ii) the impact of the combination of different types of relations in a single network and (iii) that the proposed network-based algorithms are able to surpass the classification performance of traditional and state-of-the-art algorithms considering both supervised and semi-supervised learning. The solutions proposed in this doctoral project have proved to be advisable to be used in many applications involving classification of texts from different domains, areas, characteristics or considering different numbers of labeled documents.
|
5 |
Classificação de textos usando ontologiasGuevara, Juan Florencio Valdivia January 2016 (has links)
Orientadora: Profa. Dra. Debora Maria Rossi de Medeiros / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / Em diversos domínios de conhecimento, uma das principais forma de divulgação de informação é por meio de documentos de texto. Exemplos são websites, artigos científicos,
blogs, postagens em redes sociais e reviews de produtos/serviços. Dessa forma, extrair
automaticamente informações desse tipo de fonte de dados se torna uma importante tarefa.
Uma das formas mais clássicas de extração de informação de documentos textuais é
chamada de classificação. Esta tarefa consiste de atribuir automaticamente a categoria a
qual um texto pertence, com base em um conjunto de textos previamente categorizado.
Extrair informação de documentos textuais é, em geral, uma tarefa desafiadora por lidar
com uma forma não estruturada de dados, uma vez que uma mesma informação pode ser
expressa de diversas manerias. Neste contexto, uma ontologia pode representar uma ferramenta poderosa para auxiliar a tarefa de extração de informação de textos. Ontologias
são, em linhas gerais, dicionários de conceitos conectados por meio de relações semânticas.
Este trabalho investiga o uso de ontologias na tarefa de classificação de textos. Foi
proposta uma abordagem onde são criados novos atributos para descrever os textos de
uma base com base nos conceitos de uma ontologia. Foram realizados experimentos com
bases de textos benchmark amplamente utilizadas pela comunidade científica. Em geral,
a abordagem proposta proporcionou vantagem em relação à abordagem convencional em
cenários específicos. Esses cenários indicam uma região de potencias da nova abordagem
que será melhor explorada em trabalhos futuros. / In several knowledge areas, one of the main forms of spreading information is through
textual documents. Some examples are websites, scientific papers, blogs, social media
posts and product/service reviews. Thus, automatically extracting information from this
type of data becomes an important task. One of the most classic information extraction
task is text classification. This task consists of automatically assigning the category to
which a text belongs, based on a previously categorized text set. Extracting information
from textual data is, in general, a challenging task because it deals with unstructured
data, once the same piece of information can be expressed by different ways. In this
context, an ontology may be a powerful tool to aid information extraction from texts. In
a nutshell, ontologies are dictionaries of concepts linked according to semantic relations.
This project studies the usage of ontologies in the task of text classification. We proposed
an approach where new features for describing the texts based on an ontology concepts.
Experiments with benchmark text bases, widely employed by scientific community. In
general, the proposed approach overcomes the conventional approach in specific scenarios.
These scenarios point to potential areas where the new approach will be better explored
in future work.
|
6 |
Classificação automática de textos por meio de aprendizado de máquina baseado em redes / Text automatic classification through machine learning based on networksRafael Geraldeli Rossi 26 October 2015 (has links)
Nos dias atuais há uma quantidade massiva de dados textuais sendo produzida e armazenada diariamente na forma de e-mails, relatórios, artigos e postagens em redes sociais ou blogs. Processar, organizar ou gerenciar essa grande quantidade de dados textuais manualmente exige um grande esforço humano, sendo muitas vezes impossível de ser realizado. Além disso, há conhecimento embutido nos dados textuais, e analisar e extrair conhecimento de forma manual também torna-se inviável devido à grande quantidade de textos. Com isso, técnicas computacionais que requerem pouca intervenção humana e que permitem a organização, gerenciamento e extração de conhecimento de grandes quantidades de textos têm ganhado destaque nos últimos anos e vêm sendo aplicadas tanto na academia quanto em empresas e organizações. Dentre as técnicas, destaca-se a classificação automática de textos, cujo objetivo é atribuir rótulos (identificadores de categorias pré-definidos) à documentos textuais ou porções de texto. Uma forma viável de realizar a classificação automática de textos é por meio de algoritmos de aprendizado de máquina, que são capazes de aprender, generalizar, ou ainda extrair padrões das classes das coleções com base no conteúdo e rótulos de documentos textuais. O aprendizado de máquina para a tarefa de classificação automática pode ser de 3 tipos: (i) indutivo supervisionado, que considera apenas documentos rotulados para induzir um modelo de classificação e classificar novos documentos; (ii) transdutivo semissupervisionado, que classifica documentos não rotulados de uma coleção com base em documentos rotulados; e (iii) indutivo semissupervisionado, que considera documentos rotulados e não rotulados para induzir um modelo de classificação e utiliza esse modelo para classificar novos documentos. Independente do tipo, é necessário que as coleções de documentos textuais estejam representadas em um formato estruturado para os algoritmos de aprendizado de máquina. Normalmente os documentos são representados em um modelo espaço-vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a um termo ou atributo da coleção de documentos. Algoritmos baseados no modelo espaço-vetorial consideram que tanto os documentos quanto os termos ou atributos são independentes, o que pode degradar a qualidade da classificação. Uma alternativa à representação no modelo espaço-vetorial é a representação em redes, que permite modelar relações entre entidades de uma coleção de textos, como documento e termos. Esse tipo de representação permite extrair padrões das classes que dificilmente são extraídos por algoritmos baseados no modelo espaço-vetorial, permitindo assim aumentar a performance de classificação. Além disso, a representação em redes permite representar coleções de textos utilizando diferentes tipos de objetos bem como diferentes tipos de relações, o que permite capturar diferentes características das coleções. Entretanto, observa-se na literatura alguns desafios para que se possam combinar algoritmos de aprendizado de máquina e representações de coleções de textos em redes para realizar efetivamente a classificação automática de textos. Os principais desafios abordados neste projeto de doutorado são (i) o desenvolvimento de representações em redes que possam ser geradas eficientemente e que também permitam realizar um aprendizado de maneira eficiente; (ii) redes que considerem diferentes tipos de objetos e relações; (iii) representações em redes de coleções de textos de diferentes línguas e domínios; e (iv) algoritmos de aprendizado de máquina eficientes e que façam um melhor uso das representações em redes para aumentar a qualidade da classificação automática. Neste projeto de doutorado foram propostos e desenvolvidos métodos para gerar redes que representem coleções de textos, independente de domínio e idioma, considerando diferentes tipos de objetos e relações entre esses objetos. Também foram propostos e desenvolvidos algoritmos de aprendizado de máquina indutivo supervisionado, indutivo semissupervisionado e transdutivo semissupervisionado, uma vez que não foram encontrados na literatura algoritmos para lidar com determinados tipos de relações, além de sanar a deficiência dos algoritmos existentes em relação à performance e/ou tempo de classificação. É apresentado nesta tese (i) uma extensa avaliação empírica demonstrando o benefício do uso das representações em redes para a classificação de textos em relação ao modelo espaço-vetorial, (ii) o impacto da combinação de diferentes tipos de relações em uma única rede e (iii) que os algoritmos propostos baseados em redes são capazes de superar a performance de classificação de algoritmos tradicionais e estado da arte tanto considerando algoritmos de aprendizado supervisionado quanto semissupervisionado. As soluções propostas nesta tese demonstraram ser úteis e aconselháveis para serem utilizadas em diversas aplicações que envolvam classificação de textos de diferentes domínios, diferentes características ou para diferentes quantidades de documentos rotulados. / A massive amount of textual data, such as e-mails, reports, articles and posts in social networks or blogs, has been generated and stored on a daily basis. The manual processing, organization and management of this huge amount of texts require a considerable human effort and sometimes these tasks are impossible to carry out in practice. Besides, the manual extraction of knowledge embedded in textual data is also unfeasible due to the large amount of texts. Thus, computational techniques which require little human intervention and allow the organization, management and knowledge extraction from large amounts of texts have gained attention in the last years and have been applied in academia, companies and organizations. The tasks mentioned above can be carried out through text automatic classification, in which labels (identifiers of predefined categories) are assigned to texts or portions of texts. A viable way to perform text automatic classification is through machine learning algorithms, which are able to learn, generalize or extract patterns from classes of text collections based on the content and labels of the texts. There are three types of machine learning algorithms for automatic classification: (i) inductive supervised, in which only labeled documents are considered to induce a classification model and this model are used to classify new documents; (ii) transductive semi-supervised, in which all known unlabeled documents are classified based on some labeled documents; and (iii) inductive semi-supervised, in which labeled and unlabeled documents are considered to induce a classification model in order to classify new documents. Regardless of the learning algorithm type, the texts of a collection must be represented in a structured format to be interpreted by the algorithms. Usually, the texts are represented in a vector space model, in which each text is represented by a vector and each dimension of the vector corresponds to a term or feature of the text collection. Algorithms based on vector space model consider that texts, terms or features are independent and this assumption can degrade the classification performance. Networks can be used as an alternative to vector space model representations. Networks allow the representations of relations among the entities of a text collection, such as documents and terms. This type of representation allows the extraction patterns which are not extracted by algorithms based on vector-space model. Moreover, text collections can be represented by networks composed of different types of entities and relations, which provide the extraction of different patterns from the texts. However, there are some challenges to be solved in order to allow the combination of machine learning algorithms and network-based representations to perform text automatic classification in an efficient way. The main challenges addressed in this doctoral project are (i) the development of network-based representations efficiently generated which also allows an efficient learning; (ii) the development of networks which represent different types of entities and relations; (iii) the development of networks which can represent texts written in different languages and about different domains; and (iv) the development of efficient learning algorithms which make a better use of the network-based representations and increase the classification performance. In this doctoral project we proposed and developed methods to represent text collections into networks considering different types of entities and relations and also allowing the representation of texts written in any language or from any domain. We also proposed and developed supervised inductive, semi-supervised transductive and semi-supervised inductive learning algorithms to interpret and learn from the proposed network-based representations since there were no algorithms to handle certain types of relations considered in this thesis. Besides, the proposed algorithms also attempt to obtain a higher classification performance and a faster classification than the existing network-based algorithms. In this doctoral thesis we present (i) an extensive empirical evaluation demonstrating the benefits about the use of network-based representations for text classification, (ii) the impact of the combination of different types of relations in a single network and (iii) that the proposed network-based algorithms are able to surpass the classification performance of traditional and state-of-the-art algorithms considering both supervised and semi-supervised learning. The solutions proposed in this doctoral project have proved to be advisable to be used in many applications involving classification of texts from different domains, areas, characteristics or considering different numbers of labeled documents.
|
7 |
Aspectos semânticos na representação de textos para classificação automática / Semantic aspects in the representation of texts for automatic classificationRoberta Akemi Sinoara 24 May 2018 (has links)
Dada a grande quantidade e diversidade de dados textuais sendo criados diariamente, as aplicações do processo de Mineração de Textos são inúmeras e variadas. Nesse processo, a qualidade da solução final depende, em parte, do modelo de representação de textos adotado. Por se tratar de textos em língua natural, relações sintáticas e semânticas influenciam o seu significado. No entanto, modelos tradicionais de representação de textos se limitam às palavras, não sendo possível diferenciar documentos que possuem o mesmo vocabulário, mas que apresentam visões diferentes sobre um mesmo assunto. Nesse contexto, este trabalho foi motivado pela diversidade das aplicações da tarefa de classificação automática de textos, pelo potencial das representações no modelo espaço-vetorial e pela lacuna referente ao tratamento da semântica inerente aos dados em língua natural. O seu desenvolvimento teve o propósito geral de avançar as pesquisas da área de Mineração de Textos em relação à incorporação de aspectos semânticos na representação de coleções de documentos. Um mapeamento sistemático da literatura da área foi realizado e os problemas de classificação foram categorizados em relação à complexidade semântica envolvida. Aspectos semânticos foram abordados com a proposta, bem como o desenvolvimento e a avaliação de sete modelos de representação de textos: (i) gBoED, modelo que incorpora a semântica obtida por meio de conhecimento do domínio; (ii) Uni-based, modelo que incorpora a semântica por meio da desambiguação lexical de sentidos e hiperônimos de conceitos; (iii) SR-based Terms e SR-based Sentences, modelos que incorporam a semântica por meio de anotações de papéis semânticos; (iv) NASARIdocs, Babel2Vec e NASARI+Babel2Vec, modelos que incorporam a semântica por meio de desambiguação lexical de sentidos e embeddings de palavras e conceitos. Representações de coleções de documentos geradas com os modelos propostos e outros da literatura foram analisadas e avaliadas na classificação automática de textos, considerando datasets de diferentes níveis de complexidade semântica. As propostas gBoED, Uni-based, SR-based Terms e SR-based Sentences apresentam atributos mais expressivos e possibilitam uma melhor interpretação da representação dos documentos. Já as propostas NASARIdocs, Babel2Vec e NASARI+Babel2Vec incorporam, de maneira latente, a semântica obtida de embeddings geradas a partir de uma grande quantidade de documentos externos. Essa propriedade tem um impacto positivo na performance de classificação. / Text Mining applications are numerous and varied since a huge amount of textual data are created daily. The quality of the final solution of a Text Mining process depends, among other factors, on the adopted text representation model. Despite the fact that syntactic and semantic relations influence natural language meaning, traditional text representation models are limited to words. The use of such models does not allow the differentiation of documents that use the same vocabulary but present different ideas about the same subject. The motivation of this work relies on the diversity of text classification applications, the potential of vector space model representations and the challenge of dealing with text semantics. Having the general purpose of advance the field of semantic representation of documents, we first conducted a systematic mapping study of semantics-concerned Text Mining studies and we categorized classification problems according to their semantic complexity. Then, we approached semantic aspects of texts through the proposal, analysis, and evaluation of seven text representation models: (i) gBoED, which incorporates text semantics by the use of domain expressions; (ii) Uni-based, which takes advantage of word sense disambiguation and hypernym relations; (iii) SR-based Terms and SR-based Sentences, which make use of semantic role labels; (iv) NASARIdocs, Babel2Vec and NASARI+Babel2Vec, which take advantage of word sense disambiguation and embeddings of words and senses.We analyzed the expressiveness and interpretability of the proposed text representation models and evaluated their classification performance against different literature models. While the proposed models gBoED, Uni-based, SR-based Terms and SR-based Sentences have improved expressiveness, the proposals NASARIdocs, Babel2Vec and NASARI+Babel2Vec are latently enriched by the embeddings semantics, obtained from the large training corpus. This property has a positive impact on text classification performance.
|
8 |
Texto jurídico e procedimentos de reformulação discursiva / Legal texts and procedures of discursive reformulationCaldo, Claudia Ozon 08 March 2013 (has links)
Este trabalho realizado na Área de Estudos Linguísticos, Literários e Tradutológicos de Francês do Departamento de Letras Modernas da FFLCH/USP se situa na intersecção do Direito e das Ciências da Linguagem, numa perspectiva multi e interdisciplinar, do discurso jurídico. O corpus, formado por textos jurídicos em língua francesa e portuguesa (brasileira), tem como objeto de estudo o discurso jurídico. Nele conceitos de direito foram, ao longo do tempo, modificados e integrados às práticas sociais. O método comparativo foi o escolhido para melhor examinar as transformações. No primeiro texto, escolhido pela sua importância histórica, a Declaração de Direitos do Homem e do Cidadão (França, 1789), surgem os conceitos de homem, igualdade e liberdade. Esses mesmos conceitos reaparecem na Declaração Universal dos Direitos do Homem (ONU, 1948), em que direitos mais explicitados conferem maior proteção ao homem. O terceiro documento, a Constituição da República Federativa do Brasil (Brasil, 1988) detalha no seu artigo 5° todos os direitos conferidos ao homem do século XX, conceitos que ressurgem implícitos na lei sobre a Informatização dos Processos Judiciais (Brasil, lei 11.419/2006). A partir da observação desses documentos levanta-se a hipótese de que os conceitos apresentados de homem, liberdade, igualdade e de justiça não são os mesmos presentes no primeiro documento, o que evidencia uma evolução sócio-histórico-linguístico-discursiva. A reformulação ocasiona, inclusive, um apagamento de conceito. Dessa forma o liame que une os documentos é resultante de um processo. As noções de polifonia e de dialogismo emprestados da Análise do Discurso são desenvolvidos a partir dos estudos bakhtinianos e dos procedimentos argumentativos da retórica renovada por Perelman, bem como das reformulações discursivas implicadas. 8 No primeiro capítulo os documentos são contextualizados historicamente, a fim de que se possa entender seu surgimento. O segundo, teórico, verifica a presença da Teoria da Enunciação e dos conceitos de auditório, ethos e logos, integrantes da Teoria da Argumentação. Do ponto de vista linguístico-discursivo o que se valoriza são as reformulações como ferramentas dessas alterações. Ressalta-se que tais transformações tecem-se a partir das relações entre a Língua e o Direito. Os conceitos de transplant, circulation juridique e empréstimo propostos pelo Direito Comparado consideram as diferenças entre as línguas e as culturas francesa e brasileira. O terceiro capítulo trata do discurso jurídico e de uma proposta de classificação dos diferentes textos em subgêneros a partir de seu objetivo e local de produção. O resultado das análises revela que o decurso do tempo provoca a evolução dos conceitos de homem, liberdade, igualdade e justiça, a ponto de sua existência material no texto escrito permitir seu apagamento, passando de concreta à abstrata, já que implicitamente é o conteúdo que justifica a proposição e a publicação da lei Informatização dos Processos Judiciais. / This following thesis, developed in the French Linguistic, Literary and Translation area of the Modern Language Department FFLCH / USP lies in the intersection of Law and Language Sciences. The corpus composed of legal texts in French and Portuguese (Brazilian) has as its object of study of the legal discourse in which the concepts of law, over time, have been modified and integrated with social practices. The comparative method was chosen to better examine these transformations. The first text, chosen for its historical significance, the Declaration of Rights of Man and of the Citizen (1789, France), bring to the light the concepts of \"man\", \"equality\" and \"freedom\". These same concepts reappear in the Universal Declaration of Human Rights (UN, 1948), in which most rights specified give greater protection to the man. The third document, the Constitution of the Federative Republic of Brazil (Brazil, 1988) explains, in its 5th article, all rights granted to man of the 20th century, concepts which reappear implicit in the Law on the Informatized System of the Judicial Process (Brazil, law 11,419/2006). The observation of these documents raises the hypothesis that the concepts presented \"man\", \"freedom\", \"equality\" and \"justice\" are not the same in the first document, which highlights a socio-historical-linguistic evolution-discursive. The reformulation causes, also, an erase of concept. In this way the link that connects the documents is the result of a process. The concepts of polyphony and dialogism borrowed from Discourse Analysis are developed from Bakthins studies and procedures of argumentative renewed Rhetoric by Perelman, as well as discursives involved. In the first chapter documents are historically contextualized in order to permit their understanding and emergence. In the second chapter, theoretical, the Enunciation Theory and the concepts of dialogism and polyphony are noted in texts as well as the concepts of the Auditorium, ethos and logos from the 10 Theory of Argumentation. In the aspect of Linguistically-discursive cases the reformulations are the tools of these changes. It should be noted that such transformations weave from relations between the Languag and the Law. The concepts of \"transplant\", \"circulation juridique\" and \"borrowing\" proposed by the Comparative Law consider the differences between the French and Brazilian languages and cultures. The third chapter treat the legal discourse and propose a classification for texts in different sub-genres from its goal and production site. The result of the analysis prove that the course of time causes the evolution of the concepts of \"man\", \"freedom\", \"equality\" and \"justice\", to the point that it may even result in the erasure of his material existence in the written text, ranging from concret to abstract, since its content appears implicitly in the proposition and the publication of Law on the Informatized System of the Judicial Process.
|
9 |
Multi-scale analysis of languages and knowledge through complex networks / Análise multi-escala de línguas e conecimento por meio de redes complexasArruda, Henrique Ferraz de 24 January 2019 (has links)
There any many different aspects in natural languages and their related dynamics that have been studied. In the case of languages, some quantitative analyses have been done by using stochastic models. Furthermore, natural languages can be understood as complex systems. Thus, there is a possibility to use set of tools development to analyse complex networks, which are computationally represented by graphs, also to analyse natural languages. Furthermore, these tools can be used to represent and analyse some related dynamics taking place on the networks. Observe that knowledge is intrinsically related to language, because language is the vehicle used by humans beings to transmit dicoveries, and the language itself is also a type of knowledge. This thesis is divided into two types of analyses: (i) texts and (II) dynamical aspects. In the first part, we proposed networks representations of text in different scales analyses, starting from the analysis of writing style considering word adjacency networks (co-occurence) to understand local patterns of words, to a mesoscopic representation, which is created from chunks of text and grasps information of the unfolding of the story. In the second part, we considered the structure and dynamics related to knowledge and language, in this case, starting from the larger scale, in which we studied the connectivity between applied and theoretical physics. In the following, we simulated the knowledge acquisition by researchers in a multi-agent dynamics and an intelligent machine that solves problems, which is represented by a network. At the smallest considered scale, we simulate the transmission of networks. This transmission considers the data as a series of organized symbols that is obtained from a dynamics. In order to improve the speed of transmission, the series can be compacted. For that, we considered the information theory and Huffman code. The proposed network-based approaches were found to be suitable to deal with the employed analysis for all of the tested scales. / Existem diversos aspectos das linguagens naturais e de dinâmicas relacionadas que estão sendo estudadas. No caso das línguas, algumas análises quantitativas foram feitas usando modelos estocásticos. Ademais, linguagens naturais podem ser entendidas como sistemas complexos. Para analisar linguagens naturais, existe a possibilidade de utilizar o conjunto de ferramentas que já foram desenvolvidas para analisar redes complexas, que são representadas computacionalmente. Além disso, tais ferramentas podem ser utilizadas para representar e analisar algumas dinâmicas relacionadas a redes complexas. Observe que o conhecimento está intrinsecamente relacionado à linguagem, pois a linguagem é o veículo usado para transmitir novas descobertas, sendo que a própria linguagem também é um tipo de conhecimento. Esta tese é dividida em dois tipos de análise : (i) textos e (ii) aspectos dinâmicos. Na primeira parte foram propostas representações de redes de texto em diferentes escalas de análise. A partir da análise do estilo de escrita, considerando redes de adjacência de palavras (co-ocorrência) para entender padrões locais de palavras, até uma representação mesoscópica, que é criada a partir de pedaços de texto e que representa informações do texto de acordo com o desenrolar da história. Na segunda parte, foram consideradas a estrutura e dinâmica relacionadas ao conhecimento e à linguagem. Neste caso, partiu-se da escala maior, com a qual estudamos a conectividade entre física aplicada e física teórica. A seguir, simulou-se a aquisição de conhecimento por pesquisadores em uma dinâmica multi-agente e uma máquina inteligente que resolve problemas, que é representada por uma rede. Como a menor escala considerada, foi simulada a transmissão de redes. Essa transmissão considera os dados como uma série de símbolos organizados que são obtidos a partir de uma dinâmica. Para melhorar a velocidade de transmissão, a série pode ser compactada. Para tanto, foi utilizada a teoria da informação e o código de Huffman. As propostas de abordagens baseadas em rede foram consideradas adequadas para lidar com a análise empregada, em todas as escalas testadas.
|
10 |
Texto jurídico e procedimentos de reformulação discursiva / Legal texts and procedures of discursive reformulationClaudia Ozon Caldo 08 March 2013 (has links)
Este trabalho realizado na Área de Estudos Linguísticos, Literários e Tradutológicos de Francês do Departamento de Letras Modernas da FFLCH/USP se situa na intersecção do Direito e das Ciências da Linguagem, numa perspectiva multi e interdisciplinar, do discurso jurídico. O corpus, formado por textos jurídicos em língua francesa e portuguesa (brasileira), tem como objeto de estudo o discurso jurídico. Nele conceitos de direito foram, ao longo do tempo, modificados e integrados às práticas sociais. O método comparativo foi o escolhido para melhor examinar as transformações. No primeiro texto, escolhido pela sua importância histórica, a Declaração de Direitos do Homem e do Cidadão (França, 1789), surgem os conceitos de homem, igualdade e liberdade. Esses mesmos conceitos reaparecem na Declaração Universal dos Direitos do Homem (ONU, 1948), em que direitos mais explicitados conferem maior proteção ao homem. O terceiro documento, a Constituição da República Federativa do Brasil (Brasil, 1988) detalha no seu artigo 5° todos os direitos conferidos ao homem do século XX, conceitos que ressurgem implícitos na lei sobre a Informatização dos Processos Judiciais (Brasil, lei 11.419/2006). A partir da observação desses documentos levanta-se a hipótese de que os conceitos apresentados de homem, liberdade, igualdade e de justiça não são os mesmos presentes no primeiro documento, o que evidencia uma evolução sócio-histórico-linguístico-discursiva. A reformulação ocasiona, inclusive, um apagamento de conceito. Dessa forma o liame que une os documentos é resultante de um processo. As noções de polifonia e de dialogismo emprestados da Análise do Discurso são desenvolvidos a partir dos estudos bakhtinianos e dos procedimentos argumentativos da retórica renovada por Perelman, bem como das reformulações discursivas implicadas. 8 No primeiro capítulo os documentos são contextualizados historicamente, a fim de que se possa entender seu surgimento. O segundo, teórico, verifica a presença da Teoria da Enunciação e dos conceitos de auditório, ethos e logos, integrantes da Teoria da Argumentação. Do ponto de vista linguístico-discursivo o que se valoriza são as reformulações como ferramentas dessas alterações. Ressalta-se que tais transformações tecem-se a partir das relações entre a Língua e o Direito. Os conceitos de transplant, circulation juridique e empréstimo propostos pelo Direito Comparado consideram as diferenças entre as línguas e as culturas francesa e brasileira. O terceiro capítulo trata do discurso jurídico e de uma proposta de classificação dos diferentes textos em subgêneros a partir de seu objetivo e local de produção. O resultado das análises revela que o decurso do tempo provoca a evolução dos conceitos de homem, liberdade, igualdade e justiça, a ponto de sua existência material no texto escrito permitir seu apagamento, passando de concreta à abstrata, já que implicitamente é o conteúdo que justifica a proposição e a publicação da lei Informatização dos Processos Judiciais. / This following thesis, developed in the French Linguistic, Literary and Translation area of the Modern Language Department FFLCH / USP lies in the intersection of Law and Language Sciences. The corpus composed of legal texts in French and Portuguese (Brazilian) has as its object of study of the legal discourse in which the concepts of law, over time, have been modified and integrated with social practices. The comparative method was chosen to better examine these transformations. The first text, chosen for its historical significance, the Declaration of Rights of Man and of the Citizen (1789, France), bring to the light the concepts of \"man\", \"equality\" and \"freedom\". These same concepts reappear in the Universal Declaration of Human Rights (UN, 1948), in which most rights specified give greater protection to the man. The third document, the Constitution of the Federative Republic of Brazil (Brazil, 1988) explains, in its 5th article, all rights granted to man of the 20th century, concepts which reappear implicit in the Law on the Informatized System of the Judicial Process (Brazil, law 11,419/2006). The observation of these documents raises the hypothesis that the concepts presented \"man\", \"freedom\", \"equality\" and \"justice\" are not the same in the first document, which highlights a socio-historical-linguistic evolution-discursive. The reformulation causes, also, an erase of concept. In this way the link that connects the documents is the result of a process. The concepts of polyphony and dialogism borrowed from Discourse Analysis are developed from Bakthins studies and procedures of argumentative renewed Rhetoric by Perelman, as well as discursives involved. In the first chapter documents are historically contextualized in order to permit their understanding and emergence. In the second chapter, theoretical, the Enunciation Theory and the concepts of dialogism and polyphony are noted in texts as well as the concepts of the Auditorium, ethos and logos from the 10 Theory of Argumentation. In the aspect of Linguistically-discursive cases the reformulations are the tools of these changes. It should be noted that such transformations weave from relations between the Languag and the Law. The concepts of \"transplant\", \"circulation juridique\" and \"borrowing\" proposed by the Comparative Law consider the differences between the French and Brazilian languages and cultures. The third chapter treat the legal discourse and propose a classification for texts in different sub-genres from its goal and production site. The result of the analysis prove that the course of time causes the evolution of the concepts of \"man\", \"freedom\", \"equality\" and \"justice\", to the point that it may even result in the erasure of his material existence in the written text, ranging from concret to abstract, since its content appears implicitly in the proposition and the publication of Law on the Informatized System of the Judicial Process.
|
Page generated in 0.0734 seconds