1 |
[en] DEVELOPMENT OF A METHODOLOGY FOR TEXT MINING / [pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA MINERAÇÃO DE TEXTOSJOAO RIBEIRO CARRILHO JUNIOR 20 May 2008 (has links)
[pt] A seguinte dissertação tem como objetivo explorar a
Mineração de Textos através de um estudo amplo e completo
do que atualmente é considerado estado da arte. Esta nova
área, considerada por muitos como uma evolução natural da
Mineração de Dados, é bastante interdisciplinar e vem
obtendo importantes colaborações de estudiosos e
pesquisadores de diversas naturezas, como Lingüística,
Computação, Estatística e Inteligência Artificial.
Entretanto, muito se discute sobre como deve ser um
processo completo de investigação textual, de
forma a tirar máximo proveito das técnicas adotadas nas
mais variadas abordagens. Desta forma, através de um
encadeamento sistemático de procedimentos, pode-se chegar
a
uma conclusão do que seria a metodologia ideal para a
Mineração de Textos, conforme já se chegou para a de
Dados.
O presente trabalho explora um modelo de processo, do
início ao fim, que sugere as seguintes etapas: coleta de
dados, pré-processamento textual, indexação, mineração e
análise. Este sequenciamento é uma tendência encontrada
em
trabalhos recentes, sendo minuciosamente discutido nos
capítulos desta dissertação. Finalmente, a fim de se
obter
enriquecimento prático, foi desenvolvido um sistema de
Mineração de Textos que possibilitou a apresentação de
resultados reais, obtidos a partir da aplicação de
algoritmos em documentos de natureza geral. / [en] The following essay is intended to explore the area of Text
Mining, through an extensive and comprehensive study of
what is currently considered state of the
art. This new area, considered by many as a natural
evolution of the Data Mining, is quite interdisciplinary.
Several scholars and researchers from fields like
linguistics and computing, for instance, have contributed
for its development. Nevertheless, much has been discussed
on how complete dossier of textual investigation must be
carried out, in order to take maximum advantage of the
techniques adopted in various approaches. Thus, through a
systematic sequence of procedures, one can come to a
conclusion of what would be the ideal method for
the Mining of documents, as one has come about Data. This
work explores a model of process which suggests the
following steps: collecting data, textual preprocessing,
indexing, mining and analysis. This sequence is a tendency
followed in some recent works and it is thoroughly
discussed in the chapters to come. Finally, in order to
obtain a practical enrichment, one developed a system of
Mining of documents with which became possible the
presentation of results, obtained from the application of
algorithms in documents of a general nature.
|
2 |
[en] AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH / [pt] UMA ABORDAGEM DE PRÉ-PROCESSAMENTO AUTOMÁTICO PARA MINERAÇÃO DE TEXTOS EM PORTUGUÊS: SOB O ENFOQUE DA INTELIGENCIA COMPUTACIONALCHRISTIAN NUNES ARANHA 25 June 2007 (has links)
[pt] O presente trabalho apresenta uma pesquisa onde é proposto
um novo
modelo de pré-processamento para mineração de textos em
português utilizando
técnicas de inteligência computacional baseadas em
conceitos existentes, como
redes neurais, sistemas dinâmicos, e estatística
multidimensional. O objetivo dessa
tese de doutorado é, portanto, inovar na fase de pré-
processamento da mineração
de textos, propondo um modelo automático de enriquecimento
de dados textuais.
Essa abordagem se apresenta como uma extensão do
tradicional modelo de
conjunto de palavras (bag-of-words), de preocupação mais
estatística, e propõe
um modelo do tipo conjunto de lexemas (bag-of-lexems) com
maior
aproveitamento do conteúdo lingüístico do texto em uma
abordagem mais
computacional, proporcionando resultados mais eficientes.
O trabalho é
complementado com o desenvolvimento e implementação de um
sistema de préprocessamento
de textos, que torna automática essa fase do processo de
mineração
de textos ora proposto. Apesar do objeto principal desta
tese ser a etapa de préprocessamento,
passaremos, de forma não muito aprofundada, por todas as
etapas
do processo de mineração de textos com o intuito de
fornecer a teoria base
completa para o entendimento do processo como um todo.
Além de apresentar a
teoria de cada etapa, individualmente, é executado um
processamento completo
(com coleta de dados, indexação, pré-processamento,
mineração e pósprocessamento)
utilizando nas outras etapas modelos já consagrados na
literatura
que tiveram sua implementação realizada durante esse
trabalho. Ao final são
mostradas funcionalidades e algumas aplicações como:
classificação de
documentos, extração de informações e interface de
linguagem natural (ILN). / [en] This work presents a research that proposes a new model of
pre-processing
for text mining in portuguese using computational
intelligence techniques based
on existing concepts, such as neural networks, dinamic
systems and
multidimensional statistics. The object of this doctoral
thesis is, therefore,
innovation in the pre-processing phase of text-mining,
proposing an automatic
model for the enrichment of textual data. This approach is
presented as an
extension of the traditional bag-of-words model, that has
a more statistical
emphasis, and proposes a bag-of-lexemes model with greater
usage of the texts'
linguistic content in a more computational approach,
providing more efficient
results. The work is complemented by the development and
implementation of a
text pre-processing system that automates this phase of th
text mining process as
proposed. Despite the object of this thesis being the pre-
processing stage, one
feels apropriate to describe, in overview, every step of
the text mining process in
order to provide the basic theory necessary to understand
the process as a whole.
Beyond presenting the theory of every stage individually,
one executes a complete
process (with data collection, indexing, pre-processing,
mining and postprocessing)
using tried-and-true models in all the other stages, which
were
implemented during the development of this work. At last
some functionalities
and aplications are shown, such as: document
classification, information
extraction and natural language interface (NLI).
|
3 |
[en] WORD SENSE DESAMBIGUATION IN TEXT MINING / [pt] DESAMBIGUAÇÃO DE SENTIDO DE PALAVRAS DIRIGIDA POR TÉCNICAS DE AGRUPAMENTO SOB O ENFOQUE DA MINERAÇÃO DE TEXTOSROBERTO MIRANDA GOMES 10 September 2009 (has links)
[pt] Esta dissertação investigou a aplicação de processos de mineração de textos a
partir de técnicas de inteligência computacional e aprendizado de máquina no problema
de ambigüidade de sentido de palavras. O trabalho na área de métodos de apoio à decisão
teve como objetivo o desenvolvimento de técnicas capazes de automatizar os processos
de desambiguação bem como a construção de um protótipo baseado na implementação de
algumas dessas técnicas. Desambiguação de sentido de palavra é o processo de atribuição
de um significado a uma palavra obtido por meio de informações colhidas no contexto em
que ela ocorre, e um de seus objetivos é mitigar os enganos introduzidos por construções
textuais ambíguas, auxiliando assim o processo de tomada de decisão. Buscou-se ainda na
utilização de conceitos, ferramentas e formas de documentação considerados em
trabalhos anteriores de maneira a dar continuidade ao desenvolvimento científico e deixar
um legado mais facilmente reutilizável em trabalhos futuros. Atenção especial foi dada ao
processo de detecção de ambigüidades e, por esse motivo, uma abordagem diferenciada
foi empregada. Diferente da forma mais comum de desambiguação, onde uma máquina é
treinada para desambiguar determinado termo, buscou-se no presente trabalho a nãodependência
de se conhecer o termo a ser tratado e assim tornar o sistema mais robusto e
genérico. Para isso, foram desenvolvidas heurísticas específicas baseadas em técnicas de
inteligência computacional. Os critérios semânticos para identificação de termos
ambíguos foram extraídos das técnicas de agrupamento empregadas em léxicos
construídos após algum processo de normalização de termos. O protótipo, SID - Sistema
Inteligente de Desambiguação - foi desenvolvido em .NET, que permite uma grande
diversidade de linguagens no desenvolvimento, o que facilita o reuso do código para a
continuidade da pesquisa ou a utilização das técnicas implementadas em alguma
aplicação de mineração de textos. A linguagem escolhida foi o C#, pela sua robustez,
facilidade e semelhança sintática com JAVA e C++, linguagens amplamente conhecidas e
utilizadas pela maioria dos desenvolvedores. / [en] This dissertation investigated the application of text mining process from
techniques of computing intelligence and machine learning in the problem of
word sense ambiguity. The work in the methods of decision support area aimed to
develop techniques capable of doing a word meaning disambiguation
automatically and also to construct a prototype based on the application of such
techniques. Special attention was given to the process of ambiguity detection and,
for this reason, a differentiated approach was used. Unlikely the most common
type of disambiguation, in which the machine is trained to do it in determined
terms, the present work aimed to address the ambiguity problem without the need
of knowing the meaning of the term used, and thus, to make the system more
robust and generic. In order to achieve that, specific heurists were developed
based on computing intelligence techniques. The semantic criteria used to identify
the ambiguous terms were extracted from grouping techniques employed in lexis
built after some term normalization process.
|
4 |
[en] AUTOMATIC TEXT CATEGORIZATION BASED ON TEXT MINING / [pt] CATEGORIZAÇÃO AUTOMÁTICA DE TEXTOS BASEADA EM MINERAÇÃO DE TEXTOSFABIO DE AZEVEDO SOARES 15 July 2014 (has links)
[pt] A Categorização de Documentos, uma das tarefas desempenhadas em Mineração de Textos, pode ser descrita como a obtenção de uma função que seja capaz de atribuir a um documento uma categoria a que ele pertença. O principal objetivo de se construir uma taxonomia de documentos é tornar mais fácil a obtenção de informação relevante. Porém, a implementação e a execução de um processo de Categorização de Documentos não é uma tarefa trivial: as ferramentas de Mineração de Textos estão em processo de amadurecimento e ainda, demandam elevado conhecimento técnico para a sua utilização. Além disso, exercendo grande importância em um processo de Mineração de Textos, a linguagem em que os documentos se encontram escritas deve ser tratada com as particularidades do idioma. Contudo há grande carência de ferramentas que forneçam tratamento adequado ao Português do Brasil. Dessa forma, os objetivos principais deste trabalho são pesquisar, propor, implementar e avaliar um framework de Mineração de Textos para a Categorização Automática de Documentos, capaz de auxiliar a execução do processo de descoberta de conhecimento e que ofereça processamento linguístico para o Português do Brasil. / [en] Text Categorization, one of the tasks performed in Text Mining, can be described as the achievement of a function that is able to assign a document to the category, previously defined, to which it belongs. The main goal of building a taxonomy of documents is to make easier obtaining relevant information. However, the implementation and execution of Text Categorization is not a trivial task: Text Mining tools are under development and still require high technical expertise to be handled, also having great significance in a Text Mining process, the language of the documents should be treated with the peculiarities of each idiom. Yet there is great need for tools that provide proper handling to Portuguese of Brazil. Thus, the main aims of this work are to research, propose, implement and evaluate a Text Mining Framework for Automatic Text Categorization, capable of assisting the execution of knowledge discovery process and provides language processing for Brazilian Portuguese.
|
5 |
[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOSIAN MONTEIRO NUNES 18 February 2016 (has links)
[pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model.
|
6 |
[en] TEXT MINING VISUALIZATION FOR REQUIREMENTS EXTRACTION / [pt] VISUALIZAÇÃO DE TEXTO MINERADO PARA EXTRAÇÃO DE REQUISITOSADILARAIMA MARTINEZ BARRIO 19 August 2020 (has links)
[pt] Com os avanços de novas tecnologias de desenvolvimento de software, a mineração de texto tem ganho protagonismo na área de Engenharia de Requisitos (ER), já que a rede (Web) possibilita o acesso a grandes quantidades de informação. A utilização de técnicas de visualização ganha importância nesse sentido, porque permite agilizar a descoberta de conhecimento com visualizações adequadas. Neste trabalho disponibiliza-se uma estratégia para que o engenheiro de requisitos consiga acessar às visualizações desenvolvidas por pesquisas no uso de mineração para elicitação de requisitos. Uma revisão da literatura possibilitou a proposta de classificação de tarefas de mineração e visualizações associadas, especialmente na ER. Esta classificação constitui a base de conhecimento de um software (Biblioteca Digital) que organiza e filtra informações de acordo com a inter-relação entre tarefas e categorias, mostrando as pesquisas que sustentam cada relação. Para a avaliação da estratégia, com foco no software, foi executado uma avaliação que mostra o potencial da abordagem para agilizar a obtenção de conhecimentos por parte do engenheiro de requisitos. / [en] With advances in new technologies available for software development, text mining has grown in importance in the area of Requirements Engineering (ER) due to the availability of large amounts of information on the Web. The use of visualization techniques gains importance in this regard, since it allows the speedup of knowledge discovery with appropriate visualizations. This work provides a strategy for the requirements engineer to gain access, in an organized manner, to results of research in text mining with visualization in ER. For implementation, the classification of mining tasks and the visualizations categories in ER were summarized from the literature. This classification forms the knowledge base of a software (Digital Library) that organizes and filters information according to the interrelation between tasks and categories, showing the research that supports each relationship. For the evaluation of the strategy, with a focus on software, an evaluation was carried out that shows the potential of the approach to expedite the knowledge engineer s requirements.
|
7 |
[pt] ACELERANDO A ELICITAÇÃO DE REQUISITOS NÃO FUNCIONAIS / [en] SPEEDING UP NON FUNCTIONAL REQUIREMENTS ELICITATIONROXANA LISETTE QUINTANILLA PORTUGAL 14 August 2020 (has links)
[pt] Considerando a disponibilidade do Big Data para engenharia de software, como no caso do GitHub, a semi-automação da elicitação de requisitos não funcionais (NFRs) é uma estratégia fundamental para a definição de requisitos. Como tal, a elicitação de NFRs, dentro da automação da leitura de documentos, pode gerenciar a massa de informações valiosas existentes nos dados disponíveis. Esta tese explora esse contexto em três partes, a escolha de fontes apropriadas de informação, uma elicitação de descoberta de fatos e a identificação de NFRs. As avaliações realizadas mostraram que a automação enfrenta um balance entre eficiência e eficácia. Esse equilíbrio é detalhado com diferentes estratégias inovadoras. O conhecimento adquirido é organizado como um catálogo SIG (Softgoal Interdependence Graph). / [en] Considering the availability of Big Data for software engineering, as the case of GitHub, the semi-automation of non-functional requirements (NFRs) elicitation is a key strategy towards requirements definition. As such, NFRs elicitation, within the automation of document reading, can manage the mass of valuable information existing in available data. This thesis explores this context in three parts, the choice of proper sources of information, a fact-finding elicitation, and NFRs identification. The assessments performed showed that the automation faces a trade-off between efficiency and efficacy. This trade-off is detailed with different novel strategies. The acquired knowledge is organized as a SIG (Softgoal Interdependence Graph) catalog.
|
Page generated in 0.0367 seconds