Return to search

[en] AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH / [pt] UMA ABORDAGEM DE PRÉ-PROCESSAMENTO AUTOMÁTICO PARA MINERAÇÃO DE TEXTOS EM PORTUGUÊS: SOB O ENFOQUE DA INTELIGENCIA COMPUTACIONAL

[pt] O presente trabalho apresenta uma pesquisa onde é proposto
um novo
modelo de pré-processamento para mineração de textos em
português utilizando
técnicas de inteligência computacional baseadas em
conceitos existentes, como
redes neurais, sistemas dinâmicos, e estatística
multidimensional. O objetivo dessa
tese de doutorado é, portanto, inovar na fase de pré-
processamento da mineração
de textos, propondo um modelo automático de enriquecimento
de dados textuais.
Essa abordagem se apresenta como uma extensão do
tradicional modelo de
conjunto de palavras (bag-of-words), de preocupação mais
estatística, e propõe
um modelo do tipo conjunto de lexemas (bag-of-lexems) com
maior
aproveitamento do conteúdo lingüístico do texto em uma
abordagem mais
computacional, proporcionando resultados mais eficientes.
O trabalho é
complementado com o desenvolvimento e implementação de um
sistema de préprocessamento
de textos, que torna automática essa fase do processo de
mineração
de textos ora proposto. Apesar do objeto principal desta
tese ser a etapa de préprocessamento,
passaremos, de forma não muito aprofundada, por todas as
etapas
do processo de mineração de textos com o intuito de
fornecer a teoria base
completa para o entendimento do processo como um todo.
Além de apresentar a
teoria de cada etapa, individualmente, é executado um
processamento completo
(com coleta de dados, indexação, pré-processamento,
mineração e pósprocessamento)
utilizando nas outras etapas modelos já consagrados na
literatura
que tiveram sua implementação realizada durante esse
trabalho. Ao final são
mostradas funcionalidades e algumas aplicações como:
classificação de
documentos, extração de informações e interface de
linguagem natural (ILN). / [en] This work presents a research that proposes a new model of
pre-processing
for text mining in portuguese using computational
intelligence techniques based
on existing concepts, such as neural networks, dinamic
systems and
multidimensional statistics. The object of this doctoral
thesis is, therefore,
innovation in the pre-processing phase of text-mining,
proposing an automatic
model for the enrichment of textual data. This approach is
presented as an
extension of the traditional bag-of-words model, that has
a more statistical
emphasis, and proposes a bag-of-lexemes model with greater
usage of the texts'
linguistic content in a more computational approach,
providing more efficient
results. The work is complemented by the development and
implementation of a
text pre-processing system that automates this phase of th
text mining process as
proposed. Despite the object of this thesis being the pre-
processing stage, one
feels apropriate to describe, in overview, every step of
the text mining process in
order to provide the basic theory necessary to understand
the process as a whole.
Beyond presenting the theory of every stage individually,
one executes a complete
process (with data collection, indexing, pre-processing,
mining and postprocessing)
using tried-and-true models in all the other stages, which
were
implemented during the development of this work. At last
some functionalities
and aplications are shown, such as: document
classification, information
extraction and natural language interface (NLI).

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:10081
Date25 June 2007
CreatorsCHRISTIAN NUNES ARANHA
ContributorsMARLEY MARIA BERNARDES REBUZZI VELLASCO
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.0023 seconds