Return to search

[en] WORD SENSE DESAMBIGUATION IN TEXT MINING / [pt] DESAMBIGUAÇÃO DE SENTIDO DE PALAVRAS DIRIGIDA POR TÉCNICAS DE AGRUPAMENTO SOB O ENFOQUE DA MINERAÇÃO DE TEXTOS

[pt] Esta dissertação investigou a aplicação de processos de mineração de textos a
partir de técnicas de inteligência computacional e aprendizado de máquina no problema
de ambigüidade de sentido de palavras. O trabalho na área de métodos de apoio à decisão
teve como objetivo o desenvolvimento de técnicas capazes de automatizar os processos
de desambiguação bem como a construção de um protótipo baseado na implementação de
algumas dessas técnicas. Desambiguação de sentido de palavra é o processo de atribuição
de um significado a uma palavra obtido por meio de informações colhidas no contexto em
que ela ocorre, e um de seus objetivos é mitigar os enganos introduzidos por construções
textuais ambíguas, auxiliando assim o processo de tomada de decisão. Buscou-se ainda na
utilização de conceitos, ferramentas e formas de documentação considerados em
trabalhos anteriores de maneira a dar continuidade ao desenvolvimento científico e deixar
um legado mais facilmente reutilizável em trabalhos futuros. Atenção especial foi dada ao
processo de detecção de ambigüidades e, por esse motivo, uma abordagem diferenciada
foi empregada. Diferente da forma mais comum de desambiguação, onde uma máquina é
treinada para desambiguar determinado termo, buscou-se no presente trabalho a nãodependência
de se conhecer o termo a ser tratado e assim tornar o sistema mais robusto e
genérico. Para isso, foram desenvolvidas heurísticas específicas baseadas em técnicas de
inteligência computacional. Os critérios semânticos para identificação de termos
ambíguos foram extraídos das técnicas de agrupamento empregadas em léxicos
construídos após algum processo de normalização de termos. O protótipo, SID - Sistema
Inteligente de Desambiguação - foi desenvolvido em .NET, que permite uma grande
diversidade de linguagens no desenvolvimento, o que facilita o reuso do código para a
continuidade da pesquisa ou a utilização das técnicas implementadas em alguma
aplicação de mineração de textos. A linguagem escolhida foi o C#, pela sua robustez,
facilidade e semelhança sintática com JAVA e C++, linguagens amplamente conhecidas e
utilizadas pela maioria dos desenvolvedores. / [en] This dissertation investigated the application of text mining process from
techniques of computing intelligence and machine learning in the problem of
word sense ambiguity. The work in the methods of decision support area aimed to
develop techniques capable of doing a word meaning disambiguation
automatically and also to construct a prototype based on the application of such
techniques. Special attention was given to the process of ambiguity detection and,
for this reason, a differentiated approach was used. Unlikely the most common
type of disambiguation, in which the machine is trained to do it in determined
terms, the present work aimed to address the ambiguity problem without the need
of knowing the meaning of the term used, and thus, to make the system more
robust and generic. In order to achieve that, specific heurists were developed
based on computing intelligence techniques. The semantic criteria used to identify
the ambiguous terms were extracted from grouping techniques employed in lexis
built after some term normalization process.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:14103
Date10 September 2009
CreatorsROBERTO MIRANDA GOMES
ContributorsMARLEY MARIA BERNARDES REBUZZI VELLASCO
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.0019 seconds