Spelling suggestions: "subject:"processamento dde linguagem naturais"" "subject:"processamento dee linguagem naturais""
1 |
Uma Metodologia para a utilização do processamento de Linguagem Natural na busca de informações em documentos digitaisPEREIRA, F. S. C. 07 August 2009 (has links)
Made available in DSpace on 2016-08-29T15:33:09Z (GMT). No. of bitstreams: 1
tese_2812_dissertacao-Francisco-S-C-Pereira.pdf: 1072749 bytes, checksum: 5e076c57072ddbad9607618680cbfbfe (MD5)
Previous issue date: 2009-08-07 / Esta dissertação propõe uma metodologia para busca em textos digitais baseada na Estrutura Nominal do Discurso, originada da proposta de resolução de anáforas apresentada por Freitas[Freitas 2005]. O processo para resolução de anáforas permite a identificação da estrutura de formação do texto, criada pelo autor. A área de Recuperação de Informação (RI) propõe vários modelos para a representação e busca em documentos digitais, apesar de diferentes
em aspectos como a representação do texto ou metodologia para a realização de pesquisas todos têm como objetivo atender a necessidade de informação dos usuários de seus sistemas
de buscas. Os Modelos clássicos utilizados para Recuperação de Informação, como o modelo vetorial[Salton, Wong e Yang 1975] ou o LSI (Latent Semantic Indexing)[Deerwester et al. 1990],
consideram como elemento básico para a representação de um documento os termos que o compõem.
Nesses modelos uma query composta por um conjunto de termos T é comparada com os documentos indexados em busca de documentos que apresentem esses termos. Os documentos considerados como relevantes são então retornados como resultado a query.
Entretanto textos escritos em linguagem natural nem sempre possuem referências explícitas as suas entidades principais. Anáforas são um recurso freqüente em textos dessa natureza e seu uso diminui o poder de representação dos modelos clássicos, uma vez que entidades citadas no texto podem ser referenciadas por diferentes termos ou até serem omitidas.
Um modelo estrutural [Baeza-Yates e Ribeiro-Neto 1998] alternativo, que leva em consideração a utilização de anáforas na construção da representação computacional dos documentos, é o modelo apresentado por Seibel Júnior[Seibel Júnior e Freitas 2007]. Em [Seibel Júnior 2007]
o documento é representado pela Estrutura Nominal do Discurso para Buscas (ENDB) ou Estrutura para Buscas, criada a partir da Estrutura Nominal do Discurso (END) proposta por Freitas [Freitas 2005, Freitas e Lopes 1995, Freitas e Lopes 1994, Freitas e Lopes 1993, Freitas 1992]
com o objetivo de resolver anáforas. Uma vez que um documento tenha sua END construída, a metodologia proposta por Seibel Júnior [Seibel Júnior 2007] estabelece os mecanismos para transformá-la em uma estrutura voltada para a Recuperação de Informação e estabelece a metodologia para a realização de consultas à estrutura.
A construção da representação dos textos baseia-se na identificação dos focos, elementos centrais das frases do texto. Nenhuma informação, além dos focos, é levada em consideração
para a construção da Estrutura para Buscas, mas a END pode fornecer outras informações. A Estrutura Nominal armazena todas as entidades apresentadas no texto. Pereira et al apresentam em [Pereira, Seibel Júnior e Freitas 2009] uma nova metodologia para a RI baseada na resolução de anáforas de acordo com a proposta de Freitas[Freitas 2005].
Nesse trabalho, a construção da Estrutura para Buscas é realizada transpondo todas as entidades identificadas durante o processo de resolução anafórica, o que possibilita uma melhora na forma de representação do texto dos documentos e na qualidade dos resultados obtidos pelas pesquisas. Este trabalho detalha a proposta apresentada por Pereira et al, apresentando os algoritmos envolvidos na sua definição e experimentações sobre a nova metodologia de buscas.
|
Page generated in 0.1591 seconds