Spelling suggestions: "subject:"resolução dde anáfora"" "subject:"resolução dde metáforas""
1 |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforasBOSSOIS, D. Z. 30 August 2010 (has links)
Made available in DSpace on 2016-08-29T15:33:12Z (GMT). No. of bitstreams: 1
tese_3546_.pdf: 1015846 bytes, checksum: a365d98c5659bc09311e6903f97c6e37 (MD5)
Previous issue date: 2010-08-30 / Com a constante expansão do conteúdo textual em formato eletrônico, surge a necessidade de organizar toda essa informação de forma operável. Desenvolveu-se, então, o processo de categorização de textos, visando facilitar a manipulação e recuperação da informação a partir da sua separação em categorias temáticas. Há diversas abordagens para a obtenção de um categorizador automático de textos e, dentre elas, o paradigma supervisionado é o mais tradicional. Apesar de a metodologia supervisionada apresentar uma precisão comparável àquela obtida por especialistas humanos, a obrigatoriedade de um corpus pré-classificado pode ser um fator limitador em certas aplicações.
Nessas situações, pode ser aplicada uma solução semi ou não supervisionada, que não exige um conjunto de treino completo e bem formado para a construção de um categorizador; pelo contrário, são somente fornecidos documentos não rotulados para o método. Tanto o paradigma de aprendizado de máquina supervisionado, quanto os paradigmas semi e não supervisionados, usualmente constroem uma representação dos textos baseado somente na ocorrência dos termos, não levando em conta fatores semânticos. Entretanto, muitas características intrínsecas da linguagem natural podem tornar o processo ambíguo, e um desses fatores é a utilização de termos diversos para a referência de uma entidade já apresentada no texto. A esse fenômeno linguístico, dá-se o nome de anáfora.
Esta dissertação propõe um método para a concepção de um categorizador não supervisionado, utilizando como base a Estrutura Nominal do Discurso (END), desenvolvida por Freitas com o propósito de resolução de anáforas, em [Freitas 2005]. Para isso, a técnica de bootstrapping para categorização é implementada, objetivando a obtenção da rotulação inicial para os documentos, a qual é utilizada para gerar um modelo de categorização através do paradigma supervisionado. Além de ter sido fundamentada a partir da END, a metodologia deste trabalho se beneficia do processo de resolução de anáforas de forma direta, utilizando os antecedentes identificados para as anáforas, durante a fase final da categorização.
O presente trabalho apresenta detalhes sobre a metodologia proposta, explanando os algoritmos desenvolvidos, bem como as experimentações realizadas para a avaliação do método. Os resultados mostram que a utilização do processo de resolução de anáforas é benéfica para um sistema de categorização não supervisionada.
|
2 |
Análise de expressões referenciais em corpus anotado da língua portuguesaAbreu, Sandra Collovini de 23 February 2005 (has links)
Made available in DSpace on 2015-03-05T13:53:44Z (GMT). No. of bitstreams: 0
Previous issue date: 23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A análise de expressões referenciais é fundamental na interpretação do discurso. A identificação de expressões correferentes é importante em diversas aplicações de Processamento da Linguagem Natural. Expressões referenciais podem ser usadas para introduzir entidades em um discurso ou podem fazer referência a entidades já mencionadas,
podendo fazer uso de redução lexical, como em: “O Eurocenter oferece cursos de Japonês na
bela cidade de Kanazawa. Os cursos têm quatro semanas de duração”. Onde “cursos de
Japonês” introduz uma nova entidade e “os cursos” retomam essa entidade. A resolução de
correferência é o processo de identificar as expressões que se referem à mesma entidade no
discurso. As expressões referenciais são analisadas e a existência de um antecedente textual é
verificada. Aquelas que introduzem novos elementos, chamamos novas no discurso.
Esta dissertação apresenta um estudo das características de um tipo específico de
expressões referenciais (descrições definidas) com o objetivo de identi
|
Page generated in 0.0568 seconds