• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas

BOSSOIS, D. Z. 30 August 2010 (has links)
Made available in DSpace on 2016-08-29T15:33:12Z (GMT). No. of bitstreams: 1 tese_3546_.pdf: 1015846 bytes, checksum: a365d98c5659bc09311e6903f97c6e37 (MD5) Previous issue date: 2010-08-30 / Com a constante expansão do conteúdo textual em formato eletrônico, surge a necessidade de organizar toda essa informação de forma operável. Desenvolveu-se, então, o processo de categorização de textos, visando facilitar a manipulação e recuperação da informação a partir da sua separação em categorias temáticas. Há diversas abordagens para a obtenção de um categorizador automático de textos e, dentre elas, o paradigma supervisionado é o mais tradicional. Apesar de a metodologia supervisionada apresentar uma precisão comparável àquela obtida por especialistas humanos, a obrigatoriedade de um corpus pré-classificado pode ser um fator limitador em certas aplicações. Nessas situações, pode ser aplicada uma solução semi ou não supervisionada, que não exige um conjunto de treino completo e bem formado para a construção de um categorizador; pelo contrário, são somente fornecidos documentos não rotulados para o método. Tanto o paradigma de aprendizado de máquina supervisionado, quanto os paradigmas semi e não supervisionados, usualmente constroem uma representação dos textos baseado somente na ocorrência dos termos, não levando em conta fatores semânticos. Entretanto, muitas características intrínsecas da linguagem natural podem tornar o processo ambíguo, e um desses fatores é a utilização de termos diversos para a referência de uma entidade já apresentada no texto. A esse fenômeno linguístico, dá-se o nome de anáfora. Esta dissertação propõe um método para a concepção de um categorizador não supervisionado, utilizando como base a Estrutura Nominal do Discurso (END), desenvolvida por Freitas com o propósito de resolução de anáforas, em [Freitas 2005]. Para isso, a técnica de bootstrapping para categorização é implementada, objetivando a obtenção da rotulação inicial para os documentos, a qual é utilizada para gerar um modelo de categorização através do paradigma supervisionado. Além de ter sido fundamentada a partir da END, a metodologia deste trabalho se beneficia do processo de resolução de anáforas de forma direta, utilizando os antecedentes identificados para as anáforas, durante a fase final da categorização. O presente trabalho apresenta detalhes sobre a metodologia proposta, explanando os algoritmos desenvolvidos, bem como as experimentações realizadas para a avaliação do método. Os resultados mostram que a utilização do processo de resolução de anáforas é benéfica para um sistema de categorização não supervisionada.
2

Análise de expressões referenciais em corpus anotado da língua portuguesa

Abreu, Sandra Collovini de 23 February 2005 (has links)
Made available in DSpace on 2015-03-05T13:53:44Z (GMT). No. of bitstreams: 0 Previous issue date: 23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A análise de expressões referenciais é fundamental na interpretação do discurso. A identificação de expressões correferentes é importante em diversas aplicações de Processamento da Linguagem Natural. Expressões referenciais podem ser usadas para introduzir entidades em um discurso ou podem fazer referência a entidades já mencionadas, podendo fazer uso de redução lexical, como em: “O Eurocenter oferece cursos de Japonês na bela cidade de Kanazawa. Os cursos têm quatro semanas de duração”. Onde “cursos de Japonês” introduz uma nova entidade e “os cursos” retomam essa entidade. A resolução de correferência é o processo de identificar as expressões que se referem à mesma entidade no discurso. As expressões referenciais são analisadas e a existência de um antecedente textual é verificada. Aquelas que introduzem novos elementos, chamamos novas no discurso. Esta dissertação apresenta um estudo das características de um tipo específico de expressões referenciais (descrições definidas) com o objetivo de identi

Page generated in 0.0865 seconds