• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Recuperação de informação e classificação de entidades organizacionais em textos não estruturados

Frutuoso, Danielle Guedes 28 April 2014 (has links)
Submitted by Haroudo Xavier Filho (haroudo.xavierfo@ufpe.br) on 2015-05-21T18:24:45Z No. of bitstreams: 1 Dissertação Danielle Guedes Frutuoso.pdf: 1821107 bytes, checksum: 27b0bc0583b46c7a6fc0b2951b6887f3 (MD5) / Made available in DSpace on 2015-05-21T18:24:45Z (GMT). No. of bitstreams: 1 Dissertação Danielle Guedes Frutuoso.pdf: 1821107 bytes, checksum: 27b0bc0583b46c7a6fc0b2951b6887f3 (MD5) Previous issue date: 2014-04-28 / A explosão de dados na internet deixou de ter foco apenas em grandes empresas para ser amplamente utilizada por usuários comuns. Esse crescimento elevado traz consigo grandes desafios em relação à disponibilização da informação. A natureza descentralizada e desestruturada na qual esses dados estão disponíveis, tornam a tarefa de encontrar, analisar e sintetizar comentários sobre uma dada empresa, produto ou serviço extremamente complicada, ocasionando resultados de baixa qualidade. Esta pesquisa tem como foco a extração de informação de textos livres gerados pela rede social Twitter, onde na maioria das vezes apresentam uma estrutura linguística irregular. Dentre os diversos trabalhos relacionados à extração de informação podemos destacar o Reconhecimento de Entidades Mencionadas (REM), cujo objetivo consiste em localizar e classificar elementos do texto em categorias pré-definidas como Organizações, Pessoas, Local, etc. Neste trabalho será considerada apenas a categoria Organização, com ênfase em palavras homônimas. O experimento deste trabalho foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que no primeiro exige o conhecimento do especialista para determinar todos os atributos considerados relevantes para o aprendizado supervisionado. No segundo cenário, um processo automatizado define parte desses atributos. Os experimentos foram realizados usando a ferramenta Weka onde foram avaliados os classificadores: Naive Bayes, Máquinas de Vetores de Suporte (SVM), K-Vizinhos mais Próximos e Árvores de Decisão. Como medidas de desempenho foram analisadas taxas de acerto, precisão, cobertura e medida-F. Apesar dos resultados apresentados pelos classificadores se mostrarem bastante aproximados, o algoritmo K-Vizinhos mais Próximos obteve em boa parte dos testes melhores resultados. Nos dois cenários os resultados chegaram próximos um do outro, porém o primeiro cenário obteve como resultado médio de acerto, um percentual de 91,7% se destacando em relação à média alcançada de 88,9% para a segunda etapa.

Page generated in 0.1003 seconds