Submitted by Haroudo Xavier Filho (haroudo.xavierfo@ufpe.br) on 2015-05-21T18:24:45Z
No. of bitstreams: 1
Dissertação Danielle Guedes Frutuoso.pdf: 1821107 bytes, checksum: 27b0bc0583b46c7a6fc0b2951b6887f3 (MD5) / Made available in DSpace on 2015-05-21T18:24:45Z (GMT). No. of bitstreams: 1
Dissertação Danielle Guedes Frutuoso.pdf: 1821107 bytes, checksum: 27b0bc0583b46c7a6fc0b2951b6887f3 (MD5)
Previous issue date: 2014-04-28 / A explosão de dados na internet deixou de ter foco apenas em grandes empresas para ser amplamente utilizada por usuários comuns. Esse crescimento elevado traz consigo grandes desafios em relação à disponibilização da informação. A natureza descentralizada e desestruturada na qual esses dados estão disponíveis, tornam a tarefa de encontrar, analisar e sintetizar comentários sobre uma dada empresa, produto ou serviço extremamente complicada, ocasionando resultados de baixa qualidade. Esta pesquisa tem como foco a extração de informação de textos livres gerados pela rede social Twitter, onde na maioria das vezes apresentam uma estrutura linguística irregular. Dentre os diversos trabalhos relacionados à extração de informação podemos destacar o Reconhecimento de Entidades Mencionadas (REM), cujo objetivo consiste em localizar e classificar elementos do texto em categorias pré-definidas como Organizações, Pessoas, Local, etc. Neste trabalho será considerada apenas a categoria Organização, com ênfase em palavras homônimas. O experimento deste trabalho foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que no primeiro exige o conhecimento do especialista para determinar todos os atributos considerados relevantes para o aprendizado supervisionado. No segundo cenário, um processo automatizado define parte desses atributos. Os experimentos foram realizados usando a ferramenta Weka onde foram avaliados os classificadores: Naive Bayes, Máquinas de Vetores de Suporte (SVM), K-Vizinhos mais Próximos e Árvores de Decisão. Como medidas de desempenho foram analisadas taxas de acerto, precisão, cobertura e medida-F. Apesar dos resultados apresentados pelos classificadores se mostrarem bastante aproximados, o algoritmo K-Vizinhos mais Próximos obteve em boa parte dos testes melhores resultados. Nos dois cenários os resultados chegaram próximos um do outro, porém o primeiro cenário obteve como resultado médio de acerto, um percentual de 91,7% se destacando em relação à média alcançada de 88,9% para a segunda etapa.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/14018 |
Date | 28 April 2014 |
Creators | Frutuoso, Danielle Guedes |
Contributors | Prudêncio, Ricardo Bastos Cavalcante |
Source Sets | IBICT Brazilian ETDs |
Language | Breton |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds