Global ETD Search

Return to search

Recuperação de informação e classificação de entidades organizacionais em textos não estruturados

Submitted by Haroudo Xavier Filho (haroudo.xavierfo@ufpe.br) on 2015-05-21T18:24:45Z
No. of bitstreams: 1
Dissertação Danielle Guedes Frutuoso.pdf: 1821107 bytes, checksum: 27b0bc0583b46c7a6fc0b2951b6887f3 (MD5) / Made available in DSpace on 2015-05-21T18:24:45Z (GMT). No. of bitstreams: 1
Dissertação Danielle Guedes Frutuoso.pdf: 1821107 bytes, checksum: 27b0bc0583b46c7a6fc0b2951b6887f3 (MD5)
Previous issue date: 2014-04-28 / A explosão de dados na internet deixou de ter foco apenas em grandes empresas para ser amplamente utilizada por usuários comuns. Esse crescimento elevado traz consigo grandes desafios em relação à disponibilização da informação. A natureza descentralizada e desestruturada na qual esses dados estão disponíveis, tornam a tarefa de encontrar, analisar e sintetizar comentários sobre uma dada empresa, produto ou serviço extremamente complicada, ocasionando resultados de baixa qualidade. Esta pesquisa tem como foco a extração de informação de textos livres gerados pela rede social Twitter, onde na maioria das vezes apresentam uma estrutura linguística irregular. Dentre os diversos trabalhos relacionados à extração de informação podemos destacar o Reconhecimento de Entidades Mencionadas (REM), cujo objetivo consiste em localizar e classificar elementos do texto em categorias pré-definidas como Organizações, Pessoas, Local, etc. Neste trabalho será considerada apenas a categoria Organização, com ênfase em palavras homônimas. O experimento deste trabalho foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que no primeiro exige o conhecimento do especialista para determinar todos os atributos considerados relevantes para o aprendizado supervisionado. No segundo cenário, um processo automatizado define parte desses atributos. Os experimentos foram realizados usando a ferramenta Weka onde foram avaliados os classificadores: Naive Bayes, Máquinas de Vetores de Suporte (SVM), K-Vizinhos mais Próximos e Árvores de Decisão. Como medidas de desempenho foram analisadas taxas de acerto, precisão, cobertura e medida-F. Apesar dos resultados apresentados pelos classificadores se mostrarem bastante aproximados, o algoritmo K-Vizinhos mais Próximos obteve em boa parte dos testes melhores resultados. Nos dois cenários os resultados chegaram próximos um do outro, porém o primeiro cenário obteve como resultado médio de acerto, um percentual de 91,7% se destacando em relação à média alcançada de 88,9% para a segunda etapa.

https://repositorio.ufpe.br/handle/123456789/14018

Classificação de textos

Reconhecimento de Entidades Mencionadas

Entidades Organizacionais

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/14018
Date	28 April 2014
Creators	Frutuoso, Danielle Guedes
Contributors	Prudêncio, Ricardo Bastos Cavalcante
Source Sets	IBICT Brazilian ETDs
Language	Breton
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds

Recuperação de informação e classificação de entidades organizacionais em textos não estruturados

Description

Links & Downloads

Tags

Additional Fields