Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-05-15T11:49:34Z
No. of bitstreams: 1
468523 - Texto Completo.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5) / Made available in DSpace on 2015-05-15T11:49:34Z (GMT). No. of bitstreams: 1
468523 - Texto Completo.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5)
Previous issue date: 2015-03-16 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / In mass emergencies, a fair amount of information is exchanged via SMS messages.
These messages tend to be informal and to contain abbreviations and misspellings,
which makes them difficult to treat. This is a problem for current Information Extraction
tools, especially for messages in Portuguese. This work proposes an architecture to extract
information from SMS messages during emergencies. The architecture comprises four
components: Linguistic Processing, Temporal Processing, Event Processing, and Information
Fusion. We also defined an SMS corpus building process. From the proposal of this
architecture, we conducted a case study, which included building BraCorpSMS, a corpus of
SMS messages received by an electric utility company. We built a prototype in Python using
NLTK to validate the architecture. The prototype had its Information Extraction components
evaluated achieving Precision of 88%, Recall of 59% and balanced F-measure of 71%. The
results indicate improvement opportunities, but as this is the first work for Portuguese facing
processing SMS messages during emergency situations, it also serves as a roadmap for
future work in the area. / Durante situa??es de emerg?ncia, uma grande quantidade de informa??o ? trocada
via mensagens SMS. Estas mensagens costumam ter escrita informal e cont?m abrevia??es
e erros de grafia, o que dificulta seu processamento. Este ? um problema para as
ferramentas de Extra??o de Informa??o atuais, especialmente para o Portugu?s. Este trabalho
prop?e uma arquitetura de extra??o de informa??o de mensagens SMS em situa??es
de emerg?ncia. A arquitetura contempla quatro componentes: processamento lingu?stico,
processamento temporal, processamento de eventos e fus?o da informa??o. Tamb?m se
define um processo para cria??o de corpus de SMSs. A partir da arquitetura proposta, foi
realizado um estudo de caso que incluiu a constru??o do BraCorpSMS, um corpus de mensagens
SMS recebidos por uma companhia de energia el?trica e um prot?tipo em Python
utilizando NLTK para validar a arquitetura. O prot?tipo teve seus componentes de Extra??o
de Informa??o avaliados, obtendo 88% de Precis?o, 59% de Cobertura e 71% de Medida-F.
Os resultados indicam oportunidades de avan?os, mas, sendo este o primeiro trabalho para
o Portugu?s voltado para o processamento de mensagens SMS em situa??es de emerg?ncia,
tamb?m serve de roteiro para trabalhos futuros nesta ?rea.
Identifer | oai:union.ndltd.org:IBICT/oai:tede2.pucrs.br:tede/6013 |
Date | 16 March 2015 |
Creators | Monteiro, Douglas Machado |
Contributors | Lima, Vera L?cia Strube de |
Publisher | Pontif?cia Universidade Cat?lica do Rio Grande do Sul, Programa de P?s-Gradua??o em Ci?ncia da Computa??o, PUCRS, Brasil, Faculdade de Inform?tica |
Source Sets | IBICT Brazilian ETDs |
Language | English |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS |
Rights | info:eu-repo/semantics/openAccess |
Relation | 1974996533081274470, 600, 600, 600, 600, -3008542510401149144, 3671711205811204509, 2075167498588264571 |
Page generated in 0.0024 seconds