Return to search

A proposal for an architecture to extract information from sms messages during emergency situations

Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-05-15T11:49:34Z
No. of bitstreams: 1
468523 - Texto Completo.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5) / Made available in DSpace on 2015-05-15T11:49:34Z (GMT). No. of bitstreams: 1
468523 - Texto Completo.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5)
Previous issue date: 2015-03-16 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / In mass emergencies, a fair amount of information is exchanged via SMS messages.
These messages tend to be informal and to contain abbreviations and misspellings,
which makes them difficult to treat. This is a problem for current Information Extraction
tools, especially for messages in Portuguese. This work proposes an architecture to extract
information from SMS messages during emergencies. The architecture comprises four
components: Linguistic Processing, Temporal Processing, Event Processing, and Information
Fusion. We also defined an SMS corpus building process. From the proposal of this
architecture, we conducted a case study, which included building BraCorpSMS, a corpus of
SMS messages received by an electric utility company. We built a prototype in Python using
NLTK to validate the architecture. The prototype had its Information Extraction components
evaluated achieving Precision of 88%, Recall of 59% and balanced F-measure of 71%. The
results indicate improvement opportunities, but as this is the first work for Portuguese facing
processing SMS messages during emergency situations, it also serves as a roadmap for
future work in the area. / Durante situa??es de emerg?ncia, uma grande quantidade de informa??o ? trocada
via mensagens SMS. Estas mensagens costumam ter escrita informal e cont?m abrevia??es
e erros de grafia, o que dificulta seu processamento. Este ? um problema para as
ferramentas de Extra??o de Informa??o atuais, especialmente para o Portugu?s. Este trabalho
prop?e uma arquitetura de extra??o de informa??o de mensagens SMS em situa??es
de emerg?ncia. A arquitetura contempla quatro componentes: processamento lingu?stico,
processamento temporal, processamento de eventos e fus?o da informa??o. Tamb?m se
define um processo para cria??o de corpus de SMSs. A partir da arquitetura proposta, foi
realizado um estudo de caso que incluiu a constru??o do BraCorpSMS, um corpus de mensagens
SMS recebidos por uma companhia de energia el?trica e um prot?tipo em Python
utilizando NLTK para validar a arquitetura. O prot?tipo teve seus componentes de Extra??o
de Informa??o avaliados, obtendo 88% de Precis?o, 59% de Cobertura e 71% de Medida-F.
Os resultados indicam oportunidades de avan?os, mas, sendo este o primeiro trabalho para
o Portugu?s voltado para o processamento de mensagens SMS em situa??es de emerg?ncia,
tamb?m serve de roteiro para trabalhos futuros nesta ?rea.

Identiferoai:union.ndltd.org:IBICT/oai:tede2.pucrs.br:tede/6013
Date16 March 2015
CreatorsMonteiro, Douglas Machado
ContributorsLima, Vera L?cia Strube de
PublisherPontif?cia Universidade Cat?lica do Rio Grande do Sul, Programa de P?s-Gradua??o em Ci?ncia da Computa??o, PUCRS, Brasil, Faculdade de Inform?tica
Source SetsIBICT Brazilian ETDs
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS
Rightsinfo:eu-repo/semantics/openAccess
Relation1974996533081274470, 600, 600, 600, 600, -3008542510401149144, 3671711205811204509, 2075167498588264571

Page generated in 0.0024 seconds