61 |
Exploração da mineração de texto em documentos da saúde em diferentes idiomas para acompanhamento médico de pacientes com doenças crônicas / Exploration of text mining in health documents in different languages for medical follow-up of patients with chronic diseasesAna Katariny de Souza Cacheta 08 November 2018 (has links)
O CleverCare é um framework para controle, gestão e orientação de pacientes que necessitam de acompanhamento médico contínuo. O sistema possui ferramentas de mineração de textos responsáveis por compreender o conteúdo das mensagens e integrar com serviços de mensagem para envio e recebimento das mesmas, onde inicia diálogos com o paciente para gerenciar atividades rotineiras personalizadas e permite, inclusive, ao paciente fazer perguntas a respeito de uma enfermidade ou condição clínica. Desta forma, a comunicação com o paciente é a base para o sucesso do CleverCare, o qual atualmente possui suporte para o português, atuando por meio de suporte e empoderando o paciente ao cuidado de sua saúde. Compreender as implicações lógicas e adaptações necessárias para a compreensão de textos em diferentes idiomas pode fornecer informações para a aplicação dos mesmos procedimentos a outros idiomas, correlacionando informações e estabelecendo lógicas para traduções e tratamento de termos específicos da área, permitindo atender a uma maior demanda de pacientes que necessitam de tratamento contínuo. Para o desenvolvimento do projeto foram utilizadas abordagens e técnicas visando a escalabilidade e expansão de idiomas de maneira dinâmica. Para isso além das decisões de alterações específicas do sistema foram utilizadas ferramentas como o NLTK para o aperfeiçoamento e realização das adaptações necessárias ao projeto, uma vez que essa ferramenta possui suporte a diversos idiomas e está em constante melhoria. Os resultados, analisados por meio de técnicas de acurácia, precisão e revocação, demonstram que a melhoria observada com as adaptações do sistema para suporte aos idiomas de interesse foram positivas e significativas, com aumento de 13% nos indicadores de revocação e acurácia e manutenção da precisão em 100%. Sendo assim, o CleverCare apresentou um bom desempenho e foi capaz de classificar corretamente as mensagens, permitindo ao sistema reconhecer e classificar corretamente diferentes idiomas. Esta solução permite ao sistema não apenas fazer o processamento de diálogos em português, inglês e espanhol, mas também ingressar no mercado internacional com a possibilidade de expansão e escalabilidade para outros idiomas / CleverCare is a framework for the control, management, and guidance of patients who need ongoing medical follow-up. The system has text-mining tools responsible for understanding the content of the messages and integrating with message services to send and receive messages, where it initiates dialogues with the patient to manage personalized routine activities and allows the patient to ask questions about them in relation to an illness or clinical condition. In this way, communication with the patient is the basis for the success of CleverCare, which currently has support for Portuguese, acting through support and empowering the patient to take care of their health. Understanding the logical implications and adaptations required for the understanding of texts in different languages can provide information for the application of the same procedures to other languages, correlating information and establishing logics for translations and treatment of specific terms of the area, allowing to supply a greater demand of patients who require continuous treatment. For the development of the project, it was used approaches and techniques aimed at scaling and language expansion in a dynamic way. For this in addition to the system-specific changes decisions tools like NLTK were used, aiming at the improvement and accomplishment of the necessary adaptations to the project, since this tool has support to several languages and is constantly improving. The results, analyzed using accuracy, precision and recall techniques, demonstrate that the improvement observed with the system adaptations to support the languages of interest were positive and significant, with an increase of 13% in recall and accuracy indicators and maintenance of 100% of precision. Thus, CleverCare performed well and was able to classify messages correctly, allowing the system to correctly recognize and classify different languages. This solution allows the system not only to process dialogues in Portuguese, English and Spanish, but also to enter the international market with the possibility of expansion and scalability for other languages
|
62 |
Uma abordagem semi-autom?tica para identifica??o de estruturas ontol?gicas a partir de textos na l?ngua portuguesa do BrasilBas?gio, T?lio Lima 05 January 2007 (has links)
Made available in DSpace on 2015-04-14T14:49:07Z (GMT). No. of bitstreams: 1
403014.pdf: 1442012 bytes, checksum: 5c452e448ac645ff8803369f1459add6 (MD5)
Previous issue date: 2007-01-05 / Para v?rias ?reas de aplica??o, a constru??o semi-autom?tica ou autom?tica de ontologias seria extremamente ?til. Abordagens semi-autom?ticas para a extra??o de ontologias a partir de textos t?m sido propostas na literatura, as quais sugerem a extra??o de conhecimento encontrado nos textos de um dom?nio, com o apoio de t?cnicas de processamento da l?ngua natural. Este trabalho prop?e uma abordagem para suportar algumas fases do processo de aquisi??o de estruturas ontol?gicas, mais especificamente as fases de extra??o de conceitos e rela??es taxon?micas, de modo a semi-automatizar os passos da constru??o de ontologias a partir de textos na l?ngua portuguesa do Brasil. O resultado obtido serve como ponto de partida ao engenheiro de ontologia. Para avalia??o da abordagem proposta, foi desenvolvido um prot?tipo que incorpora mecanismos de importa??o de corpus, identifica??o de termos relevantes, identifica??o de rela??es taxon?micas entre esses termos e gera??o da estrutura ontol?gica em OWL. Este prot?tipo foi utilizado num estudo de caso sobre o dom?nio do Turismo, possibilitando a avalia??o com rela??o a diferentes aspectos do processo de aquisi??o de conceitos e rela??es.
|
63 |
Extra??o de estruturas ontol?gicas de dom?nio da Wikip?dia em l?ngua portuguesaXavier, Clarissa Castell? 08 March 2010 (has links)
Made available in DSpace on 2015-04-14T14:49:24Z (GMT). No. of bitstreams: 1
424692.pdf: 1937010 bytes, checksum: f88759e6fc1959ff14fdb14bd6afdae7 (MD5)
Previous issue date: 2010-03-08 / A necessidade crescente por ontologias e a dificuldade em constru?-las manualmente v?m gerando iniciativas em busca de m?todos para a constru??o autom?tica e semi-autom?tica de ontologias. A Wikip?dia, contendo uma grande quantidade de conte?do organizado, livremente dispon?vel e cobrindo uma extensa faixa de assuntos, mostra-se uma fonte interessante para extra??o de estruturas ontol?gicas. Neste trabalho propomos um m?todo semi-autom?tico para a extra??o de estruturas ontol?gicas de dom?nio a partir da estrutura de categorias da Wikip?dia em portugu?s. Para validar o m?todo proposto, realizamos um estudo de caso no qual foi implementado um prot?tipo gerando uma estrutura ontol?gica do dom?nio Turismo. Os resultados obtidos foram avaliados atrav?s da compara??o da estrutura ontol?gica gerada com um mapeamento de refer?ncia, apresentando-se promissores, compar?veis aos encontrados na literatura para outros idiomas.
|
64 |
Extra??o autom?tica de conceitos a partir de textos em l?ngua portuguesaLopes, Lucelene 26 January 2012 (has links)
Made available in DSpace on 2015-04-14T14:49:48Z (GMT). No. of bitstreams: 1
439085.pdf: 7508888 bytes, checksum: c69f67a5ec361212f83a17a4407866ce (MD5)
Previous issue date: 2012-01-26 / This thesis describes a process to extract concepts from texts in portuguese language. The proposed process starts with linguistic annotated corpora from specific domains, and it generates lists of concepts for each corpus. The proposal of a linguistic oriented extraction procedure based on noun phrase detection, and a set of heuristics to improve the overall quality of concept candidate extraction is made. The improvement in precision and recall of extracted term list is from approximatively from 10% to more more than 60%. A new index (tf-dcf) based on contrastive corpora is proposed to sort the concept candidate terms according to the their relevance to their respective domain. The precision results achieved by this new index are superior to to the results achieved by indices proposed in similar works. Cut-off points are proposed in order to identify, among extracted concept candidate terms sorted according to their relevance, which of them will be considered concepts. A hybrid approach to choose cut-off points delivers reasonable F-measure values, and it brings quality to the concept identification process. Additionally, four applications are proposed in order to facilitate the comprehension, handling, and visualization of extracted terms and concepts. Such applications enlarge this thesis contributions available to a broader community of researchers and users of Natural Language Processing area. The proposed process is described in detail, and experiments empirically evaluate each process step. Besides the scientific contribution made with the process proposal, this thesis also delivers extracted concept lists for five different domain corpora, and the prototype of a software tool (EχATOLP) implementing all steps of the proposed process. / Essa tese descreve um processo para extrair conceitos de textos em l?ngua portuguesa. O processo proposto inicia com corpora de dom?nio linguisticamente anotados, e gera listas de conceitos dos dom?nios de cada corpus. Utiliza-se uma abordagem lingu?stica, que baseia-se na identifica??o de sintagmas nominais e um conjunto de heur?sticas que melhoram a qualidade da extra??o de candidatos a conceitos. Essa melhora ? expressa por incrementos aproximadamente de 10% para mais de 60% nos valores de precis?o e abrang?ncia das listas de termos extra?das. Prop?e-se um novo ?ndice (tf-dcf) baseado na compara??o com corpora contrastantes, para ordenar os termos candidatos a conceito extra?dos de acordo com suas relev?ncias para o corpus de dom?nio. Os resultados obtidos com esse novo ?ndice s?o superiores aos resultados obtidos com ?ndices propostos em trabalhos similares. Aplicam-se pontos de corte para identificar, dentre os termos candidatos classificados segundo sua relev?ncia, quais ser?o considerados conceitos. O uso de uma abordagem h?brida para escolha de pontos de corte fornece valores adequados de medida F, trazendo qualidade ao processo de identifica??o de conceitos. Adicionalmente. prop?em-se quatro aplica??es para facilitar a compreens?o, manipula??o e visualiza??o dos termos e conceitos extra?dos. Essas aplica??es tornam as contribui??es dessa tese acess?veis a um maior n?mero de pesquisadores e usu?rios da ?rea de Processamento de Linguagem Natural. Todo o processo proposto ? descrito em detalhe, e experimentos avaliam empiricamente cada passo. Al?m das contribui??es cient?ficas feitas com a proposta do processo, essa tese tamb?m apresenta listas de conceitos extra?dos para cinco diferentes corpora de dom?nio, e o prot?tipo de numa ferramenta de software (EXATOLP) que implementa todos os passos propostos.
|
65 |
Uma proposta para descoberta autom?tica de rela??es n?o-taxon?micas a partir de corpus em l?ngua portuguesaFerreira, Vinicius Hartmann 11 December 2012 (has links)
Made available in DSpace on 2015-04-14T14:49:58Z (GMT). No. of bitstreams: 1
446187.pdf: 2000156 bytes, checksum: d69c6168cd6efd48f1f38ca794de2813 (MD5)
Previous issue date: 2012-12-11 / The construction of ontologies is a complex process that includes steps such as extraction of domain concepts, as well as the extraction of taxonomic and non-taxonomic relations between these concepts. The step of extracting non-taxonomic relations is the most neglected, specially for texts in portuguese. This dissertation presents a proposal for extracting non-taxonomic relations from texts in portuguese (corpora). These texts are represented by a list of domain concepts and contextual informations extracted by the tool ExATOlp. An application of the proposed process was performed with corpora of five domains and analysis on the relevance of the concepts, the specificity of relations and relations extracted application was made. Through this analysis, the proposed process seemed to be relevant and is considered the main contribution of this dissertation. Additionally, a tool for visualizing the extracted non-taxonomic relations, useful for various linguistic applications, is also proposed. / A constru??o de ontologias ? um processo complexo que compreende etapas como a extra??o de conceitos de dom?nio, bem como a extra??o de rela??es taxon?micas e n?o-taxon?micas entre esses conceitos. A etapa de extra??o de rela??es n?o-taxon?micas ? a mais negligenciada, especialmente para textos na l?ngua portuguesa. Essa disserta??o apresenta uma proposta de extra??o de rela??es n?o-taxon?micas a partir de textos em l?ngua portuguesa (corpora). Esses textos s?o representados por uma lista de conceitos e informa??es contextuais automaticamente extra?dos pela ferramenta ExATOlp. Uma aplica??o do processo proposto foi realizada com corpora de cinco dom?nios e uma an?lise sobre a relev?ncia dos conceitos, a especifidade das rela??es e a aplica??o das rela??es extra?das foi realizada. Atrav?s dessa an?lise o processo proposto mostrou-se relevante, sendo considerado a principal contribui??o dessa disserta??o. Adicionalmente, uma ferramenta para visualiza??o das rela??es n?o-taxon?micas extra?das, ?til para diversas aplica??es lingu?sticas, tamb?m ? proposta.
|
66 |
Minera??o de opini?es aplicada a m?dias sociaisSouza, Marlo Vieira dos Santos e 19 March 2012 (has links)
Made available in DSpace on 2015-04-14T14:50:01Z (GMT). No. of bitstreams: 1
448645.pdf: 990116 bytes, checksum: 3ad832cb853385fcbb55975315370396 (MD5)
Previous issue date: 2012-03-19 / The competitive environment has become more dynamic in the last few decades due to the great development of information and comunication technologies and to the globalization process.A company manager must, thus, always be well informed about the competitive landscape before making strategic decisions. In this sense, the Competitive Intelligence (CI) emerges as a discipline that aims to systematize the collection and analysis of information in the competitive environment willing to assist decision making. There is, however, an increasing amount of information being produced and released in Internet and traditional media, which become unwieldy. Associated with this, managers still suffer with time constraints to respond to the market stimuli and remain competitive. Thus, it is necessary to maintain a constant staff monitoring the competitive environment to be able to handle the amount of information from this various sources. We believe that the application Text Analysis techniques can help in various stages of such process. This work presents a proposal to use such techniques to aid the process of Competitive Intelligence. We discuss the use of Sentiment Analysis techniques coupled with Named Entity Recognition in texts from social media - especially Twitter - which helps in the analysis of the attitudes of the consumer market towards a brand. We also present a system implementing the proposed techniques, the evaluations made with it and present our conclusions. / O ambiente competitivo se tornou, nas ultimas d?cadas, mais din?mico gra?as ?s tecnologias de informa??o e comunica??o e ? globaliza??o. O gestor, assim, precisa estar sempre bem informado sobre o panorama competitivo antes de tomar decis?es estrat?gicas. Nessa dire??o, a Intelig?ncia Competitiva (IC) surge como uma disciplina que pretende sistematizar a obten??o e an?lise de informa??es do ambiente competitivo com fun??o de auxiliar a tomada de decis?o. H? entretanto uma quantidade crescente de informa??o sendo produzida e disponibilizada em meios como a Internet e m?dias tradicionais, as quais se tornam de dif?cil manejo. Associado a isso, os gestores sofrem ainda com restri??es temporais para responder ao est?mulo do mercado e manteremse competitivos. Dessa forma, ? necess?rio manter uma equipe de monitoramento constante do ambiente competitivo para que se possa lidar com a quantidade de informa??o proveniente de diversas fontes. Acreditamos que a aplica??o de t?cnicas de An?lise de Texto podem auxiliar nas diversas fases do processo de IC. O presente trabalho apresenta uma proposta de utiliza??o de tais t?cnicas para auxiliar o processo de Intelig?ncia Competitiva. Discutimos aqui a utiliza??o de um m?todo de An?lise de Sentimentos aliado ao Reconhecimento de Entidades Nomeadas em textos provenientes de m?dias sociais - particularmente o Twitter - que permitam analisar as atitudes do mercado consumidor quanto a uma determinada marca. S?o apresentados ainda o sistema desenvolvido, as avalia??es realizadas e as conclus?es que tiramos.
|
67 |
Extra??o de rela??es do dom?nio de organiza??es para o portugu?sAbreu, Sandra Collovini de 16 January 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:10Z (GMT). No. of bitstreams: 1
457562.pdf: 2425407 bytes, checksum: fefac4edf439614aa48e880ee5b36971 (MD5)
Previous issue date: 2014-01-16 / The task of Relation Extraction from texts is one of the main challenges in the area of Information
Extraction, considering the required linguistic knowledge and the sophistication of the language
processing techniques employed. This task aims at identifying and classifying semantic relations that
occur between entities recognized in a given text. For example, the sentence Next Saturday, Ronaldo
Lemos, director of Creative Commons, will participate in a debate [...]" expresses a institutionalbond"
relation that occurs between the named entities Ronaldo Lemos" and Creative Commons".
This thesis proposes a process for extraction of relation descriptors, which describes the explicit
relations between named entities in the Organization domain (Person, Organization and Location)
by applying, to texts in Portuguese, Conditional Random Fields (CRF), a probabilistic model that
has been used in various tasks e⇥ciently in processing sequential text, including the task of Relation
Extraction. In order to implement the proposed process, a reference corpus for extracting relations,
necessary for learning, was manually annotated based on a reference corpus for named entities
(HAREM). Based on an extensive literature review on the automatic extraction of relations task,
features of different types were defined. An experimental evaluation was performed to evaluate
the learned model utilizing the defined features. Different input feature configurations for CRF were
evaluated. Among them, the highlight was the inclusion of the semantic feature based on the named
entity category, since this feature could express, in a better way, the kind of relationship between the
pair of named entities we want to identify. Finally, the best results correspond to the extraction of
relations between the named entities of Organization and Person categories, in which the F -measure
rates were 57% and 63%, considering the correct and partially correct extractions, respectively. / A tarefa de Extra??o de Rela??es a partir de textos ? um dos principais desafios da ?rea de Extra??o de Informa??o, tendo em vista o conhecimento lingu?stico exigido e a sofistica??o das t?cnicas de processamento da l?ngua empregados. Essa tarefa visa identificar e classificar rela??es sem?nticas que ocorrem entre entidades reconhecidas em um determinado texto. Por exemplo, o trecho No pr?ximo S?bado, Ronaldo Lemos, diretor da Creative Commons, ir? participar de um debate (...)" expressa uma rela??o de v?nculo-institucional" que ocorre entre as entidades nomeadas Ronaldo Lemos" e Creative Commons". Esta tese prop?e um processo para extra??o de descritores de rela??o, os quais descrevem rela??es expl?citas entre entidades nomeadas do dom?nio de Organiza??es (Pessoa, Organiza??o e Local) utilizando o modelo probabil?stico Conditional Random Fields (CRF), e sua aplica??o em textos da L?ngua Portuguesa. O modelo probabil?stico CRF tem sido aplicado eficientemente em diversas tarefas de processamento de texto sequencial, incluindo recentemente a tarefa de Extra??o de Rela??es. A fim de aplicar o processo proposto, um corpus de refer?ncia para extra??o de rela??es, necess?rio para o aprendizado, foi anotado manualmente, tomando como base um corpus de refer?ncia para entidades nomeadas (HAREM). Com base em uma extensa revis?o da literatura sobre a tarefa de extra??o autom?tica de rela??es, features de diferentes naturezas foram definidas. Uma avalia??o experimental foi realizada com o objetivo de avaliar o modelo aprendido utilizando as features definidas. Diferentes configura??es de features de entrada para o CRF foram avaliadas. Dentre elas, destacou-se a inclus?o da feature sem?ntica baseada na categoria da entidade nomeada, j? que essa feature conseguiu expressar melhor o tipo de rela??o que se deseja identificar entre o par de entidades nomeadas. Por fim, os melhores resultados obtidos correspondem ? extra??o de rela??es entre as entidades nomeadas das categorias Organiza??o e Pessoa, na qual as taxas de F-measure foram de 57% e 63%, considerando as extra??es corretas e parcialmente corretas, respectivamente.
|
68 |
Learning non-verbal relations under open information extraction paradigmXavier, Clarissa Castell? 12 March 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:19Z (GMT). No. of bitstreams: 1
466321.pdf: 1994049 bytes, checksum: fbbeef81814a876679c25f4e015925f5 (MD5)
Previous issue date: 2014-03-12 / O paradigma Open Information Extraction - Open IE (Extra??o Aberta de Informa??es) de extra??o de rela??es trabalha com a identifica??o de rela??es n?o definidas previamente, buscando superar as limita??es impostas pelos m?todos tradicionais de Extra??o de Informa??es como a depend?ncia de dom?nio e a dif?cil escalabilidade. Visando estender o paradigma Open IE para que sejam extra?das rela??es n?o expressas por verbos a partir de textos em ingl?s, apresentamos CompIE, um componente que aprende rela??es expressas em compostos nominais (CNs), como (oil, extracted from, olive) - (?leo, extra?do da, oliva) - do composto nominal olive oil - ?leo de oliva, ou em pares do tipo adjetivo-substantivo (ASs), como (moon, that is, gorgeous) - (lua, que ?, linda) - do AS gorgeous moon (linda lua). A entrada do CompIE ? um arquivo texto, e sua sa?da ? um conjunto de triplas descrevendo rela??es bin?rias. Sua arquitetura ? composta por duas tarefas principais: Extrator de CNs e ASs (1) e Interpretador de CNs e ASs (2). A primeira tarefa gera uma lista de CNs e ASs a partir do corpus de entrada. A segunda tarefa realiza a interpreta??o dos CNs e ASs gerando as triplas que descrevem as rela??es extra?das do corpus. Para estudar a viabilidade da solu??o apresentada, realizamos uma avalia??o baseada em hip?teses. Um prot?tipo foi constru?do com o intuito de validar cada uma das hip?teses. Os resultados obtidos mostram que nossa solu??o alcan?a 89% de Precis?o e demonstram que o CompIE atinge sua meta de estender o paradigma Open IE extraindo rela??es expressas dentro dos CNs e ASs. / The Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs.
|
69 |
SiSe : medida de similaridade sem?ntica entre ontologias em portugu?sFreitas, Juliano Baldez de 26 January 2007 (has links)
Made available in DSpace on 2015-04-14T14:50:24Z (GMT). No. of bitstreams: 1
393159.pdf: 2682367 bytes, checksum: de7318c27ade99fcf0f367ee38778cfb (MD5)
Previous issue date: 2007-01-26 / Este trabalho consiste na adapta??o de uma medida de similaridade sem?ntica para o mapeamento entre ontologias em portugu?s. A medida SiSe (Similaridade Sem?ntica) apresentada neste trabalho adapta a proposta Mapeamento Taxon?mico, de Maedche e Staab [Maedche e Staab 2002]. A medida SiSe faz uma compara??o da similaridade entre termos de ontologias distintas atrav?s da an?lise da hierarquia dos mesmos. Utilizamos o conceito de "Semantic Cotopy" e "Common Semantic Cotopy", os quais formam um conjunto para cada um dos termos comparados. Cada conjunto ? composto pelo termo, pelos subconceitos e superconceitos deste termo, todos representados por seus stems, atrav?s de um recurso de Processamento da Linguagem Natural, o stemmer PortugueseStemmer desenvolvido por Orengo e Huyck [Orengo e Huyck 2001]. Nossa medida adota uma estrat?gia para o mapeamento entre ontologias que envolve a an?lise das linguagens utilizadas na descri??o das ontologias (OWL, RFDS, etc), abstraindo as sintaxes e normalizando em uma linguagem XML com as rela??es hier?rquicas de hipon?mia e hiperon?mia das ontologias. A medida de similaridade SiSe compara as ontologias atrav?s das rela??es hier?rquicas que as mesmas possuem, desta forma o coeficiente resultante ? a similaridade sem?ntico-estrutural entre os termos das ontologias. A avalia??o da medida SiSe ? realizada atrav?s de um "Golden mapping", ou mapeamento dourado, que consiste na avalia??o da similaridade de algumas ontologias por humanos confrontando com os resultados da medida SiSe. Esta medida ? utilizada para auxiliar no mapeamento entre ontologias visando o reuso e a integra??o de informa??o
|
70 |
A proposal for an architecture to extract information from sms messages during emergency situationsMonteiro, Douglas Machado 16 March 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-05-15T11:49:34Z
No. of bitstreams: 1
468523 - Texto Completo.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5) / Made available in DSpace on 2015-05-15T11:49:34Z (GMT). No. of bitstreams: 1
468523 - Texto Completo.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5)
Previous issue date: 2015-03-16 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / In mass emergencies, a fair amount of information is exchanged via SMS messages.
These messages tend to be informal and to contain abbreviations and misspellings,
which makes them difficult to treat. This is a problem for current Information Extraction
tools, especially for messages in Portuguese. This work proposes an architecture to extract
information from SMS messages during emergencies. The architecture comprises four
components: Linguistic Processing, Temporal Processing, Event Processing, and Information
Fusion. We also defined an SMS corpus building process. From the proposal of this
architecture, we conducted a case study, which included building BraCorpSMS, a corpus of
SMS messages received by an electric utility company. We built a prototype in Python using
NLTK to validate the architecture. The prototype had its Information Extraction components
evaluated achieving Precision of 88%, Recall of 59% and balanced F-measure of 71%. The
results indicate improvement opportunities, but as this is the first work for Portuguese facing
processing SMS messages during emergency situations, it also serves as a roadmap for
future work in the area. / Durante situa??es de emerg?ncia, uma grande quantidade de informa??o ? trocada
via mensagens SMS. Estas mensagens costumam ter escrita informal e cont?m abrevia??es
e erros de grafia, o que dificulta seu processamento. Este ? um problema para as
ferramentas de Extra??o de Informa??o atuais, especialmente para o Portugu?s. Este trabalho
prop?e uma arquitetura de extra??o de informa??o de mensagens SMS em situa??es
de emerg?ncia. A arquitetura contempla quatro componentes: processamento lingu?stico,
processamento temporal, processamento de eventos e fus?o da informa??o. Tamb?m se
define um processo para cria??o de corpus de SMSs. A partir da arquitetura proposta, foi
realizado um estudo de caso que incluiu a constru??o do BraCorpSMS, um corpus de mensagens
SMS recebidos por uma companhia de energia el?trica e um prot?tipo em Python
utilizando NLTK para validar a arquitetura. O prot?tipo teve seus componentes de Extra??o
de Informa??o avaliados, obtendo 88% de Precis?o, 59% de Cobertura e 71% de Medida-F.
Os resultados indicam oportunidades de avan?os, mas, sendo este o primeiro trabalho para
o Portugu?s voltado para o processamento de mensagens SMS em situa??es de emerg?ncia,
tamb?m serve de roteiro para trabalhos futuros nesta ?rea.
|
Page generated in 0.0325 seconds