1 |
Modelagem linguística para detecção de causalidade em textos sobre desastres naturais no Estado de São PauloTedrus, Thiago da Rocha January 2014 (has links)
Orientadora: Profa. Dra. Margarethe Born Steinberger-Elias / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, 2014. / Esta é uma pesquisa interdisciplinar envolvendo Ciências da Comunicação, Linguística e Computação, aplicando métodos e técnicas de modelagem linguística à comunicação de desastres baseada em textos jornalísticos. O objetivo específico é recuperar informação relativa à causalidade em textos sobre desastres naturais nas regiões mais propensas do estado de São Paulo entre 1994 e 2012. A metodologia prevê a criação de um corpus de relatos noticiosos do qual se possam extrair indicadores linguísticos para reconhecimento automático das causas mais comumente atribuídas aos desastres. São três etapas: a) identificação de vocabulário específico associado a diferentes tipos de desastres naturais e a regiões do estado de São Paulo onde ocorreram; b) extração de informação sobre causalidade e cadeias causais vinculadas a tipos de desastres e a regiões referidas no corpus; c) criação de um modelo capaz de reconhecer o encadeamento entre expressões de causalidade e de representação dos efeitos associados. Para o desenvolvimento da pesquisa foi feita a coleta e organização de um corpus dos textos jornalísticos de referência; seleção e aplicação de ferramentas computacionais para tratamento de itens lexicais por critérios semânticos e estatísticos; construção de matrizes para visualização de redes léxico-semânticas; e um mapeamento da distribuição da informação sobre causalidade associada a desastres indexados por tipo e região. Os resultados obtidos indicam recursos de modelagem linguística que podem ser generalizados para uma recuperação automática de informação relevante sobre causalidade em textos jornalísticos. Tais resultados também permitem acesso rápido a informações estratégicas que ajudem a avaliar riscos e orientar medidas de prevenção de desastres. A modelagem baseada em língua portuguesa contribuiu para viabilizar o projeto futuro de um "banco de riscos" brasileiro contando com informação sobre causas de desastres em dimensão regional e nacional no Brasil. / This is an interdisciplinary research involving Communication, Language and Computation Sciences, applying methods and techniques of linguistic modeling to disaster communication in journalistic texts. Our goal is to retrieve information about causality in texts on natural disaster prone regions in the state of São Paulo between 1994 and 2012. The methodology includes the creation of a corpus of news reports with linguistic indicators to allow automatic recognition of most commonly attributed causation to disasters. Research methods followed three steps: a) identification of specific vocabulary associated with types of natural disasters and regions of the state of São Paulo where they mostly occurred, b) extraction of information about causation and causal chains linked to types of disaster and regions referred to in the corpus; c) development of a model to recognize the linkage between expressions of causality and lexical representation of associated effects. Adequate computational tools were necessary for collecting and organizing the corpus, treating lexical items by semantic and statistical criteria, viewing lexical-semantic networks, and mapping the distribution of information on causality associated to disasters indexed by type and region. Results indicated that linguistic modeling can be generalized to automatic retrieval of causal information in journalistic texts. Results extensions could provide quick access to strategic information on Brazilian most risky regions and relevant disaster prevention measures. Modeling in Portuguese language could also allow to build a wider and more ambitious "brazilian bank of risks" relying on regional and national scale information on causality.
|
Page generated in 0.0357 seconds