Return to search

DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira

Orientador: Prof. Dr. Ronaldo Cristiano Prati / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / O processamento de grandes bases de dados tem atraido a atenção da comunidade acadêmica. Recentemente, esse interesse se expandiu para processamento de bases de dados historicas. Tal processamento é utilizado para se obter um melhor entendimento de períodos historicos a partir do processamento de documentos daqueles periodos. No entanto, nesse cenario, a quantidade de dados e documentos disponiveis é tão grande que a utilização de técnicas tradicionais de programação ou de banco de dados se tornam inapropriadas para um correto e efetivo processamento dessas bases de dados. Esse cenário ainda mais complicado quando se trata de documentos historicos onde as bases de dados são geralmente formadas por copias escaneadas de documentos em papel. Como consequencia, tais documentos são comumente deteriorados devido a fatores naturais, como o envelhecimento natural do papel, ou ainda por efeitos químicos, como a tinta utilizada
no documento. Outros fatores, como más condições de armazenamento, tais como umidade, por exemplo, podem acelerar e agravar o deterioramento de tais documentos. Nesse trabalho é proposta uma metodologia que utiliza reconhecimento toptico de caracteres, crowdsourcing, extração de informação e tecnicas de processamento de imagens para processar a base de dados de documentos do Departamento de Ordem Política e Social do Estado de São Paulo (DEOPS-SP), no Brasil. O DEOPS-SP foi o orgao do governo brasileiro de inteligência e repressão durante o Regime Militar que durou de 1964 a 1985. A base de dados do DEOPS-SP é composta por aproximadamente 3 milh~oes de documentos, incluindo mais de um milh~ao de registros politicos em formato de fichas que identifcam
um envolvido e listam informações relacionadas ao envolvido. A metodologia proposta nesse trabalho e validada atraves dos resultados obtidos com sua aplicação a uma amostra de 500 desses registros politicos que fazem parte da base de dados do DEOPS-SP. Como resultado de utilidade publica, pela primeira vez e possvel utilizar palavras-chave para pesquisa do conteudo textual dos registros do DEOPS-SP através do website DEOPSMiner Online (<https://deopsminer.online/>), desenvolvido pelos autores. Tais resultados, portanto, animam e motivam o desenvolvimento de futuros trabalhos. / Processing large data sets for knowledge extraction has recently became one of the main research topics that the scientic community has been focusing their attention on.
Particularly, processing historical data sets might provide better and deeper understanding of historical periods. However, in many applications, the amount of data is so large that makes it difficult to process these data sets using traditional database and software techniques. A more complicated case is frequently found when such historical data sets consist of scanned copies of deteriorated paper documents. Deterioration of documents occurs naturally as a result of aging, but it can also be accelerated by chemical efects, e.g. ink, or poor storage conditions, e.g. humidity. We propose to develop of a pipeline composed by the use of image processing techniques, optical character recognition, crowdsourcing and information extraction to process the data base of the Department of Social and Political Order of the the State of S~ao Paulo (DEOPS-SP), Brazil. The DEOPS-SP was the Brazilian intelligence and repression agency during the military government that took place in Brazil between 1964 and 1985. The DEOPS-SP archive currently holds approximately 3 million documents, including more than one thousand police records (index cards listing the subject's name and personal data). The pipeline proposed in this dissertation is tested and validated by its on a subset of 500 records that are part of the DEOPS-SP's data base. The results obtained in this work led to the developing by the authors of DEOPSMiner Online (<https://deopsminer.online/>), an online platform to explore DEOPS-SP records allowing for the rst time the use of keywords to search the real textual content of the data base. These results motivate the development of further research.

Identiferoai:union.ndltd.org:IBICT/oai:BDTD:105669
Date January 2016
CreatorsNavarro, Daniel de Moraes
ContributorsPrati, Ronaldo Cristiano
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf, 63 f. : il.
Sourcereponame:Repositório Institucional da UFABC, instname:Universidade Federal do ABC, instacron:UFABC
Rightsinfo:eu-repo/semantics/openAccess
Relationhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669&midiaext=74080, http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669&midiaext=74081, Cover: http://biblioteca.ufabc.edu.brphp/capa.php?obra=105669

Page generated in 0.0019 seconds