Return to search

Mineração de dados aplicada à construção de bases de hash em computação forense / Data mining applied to hashsets construction in computer forensics

Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2011. / Submitted by Jaqueline Ferreira de Souza (jaquefs.braz@gmail.com) on 2012-06-27T14:13:15Z
No. of bitstreams: 1
2011_MarceloCaldeiraRuback.pdf: 7076665 bytes, checksum: 3fc94510de918eb4cb5fed8dd6985746 (MD5) / Approved for entry into archive by Jaqueline Ferreira de Souza(jaquefs.braz@gmail.com) on 2012-06-27T14:13:27Z (GMT) No. of bitstreams: 1
2011_MarceloCaldeiraRuback.pdf: 7076665 bytes, checksum: 3fc94510de918eb4cb5fed8dd6985746 (MD5) / Made available in DSpace on 2012-06-27T14:13:27Z (GMT). No. of bitstreams: 1
2011_MarceloCaldeiraRuback.pdf: 7076665 bytes, checksum: 3fc94510de918eb4cb5fed8dd6985746 (MD5) / A grande quantidade de dados a serem processados e analisados por peritos em informática é um desafio crescente enfrentado pela comunidade de Computação Forense. O uso de conjuntos de hashes de arquivos conhecidos para identificar e filtrar arquivos irrelevantes é um procedimento amplamente utilizado, mas não é tão eficaz quanto poderia ser, especialmente em países cujo idioma não seja o inglês. Este trabalho propõe o uso de técnicas de mineração de dados com algoritmos de classificação baseados em árvores de decisão para encontrar novos arquivos irrelevantes para a análise forense a partir de uma amostra de computadores de uma dada região ou país. Os hashes dos arquivos identificados podem ser mesclados com um subconjunto selecionado de hashes que sejam realmente efetivos, escolhido a partir de bases de hashes convencionais. Os experimentos foram conduzidos para avaliar o desempenho de filtragem da solução proposta, usando amostras de evidências extraídas de casos reais. Esses experimentos demonstraram que a abordagem proposta obteve resultados de filtragem entre 15% e 30% melhores do que a base de hash convencional utilizada, mesmo contendo um número reduzido de valores de hash. Este trabalho lança luz sobre uma técnica forense comumente utilizada, mas que tem sido relegada ao uso de bases de dados em constante crescimento composto apenas de hashes de arquivos conhecidos cuja origem seja rigidamente rastreável. A adoção de novas soluções para lidar com bancos de dados de hash em Computação Forense é uma boa oportunidade para introduzir técnicas inteligentes para melhorar a forma como conjuntos de hashes são criados, mantidos e utilizados. _________________________________________________________________________________ ABSTRACT / The large amount of data to be processed and analyzed by forensic experts is a growing challenge faced by the computer forensics community. The use of hashsets of known files to identify and filter irrelevant files is a commonly used technique, but it is not as effective as it could be, especially in non-English speaking countries. This work proposes the use of data mining techniques with decision tree learning algorithms to find new irrelevant files to the forensic analysis from a sample of computers from a given region or country. The resulting files can be merged with an optimized subset of really effectively used hashsets, which are chosen from conventional hash databases. Experiments were conducted to evaluate the filtering performance of the proposed solution, using samples from real evidence. The experimental results demonstrate that our approach obtained between 15% to 30% better filtering results than the conventional hashset database used as benchmark, even with a reduced number of hash values. This work sheds light on a commonly used forensics technique, which has relied on the use of ever-growing databases composed only of hashes from rigidly traceable known files. The adoption of new solutions to deal with hash databases in computer forensics is a good opportunity to introduce intelligent techniques to improve the way hashsets are created, maintained and used.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/10836
Date11 December 2011
CreatorsRuback, Marcelo Caldeira
ContributorsHoelz, Bruno Werneck Pinto, Ralha, Célia Ghedini
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds