A área de aprendizado de máquina adquiriu grande importância na última década graças à sua capacidade de analisar conjuntos de dados complexos em larga escala. Em diversas áreas do conhecimento existe a demanda pela análise de dados por especialistas, seja para obter agrupamentos latentes ou classificar instâncias em classes conhecidas. As ferramentas acessíveis a especialistas leigos em programação são limitadas a problemas específicos e demandam um custo de desenvolvimento às vezes proibitivo, sendo interessante buscar por ferramentas genéricas e aplicáveis a qualquer área do conhecimento. Este trabalho busca estender e implementar uma metodologia genérica de aprendizado de máquina capaz de analisar quaisquer conjuntos de arquivos de forma praticamente livre de configuração. Foram obtidos resultados satisfatórios de sua aplicação em um conjunto amplo de problemas para agrupamento e classificação de executáveis, spam e detecção de línguas. / Machine learning has rised in importance in the last decade thanks to its power to analyse complex datasets in large scale. At several areas of knowledge there is a demand for data analysis by domain experts, be it for discovering latent clusters or classifying instances into known groups. The tools available for experts that do not master computer programming are limited to specific tasks and demand a high development cost, which sometimes is prohibitive. It is interesting, then, to develop generic tools useful to any area of knowledge. This masters thesis seeks to extend and implement a generic machine learning methodology capable of analysing any set of files mostly free of configuration. Its application produced satisfactory results in a wide set of clustering and classification problems over binary executables, spam classification, and language identification.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-16112016-170837 |
Date | 04 April 2016 |
Creators | Bruno Kim Medeiros Cesar |
Contributors | Francisco José Monaco, Alexandre Cláudio Botazzo Delbem, Marcio Merino Fernandes |
Publisher | Universidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.002 seconds