Return to search

Estudo e extensão da metodologia DAMICORE para tarefas de classificação / Research and extension of the DAMICORE methodology for classification tasks

A área de aprendizado de máquina adquiriu grande importância na última década graças à sua capacidade de analisar conjuntos de dados complexos em larga escala. Em diversas áreas do conhecimento existe a demanda pela análise de dados por especialistas, seja para obter agrupamentos latentes ou classificar instâncias em classes conhecidas. As ferramentas acessíveis a especialistas leigos em programação são limitadas a problemas específicos e demandam um custo de desenvolvimento às vezes proibitivo, sendo interessante buscar por ferramentas genéricas e aplicáveis a qualquer área do conhecimento. Este trabalho busca estender e implementar uma metodologia genérica de aprendizado de máquina capaz de analisar quaisquer conjuntos de arquivos de forma praticamente livre de configuração. Foram obtidos resultados satisfatórios de sua aplicação em um conjunto amplo de problemas para agrupamento e classificação de executáveis, spam e detecção de línguas. / Machine learning has rised in importance in the last decade thanks to its power to analyse complex datasets in large scale. At several areas of knowledge there is a demand for data analysis by domain experts, be it for discovering latent clusters or classifying instances into known groups. The tools available for experts that do not master computer programming are limited to specific tasks and demand a high development cost, which sometimes is prohibitive. It is interesting, then, to develop generic tools useful to any area of knowledge. This masters thesis seeks to extend and implement a generic machine learning methodology capable of analysing any set of files mostly free of configuration. Its application produced satisfactory results in a wide set of clustering and classification problems over binary executables, spam classification, and language identification.

Identiferoai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-16112016-170837
Date04 April 2016
CreatorsBruno Kim Medeiros Cesar
ContributorsFrancisco José Monaco, Alexandre Cláudio Botazzo Delbem, Marcio Merino Fernandes
PublisherUniversidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds