Return to search

A utilização de algoritmos de aprendizado de máquina em problemas de classificação / The use of machine learning algorithms in classification problems

Os últimos anos foram marcados por um avanço expressivo da tecnologia, principalmente na área de computação. Estes avanços, quando somados à diversidade de produtos oferecidos por empresas de diferentes segmentos, e aos esforços destas em capturar e armazenar dados de seus clientes e de suas operações, ajudam a explicar a quantidade de informações que atualmente é produzida. As organizações, em geral, têm se mostrado eficientes em capturar, organizar e armazenar grandes quantidades de dados, mas nem todas os utilizam adequadamente, no sentido de transformá-los em conhecimentos úteis para suas atividades. Algoritmos de aprendizado de máquina são uma ferramenta computacional poderosa para aquisição de conhecimento a partir da experiência. A utilização desses algoritmos permite avanços e descobertas que conferem vantagem competitiva às empresas. A tarefa de aprendizado de máquina mais comum é o aprendizado supervisionado, cujo objetivo é aprender um modelo preditivo a partir de um conjunto de dados. Esse modelo deve ser capaz de generalizar o conhecimento adquirido para dados desconhecidos. Isso permite que o modelo tenha uma boa capacidade preditiva. Uma aplicação importante e bastante utilizada do aprendizado supervisionado são os problemas de classificação, comumente encontrados na indústria financeira. Um dos desafios dessa indústria é prever a capacidade de pagamento de seus clientes, classificando-os como bons ou maus pagadores. Neste trabalho, cinco algoritmos de aprendizado de máquina supervisionado foram investigados e aplicados à um problema real de classificação: regressão logística, classificadores bayesianos, k-vizinhos mais próximos, random forests e redes neurais. Como o desempenho desses algoritmos é afetado pelas variáveis utilizadas, técnicas de seleção de variáveis foram aplicadas ao conjunto de dados original. O uso dessas técnicas permite reduzir o tempo computacional, removendo informações redundantes e irrelevantes. Medidas de desempenho para classificação binária foram utilizadas para avaliar o desempenho preditivo dos modelos gerados pelos cinco algoritmos e compará-los. Como é cada vez mais importante ter modelos facilmente interpretáveis, foram também avaliadas a interpretabilidade e a complexidade dos modelos gerados. / The last few years were remarkable by relevant advances in technology, mainly related to computers. These advances, when added to the diversity of products offered by companies from different segments and their efforts in capturing and storing data from their customers and operations, helps to explain the amount of information that is currently being produced. Overall, the organizations have been efficient in capturing, organizing, and storing large amounts of data, but not all of them uses it adequately to make them useful knowledge for their activities. Learning algorithms are a powerful machine toll to acquire knowledge based on experience. The use of these algorithms allows advances and discoveries that brings a competitive advantage to the companies. The most common machine learning task is supervised learning, whose objective is to learn a predictive model from a set of data. This model should be able to generalize the acquired knowledge to a set of unknown data. This allows the model to have a good predictive capability. An important and widely used application of supervised learning are the classification problems, commonly seen in the financial industry. One of the challenges of this industry is to predict the payment capacity of its customers, rating them as good or bad payers. In this study, five supervised machine learning algorithms, logistic regression, Bayesian classifiers, k-neighbors, random forests and neural networks were investigated and applied to a real classification problem. Since the performance of these algorithms are affected by the variables used, variable selection techniques were applied to the original data set. The use of these techniques allows a computational reduction time by removing redundant and irrelevant information. Performance measures for binary classification were used to evaluate the predictive performance of the models generated by the five algorithms and to compare them. Since it is increasing the importance to have easily interpretable models, the interpretability and complexity of the models generated were also evaluated.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-25032019-141126
Date26 October 2018
CreatorsBatista, Maria Rita Sifuentes
ContributorsSousa, Fabrício Simeoni de
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguageEnglish
TypeDissertação de Mestrado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0024 seconds