Return to search

Automated Feature Engineering for Classification Problems

O estudo sobre geração de features tem aumentado conforme os anos, é um dos maiores desafios para Machine Learning. Totalmente dependente de conhecimento de domínio é uma área que se feita de forma manual consome muito tempo e não é escalável. Por sua vez, meta-learning auxilia o aprendizado através diferentes domínios. Nos apresentamos uma abordagem de automação de geração de features que utiliza o meta-learning como auxílio na seleção de features. Considerando que geramos uma grande quantidade de features, usamos o conhecimento de 100 data sets de diferentes domínios para responder à pergunta se devemos ou não gerar features para um data set e também quais features. Nosso experimento mostrou que é possível utilizar o meta-learning no processo de seleção, podendo nos informar se devemos ou não gerar o conjunto de features automáticas para um determinado data set, obtendo 66.96% de taxa de acerto, enquanto a nossa baseline é de 50%, nos provamos estatisticamente que a nossa taxa de acerto é melhor do que a baseline em 88% dos casos.Infelizmente, não obtivemos um excelente resultado a nível base ao utilizar apenas as features que foram selecionadas individualmente, porém ao nível meta obtemos um resultado de 65.52% de taxa de acerto ao prever quais features individuais supostamente trariam melhora na performance do modelo. Considerando que a nossa baseline é de 39%, nos estatisticamente provamos que nossa taxa de acerto é melhor que a baseline em 93% dos casos.Os resultados nos mostram que meta-learning pode ser utilizado no auxílio de geração e seleção de features, entretanto a nossa abordagem ainda pode ser aprimorada sendo mais assertiva nas previsões a nível meta e melhores resultados a nível base. Nosso código esta disponível em https://github.com/guifeliper/automated-feature-engineering. / The study on feature generation has grown over the last years, is one of the biggest challenges for Machine Learning. Entirely dependent on domain knowledge, it is an area that if done manually, is time-consuming and not scalable. In turn, meta-learning helps to learn through different domains and can bring benefits to this area.We present an automated feature engineering approach that uses meta-learning as an assistant in the selection of features. Considering that we generate a large number of features, we use the knowledge of 100 data sets from different domains to answer the question of whether or not to create features for a data set and also what features to use.Our experiment showed that it is possible to use meta-learning in the selection process, and can inform us whether or not we should generate the set of automatic features for a given data set, obtaining 66.96% of accuracy, while the overall baseline is 50% and statistically, our accuracy is proved to be better than the baseline at 88% of the cases.Unfortunately, we did not get an excellent result in the base level by using only the features that were selected individually, but at the meta level, we get a 65.52% of accuracy, when predicting which individual features would supposedly bring improve for the performance. Considering that our overall baseline is 39%, we statistically proved that our accuracy is better than the baseline at 93% of the cases.The results show that meta-learning can be used to aid the generation and selection of features. However, our approach can still be improved, being more precise in the predictions at the meta-level and better results at the base level. Our code is available at https://github.com/guifeliper/automated-feature-engineering.

Identiferoai:union.ndltd.org:up.pt/oai:repositorio-aberto.up.pt:10216/122592
Date04 October 2019
CreatorsGuilherme Felipe do Nascimento Reis
ContributorsFaculdade de Engenharia
Source SetsUniversidade do Porto
LanguageEnglish
Detected LanguagePortuguese
TypeDissertação
Formatapplication/pdf
RightsopenAccess, https://creativecommons.org/licenses/by/4.0/

Page generated in 0.0179 seconds