A área de aprendizado de máquina passa por uma grande expansão em seu universo de aplicações. Algoritmos de indução de modelos preditivos têm sido responsáveis pela realização de tarefas que eram inviáveis ou consideradas exclusividade do campo de ação humano até recentemente. Contudo, ainda é necessária a supervisão humana durante a construção de conjuntos de treinamento, como é o caso da tarefa de classificação. Tal construção se dá por meio da rotulação manual de cada exemplo, atribuindo a ele pelo menos uma classe. Esse processo, por ser manual, pode ter um custo elevado se for necessário muitas vezes. Uma técnica sob investigação corrente, capaz de mitigar custos de rotulação, é o aprendizado ativo. Dado um orçamento limitado, o objetivo de uma estratégia de amostragem ativa é direcionar o esforço de treinamento para os exemplos essenciais. Existem diversas abordagens efetivas de selecionar ativamente os exemplos mais importantes para consulta ao supervisor. Entretanto, não é possível, sem incorrer em custos adicionais, testá-las de antemão quanto à sua efetividade numa dada aplicação. Ainda mais crítica é a necessidade de que seja escolhido um algoritmo de aprendizado para integrar a estratégia de aprendizado ativo antes que se disponha de um conjunto de treinamento completo. Para lidar com esses desafios, esta tese apresenta como principais contribuições: uma estratégia baseada na inibição do algoritmo de aprendizado nos momentos menos propícios ao seu funcionamento; e, a experimentação da seleção de algoritmos de aprendizado, estratégias ativas de consulta ou pares estratégia-algoritmo baseada em meta-aprendizado, visando a experimentação de formas de escolha antes e durante o processo de rotulação. A estratégia de amostragem proposta é demonstrada competitiva empiricamente. Adicionalmente, experimentos iniciais com meta-aprendizado indicam a possibilidade de sua aplicação em aprendizado ativo, embora tenha sido identificado que investigações mais extensivas e aprofundadas sejam necessárias para apurar sua real efetividade prática. Importantes contribuições metodológicas são descritas neste documento, incluindo uma análise frequentemente negligenciada pela literatura da área: o risco devido à variabilidade dos algoritmos. Por fim, são propostas as curvas e faixas de ranqueamento, capazes de sumarizar, num único gráfico, experimentos de uma grande coleção de conjuntos de dados. / The machine learning area undergoes a major expansion in its universe of applications. Algorithms for the induction of predictive models have made it possible to carry out tasks that were once considered unfeasible or restricted to be solved by humans. However, human supervision is still needed to build training sets, for instance, in the classification task. Such building is usually performed by manual labeling of each instance, providing it, at least, one class. This process has a high cost due to its manual nature. A current technique under research, able to mitigate labeling costs, is called active learning. The goal of an active learning strategy is to manage the training effort to focus on the most relevant instances, within a budget. Several effective sampling approaches having been proposed. However, when one needs to choose the proper strategy for a given problem, they are impossible to test beforehand without incurring into additional costs. Even more critical is the need to choose a learning algorithm to integrate the active learning strategy before the existence of a complete training set. This thesis presents two major contributions to cope with such challenges: a strategy based on the learning algorithm inhibition when it is prone to inaccurate predictions; and, an attempt to automatically select the learning algorithms, active querying strategies or pairs strategy-algorithm, based on meta-learning. This attempt tries to verify the feasibility of such kind of decision making before and during the learning process. The proposed sampling approach is empirically shown to be competitive. Additionally, meta-learning experiments show that it can be applied to active learning, although more a extensive investigation is still needed to assess its real practical effectivity. Important methodological contributions are made in this document, including an often neglected analysis in the literature of active learning: the risk due to the algorithms variability. A major methodological contribution, called ranking curves, is presented.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-28092016-162137 |
Date | 22 February 2016 |
Creators | Davi Pereira dos Santos |
Contributors | André Carlos Ponce de Leon Ferreira de Carvalho, Gustavo Enrique de Almeida Prado Alves Batista, Heloisa de Arruda Camargo, Gisele Lobo Pappa, Ricardo Bastos Cavalcante Prudêncio |
Publisher | Universidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0024 seconds