[pt] Com a crescente quantidade de dados sendo gerados e coletados, torna-se
mais comum cenários em que se dispõe de dados rotulados em larga escala, mas
com recursos computacionais limitados, de modo que não seja possível treinar
modelos preditivos utilizando todas as amostras disponíveis. Diante dessa
realidade, adotamos o paradigma de Machine Teaching como uma alternativa
para obter modelos eficazes utilizando um subconjunto representativo dos
dados disponíveis.
Inicialmente, consideramos um problema central da área de Machine
Teaching que consiste em encontrar o menor conjunto de amostras necessário
para obter uma dada hipótese alvo h(asterisco). Adotamos o modelo de ensino black-box
learner introduzido em (DASGUPTA et al., 2019), em que o ensino é feito
interativamente sem qualquer conhecimento sobre o algoritmo do learner e
sua classe de hipóteses, exceto que ela contém a hipótese alvo h(asterisco). Refinamos
alguns resultados existentes para esse modelo e estudamos variantes dele. Em
particular, estendemos um resultado de (DASGUPTA et al., 2019) para o
cenário mais realista em que h(asterisco) pode não estar contido na classe de hipóteses
do learner e, portanto, o objetivo do teacher é fazer o learner convergir para
a melhor aproximação disponível de h(asterisco). Também consideramos o cenário com
black-box learners não adversários e mostramos que podemos obter melhores
resultados para o tipo de learner que se move para a próxima hipótese de
maneira suave, preferindo hipóteses que são mais próximas da hipótese atual.
Em seguida, definimos e abordamos o problema de Aprendizado com
Restrição de Tempo considerando um cenário em que temos um enorme
conjunto de dados e um limite de tempo para treinar um dado learner usando
esse conjunto. Propomos o método TCT, um algoritmo para essa tarefa,
desenvolvido com base nos princípios de Machine Teaching. Apresentamos um
estudo experimental envolvendo 5 diferentes learners e 20 datasets no qual
mostramos que TCT supera métodos alternativos considerados. Finalmente,
provamos garantias de aproximação para uma versão simplificada do TCT. / [en] With the growing amount of data being generated and collected, it
becomes increasingly common to have scenarios where there are large-scale
labeled data but limited computational resources, making it impossible to train
predictive models using all available samples. Faced with this reality, we adopt
the Machine Teaching paradigm as an alternative to obtain effective models
using a representative subset of available data.
Initially, we consider a central problem of the Machine Teaching area
which consists of finding the smallest set of samples necessary to obtain a
given target hypothesis h(asterisk). We adopt the black-box learner teaching model
introduced in (DASGUPTA et al., 2019), where teaching is done interactively
without any knowledge about the learner s algorithm and its hypothesis class,
except that it contains the target hypothesis h(asterisk). We refine some existing results
for this model and study its variants. In particular, we extend a result from
(DASGUPTA et al., 2019) to the more realistic scenario where h(asterisk) may not
be contained in the learner s hypothesis class, and therefore, the teacher s
objective is to make the learner converge to the best available approximation
of h(asterisk). We also consider the scenario with non-adversarial black-box learners
and show that we can obtain better results for the type of learner that moves
to the next hypothesis smoothly, preferring hypotheses that are closer to the
current hypothesis.
Next, we address the Time-Constrained Learning problem, considering a
scenario where we have a huge dataset and a time limit to train a given learner
using this dataset. We propose the TCT method, an algorithm for this task,
developed based on Machine Teaching principles. We present an experimental
study involving 5 different learners and 20 datasets in which we show that TCT
outperforms alternative methods considered. Finally, we prove approximation
guarantees for a simplified version of TCT.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:63896 |
Date | 04 September 2023 |
Creators | FRANCISCO SERGIO DE FREITAS FILHO |
Contributors | EDUARDO SANY LABER |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | English |
Type | TEXTO |
Page generated in 0.0022 seconds