1 |
[en] A METHOD FOR INTERPRETING CONCEPT DRIFTS IN A STREAMING ENVIRONMENT / [pt] UM MÉTODO PARA INTERPRETAÇÃO DE MUDANÇAS DE REGIME EM UM AMBIENTE DE STREAMINGJOAO GUILHERME MATTOS DE O SANTOS 10 August 2021 (has links)
[pt] Em ambientes dinâmicos, os modelos de dados tendem a ter desempenho
insatisfatório uma vez que a distribuição subjacente dos dados muda. Este
fenômeno é conhecido como Concept Drift. Em relação a este tema, muito
esforço tem sido direcionado ao desenvolvimento de métodos capazes de
detectar tais fenômenos com antecedência suficiente para que os modelos
possam se adaptar. No entanto, explicar o que levou ao drift e entender
suas consequências ao modelo têm sido pouco explorado pela academia.
Tais informações podem mudar completamente a forma como adaptamos os
modelos. Esta dissertação apresenta uma nova abordagem, chamada Detector
de Drift Interpretável, que vai além da identificação de desvios nos dados. Ele
aproveita a estrutura das árvores de decisão para prover um entendimento
completo de um drift, ou seja, suas principais causas, as regiões afetadas do
modelo e sua severidade. / [en] In a dynamic environment, models tend to perform poorly once the
underlying distribution shifts. This phenomenon is known as Concept Drift.
In the last decade, considerable research effort has been directed towards
developing methods capable of detecting such phenomena early enough so
that models can adapt. However, not so much consideration is given to
explain the drift, and such information can completely change the handling
and understanding of the underlying cause. This dissertation presents a novel
approach, called Interpretable Drift Detector, that goes beyond identifying
drifts in data. It harnesses decision trees’ structure to provide a thorough
understanding of a drift, i.e., its principal causes, the affected regions of a tree model, and its severity. Moreover, besides all information it provides, our
method also outperforms benchmark drift detection methods in terms of falsepositive rates and true-positive rates across several different datasets available in the literature.
|
Page generated in 0.0387 seconds