Spelling suggestions: "subject:"aprendizado em tempo real"" "subject:"prendizado em tempo real""
1 |
Multivariate non-parametric statistical tests to reuse classifiers in recurring concept drifting environmentsGONÇALVES JÚNIOR, Paulo Mauricio 23 April 2013 (has links)
Data streams are a recent processing model where data arrive continuously, in large quantities,
at high speeds, so that they must be processed on-line. Besides that, several private
and public institutions store large amounts of data that also must be processed. Traditional
batch classi ers are not well suited to handle huge amounts of data for basically
two reasons. First, they usually read the available data several times until convergence,
which is impractical in this scenario. Second, they imply that the context represented by
data is stable in time, which may not be true. In fact, the context change is a common
situation in data streams, and is named concept drift.
This thesis presents rcd, a framework that o ers an alternative approach to handle
data streams that su er from recurring concept drifts. It creates a new classi er to each
context found and stores a sample of the data used to build it. When a new concept drift
occurs, rcd compares the new context to old ones using a non-parametric multivariate
statistical test to verify if both contexts come from the same distribution. If so, the
corresponding classi er is reused. If not, a new classi er is generated and stored.
Three kinds of tests were performed. One compares the rcd framework with several
adaptive algorithms (among single and ensemble approaches) in arti cial and real data
sets, among the most used in the concept drift research area, with abrupt and gradual
concept drifts. It is observed the ability of the classi ers in representing each context,
how they handle concept drift, and training and testing times needed to evaluate the
data sets. Results indicate that rcd had similar or better statistical results compared to
the other classi ers. In the real-world data sets, rcd presented accuracies close to the
best classi er in each data set.
Another test compares two statistical tests (knn and Cramer) in their capability in
representing and identifying contexts. Tests were performed using adaptive and batch
classi ers as base learners of rcd, in arti cial and real-world data sets, with several
rates-of-change. Results indicate that, in average, knn had better results compared to
the Cramer test, and was also faster. Independently of the test used, rcd had higher
accuracy values compared to their respective base learners.
It is also presented an improvement in the rcd framework where the statistical tests are performed in parallel through the use of a thread pool. Tests were performed in
three processors with di erent numbers of cores. Better results were obtained when there
was a high number of detected concept drifts, the bu er size used to represent each
data distribution was large, and there was a high test frequency. Even if none of these
conditions apply, parallel and sequential execution still have very similar performances.
Finally, a comparison between six di erent drift detection methods was also performed,
comparing the predictive accuracies, evaluation times, and drift handling, including
false alarm and miss detection rates, as well as the average distance to the drift
point and its standard deviation. / Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-12T18:02:08Z
No. of bitstreams: 2
Tese Paulo Gonçalves Jr..pdf: 2957463 bytes, checksum: de163caadf10cbd5442e145778865224 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-12T18:02:08Z (GMT). No. of bitstreams: 2
Tese Paulo Gonçalves Jr..pdf: 2957463 bytes, checksum: de163caadf10cbd5442e145778865224 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-04-23 / Fluxos de dados s~ao um modelo de processamento de dados recente, onde os dados chegam
continuamente, em grandes quantidades, a altas velocidades, de modo que eles devem ser
processados em tempo real. Al em disso, v arias institui c~oes p ublicas e privadas armazenam
grandes quantidades de dados que tamb em devem ser processadas. Classi cadores tradicionais
n~ao s~ao adequados para lidar com grandes quantidades de dados por basicamente
duas raz~oes. Primeiro, eles costumam ler os dados dispon veis v arias vezes at e convergirem,
o que e impratic avel neste cen ario. Em segundo lugar, eles assumem que o
contexto representado por dados e est avel no tempo, o que pode n~ao ser verdadeiro. Na
verdade, a mudan ca de contexto e uma situa c~ao comum em
uxos de dados, e e chamado
de mudan ca de conceito.
Esta tese apresenta o rcd, uma estrutura que oferece uma abordagem alternativa
para lidar com os
uxos de dados que sofrem de mudan cas de conceito recorrentes. Ele
cria um novo classi cador para cada contexto encontrado e armazena uma amostra dos
dados usados para constru -lo. Quando uma nova mudan ca de conceito ocorre, rcd
compara o novo contexto com os antigos, utilizando um teste estat stico n~ao param etrico
multivariado para veri car se ambos os contextos prov^em da mesma distribui c~ao. Se
assim for, o classi cador correspondente e reutilizado. Se n~ao, um novo classi cador e
gerado e armazenado.
Tr^es tipos de testes foram realizados. Um compara o rcd com v arios algoritmos
adaptativos (entre as abordagens individuais e de agrupamento) em conjuntos de dados
arti ciais e reais, entre os mais utilizados na area de pesquisa de mudan ca de conceito,
com mudan cas bruscas e graduais. E observada a capacidade dos classi cadores em
representar cada contexto, como eles lidam com as mudan cas de conceito e os tempos
de treinamento e teste necess arios para avaliar os conjuntos de dados. Os resultados
indicam que rcd teve resultados estat sticos semelhantes ou melhores, em compara c~ao
com os outros classi cadores. Nos conjuntos de dados do mundo real, rcd apresentou
precis~oes pr oximas do melhor classi cador em cada conjunto de dados.
Outro teste compara dois testes estat sticos (knn e Cramer) em suas capacidades de
representar e identi car contextos. Os testes foram realizados utilizando classi cadores
xi
xii RESUMO
tradicionais e adaptativos como base do rcd, em conjuntos de dados arti ciais e do
mundo real, com v arias taxas de varia c~ao. Os resultados indicam que, em m edia, KNN
obteve melhores resultados em compara c~ao com o teste de Cramer, al em de ser mais
r apido. Independentemente do crit erio utilizado, rcd apresentou valores mais elevados
de precis~ao em compara c~ao com seus respectivos classi cadores base.
Tamb em e apresentada uma melhoria do rcd onde os testes estat sticos s~ao executadas
em paralelo por meio do uso de um pool de threads. Os testes foram realizados em tr^es
processadores com diferentes n umeros de n ucleos. Melhores resultados foram obtidos
quando houve um elevado n umero de mudan cas de conceito detectadas, o tamanho das
amostras utilizadas para representar cada distribui c~ao de dados era grande, e havia uma
alta freq u^encia de testes. Mesmo que nenhuma destas condi c~oes se aplicam, a execu c~ao
paralela e seq uencial ainda t^em performances muito semelhantes.
Finalmente, uma compara c~ao entre seis diferentes m etodos de detec c~ao de mudan ca
de conceito tamb em foi realizada, comparando a precis~ao, os tempos de avalia c~ao, manipula
c~ao das mudan cas de conceito, incluindo as taxas de falsos positivos e negativos,
bem como a m edia da dist^ancia ao ponto de mudan ca e o seu desvio padr~ao.
|
2 |
Multivariate non-parametric statistical tests to reuse classifiers in recurring concept drifting environmentsGonçalves Júnior, Paulo Mauricio 23 April 2013 (has links)
Data streams are a recent processing model where data arrive continuously, in large quantities,
at high speeds, so that they must be processed on-line. Besides that, several private
and public institutions store large amounts of data that also must be processed. Traditional
batch classi ers are not well suited to handle huge amounts of data for basically
two reasons. First, they usually read the available data several times until convergence,
which is impractical in this scenario. Second, they imply that the context represented by
data is stable in time, which may not be true. In fact, the context change is a common
situation in data streams, and is named concept drift.
This thesis presents rcd, a framework that o ers an alternative approach to handle
data streams that su er from recurring concept drifts. It creates a new classi er to each
context found and stores a sample of the data used to build it. When a new concept drift
occurs, rcd compares the new context to old ones using a non-parametric multivariate
statistical test to verify if both contexts come from the same distribution. If so, the
corresponding classi er is reused. If not, a new classi er is generated and stored.
Three kinds of tests were performed. One compares the rcd framework with several
adaptive algorithms (among single and ensemble approaches) in arti cial and real data
sets, among the most used in the concept drift research area, with abrupt and gradual
concept drifts. It is observed the ability of the classi ers in representing each context,
how they handle concept drift, and training and testing times needed to evaluate the
data sets. Results indicate that rcd had similar or better statistical results compared to
the other classi ers. In the real-world data sets, rcd presented accuracies close to the
best classi er in each data set.
Another test compares two statistical tests (knn and Cramer) in their capability in
representing and identifying contexts. Tests were performed using adaptive and batch
classi ers as base learners of rcd, in arti cial and real-world data sets, with several
rates-of-change. Results indicate that, in average, knn had better results compared to
the Cramer test, and was also faster. Independently of the test used, rcd had higher
accuracy values compared to their respective base learners.
It is also presented an improvement in the rcd framework where the statistical tests are performed in parallel through the use of a thread pool. Tests were performed in
three processors with di erent numbers of cores. Better results were obtained when there
was a high number of detected concept drifts, the bu er size used to represent each
data distribution was large, and there was a high test frequency. Even if none of these
conditions apply, parallel and sequential execution still have very similar performances.
Finally, a comparison between six di erent drift detection methods was also performed,
comparing the predictive accuracies, evaluation times, and drift handling, including
false alarm and miss detection rates, as well as the average distance to the drift
point and its standard deviation. / Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-12T19:25:11Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
tese Paulo Mauricio Gonçalves Jr..pdf: 2957463 bytes, checksum: de163caadf10cbd5442e145778865224 (MD5) / Made available in DSpace on 2015-03-12T19:25:11Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
tese Paulo Mauricio Gonçalves Jr..pdf: 2957463 bytes, checksum: de163caadf10cbd5442e145778865224 (MD5)
Previous issue date: 2013-04-23 / Fluxos de dados s~ao um modelo de processamento de dados recente, onde os dados chegam
continuamente, em grandes quantidades, a altas velocidades, de modo que eles devem ser
processados em tempo real. Al em disso, v arias institui c~oes p ublicas e privadas armazenam
grandes quantidades de dados que tamb em devem ser processadas. Classi cadores tradicionais
n~ao s~ao adequados para lidar com grandes quantidades de dados por basicamente
duas raz~oes. Primeiro, eles costumam ler os dados dispon veis v arias vezes at e convergirem,
o que e impratic avel neste cen ario. Em segundo lugar, eles assumem que o
contexto representado por dados e est avel no tempo, o que pode n~ao ser verdadeiro. Na
verdade, a mudan ca de contexto e uma situa c~ao comum em
uxos de dados, e e chamado
de mudan ca de conceito.
Esta tese apresenta o rcd, uma estrutura que oferece uma abordagem alternativa
para lidar com os
uxos de dados que sofrem de mudan cas de conceito recorrentes. Ele
cria um novo classi cador para cada contexto encontrado e armazena uma amostra dos
dados usados para constru -lo. Quando uma nova mudan ca de conceito ocorre, rcd
compara o novo contexto com os antigos, utilizando um teste estat stico n~ao param etrico
multivariado para veri car se ambos os contextos prov^em da mesma distribui c~ao. Se
assim for, o classi cador correspondente e reutilizado. Se n~ao, um novo classi cador e
gerado e armazenado.
Tr^es tipos de testes foram realizados. Um compara o rcd com v arios algoritmos
adaptativos (entre as abordagens individuais e de agrupamento) em conjuntos de dados
arti ciais e reais, entre os mais utilizados na area de pesquisa de mudan ca de conceito,
com mudan cas bruscas e graduais. E observada a capacidade dos classi cadores em
representar cada contexto, como eles lidam com as mudan cas de conceito e os tempos
de treinamento e teste necess arios para avaliar os conjuntos de dados. Os resultados
indicam que rcd teve resultados estat sticos semelhantes ou melhores, em compara c~ao
com os outros classi cadores. Nos conjuntos de dados do mundo real, rcd apresentou
precis~oes pr oximas do melhor classi cador em cada conjunto de dados.
Outro teste compara dois testes estat sticos (knn e Cramer) em suas capacidades de
representar e identi car contextos. Os testes foram realizados utilizando classi cadores tradicionais e adaptativos como base do rcd, em conjuntos de dados arti ciais e do
mundo real, com v arias taxas de varia c~ao. Os resultados indicam que, em m edia, KNN
obteve melhores resultados em compara c~ao com o teste de Cramer, al em de ser mais
r apido. Independentemente do crit erio utilizado, rcd apresentou valores mais elevados
de precis~ao em compara c~ao com seus respectivos classi cadores base.
Tamb em e apresentada uma melhoria do rcd onde os testes estat sticos s~ao executadas
em paralelo por meio do uso de um pool de threads. Os testes foram realizados em tr^es
processadores com diferentes n umeros de n ucleos. Melhores resultados foram obtidos
quando houve um elevado n umero de mudan cas de conceito detectadas, o tamanho das
amostras utilizadas para representar cada distribui c~ao de dados era grande, e havia uma
alta freq u^encia de testes. Mesmo que nenhuma destas condi c~oes se aplicam, a execu c~ao
paralela e seq uencial ainda t^em performances muito semelhantes.
Finalmente, uma compara c~ao entre seis diferentes m etodos de detec c~ao de mudan ca
de conceito tamb em foi realizada, comparando a precis~ao, os tempos de avalia c~ao, manipula
c~ao das mudan cas de conceito, incluindo as taxas de falsos positivos e negativos,
bem como a m edia da dist^ancia ao ponto de mudan ca e o seu desvio padr~ao.
|
3 |
[en] A NEURAL NETWORK FOR ONLINE PORTFOLIO SELECTION WITH SIDE INFORMATION / [pt] UMA REDE NEURAL PARA O PROBLEMA DE SELEÇÃO ONLINE DE PORTFÓLIO COM INFORMAÇÃO LATERALGUILHERME AUGUSTO SCHUTZ 15 January 2019 (has links)
[pt] O mercado financeiro é essencial na economia, trazendo estabilidade, acesso a novos tipos de investimentos, e aumentando a capacidade das empresas no acesso ao crédito. A constante busca por reduzir o papel de especialistas humanos na tomada de decisão, visa reduzir o risco inerente as emoções intrínsecas do ser humano, do qual a máquina não compartilha. Como consequência, reduzindo efeitos especulativos no mercado, e aumentando a precisão nas decisões tomadas. Neste trabalho é discutido o problema de seleção de portfólios online, onde um vetor de alocações de ativos é requerido em cada passo. O algoritmo proposto é o multilayer perceptron with side information - MLPi. Este algoritmo utiliza redes neurais para a solução do problema quando o investidor tem acesso a informações futuras sobre o preço
dos ativos. Para avaliar o uso da informação lateral na seleção de portfolio, testamos empiricamente o MLPi em contraste com dois algoritmos, um baseline e o estado-da-arte. Como baseline é utilizado o buy-and-hold. O estado-da-arte é o algoritmo online moving average mean reversion proposto por Li e Hoi
(2012). Para avaliar a utilização de informação lateral no algoritmo MLPi é definido um benchmark baseado numa solução ótima simples utilizando a informação lateral, mas sem considerar a acurácia da informação futura. Para os experimentos, utilizamos informações a nível de minuto do mercado de ações brasileiro, operados na bolsa de valores B3. É simulado um preditor de preço com 7 níveis de acurácia diferentes para 200 portfólios. Os resultados apontam que tanto o benchmark quanto o MLPi superam os dois algoritmos selecionados, para níveis de acurácia de um ativo maiores que 50 por cento, e na média, o MLPi supera o benchmark em todos os níveis de acurácia simulados. / [en] The financial market is essential in the economy, bringing stability, access to new types of investments, and increasing the ability of companies to access credit. The constant search for reducing the role of human specialists in decision making aims to reduce the risk inherent in the intrinsic emotions of the human being, which the machine does not share. As a consequence, reducing speculative effects in the market, and increasing the precision in the decisions taken. In this paper, we discuss the problem of selecting portfolios online, where a vector of asset allocations is required in each step. The proposed algorithm is the multilayer perceptron with side information - MLPi. This algorithm uses neural networks to solve the problem when the investor has access to future information on the price of the assets. To evaluate the use of side information in portfolio selection, we empirically tested MLPi in contrast to two algorithms, a baseline and the state-of-the-art. As a baseline, buy-andhold is used. The state-of-the-art is the online moving average mean reversion algorithm proposed by Li and Hoi (2012). To evaluate the use of side information in the algorithm MLPi a benchmark based on a simple optimal solution using the side information is defined, but without considering the accuracy of the future information. For the experiments, we use minute-level information from the Brazilian stock market, traded on the B3 stock exchange. A price predictor is simulated with 7 different accuracy levels for 200 portfolios. The results show that both the benchmark and MLPi outperform the two algorithms selected, for asset accuracy levels greater than 50 percent, and on average, MLPi outperforms the benchmark at all levels of simulated accuracy.
|
Page generated in 0.0781 seconds