Nesta tese, aborda-se o problema de classificaÃÃo de dados que estÃo contaminados com pa-
drÃes atÃpicos. Tais padrÃes, genericamente chamados de outliers, sÃo onipresentes em conjunto
de dados multivariados reais, porÃm sua detecÃÃo a priori (i.e antes de treinar um classificador)
à uma tarefa de difÃcil realizaÃÃo. Como conseqÃÃncia, uma abordagem reativa, em que se
desconfia da presenÃa de outliers somente apÃs um classificador previamente treinado apresen-
tar baixo desempenho, Ã a mais comum. VÃrias estratÃgias podem entÃo ser levadas a cabo
a fim de melhorar o desempenho do classificador, dentre elas escolher um classificador mais
poderoso computacionalmente ou promover uma limpeza dos dados, eliminando aqueles pa-
drÃes difÃceis de categorizar corretamente. Qualquer que seja a estratÃgia adotada, a presenÃa
de outliers sempre irà requerer maior atenÃÃo e cuidado durante o projeto de um classificador
de padrÃes. Tendo estas dificuldades em mente, nesta tese sÃo revisitados conceitos e tÃcni-
cas provenientes da teoria de regressÃo robusta, em particular aqueles relacionados à estimaÃÃo
M, adaptando-os ao projeto de classificadores de padrÃes capazes de lidar automaticamente
com outliers. Esta adaptaÃÃo leva à proposiÃÃo de versÃes robustas de dois classificadores de
padrÃes amplamente utilizados na literatura, a saber, o classificador linear dos mÃnimos qua-
drados (least squares classifier, LSC) e a mÃquina de aprendizado extremo (extreme learning
machine, ELM). AtravÃs de uma ampla gama de experimentos computacionais, usando dados
sintÃticos e reais, mostra-se que as versÃes robustas dos classificadores supracitados apresentam
desempenho consistentemente superior aos das versÃes originais. / This thesis addresses the problem of data classification when they are contaminated with
atypical patterns. These patterns, generally called outliers, are omnipresent in real-world multi-
variate data sets, but their a priori detection (i.e. before training the classifier) is a difficult task
to perform. As a result, the most common approach is the reactive one, in which one suspects
of the presence of outliers in the data only after a previously trained classifier has achieved a
low performance. Several strategies can then be carried out to improve the performance of the
classifier, such as to choose a more computationally powerful classifier and/or to remove the de-
tected outliers from data, eliminating those patterns which are difficult to categorize properly.
Whatever the strategy adopted, the presence of outliers will always require more attention and
care during the design of a pattern classifier. Bearing these difficulties in mind, this thesis revi-
sits concepts and techniques from the theory of robust regression, in particular those related to
M-estimation, adapting them to the design of pattern classifiers which are able to automatically
handle outliers. This adaptation leads to the proposal of robust versions of two pattern classi-
fiers widely used in the literature, namely, least squares classifier (LSC) and extreme learning
machine (ELM). Through a comprehensive set of computer experiments using synthetic and
real-world data, it is shown that the proposed robust classifiers consistently outperform their
original versions.
Identifer | oai:union.ndltd.org:IBICT/oai:www.teses.ufc.br:7637 |
Date | 09 August 2013 |
Creators | Ana Luiza Bessa de Paula Barros |
Contributors | Guilherme de Alencar Barreto, Andrà Lima FÃrrer de Almeida, Josà Everardo Bessa Maia, Carmelo Jose Albanez Bastos Filho, Romis Ribeiro de Faissol Attux |
Publisher | Universidade Federal do CearÃ, Programa de PÃs-GraduaÃÃo em Engenharia de TeleinformÃtica, UFC, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFC, instname:Universidade Federal do Ceará, instacron:UFC |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0017 seconds