Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-02-19T18:48:11Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
TESE Valmir Macario Filho.pdf: 4240940 bytes, checksum: 4f9034afca3528b01bdc7b2ac14aff39 (MD5) / Made available in DSpace on 2016-02-19T18:48:11Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
TESE Valmir Macario Filho.pdf: 4240940 bytes, checksum: 4f9034afca3528b01bdc7b2ac14aff39 (MD5)
Previous issue date: 2015-01-10 / FACEPE / Nas aplicações tradicionais de aprendizagem de máquina, os classificadores utilizam ape-
nas dados rotulados em seu treinamento. Os dados rotulados, por sua vez, são difíceis,
caros, consomem tempo e requerem especialistas humanos para serem obtidos em algu-
mas aplicações reais. Entretanto, dados não rotulados são abundantes e fáceis de serem
obtidos mas há poucas abordagens que os utilizam no treinamento. Para contornar esse
problema existe a aprendizagem semissupervisionada. A aprendizagem semissupervisio-
nada utiliza dados não rotulados, juntamente com dados rotulados, com a finalidade de
melhorar o desempenho dos algoritmos. A abordagem semissupervisionada, geralmente,
obtém resultados melhores do que se utilizassem apenas poucos padrões rotulados em
uma abordagem supervisionada ou se utilizassem apenas padrões não rotulados numa
abordagem não supervisionada. Um algoritmo semissupervisionado pode se basear em
algoritmos de agrupamento não supervisionado, geralmente, adicionando-se um termo ou
estratégia que faz uso de informações rotuladas para guiar o processo de aprendizagem
deste algoritmo. Os algoritmos de agrupamento são bastante influenciados pelo cálculo
da similaridade entre dois items, ou seja, a distância entre dois itens. Quando o algoritmo
semissupervisionado é um extensão de um algoritmo de agrupamento, este também é
bastante influenciado por esta distância. Desse modo, distâncias adaptativas são utiliza-
das para que o algoritmo tenha capacidade de se adequar a diferentes distribuições dos
dados, geralmente, melhorando o desempenho em relação aos algoritmos que não utili-
zam uma distância adaptativa. Este trabalho apresenta novos algoritmos de agrupamento
semissupervisionado baseados no algoritmo Fuzzy C-Means que utilizam distâncias adap-
tativas com ponderação automática de variáveis. Estudos experimentais no contexto da
aprendizagem a partir de dados parcialmente rotulados são apresentados. Além disso, o
comportamento dos algoritmos é discutido e os resultados examinados através de testes
estatísticos de Friedman. Desse modo, foi possível certificar que os novos algoritmos de
agrupamento semissupervisionado com distâncias adaptativas apresentam desempenho
melhor que algoritmos já consolidados na literatura. / In traditional machine learning applications, one uses only labeled data to train the al-
gorithm. Labeled data are difficult, expensive, time consuming and require human ex-
perts to be obtained in some real applications. However, unlabeled data are abundant
and easy to be obtained but there has been few approaches to use them in training.
Semi-supervised learning addresses this problem. The semi-supervised learning uses large
amount of unlabeled data, together with the labeled data, to build better algorithms.
The semi-supervised approach, usually, obtains better results than if using a few labeled
patterns in a supervised approach or using only standard not supervised approach. The
semi-supervised algorithm can be an extension of an unsupervised algorithm. Such algo-
rithm can be based on unsupervised clustering algorithms, adding a term or strategy, that
makes use of labeled information to guide the learning process of the algorithm. Unsuper-
vised algorithms are greatly influenced by calculating the similarity between two items,
ie, the distance between two items. When the semi-supervised algorithm is an extension
of an unsupervised algorithm, it is also quite influenced by this distance. Thus, adaptive
distances are utilized, so the algorithm is able to adapt to different data distributions, gen-
erally improving performance compared to algorithms that use the standard Euclidean
distance. This work presents new algorithms for semi-supervised clustering based on Fuzzy
C-Means algorithm using adaptive distances with automatic variable weighting. Exper-
imental studies in the context of learning from partially labeled data are presented. In
addition, the behavior of the algorithm is discussed and the results are investigated using
the Friedman Test. Thus, it was possible to certify that the performance of the new semi-
supervised clustering algorithms are better than other consolidated algorithms.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/15260 |
Date | 10 January 2015 |
Creators | MACARIO FILHO, Valmir |
Contributors | http://lattes.cnpq.br/3909162572623711, CARVALHO, Francisco de Assis Tenório de |
Publisher | UNIVERSIDADE FEDERAL DE PERNAMBUCO, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess |
Page generated in 0.002 seconds