Global ETD Search

Return to search

Agrupamento fuzzy c-medoids semi-supervisionado de dados relacionais representados por múltiplas matrizes de dissimilaridade

Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-10-05T20:00:48Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Diogo Philippini Pontual Branco.pdf: 1129238 bytes, checksum: dfe9b5706880e9a9a4dd5acd39d83322 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-11-14T22:34:34Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Diogo Philippini Pontual Branco.pdf: 1129238 bytes, checksum: dfe9b5706880e9a9a4dd5acd39d83322 (MD5) / Made available in DSpace on 2018-11-14T22:34:34Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Diogo Philippini Pontual Branco.pdf: 1129238 bytes, checksum: dfe9b5706880e9a9a4dd5acd39d83322 (MD5)
Previous issue date: 2017-07-21 / Técnicas de agrupamento de dados geralmente operam em objetos que podem estar descritos pelos seus atributos (feature data) ou por dados relacionais. Em dados relacionais apenas a informação que representa o grau de relacionamento entre os pares de objetos está disponível. O caso mais comum de dados relacionais é quando se tem uma matriz de dissimilaridade () entre objetos e cada célula da matriz tem a informação do grau de relacionamento entre um par de objetos. Esses dados relacionais podem ser (e geralmente são) complexos, tais como objetos multimídia, o que faz com que o relacionamento entre objetos possa ser descrito por múltiplas matrizes de (dis)similaridade. Cada matriz é chamada de visão e dados descritos desta forma são ditos multi-view. Há três principais abordagens para administrar dados multi-view em análise de agrupamento no estado da arte: abordagem de concatenação (fusão de dados), abordagem distribuída e abordagem centralizada. Na abordagem centralizada, se utiliza as múltiplas visões de forma simultânea para encontrar padrões escondidos nos dados; representa um desafio importante pois requer uma modificação profunda do processo de particionamento. Em compensação, essa abordagem geralmente tem uma qualidade dos resultados superior em relação às outras duas abordagens. Agrupamento de dados é uma tarefa difícil, especialmente quando se trata de dados complexos, relacionais, de alta dimensionalidade e com múltiplas visões. Para facilitar o processo, não é incomum utilizar os rótulos dos objetos, contudo, dados rotulados geralmente são escassos; por isso é comum o uso de supervisão parcial, que necessita apenas o rótulo de alguns objetos de um dado conjunto. Este trabalho introduz o algoritmo SS-MVFCVSMdd (Semi-Supervised Multi-View Fuzzy Clustering Vector Set-Medoids), baseado no MVFCVSMdd e com funcionamento parecido com o SSMVFCSMdd. O SS-MVFCVSMdd é um algoritmo particional do tipo fuzzy c-medoids vectors semi-supervisionado de dados relacionais representados por múltiplas matrizes de dissimilaridade. O SS-MVFCVSMdd utiliza restrições par-a-par (must-link e cannot-link) entre objetos como supervisão parcial e é capaz de inferir representantes e pesos de relevância para cada visão. Experimentos são realizados em vários conjuntos de dados comparando seu desempenho com algoritmos de características similares ao SS-MVFCVSMdd. Os resultados apontam que o SS-MVFCVSMdd teve uma qualidade similar ou superior em relação aos outros algoritmos. / Data clustering techniques generally work with objects that can be described by either feature or relational data. In relational data only the information pertaining the relationship degree between pairs of objects is available. The most usual case of relational data is when there is a dissimilarity matrix () between objects and each cell of said matrix contains the relationship degree between a given pair of objects. These relational data may be (and generally are) complex, such as multimedia objects, which may cause the relationship between those objects to be described by multiple (dis)similarity matrices. Each matrix is called view and data described in that way are said to be multi-view. There are three main approaches to manage multi-view data in cluster analysis in the the state of the art: concatenation, distributed and centralized. In the centralized approach the views are considered simultaneously in order to find hidden patterns in the data. On one hand, this poses a great challenge as it requires a profound change in the clustering process. On the other hand, this approach generally offers results with superior quality in comparison with the other two approaches. Clustering is a hard task, specially when it concerns complex relational high-dimension multi-view data. To facilitate the process it is not unusual to use the object labels, although labeled data are generally scarce. Therefore the use of parcial supervision is common, which requires only some of the objects are labeled in a given dataset. This work introduces the SS-MVFCVSMdd (Semi-Supervised Multi-View Fuzzy Clustering Vector Set-Medoids) algorithm, based on the MVFCVSMdd and functions in a similar way as the SS-MVFCSMdd. The SS-MVFCVSMdd is a semi-supervised multi-view fuzzy c-medoids vectors partitional algorithm, which utilizes pairwise constraints (must-link and cannot-link) between objects as partial supervision and infers prototypes and relevance weights for each view. Experiments performed using several datasets comparing the performance of the proposed algorithm with algorithms that have similar characteristics as the proposed algorithm. The results indicate that the SS-MVFCVSMdd had a similar or superior quality than the other algorithms.

https://repositorio.ufpe.br/handle/123456789/27527

Inteligência computacional

Dados relacionais

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/27527
Date	21 July 2017
Creators	BRANCO, Diogo Philippini Pontual
Contributors	http://lattes.cnpq.br/3909162572623711, CARVALHO, Francisco de Assis Tenório de
Publisher	Universidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds

Agrupamento fuzzy c-medoids semi-supervisionado de dados relacionais representados por múltiplas matrizes de dissimilaridade

Description

Links & Downloads

Tags

Additional Fields