Spelling suggestions: "subject:"semisupervised clustering"" "subject:"semissupervised clustering""
1 |
Aprendizado semi-supervisionado e não supervisionado para análise de dados de expressão gênicaAssao, Fabiana Mari 27 May 2008 (has links)
Made available in DSpace on 2016-06-02T19:05:34Z (GMT). No. of bitstreams: 1
2160.pdf: 2987031 bytes, checksum: c428afa9febfedfbb3e778b30d48e9c0 (MD5)
Previous issue date: 2008-05-27 / Data clustering has been seen, in the last decades, as an important tool for gene expression data analysis. In recent years, due to the progress in gene annotation research, a
growing interest has been noticed for the semi-supervised clustering techniques, which use knowledge previously available about some gene functions to discover functions of other genes by means of clustering. This work investigates non-supervised and semi-supervised clustering algorithms applied to gene expression data. The goal is to perform an inspection on strengths and weaknesses of the use of such clustering methods and, based on these findings, to provide ways of obtaining results significant to biology. Algorithms with different characteristics were implemented and tested, with the objective of verifying evidences of eventual gains with the partial labeling, as compared to the non-supervised techniques. The experiments considered data sets from the gene expression domain as well as more generic domains. The obtained results were evaluated with validation measures usually applied in similar contexts. The analysis developed, though, emphasize the important role of computational techniques in biological data analysis, by accelerating the process of deriving results and conclusions, to better understand gene functions and structures. The results of this
stydy justify the large investiment in the research of behavior of semi-supervised techniques in gene expression data, as we shall see. / O agrupamento de dados destacou-se nas últimas décadas como uma importante ferramenta para a análise de dados de expressão gênica. Nos últimos anos, em função do progresso das pesquisas para rotulação de genes, surgiu um interesse pelas técnicas de agrupamento semi-supervisionado, que utilizam o conhecimento prévio disponível sobre a função de alguns genes para descobrir funções de outros genes por meio do agrupamento. Neste trabalho são investigados algoritmos de agrupamento semi-supervisionado e não supervisionados aplicados a dados de expressão gênica. O intuito é realizar uma inspeção das vantagens e desvantagens da utilização destes métodos de agrupamento e, a partir disso, prover subsídios para obtenção de resultados significativos para a área de Biologia. Foram implementados e testados algoritmos de agrupamento com diferentes características, com o
objetivo de verificar evidências de eventuais ganhos obtidos com a rotulação parcial dos genes com relação a técnicas não-supervisionadas. Os experimentos realizados consideraram
conjuntos de dados do domínio de expressão gênica e de outros domínios mais genéricos. Os resultados obtidos foram avaliados com medidas de validação usualmente aplicadas em
contextos semelhantes. Assim, as análises desenvolvidas reforçam o importante papel da computação na análise de dados biológicos, a fim de acelerar o processo de obtenção de
resultados e conclusões, na compreensão das estruturas e funções dos genes. Os resultados obtidos neste trabalho justificam o grande investimento na pesquisa do comportamento de técnicas semi-supervisionadas em dados de expressão gênica, como veremos mais adiante.
|
2 |
[en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION / [pt] UM FRAMEWORK BASEADO EM MODELO PARA CLUSTERIZAÇÃO SEMISSUPERVISIONADA E DETECÇÃO DE COMUNIDADESDANIEL LEMES GRIBEL 09 September 2021 (has links)
[pt] Em clusterização baseada em modelos, o objetivo é separar amostras de
dados em grupos significativos, otimizando a aderência dos dados observados a
um modelo matemático. A recente adoção de clusterização baseada em modelos
tem permitido a profissionais e usuários mapearem padrões complexos nos
dados e explorarem uma ampla variedade de aplicações. Esta tese investiga
abordagens orientadas a modelos para detecção de comunidades e para o estudo
de clusterização semissupervisionada, adotando uma perspectiva baseada em
máxima verossimilhança. Focamos primeiramente na exploração de técnicas
de otimização com restrições para apresentar um novo modelo de detecção de
comunidades por meio de modelos de blocos estocásticos (SBMs). Mostramos
que a formulação com restrições revela comunidades estruturalmente diferentes
daquelas obtidas com modelos clássicos. Em seguida, estudamos um cenário
onde anotações imprecisas são fornecidas na forma de relações must-link e
cannot-link, e propomos um modelo de clusterização semissupervisionado.
Nossa análise experimental mostra que a incorporação de supervisão parcial
e de conhecimento prévio melhoram significativamente os agrupamentos. Por
fim, examinamos o problema de clusterização semissupervisionada na presença
de rótulos de classe não confiáveis. Investigamos o caso em que grupos de
anotadores deliberadamente classificam incorretamente as amostras de dados
e propomos um modelo para lidar com tais anotações incorretas. / [en] In model-based clustering, we aim to separate data samples into meaningful
groups by optimizing the fit of some observed data to a mathematical model.
The recent adoption of model-based clustering has allowed practitioners to
model complex patterns in data and explore a wide range of applications. This thesis investigates model-driven approaches for community detection and semisupervised clustering by adopting a maximum-likelihood perspective. We first focus on exploiting constrained optimization techniques to present a new model for community detection with stochastic block models (SBMs). We show that the proposed constrained formulation reveals communities structurally different from those obtained with classical community detection models. We then study a setting where inaccurate annotations are provided as must-link and cannot-link relations, and propose a novel semi-supervised clustering model.
Our experimental analysis shows that incorporating partial supervision and
appropriately encoding prior user knowledge significantly enhance clustering performance. Finally, we examine the problem of semi-supervised clustering in the presence of unreliable class labels. We focus on the case where groups of untrustworthy annotators deliberately misclassify data samples and propose a model to handle such incorrect statements.
|
Page generated in 0.0828 seconds