Global ETD Search

Return to search

Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática /

Orientador: Fabrício Aparecido Breve / Banca: Moacir Antonelli Ponti / Banca: Daniel Carlos Guimarães Pedronette / Resumo: As pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado SemiSupervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua... / Abstract: Research conducted for the sequencing of genomes, Proteomics, Systems Biology, Medical Diagnostics, among others, generate a lot of data, making it necessary the support of computing solutions for the analysis and interpretation of such data. The possibility of using machine learning techniques to extract useful knowledge of these large amounts of data has been widely discussed among researchers of Biology and Computer Science. The process of labeling all data generated by biological research, as well as in other areas, is difficult, costly and / or time consuming. Thus, searching ways to achieve a high accuracy with few labeled data is an important and challenging task. Accordingly, the Semi-Supervised Learning shows up as an important option since it uses both labeled and unlabeled data for training, being an intermediate category between the Supervised and Unsupervised Learning. Several approaches to semi-supervised learning algorithms are found in the literature. Among them, the highlights are the graph-based methods, which represent the input data as nodes in a graph, which structure is used to propagate label information from labeled nodes to the other nodes. It is also noteworthy that the graph-based approach has a great mathematical and computational validity. In this context, this paper presents a comparative analysis of some semi-supervised algorithms based on graphs, when applied to biological data analysis related to the field of proteomics and transcriptomics studies. In addition, the paper proposes a new dataset with actual data from biological research with the transcriptome of the Mycocepurus goeldii species of ants. Some experiments performed with semi-supervised algorithms are presented, considering its efficacy when compared with a few supervised methods / Mestre

http://hdl.handle.net/11449/138136

Computação - Matematica.

Algoritmos de computador.

Aprendizado do computador.

Árvores (Teoria dos grafos)

Bioinformática.

Reconhecimento de padrões.

Proteômica.

Computer algorithms

Identifer	oai:union.ndltd.org:UNESP/oai:www.athena.biblioteca.unesp.br:UEP01-000868272
Date	January 2016
Creators	Negretto, Diego Henrique.
Contributors	Universidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências, Letras e Ciências Exatas.
Publisher	São José do Rio Preto,
Source Sets	Universidade Estadual Paulista
Language	Portuguese, Portuguese, Texto em português; resumos em português e inglês
Detected Language	English
Type	text
Format	105 f. :
Relation	Sistema requerido: Adobe Acrobat Reader

Page generated in 0.0022 seconds

Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática /

Description

Links & Downloads

Tags

Additional Fields