Global ETD Search

Return to search

Investigação de combinações de técnicas de detecção de ruído para dados de expressão gênica / Investigation of ensembles of noise detection techniques for gene expression data.

Ruído pode ser definido como um exemplo em um conjunto de dados que aparentemente é inconsistente com o restante dos dados existentes, pois não segue o mesmo padrão dos demais. Ruídos em conjuntos de dados podem reduzir o desempenho das técnicas de Aprendizado de Máquina (AM) empregadas e aumentar o tempo de construção da hipótese induzida, assim como sua complexidade. Dados são geralmente coletados por meio de medições realizadas em um domínio de interesse. Nesse sentido, nenhum conjunto de dados é perfeito. Erros de medições, dados incompletos, errados, corrompidos ou distorcidos, falhas humanas ou dos equipamentos utilizados, dentre muitos outros fatores, contribuem para a contaminação dos dados, e isso é particularmente verdadeiro para dados com elevada dimensionalidade. Sendo assim, a detecção de ruídos é uma tarefa crítica, principalmente em ambientes que exigem segurança e confiabilidade, uma vez que a presença desses pode indicar situações que degradam o desempenho do sistema ou a segurança e confiabilidade das informações. Algoritmos para a detecção e remoção de ruídos podem aumentar a confiabilidade de conjuntos de dados ruidosos. Nesse âmbito, esse trabalho investiga técnicas de detecção de ruído baseadas em distância, em que a remoção de ruídos é feita em uma etapa de pré-processamento, aplicadas a problemas de classificação de dados de Expressão Gênica, caracterizados pela presença de ruídos, elevada dimensionalidade e complexidade. O objetivo é melhorar o desempenho das técnicas de AM empregadas para solucioná-los. Por fim, combinações de técnicas de detecção de ruído são implementadas de modo a analisar a possibilidade de melhorar, ainda mais, o desempenho obtido. / Noise can be defined as an example which seems to be inconsistent with the remaining ones in a data set. The presence of noise in data sets can decrease the performance of Machine Learning (ML) techniques in the problem analysis and also increase the time taken to build the induced hypothesis and its complexity. Data are collected from measurements made which represent a given domain of interest. In this sense, no data set is perfect. Measurement errors, incomplete, corrupted, wrong or distorted examples, equipment problems or human fails, besides many other related factors, help contaminating the data, and this is particularly true for data sets with high dimensionality. For this reason, noise detection is a critical task, specially in domains which demand security and trustworthiness, since the presence of noise can lead to situations which degrade the system performance or the security and trustworthiness of the involved information. Algorithms to detect and remove noise may increase trustworthiness of noisy data sets. Based on that, this work evaluates distance-based noise detection techniques, in which noise removal is done by a pre-processing phase, in gene expression classification problems, characterized by the presence of noise, high dimensionality and complexity. The objective is to improve the performance of ML techniques used to solve these problems. Next, ensembles of noise detection techniques are developed in order to analyze the possibility to further improve the performance obtained.

http://www.teses.usp.br/teses/disponiveis/55/55134/tde-18012008-114432/

Aprendizado de Máquina

Combinação de Classificadores.

Ensembles.

Expressão Gênica

Gene Expression Problems

Machine Learning

Noise

Ruído

Identifer	oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-18012008-114432
Date	09 November 2007
Creators	Libralon, Giampaolo Luiz
Contributors	Carvalho, André Carlos Ponce de Leon Ferreira de
Publisher	Biblioteca Digitais de Teses e Dissertações da USP
Source Sets	Universidade de São Paulo
Language	Portuguese
Detected Language	Portuguese
Type	Dissertação de Mestrado
Format	application/pdf
Rights	Liberar o conteúdo para acesso público.

Page generated in 0.0026 seconds

Investigação de combinações de técnicas de detecção de ruído para dados de expressão gênica / Investigation of ensembles of noise detection techniques for gene expression data.

Description

Links & Downloads

Tags

Additional Fields