Return to search

Redes neurais artificiais para predição genômica na presença de interações epistáticas / Artificial neural network for genomic prediction of genetics values with espistatics interactions

Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2018-06-14T18:26:01Z
No. of bitstreams: 1
texto completo.pdf: 1296377 bytes, checksum: 4cf50482fa770814eb465e7df5af6db5 (MD5) / Made available in DSpace on 2018-06-14T18:26:01Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1296377 bytes, checksum: 4cf50482fa770814eb465e7df5af6db5 (MD5)
Previous issue date: 2018-02-23 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A identificação de genótipos com desempenho superior é um dos principais objetivos da maioria dos programas de melhoramento de plantas. No entanto, a capacidade de atingir esse objetivo é limitada pelo alto custo da fenotipagem e realização de experimentos. Neste contexto, a Seleção Genômica (SG) foi proposta para estimar o valor genético (VGG) de indivíduos que ainda não foram fenotipados por meio de informações de marcadores distribuídos em todo o genoma. No entanto, a maioria das modelagens da SG expressam o valor fenotípico como função apenas do efeito aditivo do valor genotípico o que dificulta, muitas vezes, uma representação mais realística da arquitetura genética de caracteres quantitativos, sendo a inclusão de efeitos dominância e interações epistáticas fatores cruciais para aumentar a acurácia da predição. O papel da epistasia na arquitetura genética de caracteres complexos tem sido discutido desde o surgimento da genética quantitativa e, embora seja visto por diferentes perspectivas, o reconhecimento sobre sua importância é crescente. Nas populações, a variância genética total é dividida em componentes de variância aditivo, de dominância e de epistasia, que dependem dos efeitos dos locos e das frequências dos alelos presentes na população. Assim, se a frequência do alelo epistático varia entre as populações, o efeito do gene de interesse pode significativo em uma população, mas não em outra, e o efeito pode até mesmo ser inverso sobre o caráter em ambientes diferenciados. Neste contexto, as Redes Neurais Artificias (RNAs) tornam-se alternativas de análise promissoras por capturar relações não lineares entre os marcadores a partir dos próprios dados, o que a maioria dos modelos comumente utilizados na SG não conseguem. Entretanto, a inclusão de todos os marcadores no genoma no modelo aumenta as chances de existência de alta correlação entre eles e representa um enorme desafio computacional, que acarreta menor precisão no treinamento da RNA, que utilizam boa parte de seus recursos para representar porções irrelevantes do espaço de busca, dificultando o aprendizado. Assim, um modelo mais realístico deveria incluir apenas os SNPs (Single Nucletiode polymorphism) ao caráter de interesse. Para minimizar os efeitos da dimensionalidade sobre a modelagem de SG usando RNA foi proposta, no presente trabalho, a utilização de métodos de redução de dimensionalidade do tipo Sonda e Stepwise para fins de seleção de um subconjunto de marcadores que serão utilizados na predição do valor genético. Após a seleção de marcadores, foi avaliada a eficiência do método de seleção genômica RR-BLUP e das redes neurais artificias do tipo de base radial (RNA-REF) e Perceptron de Múltiplas camadas (RNA-MLP) na predição do valor genético em população natural com desequilíbrio gamético. Para isso, foi simulada uma população Fl oriunda da hibridação de genitores divergentes, com 500 indivíduos, genotipados com 1000 marcadores do tipo SNP. As características fenotípicas foram determinadas adotando-se três modelos: aditivo, aditivo-dominante e epistático, atendendo duas situações de dominância: parcial e completa com caracteres quantitativos admitindo herdabilidades (hª) de 30 e 60%, controlados cada um por 100 locos, considerando dois alelos por loco, totalizando 12 cenários distintos. Para avaliar a capacidade de predição, o modelo RR-BLUP e RNA- RBF foram treinados utilizando 80% dos indivíduos da população e procedimento de validação cruzada com cinco repetições. Para tanto foram obtidos o quadrado da correlação entre o valor genômico predito (GEBV) e o valor genotípico/fenotípico para medir a acurácia seletiva (R2) e a raiz do erro do quadrado médio (REQM), para medir a acurácia preditiva. Os resultados obtidos pela validação genotípica no primeiro capitulo mostraram que o uso de redes neurais permite capturar as interações epistáticas levando a uma melhora na predição do valor genético e, principalmente, a grande redução da raiz do erro médio quadrado (REQM), o que indica maior confiabilidade da predição do valor genômico. No entanto, a partir dos resultados obtidos por validação fenotípica foi evidente que a acurácia de predição poderia ser melhorada ao introduzir a seleção de marcadores. Consequentemente, no segundo capítulo de trabalho, após aplicar os métodos de redução de dimensionalidade, sonda e Stepwise, acurácia de predição aumentou. Por exemplo, para a h2= 0.3 no cenário aditivo, o R2 de validação foi de 59.l% para rede neural (RNA-REF), 57% (RNA-MLP) e 57% para RR-BLUP e, no cenário epistático, os valores de R2 foram de 50%, 47 e 41%, respectivamente. Adicionalmente, ao analisarmos REQM, a diferença entre os desempenhos das técnicas é ainda maior. Para o cenário 1, as estimativas foram de 91 (RR-BLUP) e 5 para ambas as redes neurais e, no cenário mais crítico que incluía epistasia e dominância, de 427(RR-BLUP) e 20 para as redes neurais. Os resultados obtidos mostram que a utilização de redes neurais permite capturar as interações epistáticas levando a um aumento na acurácia da predição do valor genético e, principalmente, redução do erro quadrático médio, o que indica maior confiabilidade da predição do valor genômico. / The identification of elite individual is a critical component of most plant breeding programs. However, the ability to achieve this goal is limited by the high cost of phenotyping and conducting experiments. In this context the genomic selection was proposed to use all marks presents in the genome to estimate the genomic breeding value of individuals (GEBV) without the need to phenotyping. However, most applications of GS includes only the additive portion of the genetic value, and a more realistic representation of the genetic architecture of quantitative traits should have the inclusion of dominance and epistatics interaction. The role of epistasis in the genetic architecture of quantitative traits has been debated since first formulations of quantitative genetic theory, and different perspectives regarding the importance of epistasis arise. In populations, the total genetic variance is partitioned into components that are attributable to additive, dominance and epistatic variance, which depend on allele frequencies. If the allele frequency of the interacting locus varies among populations, the effect of the target locus can be significant in one population but not in another, or can even be of the opposite sign. In this context, Artificial Neural Networks (ANNs) has a great potential because they can capture non-linear relationships between markers from the data themselves, which most of the models commonly used in the GS can not. However, the inclusion of all markers in the prediction model increases the chances of a high correlation between the marks and represents a huge challenge that add less precision and a great computational demand for ANNs training that use a good part of their resources to represent irrelevant portions of the search space and compromising the learning process. Thus, a more realistic model should include only SNPs that are related to the traits of interest. Because of this, it was proposed to use dimensionality reduction methods, applied to the prediction of genetic values, for the purpose of selecting a subset of markers by means of specific procedures such as Sonda or Stepwise regressions. In this way, the objective of this work is to evaluate the efficiency of genome enabled prediction by using RR-BLUP (GS) and artificial neural networks as radial basis function neural network (RBFNN), and Multi-layer Perceptron (RNA-MLP) in the prediction of the genetic value in a natural population with linkage disequilibrium without (chapter 1) and with (chapter 2) the dimensionality reduction. For this, an Fl population from the hybridization of divergent parents with 500 individuals genotyped with l,000 SNP-type markers was simulated. The phenotypic traits were determined by adopting three different gene action models: additive, additive-dominance and epistasis, attending two dominance situations: partial and complete with quantitative traits admitting heritabilities (hz) ranging from 30 to 60%, each is controlled by 50 loci, considering two alleles per loco, totaling 12 different scenarios. To evaluate the predictive ability of RR-BLUP and the neural networks a cross- validation procedure with five replicates were trained using 80% of the individuals of the population. Two dimensionality reduction methods Stepwise and Sonda were used to calculated the square of the correlation between predicted genomic value (GEBV) and genotype/phenotype value was used to measure predictive reliability(R2) and the predictive mean-squared error root (MSER). In the chapter one of this work the results showed that the use of neural networks allows capturing the epistasic interactions leading to an improvement in the accuracy of the prediction of the genetic value and, mainly, a large reduction of the mean square error root (MSER) that indicates greater reliability of the prediction of the genomic value. But from the results using phenotypic validation it was clearly that is possible to make further improvements on the accuracy by introducing the variable selection. Consequently, in the second chapter, after applied the dimensionality reduction methods, the the accuracy increased. For example, for h2 = 0.3 in the additive scenario, the validation R2 was 59% for neural network (RBFNN), 57% (RNA-MLP) and 57% for RR-BLUP, and in the epistemic scenario R2 values were 50%, 47 and 41%, respectively. Additionally, when analyzing the mean-squared error root the difference in performance of the techniques is even greater. For additive scenario, the estimates were 9l (RR-BLUP) and 5 for both neural networks and, in the most critical scenario, 427 (RR-BLUP) and 20 for neural networks. The results show that the use of neural networks allows capturing the epistasis interactions leading to an improvement in the accuracy of the prediction of the genetic value and, mainly, a large reduction of the mean square error root that indicates greater reliability of the prediction of the genomic value. / A folha de aprovação está com o nome do curso errado.

Identiferoai:union.ndltd.org:IBICT/oai:localhost:123456789/20126
Date23 February 2018
CreatorsSant'anna, Isabela de Castro
ContributorsKirst, Matias, Resende, Marcos Deon Vilela de, Cruz, Cosme Damião
PublisherUniversidade Federal de Viçosa
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFV, instname:Universidade Federal de Viçosa, instacron:UFV
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds