Spelling suggestions: "subject:"análise dde componentes principais"" "subject:"análise dee componentes principais""
21 |
Avaliação do Potencial Carcinogênico do Carbendazim e seus metabólitosSilva, Renato César da 31 January 2014 (has links)
Submitted by Danielle Karla Martins Silva (danielle.martins@ufpe.br) on 2015-03-13T14:16:30Z
No. of bitstreams: 2
DISSERTAÇÃO Renato César da Silva.pdf: 4551591 bytes, checksum: e7d717e148bd95890c67dfefdc1e3c53 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T14:16:30Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Renato César da Silva.pdf: 4551591 bytes, checksum: e7d717e148bd95890c67dfefdc1e3c53 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014 / FACEPE / O potencial carcinogênico do carbendazim e seus metabólitos foi analisado utilizando um
tratamento estatístico dos parâmetros eletrônicos obtidos a partir de cálculos AM1 e
DFT/BLYP/6-311++G(d,p). A interação carcinógeno-DNA é descrita através da Teoria da
Ressonância Não Sincronizada da Ligação Covalente como um processo de transferência de
elétron envolvendo os orbitais de fronteira HOMO e LUMO, modelo já desenvolvido por
Pavão e Leão. Através de uma Análise de Componentes Principais da afinidade eletrônica,
energia de interação carcinógeno-DNA, atração eletrostática e permeabilidade da membrana
celular (momento de dipolo e coeficiente de partição) obtivemos evidência que o carbendazim
exibe atividade carcinogênica. Para os metabólitos do carbendazim, a análise dos parâmetros
eletrônicos também exibiram similaridade aos carcinógenos conhecidos. Embora existam
poucos dados na literatura sobre a carcinogenicidade destes compostos, os resultados do presente
estudo indicam que o uso deste fungicida representa um risco para a saúde da população, em
especial para os trabalhadores rurais. Desta forma, os resultados aqui obtidos podem servir de
subsídios para a aplicação de uma política de saúde pública baseada no princípio da precaução.
|
22 |
Aplicação de metodos quimiometricos para analises de controle de qualidade de oleos vegetais utilizando espectroscopias no infravermelho e RamanBarthus, Rosangela Cristina 26 July 2018 (has links)
Orientador: Ronei Jesus Poppi / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Quimica / Made available in DSpace on 2018-07-26T11:40:27Z (GMT). No. of bitstreams: 1
Barthus_RosangelaCristina_M.pdf: 1861932 bytes, checksum: 0a25ea9e326caf2623670359d1a22c43 (MD5)
Previous issue date: 1999 / Mestrado
|
23 |
Controle estatistico multivariado de processos para observações individuaisColacioppo, Roberto Celso 15 March 2001 (has links)
Orientador : Ademir Jose Petenate / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-07-27T16:57:40Z (GMT). No. of bitstreams: 1
Colacioppo_RobertoCelso_M.pdf: 12338744 bytes, checksum: 00d3c22c16e51f67a013a7a58ad5aae3 (MD5)
Previous issue date: 2001 / Resumo: Propomos nesta dissertação um roteiro de técnicas simples de serem implementadas para auxílio no entendimento da variabilidade de processos cujas observações são individuais e multivariadas. A motivação básica para o uso do controle estatístico multivariado de processos (CEMP) vem do fato de se ter que levar em conta a estrutura de correlação dos dados para se responder adequadamente a pergunta: "o processo está sob controle?". No início do texto, o CEMP é revisto enquanto técnica utilizada para subgrupos racionais e uma ilustração de seu uso é mostrada tanto para a fase I (exame retrospectivo para se estimar os parâmetros do processo) como para a fase II (análise de futuros subgrupos). Um tratamento especial deve ser dedicado quando os subgrupos têm tamanho 1 (observações individuais), principalmente na fase I em que as estimativas dos parâmetros não são independentes das próprias observações a serem testadas, além disso, a estimativa usual da matriz de covariância pode ser inflacionada caso tenhamos causas assinaláveis no conjunto de dados inicial. Por essa razão, estimadores robustos dessa matriz, similares ao de amplitudes móveis do caso univariado, são estudados e limites adequados do gráfico de controle são desenvolvidos. Mostramos que nesses casos eles apresentam um bom desempenho para causas especiais tipo degrau e rampa. Por outro lado, sinais provocados por observações aberrantes são mais difíceis de serem detectados, principalmente se o afastamento não é tão evidente, e alternativas são sugeri das baseadas em técnicas de exploração da estrutura interna dos dados como Análise de Componentes Principais. Abordamos, em seguida, uma técnica de fácil implementação e interpretação para diagnóstico das causas assinaláveis. Ao final, utilizamos essas técnicas para análise de dados de um processo de montagem de cabinas de caminhões / Mestrado / Mestre em Estatística
|
24 |
Compressão de sinais de eletrocardiograma : /b uma contribuição ao seu estudoNicolosi, Denys Emílio Campion, 1956- 17 September 1999 (has links)
Orientadores: Marcio Luiz de Andrade Netto, Dalton Soares Arantes / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-28T14:33:55Z (GMT). No. of bitstreams: 1
Nicolosi_DenysEmilioCampion_D.pdf: 8955129 bytes, checksum: 8f8ef3bc0a751ee4e96a249a94724a59 (MD5)
Previous issue date: 1999 / Resumo: A área de Compressão de Dados de sinais digitalizados de Eletrocardiograma, ECG, tem grande importância prática pela economia de espaço de memória, de arquivo, ou de tempo de transmissão que ela viabiliza, e é considerada uma área efervescente, onde trabalhos científicos de excelente nível têm sido publicados. Neste trabalho, desenvolve-se um procedimento novo de criação experimental da função taxa da distorção ("Rate Distortion Function"), R(D), utilizada em comunicações e com raízes na Teoria da Informação. O método desenvolvido realiza a decomposição do sinal em componentes principais (Principal Component Analysis) e cria a curva R(D) através da recuperação parcial desses componentes principais. A taxa R é computada através da entropia das Funções de Densidade de Probabilidade dos pesos (scores) de cada componente principal utilizado nesta recuperação parcial, obtendo-se então a relação RxD. Os resultados obtidos representam uma referência para esta área, pois impõem um limitante inferior para a melhor taxa de compressão que se pode obter para esses sinais. Foi possível também caracterizar a Função de Densidade de Probabilidade para sinais de ECG, que não tinha sido bem explorada na literatura. Constatou-se que ela se aproxima fortemente de uma função Laplaciana. ...Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: Data Compression of Electrocardiogram digitalized signals is a very important subject in many aspects, such as memory and space economy or data transmission, and it is considered an area in constant development with excelent scientific works worldwide. In this work, a new procedure for the experimental computation of the Rate Distortion Function, R(D), is developed. This is a function which is commonly used in Communications and whose origins are in the Information Theory. This work presents a novel procedure for determining the R(D) function, by means of a decomposition of the signal in its principals components (Principal Components Analysis). The R(D) curve is then created through the partial recuperation of these principals components, as a function of the distortion D obtained from this partial recovery. The Rate "R", is then obtained using each of the Principal Component score values derived from its probability density function, in such a way that the relation "R x D" is obtained. It was also possible in this work, to characterize the probability density function for ECG signals, which have not been well explored in the literature : We have concluded that this density is very dose to a Laplacian function, which is a surprising result. ...Note: The complete abstract is available with the full electronic digital thesis or dissertations / Doutorado / Doutor em Engenharia Elétrica
|
25 |
Aplicação das tecnicas de redes neurais e de analise de componentes principais na modelagem de uma lagoa aerada da RIPASA S/AOliveira, Karla Patricia Santos 12 August 2018 (has links)
Orientadores: Milton Mori, Roy Edward Bruns / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Quimica / Made available in DSpace on 2018-08-12T02:03:56Z (GMT). No. of bitstreams: 1
Oliveira_KarlaPatriciaSantos_M.pdf: 2043020 bytes, checksum: d2a11b877ef2ef646132cc413b195dd7 (MD5)
Previous issue date: 2000 / Resumo: O uso industrial dos corpos hídricos, rios e lagos, tem sido motivo de grande preocupação nacional e mundial visto às condições de captação de água e de destinação da grande quantidade de resíduo gerada diariamente. A atividade industrial da RIPASA S/A não foge a esta regra, assim vê-se a necessidade de um trabalho constante de controle e otimização do seu sistema de tratamento de efluente. Este trabalho teve como objetivo geral fornecer subsídios à RIP ASA SI A de prever a demanda bioquímica de oxigênio (DBO5) em situações futuras de despejo de sua lagoa aerada ll. Utilizou-se assim as técnicas de Redes Neurais Artificiais (RNAs) e de Análise de Componentes Principais (PCA) para modelagem do sistema e pré-processamento dos dados, respectivamente. Tomou-se um período de dois anos para a formação do banco de dados, sendo analisados inicialmente os seguintes parâmetros: DBO5, demanda química de oxigênio (DQO), vazão, produção de papel e celulose, pH e sólidos suspensos. Os pacotes computacionais NeuroSolutions e Statistica foram utilizados. Como o tempo de residência do sistema de lagoas aeradas da RIPASA S/A não era conhecido, trabalhou-se com as possibilidades de três a sete dias, tendo o de seis dias apresentado melhores resultados. A vasta quantidade de lacunas no banco de dados impossibilitou o uso dos parâmetros pH e sólidos suspensos reduzindo-se o número de dados disponíveis para a formação do modelo. Os resultados da modelagem via RNA foram comparados com o obtido através de um dos métodos clássicos de modelagem, PCR (Principal Component Regression), e verificou-se que nenhuma das técnicas foi capaz de predizer bem o comportamento do sistema em estudo quando utilizadas separadamente. Entretanto, uma boa performance da RNA foi obtida quando realizado um pré-processamento dos dados de entrada antes de serem alimentados à rede. Desta forma a ortogonalização de variáveis via PCA é apresentada como uma importante ferramenta de auxílio na definição da topologia das RNAs e no seu mapeamento não linear / Abstract: In recent years, computer-based methods have been applied to many areas of environmental chemistry. In the process industry the use of modern control strategies is required due to increasing demands on the quality of its effluent treatment systems. In this work a wastewater treatment system of a pulp and paper industry has been studied using Artificial Neural Networks (ANN) and the Principal Components Analysis to predict output environment parameters (BOD). Control process data sets generated from input and output of the current treatment system (an aerated lake) are used in this research. Variation within sampling of some auxiliary and process parameters including chemical oxygen demand (COD), biochemical oxygen demand (BOD), flow, pulp and paper production, pH and suspended solids are evaluated over a two-year period. Predictive models are presented calculated from ANN and Principal Component Regressions (PCR) for the estimation of biochemical oxygen demand, one of the main process control variables. The results show that neither principal component regression nor artificial neural network treatment is satisfactory when used separately in modeling and simulation. Neural network presents superior results for the training set but poorer ones than those from PCR for the test set. One explanation is that there are too few data resulting in an overfit of the training set. Best prediction performance is achieved when the data are preprocessed using PCA, before they are fed to a backpropagated neural network composed of three neurons in a hidden layer and the Delta-Bar-Delta (DBD) learning algorithm. The PCA technique orthogonalizes the input original variables and helps the ANN nonlinear mapping / Mestrado / Desenvolvimento de Processos Químicos / Mestre em Engenharia Química
|
26 |
Ressonancia magnetica nuclear de 1H e de 13C de compostos alifaticos : estudos dos efeitos dos substituintes [alfa] atraves da analise de componentes principais (PCA)Tasic, Ljubica, 1970- 01 August 2018 (has links)
Orientador : Roberto Rittner / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Quimica / Made available in DSpace on 2018-08-01T19:46:08Z (GMT). No. of bitstreams: 1
Tasic_Ljubica_D.pdf: 2855637 bytes, checksum: 21ca2861cfdf26fa08dd422d710fc9e4 (MD5)
Previous issue date: 2002 / Doutorado
|
27 |
Uso de componentes de software no desenvolvimento de frameworks orientados a objetosCoelho, Frederico de Miranda 18 December 2002 (has links)
Orientador : Cecilia Mary Fischer Rubira / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-03T07:44:20Z (GMT). No. of bitstreams: 1
Coelho_FredericodeMiranda_M.pdf: 5156626 bytes, checksum: 42d9a42b946227cc342288eaaec3bafa (MD5)
Previous issue date: 2002 / Resumo: qualidade de sistemas de software exigida pelo mercado. Inúmeras tecnologias têm sido propostas, sendo os Frameworks Orientados a Objetos (OO) uma das tecnologias mais modernas para se obter tal qualidade. Entretanto os Frameworks Orientados a Objetos possuem alguns problemas, como de desenvolvimento, composição, uso e manutenção. Para isso, pesquisadores têm unido outras tecnologias a essa, como desenvolvimento baseado em componentes e linguagens de padrões, com o intuito de solucionar os problemas apresentados. Porém não se sabe o quanto efetivamente essas tecnologias auxiliam nos problemas dos Frameworks Orientados a Objetos em comparação a um desenvolvido apenas com o paradigma orientado a objetos puro. Este trabalho apresenta métodos de estudo, desenvolvimento e análise arquitetural e suas aplicações em uma arquitetura de framework OO baseada em classes e outras duas constituídas por componentes, sendo todas estas arquiteturas obtidas de um mesmo domínio de aplicação. A finalidade da utilização destes métodos é analisar a aplicabilidade do paradigma de desenvolvimento baseado em componentes na construção de Frameworks Orientados a Objetos, em nível arquitetural, em um domínio de aplicação específico, verificando seu impacto no grau de complexidade da arquitetura do Framework Orientado a Objetos e, conseqüentemente, na facilidade de sua utilização. O resultado deste experimento é a diminuição da complexidade da arquitetura do framework OO em questão, quando aplicado as técnicas de desenvolvimento baseado em componentes, acarretando, por exemplo, em uma manutenibilidade, reusabilidade, usabilidade e documentação mais fáceis / Abstract: Software engineering researchers are always investigating for new forms to achieve software quality. Several technologies have been proposed, one of them, the technology for building Object Oriented (OO) Frameworks is a new technology to achieve software quality. However, the OO Frameworks have some limitations, such as complexity in their development, composition, use, and maintenance. To achieve software quality, researchers have join other technologies, like Component Based development and Pattern Languages to minimize these problems. However, the effectiveness of these technology compared with pure object oriented development isn't known. The main goal of this research is to analyze, at architectural level, the Component Based Paradigm applicability to built OO Frameworks in a specific application domain. The application of the component-based development resulted in a reduction of the OO framework architecture complexity and consequent1y promoted better maintainability, reusability, user-friendly and documentation / Mestrado / Mestre em Ciência da Computação
|
28 |
Avaliação geoquímica da variabilidade das concentrações dos elementos Traço ao longo de perfis pedológicos na Bacia do Rio Tatuoca, Ipojuca PESANTOS, Ivaneide de Oliveira 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T18:02:18Z (GMT). No. of bitstreams: 2
arquivo2486_1.pdf: 2738344 bytes, checksum: c630cb58952dfd04bee951ccb1b9c2b6 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A bacia hidrográfica do rio Tatuoca faz parte do grupo de pequenos rios litorâneos do Estado
de Pernambuco e na sua área de drenagem encontra-se o Complexo Industrial Portuário de
Suape - CIPS. O estudo das concentrações de elementos-traço em solos é um importante
instrumento na gestão ambiental do meio físico de bacias hidrográficas, uma vez que pode
contribuir para diferenciar as concentrações de base geogênica e as contribuições antrópicas
em sua área de drenagem. Dentro desse contexto, o estudo teve como objetivo caracterizar a
variação geoquímica de elementos-traço em dois perfis pedológicos, de modo a visualizar
possíveis contribuições de origem antrópicas, bem como subsidiar estudos de geoquímica de
sedimentos ativos de corrente na bacia do rio Tatuoca.
Dois perfis pedológicos foram coletados através de sondagem rotativa, denominados CTP2 e
CTP4, com 17 e 6 metros de profundidade respectivamente. Ambos foram seccionados a cada
50 centímetros compondo um total de 45 amostras, que foram inicialmente preparadas no
Laboratório de Preparação de Amostras do Departamento de Geologia da Universidade
Federal de Pernambuco e posteriormente enviadas para análises químicas no Laboratório
Geosol (MG). Tais análises foram efetuadas por Espectrometria de Emissão Atômica (ICPAES)
para 29 elementos. Os resultados foram tratados estatisticamente através de análise
multivariada (Análise de Componentes Principais) e por Fator de Enriquecimento. A base de
dados foi gerada a partir das concentrações dos 16 elementos-traço resultantes das análises
das 45 amostras coletadas.
A interpretação dos resultados estatísticos permitiu identificar anomalias geoquímicas nos
dois perfis de solo estudados. O fator de enriquecimento para chumbo foi de 3,3 na seção
mais superficial do solo, não sendo explicado por um natural enriquecimento pedogenético
sendo, portanto, de origem antropogênica
|
29 |
Utilização de Redes Neurais Artificiais e Análise de Componentes Principais no Monitoramento da Qualidade da ÁguaPimentel Marques, Luciana 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T18:06:12Z (GMT). No. of bitstreams: 2
arquivo7163_1.pdf: 2363182 bytes, checksum: e6884bcbe3ed945c11ac77e0587a427a (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Os recursos hídricos vem sendo ameaçados por diversas atividades antrópicas, o que tem levado a comunidade científica a se preocupar em elaborar e discutir metodologias de se avaliar a qualidade dessas águas, quer sejam de forma físico-química ou biológica. Uma das principais ameaças ao meio ambiente é o processo de eutrofização, que é o aumento da concentração de nutrientes, como por exemplo, nitrogênio e fósforo, nos ecossistemas aquáticos. Os avanços tecnológicos computacionais permitiram que a modelagem matemática passasse a desempenhar um importante papel nos estudos de tratamento de dados de Química Ambiental, em especial de Qualidade da Água. Este fato se deve a capacidade da modelagem encarar os processos hidrológicos, físicos, químicos e biológicos de forma simplificada e prática, ainda que sejam complexos. A modelagem empírica utiliza unicamente dados experimentais, surgindo como alternativa a essa complexidade e as técnicas de sistemas inteligentes (as Redes Neurais Artificiais- RNAs) e de análise multivariada (Análise de Componentes Principais-ACP), apresentaram-se atraentes para esta finalilidade. Visando a otimização, diminuindo os custos do processo e o tempo de resposta do monitoramento, neste trabalho foram desenvolvidas estratégias e ferramentas computacionais para a utilização de redes neurais e estatística multivariada na modelagem da qualidade da água utilizando a clorofila-a como parâmetro de avaliação para os dados do Reservatório da Marcela, em Sergipe, e reservatórios de seis bacias de Pernambuco, disponíveis no Laboratório de Engenharia Ambiental e da Qualidade (LEAQ) da Universidade Federal de Pernambuco (UFPE). Foram utilizadas na modelagem redes neurais do tipo Perceptron Multicamadas (MLP) e Funções de Base Radial (RBF), com e sem a ACP, que através da transformação das variáveis de entrada em variáveis linearmente independentes, melhoraria a eficiência das RNAs, e realizados 3 testes. O resultado do primeiro teste, com os dados do reservatório Marcela-SE, foi melhor em relação aos demais, pois possui mais parâmetros ambientais que influenciam a inferência da clorofila-a, já no terceiro teste o resultado para a utilização das redes não foram tão satisfatórios, uma vez que no agrupamento dos parâmetros em comum, parâmetros importantes a inferência foram desprezados. No primeiro teste a rede RBF com ACP, foi a melhor para representar a inferência da clorofila-a, porém no segundo teste, com os dados de reservatórios em Bacias de Pernambuco, foi a rede MLP com ACP quem melhor determinou. Este resultado mostra a independência de relação entre o fenômeno a ser tratado, pois as redes neurais são conhecidas como modelo caixa preta, assim como a independência do conjuntos de dados e o tipo de rede. Já no terceiro teste, com os dados dos outros testes juntos, apesar dos resultados não serem satisfatórios para os dados dos reservatórios, a utilização das redes neurais não pode ser comprometida, uma vez que os dados obtidos para este teste não apresentaram homogeneidade, este fato pôde ser observado através da técnica de ACP, onde verificou-se 2 grupos distintos de dados. A ferramenta computacional construída mostrou ser eficiente na aplicação das redes neurais e análise de componentes principais, assim como as interfaces construídas se mostraram realmente amigáveis
|
30 |
Predição genômica via redução de dimensionalidade em modelos aditivo dominante / Genomic prediction by reduction of dimensionality in additive dominant modelsCosta, Jaquicele Aparecida da 26 February 2018 (has links)
Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2018-06-12T11:46:53Z
No. of bitstreams: 1
texto completo.pdf: 1019565 bytes, checksum: 12e002c506bdd711cb143f12e04ea169 (MD5) / Made available in DSpace on 2018-06-12T11:46:53Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1019565 bytes, checksum: 12e002c506bdd711cb143f12e04ea169 (MD5)
Previous issue date: 2018-02-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Grandes avanços no melhoramento animal e vegetal têm sido propiciados utilizando- se informações da genética molecular. Nessa perspectiva, idealizaram a Seleção Genômica Ampla (Genome Wide Selection – GWS) cuja abordagem envolve a cobertura completa do genoma utilizando milhares de marcadores SNPs (Single Nucleotide Polymorphisms). O objetivo é estimar o mérito genético dos indivíduos e para tal, as pesquisas realizadas na GWS se baseiam na busca e na aplicação de metodologias estatísticas que visam resolver os problemas enfrentados no processo de estimação, como a alta dimensionalidade e a alta colinearidade entre os marcadores. Dentre elas, se destacam os métodos de redução de dimensionalidade: Regressão via Componentes Principais (PCR), Quadrados Mínimos Parciais (PLS) e Regressão via Componentes Independentes (ICR) e o tradicional método de regularização/shrinkage, G-BLUP (Genomic Best Linear Unbiased Predictor). Assim, o primeiro capítulo contempla as ideias centrais e a importância da GWS para o melhoramento genético, a definição de efeitos aditivos e de efeitos devido à dominância, os problemas estatísticos enfrentados na estimação dos efeitos de marcadores nos fenótipos pelo método usual baseado em quadrados mínimos ordinários, bem como as metodologias estatísticas baseadas em redução dimensional para resolver tais problemas e os procedimentos de validação que tem por finalidade comparar as metodologias estatísticas da GWS. Já o segundo capítulo refere-se a proposição e aplicação de sete critérios para a escolha do número ótimo de componentes independentes a serem utilizados na ICR, considerando apenas os efeitos aditivos. Os critérios consistem em determinar que o número de componentes independentes seja igual ao número de componentes que conduz: (i) os valores genômicos estimados via PCR a um maior valor de acurácia; (ii) os valores genômicos estimados via PCR a um menor valor de viés; (iii) a PCR a 80% de explicação da variação total de X; (iv) a PCR a 80% de explicação da variação total de Y; (v) a ICR a 80% de explicação da variação total de X; além dos critérios que consistem no número de componentes independentes igual ao número de variáveis determinadas pelos procedimentos (vi) Forward Selection e (vii) Backward Selection. O conjunto de dados simulados era composto por 2.000 marcadores SNPs e as populações simuladas totalizaram 1.000 indivíduos de 20 famílias de irmãos completos que tiveram os fenótipos e os genótipos avaliados. Além disso, os cenários simulados são baseados em dois níveis de herdabilidade e duas arquiteturas genéticas com ausência de dominância, constituindo assim, em quatro cenários, os quais foram simulados dez vezes cada. Com o intuito de demonstrar a aplicabilidade do estudo no melhoramento genético, foram avaliadas seis características de produtividade de um conjunto de dados reais de arroz asiático Oryza sativa (Número de panículas por planta, altura da planta, comprimento da panícula, número de panículas no perfilho primário, número de sementes por panícula e espiguetas por panícula) correspondente a 370 acessos de arroz, os quais foram genotipados para 44.100 marcadores SNPs. Em ambos os casos (dados simulados e reais) foi utilizada a validação independente e calculada as medidas de eficiência para comparar os critérios. De modo geral, as análises indicaram que o primeiro critério (número de componentes independentes igual ao número de componentes principais cujos os valores genômicos estimados via PCR apresentava maior valor de acurácia) se mostrou mais eficiente para os dois conjuntos de dados e apresentou as medidas de eficiência mais próximas do método exaustivo, com a vantagem de exigir menos tempo e esforço computacional. Para complementar o estudo, o terceiro capítulo consiste na aplicação dos três critérios mais eficientes do capítulo 2, os quais consistem no número de componentes independentes igual ao número de componentes que conduz os valores genômicos estimados via PCR a um maior valor de acurácia; a um menor valor de viés e a PCR a 80% de explicação da variação total de X considerando o modelo aditivo-dominante. Ainda no contexto deste modelo, foi aplicado os três métodos de redução de dimensionalidade (PCR, PLS e ICR) levando em consideração a escolha do número ótimo de componentes que conduz os valores genômicos aditivos, valores genômicos devido à dominância ou os valores genômicos totais (aditivo + dominância) a uma maior acurácia. Todos os métodos de redução de dimensionalidade foram comparados com o G-BLUP em termos de eficiência na estimação dos valores genômicos. As populações simuladas foram constituídas por 1.000 indivíduos de 20 famílias de irmãos completos, sendo genotipados para 2000 marcadores SNPs e as análises correspondentes a quatro cenários (dois níveis de herdabilidade × duas arquiteturas genéticas) sendo assumido dominância completa. Os resultados do capítulo 3 assinalaram que se manteve a superioridade do critério 1 nos modelos aditivo-dominante. Além disso, para a estimação dos efeitos aditivos e devido a dominância concomitantemente por meio dos métodos de redução de dimensionalidade, é recomendável utilizar o número de componentes que conduz o valor genômico devido à dominância a uma maior acurácia. Ademais, ao confrontar as metodologias de redução dimensional (ICR, PCR e PLS) com o G-BLUP, verifica- se que a PCR é superior em termos de acurácia e o método vantajosamente apresenta um dos menores tempos computacionais na execução das análises. Ademais, nenhum dos métodos considerados capturaram adequadamente as herdabilidades simuladas e apresentaram viés. / Great advances in animal and plant breeding have been provided using molecular genetic information. In this perspective, they proposed Genome Wide Selection (GWS), whose approach involves complete coverage of the genome using thousands of single nucleotide polymorphisms (SNPs). The objective is to estimate the genetic merit of the individuals and to that end, the researches carried out in GWS are based on the search and application of methodologies that aim to solve the problems faced in the estimation process, such as high dimensionality and high colinearity between the markers. Among them, we highlight the dimensionality reduction methods: Principal Component Regression (PCR), Partial Least Squares (PLS) and Independent Regression Component (ICR) and the traditional method of regularization / shrinkage, G-BLUP (Genomic Best Linear Unbiased Predictor). Thus, the first chapter considers the central ideas and importance of GWS for genetic improvement, definition of additive effects and effects due to dominance, the statistical problems faced in estimating the effects of markers on phenotypes by the usual method based on ordinary least squares, as well as the alternative statistical methodologies to solve such problems and validation procedures that aim to compare GWS methodologies. The second chapter refers to the proposition and application of seven criteria for choose the optimal number of independent components to be used in the ICR, considering only the additive effects. The criteria that consist of the number of independent components equal to the number of components that leads: (i) the estimated genomic values by PCR to a higher accuracy; (ii) estimated genomic values by PCR at a lower bias value; (iii) the PCR at 80% of the explanation of the total variation of X; (iv) PCR at 80% of the total variation of Y; (v) the ICR at 80% of explanation of the total variation of X; in addition to the criteria that consist of the number of independent components equal to the number of variables determined by the procedures (vi) Forward Selection and (vii) Backward Selection. The simulated data set consisted of 2.000 SNPs and the simulated populations totaled 1.000 individuals from 20 families of complete siblings that had the phenotypes and genotypes evaluated. In addition, the simulated scenarios are based on two levels of heritability and two genetic architectures, constituting in four scenarios, which were simulated ten times each assuming absence of dominance. In order to demonstrate the applicability of the study to genetic improvement, were evaluated six characteristics of productivity of a real data set Asian rice Oryza sativa (Number of panicles per plant, plant height, panicle length, number of panicles in the tiller primary, number of seeds per panicle and spikelets per panicle) corresponding to 370 accessions of rice, which were genotyped for 44.100 markers SNPs. In both cases (simulated and real data) the independent validation was used and the efficiency measures were calculated to compare the criteria. In general, the analyzes indicated that the first criterion (number of independent components equal to the number of principal components whose genomic values estimated by PCR showed highest accuracy) proved to be more efficient for both sets of data and presented the measures of efficiencies closer to the exhaustive method, with the advantage of requiring less computational time and effort. To complement the study, the third chapter consists of the application of the three most efficient criteria of chapter 2, which consist of the number of independent components equal to the number of components that leads the estimated genomic values via PCR to a highest accuracy value; to a lower value of bias and the PCR to 80% of explanation of the total variation of X considering the additive-dominant model. In the context of this model, the three dimensionality reduction methods (PCR, PLS and ICR) were applied taking into account the choice of the optimal number of components that leads to the additive genomic values, genomic values due to dominance or total genomic values (additive + dominance) to greater accuracy. All dimensionality reduction methods were compared with G-BLUP in terms of efficiency in the estimation of genomic values. Simulated populations were composed of 1.000 individuals from 20 families of complete siblings, with genotyped 2000 SNPs markers and analyzes corresponding to four scenarios (two levels of heritability × two genetic architectures). The simulations assumed complete dominance. The results of chapter 3 pointed out that the superiority of criterion 1 was maintained in the additive-dominant models. In addition, for the estimation of the additive effects and due to the dominance concomitantly by means of dimensionality reduction methods, it is recommended to use the number of components that drives the genomic value due to the dominance to a greater accuracy. In addition, when comparing the methodologies of dimensional reduction (ICR, PCR and PLS) with G-BLUP, it is verified that the PCR is superior in terms of accuracy and the method advantageously presents one of the smallest computational times in the execution of the analyzes. In addition, none of the methods considered adequately captured the simulated heritabilities and showed bias.
|
Page generated in 0.134 seconds