Spelling suggestions: "subject:"predição"" "subject:"redição""
61 |
Modelagem e predição de desempenho de primitivas de comunicação MPI. / Performance modeling and prediction of MPI communication primitives.Oliveira, Hélio Marci de 28 January 2003 (has links)
O desenvolvimento de programas paralelos e distribuídos encontra na programação baseada em passagem de mensagens uma abordagem eficaz para explorar adequadamente as características das máquinas de memória distribuída. Com o uso de clusters e de bibliotecas de suporte às trocas de mensagens, como o padrão MPI (Message Passing Interface), aplicações eficientes e economicamente viáveis podem ser construídas. Em tais sistemas, o tempo despendido nas comunicações constitui um importante fator de desempenho a ser considerado e requer a utilização de procedimentos e cuidados para a sua correta caracterização. Neste trabalho, modelos analíticos de primitivas de comunicação bloqueante MPI são desenvolvidos segundo uma metodologia de análise e predição apropriada. São tratadas algumas das principais operações ponto-a-ponto e coletivas e, utilizando técnicas de ajuste de curvas e tempos experimentais, o comportamento das primitivas de comunicação é representado em equações, possibilitando ainda a realização de análises e predições de desempenho em função do tamanho das mensagens e do número de processos envolvidos. Através de testes em um cluster de estações de trabalho, a precisão dos modelos elaborados é comprovada. Sendo a maioria dos erros percentuais inferiores a 8%, os resultados obtidos confirmam a validade do processo de modelagem. Além disso, o trabalho apresenta um conjunto de funções construídas com o objetivo de oferecer suporte a atividades de análise e predição, procurando facilitar e automatizar sua execução. / The development of parallel and distributed programs finds at message-passing programming a powerful approach to explore properly the distributed memory machines issues. Using clusters and message-passing libraries, as MPI standard (Message Passing Interface), efficient and cost effective applications can be constructed. In these systems, the time spent with communications means a important performance factor to be considered and its correct characterization requires procedures and cautions. In this work, analytic models for MPI blocking communication primitives are developed according one appropriate methodology for analysis and prediction. Some of the main peer-to-peer and collective operations are treated, and through curve fitting techniques and experimental times the behavior of the communication primitives is represented in equations, allowing also the accomplishment of performance analysis and prediction in function of the message length and the number of processes. Tests realized in a cluster of workstations prove the accuracy of the elaborated models. With most of errors within 8%, the obtained results show the validity of the modeling process. Also, the work presents a set of functions constructed with the purpose of support analysis and prediction activities, in order to facilitate and automate them.
|
62 |
MYOP: um arcabouço para predição de genes ab initio\" / MYOP: A framework for building ab initio gene predictorsKashiwabara, Andre Yoshiaki 23 March 2007 (has links)
A demanda por abordagens eficientes para o problema de reconhecer a estrutura de cada gene numa sequência genômica motivou a implementação de um grande número de programas preditores de genes. Fizemos uma análise dos programas de sucesso com abordagem probabilística e reconhecemos semelhanças na implementação dos mesmos. A maior parte desses programas utiliza a cadeia oculta generalizada de Markov (GHMM - generalized hiddenMarkov model) como um modelo de gene. Percebemos que muitos preditores têm a arquitetura da GHMM fixada no código-fonte, dificultando a investigação de novas abordagens. Devido a essa dificuldade e pelas semelhanças entre os programas atuais, implementamos o sistema MYOP (Make Your Own Predictor) que tem como objetivo fornecer um ambiente flexível o qual permite avaliar rapidamente cada modelo de gene. Mostramos a utilidade da ferramenta através da implementação e avaliação de 96 modelos de genes em que cada modelo é formado por um conjunto de estados e cada estado tem uma distribuição de duração e um outro modelo probabilístico. Verificamos que nem sempre um modelo probabilísticomais sofisticado fornece um preditor melhor, mostrando a relevância das experimentações e a importância de um sistema como o MYOP. / The demand for efficient approaches for the gene structure prediction has motivated the implementation of different programs. In this work, we have analyzed successful programs that apply the probabilistic approach. We have observed similarities between different implementations, the same mathematical framework called generalized hidden Markov chain (GHMM) is applied. One problem with these implementations is that they maintain fixed GHMM architectures that are hard-coded. Due to this problem and similarities between the programs, we have implemented the MYOP framework (Make Your Own Predictor) with the objective of providing a flexible environment that allows the rapid evaluation of each gene model. We have demonstrated the utility of this tool through the implementation and evaluation of 96 gene models in which each model has a set of states and each state has a duration distribution and a probabilistic model. We have shown that a sophisticated probabilisticmodel is not sufficient to obtain better predictor, showing the experimentation relevance and the importance of a system as MYOP.
|
63 |
Uso de estratégias baseadas em conhecimento para algoritmos genéticos aplicados à predição de estruturas tridimensionais de proteínas / Knowledge-based Approach to Genetic Algorithms for the Protein Structure Prediction ProblemOliveira, Lariza Laura de 20 May 2011 (has links)
Proteínas desempenham uma grande variedade de funções biológicas. O conhecimento da estrutura tridimensional proteica pode ajudar no entendimento da função desempenhada. De acordo com a hipótese de Anfisen, a estrutura terciária nativa de uma proteína pode ser determinada a partir da informação contida na sequência primária, o que permitiria que métodos computacionais poderiam ser usados para predizer estruturas terciárias quando a primária estiver disponível. No entanto, ainda não existe uma ferramenta computacional capaz de predizer a estrutura tridimensional para uma grande variedade de proteínas. Desse modo, o problema de Predição de Estruturas de Proteínas (PEP) permanece como um desafio para a Biologia Molecular. A conformação nativa de uma proteína é frequentemente a configuração termodinamicamente mais estável, ou seja, que possui menor energia livre. Assim, PEP pode ser vista como um problema de otimização, onde a estrutura com menor energia livre deve ser encontrada dentre todas as possíveis. Entretanto, este é um problema NP-completo, no qual métodos tradicionais de otimização, em geral, não apresentam um bom desempenho. Algoritmos Genéticos (AGs), devido às suas características, são interessantes para essa classe de problemas. O principal objetivo desse trabalho é verificar se a adição de informação pode ser útil aos AGs aplicados em PEP, valendo-se dede modelos moleculares simplificados. Cada indivíduo do AG representa uma solução que, neste caso, é uma possível conformação que será avaliada por um campo de força. Dessa forma, o indivíduo é codificado por um conjunto de ângulos de torção de cada aminoácido. Para auxiliar no processo de busca, bases de dados compostas de ângulos determinados por cristalografia e RNM são utilizadas. Com o objetivo de guiar o processo de busca e manter a diversidade nos AGs, duas estratégias são aqui testadas: Imigrantes Aleatórios e Imigrantes por Similaridade. A última delas foi criada baseando-se na similaridade da sequência primária. Além disso, é investigado neste trabalho o uso de um campo de força coarse grained, que utiliza os átomos de carbono- para representar a cadeia proteica, para avaliar os indivíduos do AG. / Proteins exhibit an enormous variety of biology functions. The knowledge of tertiary structures can help the understanding of the proteins function. According to Anfisen, the native tertiary structure of a protein can be determined by its primary structure information, what could allow that computational methods could be used to predict the tertiary structure when the primary structure is available. However, there is still not a computational tool to solve the structure prediction problem for a large range of proteins. In this way, Protein Structure Prediction (PSP) has been a challenge to Molecular Biology. The conformation of native protein is usually the thermodynamically most stable configuration, i.e., the one having the lowest free energy. Hence, PSP can be viewed as a problem of optimization, where the structure with the lowest free energy should be found among all possible structures. However, this is an NP-problem, where traditional optimization methods, in general, do not have good performance. Genetic algorithms (GAs), due to their characteristics, are interesting for this class of problems. In recent years, there is a growing interest in using GAs for the protein structure prediction problem. The main objective of this work is to verify the addition of useful information to GAs employed in PSP. Each individual of the GA represents a solution for the optimization problem which is, in this case, a possible conformation that will be evaluated by a force field function. Thus, an individual is encoded by a set of torsion angles of each amino acid. In order to reduce the search space, a database composed of angles, determined by crystallography and NMR, is used. With the aim to guide the final search process and maintain diversity in GAs, two strategies were employed here: Random Immigrants and Similarity-based Immigrants. The last strategy was based on similarity of primary amino acid sequence. Furthermore, in this work, a coarse-grained force field, which uses -carbon to represent the protein backbone was employed to evaluate the individuals of GA.
|
64 |
Uma abordagem de predição de falhas de software no contexto de desenvolvimento ágil / A fault prediction approach in the contexto of agile developmentVerhaeg, Ricardo Fontão 24 March 2016 (has links)
A atividade de teste é essencial para a garantia de qualidade do software e deveria ser empregada durante todo o processo de desenvolvimento. Entretanto, o esforço para a sua aplicação e o alto custo envolvido, comprometem sua utilização de maneira adequada. Durante o processo de desenvolvimento ágil, onde o tempo é um fator crítico, otimizar a atividade de testes sem afetar a qualidade é uma tarefa desafiadora. Apesar do crescente interesse em pesquisas sobre testes no contexto de métodos ágeis, poucas evidências são encontradas sobre avaliação do esforço para elaboração, evolução e manutenção dos testes nesse contexto. Este trabalho propõe uma abordagem para predição de defeitos desenvolvida para o contexto do desenvolvimento ágil e, portanto, considerando as características deste processo de desenvolvimento. Essa abordagem pode ser aplicada quando se considera ou não o desenvolvimento dirigido a testes. A abordagem permite priorizar a execução dos testes com base em uma lista de arquivos que apresentam maior probabilidade de apresentarem defeitos. A abordagem proposta foi avaliada por meio de um estudo de caso conduzido em um ambiente real de desenvolvimento. Como resultado obtido, observou-se que a abordagem melhorou a qualidade do projeto desenvolvido, sem aumentar o esforço durante a atividade de teste de software. / The testing activity is essential to ensure the software quality and should be applied during all steps of the developing process. However the required effort to do this and the high cost involved, compromises its proper usage. During the agile development process, in which time is a critical factor, optimizing the testing activity without affecting quality is a challenge. Despite the growing interest in research based agile method testing, few works are found on the evaluation of the effort to prepare, develop and maintain test cases in this context. This paper proposes an approach for fault prediction in the context of agile development and therefore considering the characteristics of this development process. This approach can be applied both when considering test-driven development or not. It allows prioritizing the execution of tests based on a list containing files most likely to fail. The proposed approach was evaluated by a case study conducted in a real development environment. The results indicate that the approach can improve the quality of the projects without increasing the effort during the testing activity.
|
65 |
Extração sequencial e cinética de sorção de cádmio em solos tropicais / Cadmium sequential extraction and sorption kinetics in tropical soilsColzato, Marina 02 December 2016 (has links)
A interação de elementos potencialmente tóxicos com solos e a caracterização quanto à mobilidade e potencial de liberação ao ambiente são importantes para avaliação de risco ambiental. No caso de solos altamente intemperizados, como os Latossolos, a interação pode ser diferenciada devido à elevada acidez, baixa densidade de cargas negativas, maiores quantidades de minerais de argila 1:1 e de (hidr)óxidos de Fe, Al e Mn, em que predominam cargas negativas variáveis com o pH. O objetivo nesta tese foi caracterizar a capacidade de sorção, a distribuição entre as frações do solo, a especiação temporal, a predição da capacidade de sorção e a dessorção com método dinâmico de extração de Cd(II) em seis solos tropicais, incluindo três Latossolos. Amostras dos seis solos foram utilizadas para avaliação da interação com Cd(II), utilizando extração sequencial e especiação por espectroscopia de absorção de raios-X próximo à estrutura da borda (XANES) para avaliação da cinética de sorção. Dados de 29 solos foram utilizados para desenvolvimento de modelo de regressão linear para predição das capacidades de sorção de Cd(II). A caracterização da dessorção de Cd por extração convencional e dinâmica foi feita em solos de textura médio-arenosa, argilosa e em um solo de referência certificado. Os resultados de sorção foram ajustados ao modelo de Langmuir. As capacidades de sorção e as energias livres padrão de Gibbs variaram de 37 à 1296 mg kg-1 e de -16,6 até -27,0 kJ mol-1, respectivamente. A sorção foi fraca e reversível, e mais de 90% do Cd estava sorvido como espécies disponíveis. A especiação temporal indicou evidências fracas e variáveis para as alterações químicas do Cd no solo, sugerindo que o elemento liberado nessas amostras se ligou à matéria orgânica do solo e aos óxidos minerais ou permaneceu dissolvido, com pequenas alterações na especiação nos meses seguintes. O modelo linear representou 98% dos resultados empíricos apenas em função de uma variável, que foi o ensaio de sorção simplificado com apenas uma concentração de Cd(II). Apesar de a capacidade de sorção prevista com o modelo ter apresentado variação de cerca de 20% em relação ao empírico, o modelo de predição apresenta potencialidade de aplicação para avaliações iniciais e rápidas. A dessorção avaliada em batelada e em fluxo indicou dessorção próxima de 100% nas frações que representam disponibilidade no ambiente, enquanto o sistema desenvolvido para extração dinâmica foi adequado na mistura das soluções com a amostra de solo e propiciou rápida troca de extratores. De modo geral os atributos do solo, bem como a classe, influenciaram, mas não definiram a interação do Cd(II) com o solo. Por sua vez, o Cd(II) incorporado ao solo apresenta grande risco ambiental e de interação com a biota / The interaction of potentially toxic elements in soils and characterization as mobility and potential of environmental release are important for environmental risk assessment. In the case of highly weathered soils, as Oxisols, interaction can be differentiated, due to the high acidity, low density of negative charges, and higher amounts of 1:1 clay minerals and Fe, Al and Mn (hidr)oxides, in which negative charges are variables with pH. The objectives in this thesis was to characterize the Cd(II) sorption capacity, distribution between soil fractions, temporal speciation, prediction of sorption capacity and desorption with dynamic extraction method in six tropical soils, including three Oxisols. Samples of the six soils were used to assess the interaction with Cd(II) using sequential extraction and the speciation with X-ray absorption near edge structure spectroscopy (XANES) to evaluate the adsorption kinetics. Data of 29 soils were used to develop a linear regression model for prediction of Cd(II) sorption capacity. The Cd desorption characterization trough conventional and dynamics extractions was performed in a medium-sandy, a clayey and a certified reference soils. The sorption results were fitted to the Langmuir model. Sorption capacities and standard Gibbs free energy ranged from 37 to 1296 mg kg-1 and from -16.6 to -27.0 kJ mol-1, respectively. Sorption was weak and reversible, and more 90% Cd was sorbed as available species. The temporal speciation indicated weak and variables evidence of chemical changes of Cd in the soil, suggesting that this element released in these soils bound to the soil organic matter and to mineral oxides or remained dissolved, with minor changes in speciation in the following months. The linear model accounted for 98% of empirical results only on the basis of a single variable, which was the sorption simplified experiment with only one Cd(II) concentration. Although the sorption capacity predicted with the model ranged about 20% of the empirical, prediction model has potential of application for initial and rapid assessments. The desorption evaluated in batch and flow indicated desorption of about 100% in the fractions representing availability in the environment, meanwhile the system developed for dynamic extraction was adequate to mix the solutions with the soil sample and provided rapid exchange of extractants. Overall, the soil characteristics and the class had influence, but did not define the interaction of Cd(II) with the soil. On the other hand, the Cd(II) incorporated into the soil has a great environmental risk and to interact with the biota
|
66 |
Analysis of microRNA precursors in multiple species by data mining techniques / Análise de precursores de microRNA em múltiplas espécies utilizando técnicas de mineração de dadosLopes, Ivani de Oliveira Negrão 18 June 2014 (has links)
RNA Sequencing has recently emerged as a breakthrough technology for microRNA (miRNA) discovery. This technology has allowed the discovery of thousands of miRNAs in a large number of species. However, despite the benefits of this technology, it also carries its own limitations, including the need for sequencing read libraries and of the genome. Differently, ab initio computational methods need only the genome as input to search for genonic locus likely to give rise to novel miRNAs. In the core of most of these methods, there are predictive models induced by using data mining techniques able to distinguish between real (positive) and pseudo (negative) miRNA precursors (pre-miRNA). Nevertheless, the applicability of current literature ab initio methods have been compromised by high false detection rates and/or by other computational difficulties. In this work, we investigated how the main aspects involved in the induction of predictive models for pre-miRNA affect the predictive performance. Particularly, we evaluate the discriminant power of feature sets proposed in the literature, whose computational costs and composition vary widely. The computational experiments were carried out using sequence data from 45 species, which covered species from eight phyla. The predictive performance of the classification models induced using large training set sizes (≥ 1; 608) composed of instances extracted from real and pseudo human pre-miRNA sequences did not differ significantly among the feature sets that lead to the maximal accuracies. Moreover, the differences in the predictive performances obtained by these models, due to the learning algorithms, were neglectable. Inspired by these results, we obtained a feature set which can be computed 34 times faster than the less costly among those feature sets, producing the maximal accuracies, albeit the proposed feature set has achieved accuracy within 0.1% of the maximal accuracies. When classification models using the elements previously discussed were induced using small training sets (120) from 45 species, we showed that the feature sets that produced the highest accuracies in the classification of human sequences were also more likely to produce higher accuracies for other species. Nevertheless, we showed that the learning complexity of pre-miRNAs vary strongly among species, even among those from the same phylum. These results showed that the existence of specie specific features indicated in previous studies may be correlated with the learning complexity. As a consequence, the predictive accuracies of models induced with different species and same features and instances spaces vary largely. In our results, we show that the use of training examples from species phylogenetically more complex may increase the predictive performances for less complex species. Finally, by using ensembles of computationally less costly feature sets, we showed alternative ways to increase the predictive performance for many species while keeping the computational costs of the analysis lower than those using the feature sets from the literature. Since in miRNA discovery the number of putative miRNA loci is in the order of millions, the analysis of putative miRNAs using a computationally expensive feature set and or inaccurate models would be wasteful or even unfeasible for large genomes. In this work, we explore most of the learning aspects implemented in current ab initio pre-miRNA prediction tools, which may lead to the development of new efficient ab initio pre-miRNA discovery tools / O sequenciamento de pequenos RNAs surgiu recentemente como uma tecnologia inovadora na descoberta de microRNAs (miRNA). Essa tecnologia tem facilitado a descoberta de milhares de miRNAs em um grande número de espécies. No entanto, apesar dos benefícios dessa tecnologia, ela apresenta desafios, como a necessidade de construir uma biblioteca de pequenos RNAs, além do genoma. Diferentemente, métodos computacionais ab initio buscam diretamente no genoma regiões prováveis de conter miRNAs. A maioria desses métodos usam modelos preditivos capazes de distinguir entre os verdadeiros (positivos) e pseudo precursores de miRNA - pre-miRNA - (negativos), os quais são induzidos utilizando técnicas de mineração de dados. No entanto, a aplicabilidade de métodos ab initio da literatura atual é limitada pelas altas taxas de falsos positivos e/ou por outras dificuldades computacionais, como o elevado tempo necessário para calcular um conjunto de atributos. Neste trabalho, investigamos como os principais aspectos envolvidos na indução de modelos preditivos de pre-miRNA afetam o desempenho preditivo. Particularmente, avaliamos a capacidade discriminatória de conjuntos de atributos propostos na literatura, cujos custos computacionais e a composição variam amplamente. Os experimentos computacionais foram realizados utilizando dados de sequências positivas e negativas de 45 espécies, cobrindo espécies de oito filos. Os resultados mostraram que o desempenho preditivo de classificadores induzidos utilizando conjuntos de treinamento com 1608 ou mais vetores de atributos calculados de sequências humanas não diferiram significativamente, entre os conjuntos de atributos que produziram as maiores acurácias. Além disso, as diferenças entre os desempenhos preditivos de classificadores induzidos por diferentes algoritmos de aprendizado, utilizando um mesmo conjunto de atributos, foram pequenas ou não significantes. Esses resultados inspiraram a obtenção de um conjunto de atributos menor e que pode ser calculado até 34 vezes mais rapidamente do que o conjunto de atributos menos custoso produzindo máxima acurácia, embora a acurácia produzida pelo conjunto proposto não difere em mais de 0.1% das acurácias máximas. Quando esses experimentos foram executados utilizando vetores de atributos calculados de sequências de outras 44 espécies, os resultados mostraram que os conjuntos de atributos que produziram modelos com as maiores acurácias utilizando vetores calculados de sequências humanas também produziram as maiores acurácias quando pequenos conjuntos de treinamento (120) calculados de exemplos de outras espécies foram utilizadas. No entanto, a análise destes modelos mostrou que a complexidade de aprendizado varia amplamente entre as espécies, mesmo entre aquelas pertencentes a um mesmo filo. Esses resultados mostram que a existência de características espécificas em pre-miRNAs de certas espécies sugerida em estudos anteriores pode estar correlacionada com a complexidade de aprendizado. Consequentemente, a acurácia de modelos induzidos utilizando um mesmo conjunto de atributos e um mesmo algoritmo de aprendizado varia amplamente entre as espécies. i Os resultados também mostraram que o uso de exemplos de espécies filogeneticamente mais complexas pode aumentar o desempenho preditivo de espécies menos complexas. Por último, experimentos computacionais utilizando técnicas de ensemble mostraram estratégias alternativas para o desenvolvimento de novos modelos para predição de pre-miRNA com maior probabilidade de obter maior desempenho preditivo do que estratégias atuais, embora o custo computacional dos atributos seja inferior. Uma vez que a descoberta de miRNAs envolve a análise de milhares de regiões genômicas, a aplicação prática de modelos preditivos de baixa acurácia e/ou que dependem de atributos computacionalmente custosos pode ser inviável em análises de grandes genomas. Neste trabalho, apresentamos e discutimos os resultados de experimentos computacionais investigando o potencial de diversas estratégias utilizadas na indução de modelos preditivos para predição ab initio de pre-miRNAs, que podem levar ao desenvolvimento de ferramentas ab initio de maior aplicabilidade prática
|
67 |
Statistical models for genomic selection in Panicum maximum considering allelic dosage / Modelos genéticos-estatísticos para seleção genômica em Panicum maximum com informação de dosagem alélicaLara, Letícia Aparecida de Castro 19 September 2017 (has links)
Several species of economic interest are autotetraploid, such as the forage Panicum maximum, which is responsible for high productivity and quality of tropical pastures. The main accessions in nature are autotetraploid apomictic plants, on the other hand, diploid sexual plants may also be found. Although apomixis is advantageous because it fixes hybrid vigor, sexual reproduction is fundamental to allow genetic recombination by crossing among superior genotypes. Thus, genetic breeding consists of crossing apomictic plants with tetraploidized sexual plants. In these crosses, the use of superior sexual parents allows to increase the frequency of favorable alleles in the progeny. Therefore, recurrent selection programs in tetraploid sexual populations are fundamental to P. maximum breeding programs and strategies such as genomic selection can increase the accuracy of selection, allowing shorter breeding cycles and release cultivars in the market in the short term when compared to conventional programs. As P. maximum is a perennial crop, genotypes are evaluated in sucessive harvests. Thus, the study goals are to evaluate nutritional, structural, and yield traits in a sexual tetraploid population of P. maximum, investigating different classes of linear mixed models applied to longitudinal data, as well as to develop genomic selection models which consider tetraploid allelic dosage. This work was split into two chapters. In the first chapter, three classes of models were analyzed: i) Class A consists in modeling the interaction of genotypes and harvests with homogeneous correlations, genotypes were assumed not correlated, and residual effects were assumed homocedastic and not correlated; ii) Class B consists of groups of models in which genetic and residual effects were fitted with different variance and covariance (VCOV) structures and genotypes were not correlated; and iii) Class C is similar to Class B, however genotypes were correlated by an additive relationship matrix based on pedigree values. For all traits, Class C models performed better based on goodness of fit of the models. Therefore, we recommend to incorporate additive relationship matrix besides to model harvests with different levels of correlations over time. In the second chapter, SNP markers, obtained by genotyping-by-sequencing (GBS) technique, were used to develop Bayesian and GBLUP models that consider tetraploid allelic dosage. Bayesian models accuracies did not differ from the accuracy of GBLUP model and, we recommend the latter because it requires less computational time. The accuracy of genomic selection models reinforces the advantage of implementing this strategy in P. maximum breeding programs. / Diversas espécies de interesse econômico são autotetraploides, como a forrageira Panicum maximum, a qual proporciona alta produtividade e qualidade para pastagens tropicais. Os principais acessos na natureza são plantas apomíticas tetraploides, no entanto pode-se encontrar também plantas sexuais diploides. Embora a apomixia seja vantajosa pela facilidade em fixar o vigor híbrido, a reprodução sexual é fundamental por permitir recombinação genética a partir de cruzamentos entre genótipos superiores. Desta forma, o melhoramento nesta espécie consiste em cruzar plantas apomíticas com plantas sexuais tetraploidizadas. A utilização de parentais sexuais superiores nestes cruzamentos permite aumentar a frequência de alelos favoráveis na progênie. Portanto, programas de seleção recorrente intrapopulacional em populações sexuais tetraploides são fundamentais para programas de melhoramento em P. maximum. Além disto, a utilização de estratégias como seleção genômica são promissoras para aumentar os ganhos de seleção, permitindo avançar ciclos de seleção recorrente e lançar cultivares no mercado em menor prazo, quando comparados a programas convencionais. Como P. maximum é uma cultura perene, os genótipos são avaliados em sucessivos cortes. Assim, este estudo tem como finalidade avaliar caracteres de produtividade, estruturais e nutricionais em uma população sexual tetraploide de P. maximum, investigando diferentes classes de modelos lineares mistos aplicados a dados longitudinais, além de desenvolver modelos de seleção genômica que considerem a natureza tetraploide da população. Este trabalho foi dividido em dois capítulos. No primeiro capítulo, três classes de modelos foram analisados: i) Classe A consiste em modelar a interação genótipos por cortes com correlações homogêneas, genótipos não correlacionados entre si e os efeitos residuais são ajustados com homocedasticidade e ausência de correlação; ii) Classe B consiste em grupos de modelos com diferentes estruturas de variância e covariância (VCOV) para efeitos genéticos e residuais e genótipos não correlacionados; iii) Classe C é similar à Classe B, no entanto os genótipos são correlacionados por uma matriz de parentesco aditivo calculado por pedigree. Para todos os caracteres, os modelos da Classe C tiveram melhor ajuste. Portanto, recomenda-se testar matrizes de VCOV que permitam modelar cortes com diferentes níveis de correlações ao longo do tempo bem como incluir informação de parentesco aditivo e, se disponível, matriz de parentesco genômico. No segundo capítulo, marcadores SNPs, obtidos via genotipagem por sequenciamento, foram aplicados em modelos Bayesianos e GBLUP os quais foram desenvolvidos para incorporar informação de dosagem alélica tetraploide. Uma vez que as acurácias dos modelos Bayesianos não diferiram das acurácias do modelo GBLUP com dosagem alélica, recomenda-se o uso do segundo por requerer menos tempo computacional. A acurácia dos modelos preditivos reforça a vantagem em implementar seleção genômica em programas de melhoramento de P. maximum.
|
68 |
Mortalidade como preditor de morbidade / Not availableLatorre, Maria do Rosario Dias de Oliveira 07 April 1992 (has links)
As doenças crônicas mostram-se como um desafio para o epidemiologista pela dificuldade de se conhecer a sua história natural, os agentes etiológicos, os suscetíveis e outras informações importantes para a sua prevenção, controle e tratamento. Dentre as doenças crônicas interessa, particularmente, o câncer devido à sua importância no obituário geral e pelos altos custos requeridos no seu tratamento. Porém as estatísticas oficiais rotineiras dão pouca ou nenhuma informação sobre a sua incidência e/ou prevalência. Neste sentido, tendo em vista a parcialidade e a precariedade das estatísticas de morbidade, muitos estudos têm sido realizados com o objetivo de elaborar medidas indiretas de estimativas de incidência e prevalência. O presente trabalho verifica a adequação de dois modelos matemáticos existentes na literatura que utilizam dados de população, mortalidade e sobrevivência para estimar a incidência de câncer de estômago, pulmão e mama feminina, utilizando dados do Município de São Paulo, para o ano de 1978. Além disso apresenta um modelo probabilístico que utiliza as mesmas informações dos modelos de literatura para estimar a incidência de doenças de caráter irreversível, com incidência, mortalidade e taxas de sobrevivência constantes por, pelo menos, um ano. Os resultados mostraram que o modelo proposto por este trabalho apresentou as melhores estimativas dos coeficientes de incidência de câncer de estômago, pulmão e mama feminina, quando comparado com os modelos de literatura. Os bons resultados obtidos incentivam a que se continue o aprimoramento de modelos matemáticos que utilizem dados de mortalidade para estimar a incidência de câncer. / Cronic diseases seem like a challenge for the epidemiologists, because it is difficult to know their natural history, etiologic agents, susceptibles and other importante information for their prevention, control and treatment. Among cronic diseàses, there is a special interest in cancer, because it is an important cause of death and the costs for its treatment are high. However, the routine official statistics give little or no information at all about its incidence and/or prevalence. In relation to these lines, having in mind the partiality and the precariousness of the morbidity statistics, many studies have been carried out with the objective of elaborating indirect measures of estimations of incidence and prevalence. This study checks the application of two mathematical models from the current literature that use population, mortality and survival data to estimate the incidence of stomach, lung and female breast cancer, using date from São Paulo City, for 1978. It was created a probabilistic model which uses the same informations of the literature models to forecast the incidence of the irreversible diseases, supposing that the rates of incidence, mortality and also survival are constants for at least one year. The results have demonstrated that the proposed model of this study showed the best estimative for the cancer incidence rate for stomach, lung and female breast when compared to the literature models. The good results obtained by this proposed model encourage the continuation of the development of mathematical models using mortality date to forecast cancer incidence rates.
|
69 |
Ajuste do modelo linear de efeito misto na relação hipsométrica em plantios comerciais de Tectona grandis L.f. / Application of the mixed-effect linear model in height-diameter equation on commercial plantations of Tectona grandis L.f.Ferreira, Lucas do Nascimento 06 July 2018 (has links)
A modelagem de predição de altura comumente exige um amplo conjunto de dados para a etapa de construção e ajuste. Ainda que este tipo de conjunto de dados tenha uma estrutura hierárquica natural, organizada pelas diferentes fazendas, talhões, parcelas, e etc., os modelos de regressão clássicos não consideram a possível variação dos parâmetros, entre os diversos grupos hierárquicos. Os modelos de efeitos mistos, em compensação, podem suportar essa variação, assumindo alguns dos parâmetros dos modelos como sendo estocásticos, além de mostrarem potencial com a possibilidade de diminuição de amostras. Esta técnica permite que a variação interindividual seja explicada considerando parâmetros de efeitos fixos (comuns à população) e parâmetros de efeitos aleatórios (específicos para cada indivíduo). Logo, é natural esperar que em povoamentos florestais com alta variação entre indivíduos, o modelo de efeito misto tenha desempenho superior ao modelo de efeito fixo. Por esta razão, os plantios de Tectona grandis L.f. podem ser considerados como uma população interessante para a modelagem de efeitos aleatórios, uma vez que tal espécie apresenta heterogeneidade de crescimento, sensibilidade à fertilidade e acidez do solo, e a maioria dos seus plantios estabelecidos no Brasil são seminais. Desta maneira este trabalho verifica o ajuste de modelos de efeitos mistos aplicados aos dados de altura total em plantios comerciais de Tectona grandis L.f, localizados no estado do Mato Grosso, com o objetivo na redução do número de amostras quando comparado ao modelo de efeitos fixos. Após a seleção do modelo linear de efeito fixo mais apropriado, testou-se quais dos coeficientes tem efeito aleatório nos diferentes agrupamentos dos dados. Em seguida, selecionou-se o grupo onde o desempenho do modelo de efeito misto em termos de ajuste e predição foi o melhor possível. Por fim, foi verificado a capacidade preditiva dos modelos ajustados por meio de processos de simulação e validação cruzada. Os resultados mostraram que o modelo misto calibrado fornece predições mais confiáveis do que a parte fixa. Este benefício ocorre mesmo ao longo das gradativas diminuições do número de árvores disponíveis para ajuste dentro conjunto de dados teste separados para a calibração do modelo misto. É possível concluir que o modelo calibrado ajustado por talhão, ao invés da parcela, propicia pouca perda de precisão. / Height prediction modeling commonly requires a broad set of data for the construction and adjustment step. Although this type of data set has a natural hierarchical structure, organized by the different farms, plots, plots, etc., the classical regression models do not consider the possible variation of the parameters among the hierarchical groups. The mixed effects models, in compensation, can support this variation, assuming some of the parameters of the models as being stochastic, besides showing potential with the possibility of sample reduction. This technique allows the interindividual variation to be explained considering parameters of fixed effects (common to the population) and parameters of random effects (specific for each individual). Therefore, it is natural to expect that in forest stands with high variation among individuals, the mixed effect model performs better than the fixed effect model. For this reason, the plantations of Tectona grandis L.f. can be considered as an interesting population for the modeling of random effects, since this species presents possible heterogeneity of growth since it is sensitive to the fertility and acidity of the soil, and most of its plantations established in Brazil are seminal. This work verifies the adjustment of mixed effects models applied to total height data in commercial plantations of Tectona grandis L.f, located in the state of Mato Grosso, with the objective of reducing the number of samples when compared to the fixed effects model. After selecting the most appropriate linear model of fixed effect, we tested which of the coefficients have random effect in the different groupings of the data. Then, we selected the group where the performance of the mixed effect model in terms of fit and prediction was the best possible. Finally, the predictive capacity of the adjusted models was verified through simulation and cross-validation processes. The results showed that the calibrated mixed model provides more reliable predictions than the fixed part. This benefit occurs even along the gradual decreases in the number of trees available to fit into separate set of test data for the calibration of the mixed model. It is possible to conclude that the calibrated model adjusted by stand, instead of the plot, provides little loss of precision.
|
70 |
Choices and pitfalls concerning mixture-of-experts modeling.Denise Beatriz Teixeira Pinto 11 November 2005 (has links)
Researchers of different fields often need to learn and represent phenomena through relationships between variables and use them to predict the phenomena behavior under uncertain conditions. However, choosing the "best" model in a modeling exercise is always an arduous task, yet because of the various uncertainties associated with the modeling process.A way of obtaining a better prediction than it would be provided by a single model may be by combining a number of different model structures. Each model is adopted at a given observation with a probability that depends on the values of the explanatory variables for that observation. This is the logic under the mixture-of-experts model (MEM).The general MEM framework specifies that a prediction is made up of a series of predictions from separate models, or experts, each of them weighted by a quantity determined by a so called gating function.However, when building a MEM, many important decisions ought to be made, such as determining the number of clusters in to which the global data is to be sectioned and the clustering method to be adopted; the nature of the gating function applied; the criteria employed to elect the experts and the data set selected for performing validation, for example. Depending on how these decisions are made, different mixtures might be formed, providing different results.In the present study, we investigated the way such decisions affect the performance of the MEM, when this technique employs statistical models, applied to regression problems. The problem under analysis consists of estimating the municipal gross domestic product for the Brazilian states of Pará and Maranhão, as functions of municipal macroeconomic and demographic variables.
|
Page generated in 0.0269 seconds