Spelling suggestions: "subject:"medição""
91 |
Preditores da argila prontamente dispersa em água em solos tropicais via turbidimetria e VisNIR-SWIR-MidlR / Predictors of readily-dispersible clay in water on tropical soils via turbidimetry and VisNIR-SWIR-MidIRSilva, Isabela Mello da 12 January 2017 (has links)
O Brasil se destaca na produção agrícola intensiva omitindo em diversas situações práticas conservacionistas acarretando a má estrutura do solo, que por sua vez, propicia a dispersão da argila quando submetida em meio líquido. A argila prontamente dispersa em água (APDA) é a que sofre pequena agitação e pode ser quantificada pelo método do turbidímetro por definir desde os mais elevados graus de turvação até os menores (10000:1) em solução. O uso da espectroscopia tem sido crescente como uma ferramenta eficaz na quantificação das propriedades do solo. Diante disso, objetivou-se comparar métodos de determinação da APDA pelo turbidímetro e pela espectroscopia nas regiões espectrais VisNIR-SWIR-MidIR (400-25000 nm). 68 amostras foram adquiridas do horizonte B de Latossolos e subsuperficial de Neossolos Quartzarênicos e apresentam ampla variabilidade textural, química e mineralógica pertencentes aos estados de Goiás, Mato Grosso do Sul e São Paulo, estas foram avaliadas química e fisicamente. A determinação da APDA ocorreu por turbidimetria e esta foi relacionada com a argila total (AT) quantificada nos comprimentos de onda VisNIR-SWIR (350-2500 nm) e MidIR (4000-400 cm-1) via espectroscopia. Através da determinação da APDA, modelos foram criados por análise de regressão múltipla e estes foram ajustados conforme o resultado da análise de variância enquanto que a AT foi quantificada através da regressão por mínimos quadrados parciais (PLSR) por meio da validação cruzada, a ACP e o PLSR foram pressupostos e os modelos foram escolhidos levando em consideração o coeficiente de determinação, erro quadrado médio e a previsão para intervalo interquartil. Ocorreu uma relação negativa entre as variáveis AT, Ca, K, Mg, C e Al com a APDA e uma relação positiva da CTC, P e m com a APDA. Ao serem transformadas para logaritmo as variáveis estiveram mais próximas da normalidade. Das 9 variáveis independentes testadas 5 foram significativamente correlacionadas com a APDA em até 95% (log(AT), log(Ca), log(CTC), log(Al) e log(P)), o modelo foi adquirido por exclusão das variáveis não significativas equivalente ao modelo gerado pelo stepwise. Houve correlação negativa entre a APDA e AT (R2=0,27). A curva espectral evidenciou elevadas discrepâncias na amplitude de reflectância e nas feições das curvas, em razão das diferenças físicas, químicas e mineralógicas dos diferentes solos estudados. Para a AT o desempenho do modelo mensurado na faixa espectral MidIR foi superior (R2 ≥ 0,6; RMSE ≥ 103; RPIQ ≥ 249). Para a APDA os modelos validados sofreram pequena variação (R2 ≥ 0,5; RMSE ≥ 3,5; RPIQ ≥ 10,2) sendo a região MidIR a melhor desempenhada. O turbidímetro mostrou-se ser um método eficaz sendo portanto recomendado para futuros trabalhos. O conteúdo de argila total dos solos estudados foi a variável mais explicativa da APDA. A espectroscopia de reflectância foi eficiente em estimar a APDA tanto quanto o turbidímetro. / Brazil stands out in the intensive agricultural production omitting in several situations conservationist practices causing poor soil structure, which in turn, propitiates the dispersion of the clay when submitted in a liquid environment. The readily-dispersible clay in water (APDA) is the one that undergoes slight agitation and can be quantified by the turbidimeter method to be defined from the highest turbidity to the lowest turbidity (10000: 1) in solution. The use of spectroscopy has been increasing as an effective tool in the quantification of soil properties. The aim of this study was to compare APDA methods by the turbidimeter and by spectroscopy in the VisNIR-SWIR-MidIR (400-25000 nm) spectral regions. 68 samples were obtained from the B horizon of Latosols and subsurface of Quartzarenic Neosols and present wide textural, chemical and mineralogical variability belonging to the states of Goiás, Mato Grosso do Sul and São Paulo, which were evaluated chemically and physically. The determination of APDA occurred by turbidimetry and this was related to the total clay (AT) quantified at the wavelengths VisNIR-SWIR (350-2500 nm) and MidIR (4000-400 cm-1) via spectroscopy. Through the determination of the APDA, models were created by multiple regression analysis and these were adjusted according to the result of the analysis of variance while the AT was quantified through the partial least squares regression (PLSR) through the cross validation, the ACP and The PLSR were assumptions and the models were chosen taking into account the coefficient of determination, mean square error and the forecast for interquartile range. There was a negative relationship between the variables AT, Ca, K, Mg, C and Al with APDA and a positive relation of CTC, P and m with APDA. When they were transformed to logarithm the variables were closer to normal. Of the 9 independent variables tested 5 were significantly correlated with APDA in up to 95% (log (AT), log (Ca), log (CTC), log (Al) and log (P)), the model was acquired by excluding the Non-significant variables equivalent to the model generated by stepwise. There was a negative correlation between APDA and AT (R2 = 0.27). The spectral curve showed high discrepancies in reflectance amplitude and curves, due to the physical, chemical and mineralogical differences of the studied soils. For AT, the performance of the model measured in the MidIR spectral range was higher (R2> 0.6, RMSE> 103, RPIQ> 249). For the APDA, the validated models suffered a small variation (R2> 0.5, RMSE> 3.5, RPIQ> 10.2), with the MidIR region being the best performed. The turbidimeter proved to be an effective method and is therefore recommended for future work. The total clay content of the studied soils was the most explanatory variable of APDA. Reflectance spectroscopy was efficient in estimating APDA as much as the turbidimeter.
|
92 |
Proposta de um processo sistemático baseado em métricas não-dicotômicas para avaliação de predição de links em redes de coautoria. / Proposal of a systematic process based on non-dichotomic metrics for evaluation of link prediction in co-authorship networks.Silva, Elisandra Aparecida Alves da 17 March 2011 (has links)
Predição de Links é uma área de pesquisa importante no contexto de Análise de Redes Sociais tendo em vista que predizer sua evolução é um mecanismo útil para melhorar e propiciar a comunicação entre usuários. Nas redes de coautoria isso pode ser utilizado para recomendação de usuários com interesses de pesquisa comuns. Este trabalho propõe um processo sistemático baseado em métricas não-dicotômicas para avaliação de predição de links em redes de coautoria, sendo considerada a definição de métodos para as seguintes tarefas identificadas: seleção de dados, determinação de novos links e avaliação dos resultados. Para seleção de dados definiu-se um sensor fuzzy baseado em atributos dos nós. O uso de composições fuzzy foi considerado para determinação de novos links _ponderados_ entre dois autores, adotando-se não apenas atributos dos nós, mas também a combinação de atributos de outros links observados. O link ponderado é denominado _qualidade da relação_ e é obtido pelo uso de propriedades estruturais da rede. Para avaliação dos resultados foi proposta a curva ROC fuzzy, que permite explorar os pesos dos links não apenas para ordenação dos exemplos. / Link prediction is an important research line in the Social Network Analysis context, as predicting the evolution of such nets is a useful mechanism to improve and encourage communication among users. In co-authorship networks, it can be used for recommending users with common research interests. This work proposes a systematic process based on non-dichotomic metrics for evaluation of link prediction in co-authorship networks considering the definition of methods for the following tasks: data selection, new link determination and result evaluation. Fuzzy sensor based on node attributes is adopted for data selection. Fuzzy compositions are used to predict new link weights between two authors, adopting not only attributes nodes, but also the combination of attributes of other observed links. The link weight called _relation quality_ is obtained by using structural features of the social network. The fuzzy roc curve is used for results evaluation, allowing us to consider the weights of the links and not only the ordering of examples.
|
93 |
Modelagem digital de atributos de solo da Fazenda Edgárdia - Botucatu-SP / Digital soil attributes modeling of Fazenda Edgárdia - Botucatu-SPCarvalho, Tânia Maria de [UNESP] 19 December 2016 (has links)
Submitted by TÂNIA MARIA DE CARVALHO null (taniacarvalho2010@gmail.com) on 2017-02-02T19:26:12Z
No. of bitstreams: 1
TESE_arquiv.pdf: 4743361 bytes, checksum: 0c094f892ee8b02e1690df7e4438651f (MD5) / Approved for entry into archive by LUIZA DE MENEZES ROMANETTO (luizamenezes@reitoria.unesp.br) on 2017-02-06T16:42:11Z (GMT) No. of bitstreams: 1
carvalho_tm_dr_bot.pdf: 4743361 bytes, checksum: 0c094f892ee8b02e1690df7e4438651f (MD5) / Made available in DSpace on 2017-02-06T16:42:11Z (GMT). No. of bitstreams: 1
carvalho_tm_dr_bot.pdf: 4743361 bytes, checksum: 0c094f892ee8b02e1690df7e4438651f (MD5)
Previous issue date: 2016-12-19 / O mapa de solos é uma ferramenta essencial para o planejamento de uso da terra e estudos que envolvem aspectos ambientais relativos a esse importante recurso natural. Técnicas quantitativas e ferramentas de geoprocessamento têm sido aliadas à interpretação dos processos pedogenéticos para possibilitar a elaboração de mapas mais precisos, obtidos por processo mais rápido e menos oneroso. Dentre os modelos aplicados, os denominados modelos híbridos empregam variáveis auxiliares preditoras e autocorrelação espacial, para viabilizar a predição de atributos de solo em locais não amostrados. A iniciativa para mapeamento digital do solo em escala mundial – GlobalSoilMap.net atua no sentido de disponibilizar representações globais de atributos de solo, elaboradas por meio da aplicação de modelo híbrido em dados legados de solos, realizando a prática do Mapeamento Digital de Solos (MDS). Com base nesse princípio, esse trabalho baseou-se na hipótese de que a aplicação da técnica híbrida regressão-krigagem, utilizando dados legados de levantamento de solo e covariáveis de relevo e sensoriamento remoto proveem mapa de atributos de solo representativos de uma área da Cuesta de Botucatu. O modelo foi aplicado localmente, a duas profundidades, para representação contínua do Índice de Avermelhamento (IAV), saturação de bases (V%), teor de areia, teor de argila, CTC e pH dos solos da Fazenda Experimental Edgárdia, para a qual são disponíveis dados de levantamento de solo. As covariáveis preditoras derivadas de um MDE e de imagem orbital foram uniformizadas a uma resolução espacial de 10 m, e os métodos foram selecionados de acordo com a verificação de correlação linear significativa entre atributos e covariáveis e autocorrelação espacial dos atributos ou dos resíduos de regressões lineares múltiplas (RLM). Os dados foram separados em subconjuntos de treinamento e validação. Os coeficientes de correlação entre atributos de solo e covariáveis foram significativos e variaram de -0,40 a 0,51. Os preditores mais correlacionados aos atributos foram Índice Topográfico de Umidade (ITU), Declividade (Decl), Aspecto (Aspc), Elevação (Elev) e índice de vegetação NDVI, sendo os quatro últimos os principais na estimação das frações texturais. Os valores de R² ajustado das RLM, entre 0,10 e 0,36, foram considerados baixos. De modo geral, os mapas de predição expuseram padrões característicos da variação espacial observada nos mapas das covariáveis preditoras, usadas na calibração dos modelos. Foi observado um incremento na acurácia entre as duas etapas do processo de RK, indicando que o mapa final é superior em relação à RLM. No entanto, os modelos apresentaram, de modo geral, um baixo desempenho quando avaliados por meio de validação externa, mesmo com a estratificação em duas áreas mais uniformes em termos de relevo. Os resultados indicaram a limitação do uso de amostragem para fins de levantamento em modelos de predição. Houve ainda dificuldade de aplicação dos modelos em função do contexto litológico complexo e da dinâmica local de formação de solos, que não puderam ser detectadas pelas covariáveis selecionadas. Apesar das limitações, os mapas de predição apresentaram coerência com o conhecimento relativo aos atributos, nas condições locais. / The soil map is an essential tool for land use planning and studies related to environmental aspects of this important natural resource. Quantitative techniques and geoprocessing tools are currently combined with the interpretation of pedogenic processes to enable the development of more accurate maps obtained by faster and less costly process. Among the models applied to it, the hybrid models employ predictive auxiliary variables and spatial autocorrelation, to enable the prediction of soil attributes in unsampled locations. The digital soil mapping worldwide project – GlobalSoilMap.net acts in order to provide global representations of soil attributes developed through the application of hybrid model in legacy soil data, performing the practice of Digital Soil Mapping (MDS). This work was based on the assumption that the application of the hybrid technique of regression-kriging (RK), using legacy data of soil survey and covariates of relief and remote sensing provide representative map of soil attributes of an area in Cuesta of Botucatu. The goal was to apply locally, in two depths, prediction models and continuous representation of Soil Redness Index (IAV), base saturation index (V%), sand content and clay content, cation-exchange capacity (CTC) and pH of the soils in Edgardia Experimental Farm, for which are available soil survey data. The predictor covariates were derived from an Digital Elevation Model (MDE) and an orbital image. They were all standardized at spatial resolution of 10 m, the methods were selected by checking significant linear correlation between attributes and covariates and spatial autocorrelation of attributes or residues of multiple linear regressions (RLM). The data were separated into training and validation subsets. The correlation coefficients (r) between soil attributes and covariates were significant and ranged from -0.40 to 0.51. The predictors more correlated to attributes were topographic wetness index (ITU), slope (Decl), aspect (Aspc), elevation (Elev) and vegetation index (NDVI), and the last four are key definers of granulometric fractions. The values of adjusted R² of RLM were between 0.10 and 0.36, which is considered low. In general, the prediction maps exhibited characteristic patterns of spatial variation observed in the covariates maps, used in the calibration of the models. An increase in accuracy was observed between the two steps of the modeling process by RK, indicating that the final map is better than the RLM. However, the models showed generally low performance, and did not provide good results when evaluated by external validation and even if the area was stratified in two smaller plots, with more homogeneous relief. The results indicated the restricted use of soil survey sampling in prediction models, and the difficulty of applying MDS in areas with complex lithology, especially where the correlation between local dynamics of soil genesis and selected covariates are not strong. Despite the limitations, the prediction maps were consistent with knowledge about soil properties in local conditions.
|
94 |
Avaliação do ROPScore como preditor de retinopatia da prematuridade em neonatos prematuros de muito baixo peso: estudo coorte / Evaluation of ROPScore as a predictor of retinopathy of prematurity in very low birth weight preterm: a cohort studyLucio, Kellen Cristiane do Vale [UNESP] 03 February 2017 (has links)
Submitted by KELLEN CRISTIANE DO VALE LUCIO LUCIO (kellen.lucio@gmail.com) on 2017-03-03T19:39:59Z
No. of bitstreams: 1
Dissertação final kellen.pdf: 3714896 bytes, checksum: 1f584543e024419a56cafffd8ec295b7 (MD5) / Approved for entry into archive by LUIZA DE MENEZES ROMANETTO (luizamenezes@reitoria.unesp.br) on 2017-03-08T20:28:01Z (GMT) No. of bitstreams: 1
lucio_kcv_me_bot.pdf: 3714896 bytes, checksum: 1f584543e024419a56cafffd8ec295b7 (MD5) / Made available in DSpace on 2017-03-08T20:28:01Z (GMT). No. of bitstreams: 1
lucio_kcv_me_bot.pdf: 3714896 bytes, checksum: 1f584543e024419a56cafffd8ec295b7 (MD5)
Previous issue date: 2017-02-03 / Introdução e Objetivo: A Retinopatia da prematuridade (ROP) é a principal causa de deficiência visual permanente na infância. A identificação precoce da forma grave da ROP pode prevenir a cegueira. O ROPScore é um sistema de pontuação desenvolvido para otimizar a triagem e calcular o risco de ROP em neonatos pré-termo. Este estudo objetivou avaliar a acurácia deste algoritmo como preditor de ROP em uma coorte brasileira. Métodos: Realizou-se um estudo coorte prospectivo de 220 neonatos pré-temo com PN ≤1500 g e / ou IG ≤ 32 semanas. O ROPScore foi aplicado na 6ª semana de vida nas 181 crianças que sobreviveram até a 45ª semana de idade gestacional corrigida. Cada criança foi classificada como Sem-ROP, ROP em qualquer estágio ou ROP grave. Curvas ROC foram utilizadas para determinar os melhores valores de sensibilidade e especificidade do escore na população estudada. Resultados: A média de PN foi de 1271,6g ± 354,6 e a IG média foi de 29,2 ± 2,26 semanas. Dos 181 prematuros estudados, 32 (17,6%) desenvolveram ROP. O melhor ponto de corte do ROPscore para sensibilidade e especificidade foi 16,0 para ROP em qualquer estágio e 16,6 para ROP grave. A área sob a curva ROC para prever ROP em qualquer estágio foi 0,937 (IC 95%: 0,888-0,986; P <0,0001), e para prever ROP grave, 0,962 (IC 95% 0,931-0,993; P <0,0001). A sensibilidade para ROP em qualquer estágio foi 87,5% e para ROP grave foi 95,4%. Utilizando o ROPscore, 130 pré-termos não precisariam ser avaliados com a mesma frequência, diminuindo em 71,8% o número total de exames necessários para detectar ROP. Conclusão: O ROPScore foi um método auxiliar útil para a triagem de ROP, otimizou os exames e teve precisão para identificar ROP grave. / Background and Objective: Retinopathy of prematurity (ROP) is the leading cause of childhood permanent visual impairment. Early identification of severe form of ROP can prevent blindness. The ROPScore is a scoring system, developed to optimize the screening and calculate risk of ROP in preterm infants. This study aimed to evaluate the accuracy of this algorithm as predictor of ROP in a Brazilian cohort. Methods: A prospective cohort of 220 preterm infants with BW ≤1500 g and/or GA ≤32 weeks was conducted. The ROPScore was applied in the 6th week of life in 181 infants that survived who survived until the 45th week of corrected gestational age. Each infant was categorized as having no-ROP, any stage ROP or severe ROP. Receivers operating characteristic (ROC) curves were used to determine the best sensitivity and specificity values of the score in the population studied. Results: Mean BW was 1271,6 g ± 354.6 and the mean GA was 29,2 ± 2,2 weeks. Of 181 studied preterm, 32 (17,6%) developed ROP. The best cutoff point for sensitivity and specificity was established as 16.0 for any stage ROP and 16.6 for severe ROP. The area under the ROC curve to predict ROP at any stage was 0,937 (95% CI: 0,888 to 0,986; P <0,0001), and to predict severe ROP, 0,962 (95% CI 0,931 to 0,993; P <0,0001). The sensitivity for any stage ROP was 87,5% and for severe ROP was 95,4%. Using ROPscore, 130 pre-terms did not need to be evaluated at the same frequency, reducing the total number of examinations required to detect ROP by 71,8%. Conclusion: The ROPScore was a useful adjunct screening tool for ROP, optimized the examinations and had accuracy for identify severe ROP.
|
95 |
Métodos de predição para modelo logístico misto com k efeitos aleatórios / Prediction methods for mixed logistic regression with k random effectsKarin Ayumi Tamura 17 December 2012 (has links)
A predição de uma observação futura para modelos mistos é um problema que tem sido extensivamente estudado. Este trabalho trata o problema de atribuir valores para os efeitos aleatórios e/ou variável resposta de novos grupos para o modelo logístico misto, cujo objetivo é predizer respostas futuras com base em parâmetros estimados previamente. Na literatura, existem alguns métodos de predição para este modelo que considera apenas o intercepto aleatório. Para a regressão logística mista com k efeitos aleatórios, atualmente não há métodos propostos para a predição dos efeitos aleatórios de novos grupos. Portanto, foram propostas novas abordagens baseadas no método da média zero, no melhor preditor empírico (MPE), na regressão linear e nos modelos de regressão não-paramétricos. Todos os métodos de predição foram avaliados usando os seguintes métodos de estimação: aproximação de Laplace, quadratura adaptativa de Gauss-Hermite e quase-verossimilhança penalizada. Os métodos de estimação e predição foram analisados por meio de estudos de simulação, com base em sete cenários, com comparações de diferentes valores para: o tamanho de grupo, os desvios-padrão dos efeitos aleatórios, a correlação entre os efeitos aleatórios, e o efeito fixo. Os métodos de predição foram aplicados em dois conjuntos de dados reais. Em ambos os problemas os conjuntos de dados apresentaram estrutura hierárquica, cujo objetivo foi predizer a resposta para novos grupos. Os resultados indicaram que o método MPE apresentou o melhor desempenho em termos de predição, entretanto, apresentou alto custo computacional para grandes bancos de dados. As demais metodologias apresentaram níveis de predição semelhantes ao MPE, e reduziram drasticamente o esforço computacional. / The prediction of a future observation in a mixed regression is a problem that has been extensively studied. This work treat the problem of assigning the random effects and/or the outcome of new groups for the mixed logistic regression, in which the aim is to predict future outcomes based on the parameters previously estimated. In the literature, there are some prediction methods for this model that considers only the random intercept. For the mixed logistic regression with k random effects, there is currently no method for predicting the random effects of new groups. Therefore, we proposed new approaches based on average zero method, empirical best predictor (EBP), linear regression and nonparametric regression models. All prediction methods were evaluated by using the estimation methods: Laplace approximation, adaptive Gauss-Hermite quadrature and penalized quasi-likelihood. The estimation and prediction methods were analyzed by simulation studies, based on seven simulation scenarios, which considered comparisons of different values for: the group size, the standard deviations of the random effects, the correlation between the random effects, and the fixed effect. The prediction methods were applied in two real data sets. In both problems the data set presented hierarchical structure, and the objective was to predict the outcome for new groups. The results indicated that EBP presented the best performance in prediction terms, however it has been presented high computational cost for big data sets. The other methodologies presented similar level of prediction in relation to EBP, and drastically reduced the computational effort.
|
96 |
Função de avaliação dinâmica em algoritmos genéticos aplicados na predição de estruturas tridimensionais de proteínas / Genetic Algorithms with Dynamic Fitness Functions Applied to Tridimensional Protein Structure PredictionLuís Henrique Uchida Ishivatari 28 September 2012 (has links)
O problema de predição de estruturas tridimensionais de proteínas pode ser visto computacionalmente como um problema de otimização, tal que dada a sequência de aminoácidos, deve-se encontrar a estrutura tridimensional da proteína dentre as muitas possíveis através da obtenção de mínimos de funções de energia. Vários pesquisadores têm proposto estratégias de Computação Evolutiva para a determinação de estruturas tridimensionais das proteínas, entretanto nem sempre resultados animadores têm sido alcançados visto que entre outros fatores, há um grande número de ótimos locais no espaço de busca. Geralmente as funções de fitness empregadas pelos algoritmos de otimização são baseadas em campos de força com diferentes termos de energia, sendo que os parâmetros destes termos são ajustados a priori e são mantidos estáticos ao longo do processo de otimização. Alguns pesquisadores sugerem que o uso de funções de fitness dinâmicas, ou seja, que mudam durante um processo de otimização evolutivo, pode aumentar a capacidade das populações fugirem de ótimos locais em problemas altamente multimodais. Neste trabalho, propõe-se que os parâmetros dos termos do campo de força utilizado sejam modificados durante o processo de otimização realizado por Algoritmos Genéticos (AGs) no problema de predição de estruturas de proteínas, sendo aumentados ou diminuídos, por exemplo, de acordo com a sua influência na formação de estruturas secundárias e no seu ajuste fino. Como a função de avaliação será modificada durante o processo de otimização, a predição de estruturas tridimensionais de proteínas torna-se um problema de otimização dinâmica, sendo que o uso de Algoritmos Genéticos específicos para tais problemas, como o AG com hipermutação e os AGs com imigrantes aleatórios são investigados aqui. É proposta uma nova métrica relacionada ao alinhamento da estrutura secundária da proteína, para auxiliar a análise dos dados obtidos e os resultados dos experimentos indicam que os algoritmos com função de avaliação dinâmica obtiveram resultados melhores que os algoritmos estáticos, o que é explicado pelo fato de as mudanças na função de fitness possibilitarem eventuais fugas de ótimos locais, bem como um aumento da diversidade da população. / The protein structure prediction can be seen as an optimization problem where given an amino acid sequence, the tertiary protein structure must be found amongst many possible by obtaining energy functions minima. Many researchers have been proposing Evolutionary Computation strategies to find tridimensional structures of proteins; however results are not always satisfactory since among other factors, there are always a great number of local optima in the search space. Usually, the fitness functions used by optimization algorithms are based on force fields with different energy terms with parameters from those terms being adjusted a priori, kept static through the optimization process. Some researchers suggest that the use of dynamic functions, i.e., that can be changed during the evolutionary process, can help the population to escape from local optima in highly multimodal problems. In this work we propose that the force field parameters can be changed during the optimization process of Genetic Algorithms (GAs) in the protein structure prediction problem, being increased or decreased, for instance, according with its influence on formation of secondary structures and its fine tuning. Since the cost function will be changed during the optimization process, the protein tridimensional structure prediction becomes a dynamic optimization problem and specific Genetic Algorithms for this kind of problem, like the hypermutation GA and random immigrants GA are investigated. We also propose a new metric related to the proteins secondary structure alignment to help the analysis of obtained data. Results indicate that the dynamic function algorithms obtained better results than static algorithms since changes on the fitness function allow the population to escape local optima, as well as an increase on the population diversity.
|
97 |
Modelagem e predição de desempenho de primitivas de comunicação MPI. / Performance modeling and prediction of MPI communication primitives.Hélio Marci de Oliveira 28 January 2003 (has links)
O desenvolvimento de programas paralelos e distribuídos encontra na programação baseada em passagem de mensagens uma abordagem eficaz para explorar adequadamente as características das máquinas de memória distribuída. Com o uso de clusters e de bibliotecas de suporte às trocas de mensagens, como o padrão MPI (Message Passing Interface), aplicações eficientes e economicamente viáveis podem ser construídas. Em tais sistemas, o tempo despendido nas comunicações constitui um importante fator de desempenho a ser considerado e requer a utilização de procedimentos e cuidados para a sua correta caracterização. Neste trabalho, modelos analíticos de primitivas de comunicação bloqueante MPI são desenvolvidos segundo uma metodologia de análise e predição apropriada. São tratadas algumas das principais operações ponto-a-ponto e coletivas e, utilizando técnicas de ajuste de curvas e tempos experimentais, o comportamento das primitivas de comunicação é representado em equações, possibilitando ainda a realização de análises e predições de desempenho em função do tamanho das mensagens e do número de processos envolvidos. Através de testes em um cluster de estações de trabalho, a precisão dos modelos elaborados é comprovada. Sendo a maioria dos erros percentuais inferiores a 8%, os resultados obtidos confirmam a validade do processo de modelagem. Além disso, o trabalho apresenta um conjunto de funções construídas com o objetivo de oferecer suporte a atividades de análise e predição, procurando facilitar e automatizar sua execução. / The development of parallel and distributed programs finds at message-passing programming a powerful approach to explore properly the distributed memory machines issues. Using clusters and message-passing libraries, as MPI standard (Message Passing Interface), efficient and cost effective applications can be constructed. In these systems, the time spent with communications means a important performance factor to be considered and its correct characterization requires procedures and cautions. In this work, analytic models for MPI blocking communication primitives are developed according one appropriate methodology for analysis and prediction. Some of the main peer-to-peer and collective operations are treated, and through curve fitting techniques and experimental times the behavior of the communication primitives is represented in equations, allowing also the accomplishment of performance analysis and prediction in function of the message length and the number of processes. Tests realized in a cluster of workstations prove the accuracy of the elaborated models. With most of errors within 8%, the obtained results show the validity of the modeling process. Also, the work presents a set of functions constructed with the purpose of support analysis and prediction activities, in order to facilitate and automate them.
|
98 |
Desenvolvimento de modelos para predição de desempenho de programas paralelos MPI. / Development of Performance Prediction Models for MPI Parallel ProgramsJean Marcos Laine 27 January 2003 (has links)
Existem muitos fatores capazes de influenciar o desempenho de um programa paralelo MPI (Message Passing Interface). Dentre esses fatores, podemos citar a quantidade de dados processados, o número de nós envolvidos na solução do problema, as características da rede de interconexão, o tipo de switch utilizado, entre outros. Por isso, realizar predições de desempenho sobre programas paralelos que utilizam passagem de mensagem não é uma tarefa trivial. Com o intuito de modelar e predizer o comportamento dos programas citados anteriormente, nosso trabalho foi desenvolvido baseado em uma metodologia de análise e predição de desempenho de programas paralelos MPI. Inicialmente, propomos um modelo gráfico, denominado DP*Graph+, para representar o código das aplicações. Em seguida, desenvolvemos modelos analíticos, utilizando técnicas de ajuste de curvas, para representar o comportamento das estruturas de repetição compostas por primitivas de comunicação e/ou computação local. Além disso, elaboramos modelos para predizer o comportamento de aplicações do tipo mestre/escravo. Durante o desenvolvimento das atividades de análise e predição de desempenho, implementamos algumas funções para automatizar tarefas e facilitar nosso trabalho. Por último, modelamos e estimamos o desempenho de duas versões diferentes de um programa de multiplicação de matrizes, a fim de validar os modelos propostos. Os resultados das predições realizadas sobre os programas de multiplicação de matrizes foram satisfatórios. Na maioria dos casos preditos, os erros ficaram abaixo de 6 %, confirmando a validade e a precisão dos modelos elaborados. / There are many factors able to influence the performance of a MPI (Message Passing Interface) parallel program. Within these factors, we may cite: amount of data, number of nodes, characteristics of the network and type of switch, among others. Then, performance prediction isnt a easy task. The work was developed based on a methodology of analysis and performance prediction of MPI parallel programs. First of all, we proposed a graphical model, named DP*Graph+, to represent the code of applications. Next, we developed analytical models applying curve fitting techniques to represent the behavior of repetition structure compounds by comunication primitives and/or local computations. Besides, we elaborated models to predict aplications of type master/slave. For development of performance prediction activities, some functions was developed to automate tasks and make our work easy. Finally, we modeled and predicted the performance of two different programs of matrix multiplication to prove the accuracy of models. The results of predictions on the programs were good. In the majority of predicted cases, the errors were down 6 %. With these results, we proved the accuracy of developed models.
|
99 |
Caracterização do proteoma nuclear de folhas de cana-de-açúcar (Saccharum spp) de 1 e 4 meses de idade / Nuclear proteome characterization of one and four-month-old sugarcane (Saccharum spp) leavesDanielle Izilda Rodrigues da Silva 26 October 2012 (has links)
A cana-de-açúcar é uma cultura economicamente importante, cultivada especialmente pelo seu colmo, que constitui a matéria-prima para produtos como o açúcar e o bioetanol. Ademais, a compreensão do proteoma nuclear é essencial para decifrar os mecanismos que governam a regulação gênica. No presente estudo, é demonstrado o isolamento e a identificação através de 1D SDS-PAGE de proteínas nucleares originadas de folhas jovens de plantas de cana-de-açúcar. Os núcleos foram isolados de folhas F+1 frescas de cana-de-açúcar de 1 e 4 meses, usando o protocolo modificado de Folta e Kaufman (2000). O experimento consistiu em um delineamento inteiramente casualizado, com três repetições de 18 plantas cada. Após a purificação usando o gradiente de percoll, a integridade do núcleo foi avaliada por meio da coloração com orceína acetolática 1% e com DAPI. Os resultados obtidos revelam os núcleos como esferas uniformes com o diâmetro médio de 5 ?m. As proteínas nucleares foram isoladas usando o reagente TRI Reagent (Sigma) e quantificadas por meio do método de Bradford. As análises de Western blot foram usadas para demonstrar o enriquecimento de proteínas nucleares. As membranas foram incubadas com a RUBISCO, PEPCase, OEE1, Histona e PCNA. A presença da PCNA e da Histona foram detectadas apenas no extrato de proteínas nucleares, já a RUBISCO, a PEPCase e a OEE1 foram detectadas de forma abundante no extrato de proteínas total e reduzida na fração nuclear. Para a caracterização do proteoma nuclear, 60 ?g de proteínas foram separadas por SDS-PAGE e cada canaleta dividida em 20 bandas. As proteínas de cada banda foram digeridas e purificadas. A identificação foi realizada por meio de espectrometria de massas (Synapt G2 HDMS) e analisadas usando o ProteinLynx e o banco de dados SUCEST. Programas como BaCelLo, WoLF PSORT, Plant-mPloc, SherLoc e PSORT foram usados para a predição da localização subcelular das proteínas identificadas. A classe de proteínas identificadas mais abundante se relaciona à montagem de nucleossomos, e é representada principalmente pelas histonas, como H2A.2, H2A.8, H3.3, H2B.1, H2B.2, dentre outras. Ademais, ainda foram encontradas classes menos abundantes relacionadas ao metabolismo do DNA, do RNA, regulação da transcrição, dentre outras. Alguns fatores de transcrição e outras proteínas nucleares típicas também foram identificadas, porém, possivelmente em decorrência de sua baixa abundância, não foram observados em todas as repetições. Os resultados encontrados mostram a aplicabilidade da metodologia para criar um perfil preciso do proteoma nuclear de cana-de-açúcar. / Sugarcane is a cash crop, cultivated for its stalks which accumulate sucrose, the raw material for products like sugar and bioethanol. Nuclear proteome comprehension is essential for deciphering the mechanisms that governs genome regulation and function. In the present study, we report the isolation and identification by 1D SDS-PAGE of nuclear proteins from young sugarcane leaves. The nuclei were isolated from fresh tissue of one and four-month-old sugarcane F+1 leaves, using the modified protocol of Folta and Kaufman (2000). The experiment consisted on a completely randomized design, three biological repetitions each with 18 plants. After purification using a percoll gradient, nucleus integrity was evaluated by staining with 1% acetolactic orcein and with DAPI. The results obtained reveal nuclei as uniform spheres with an average diameter of 5 ?m. The nuclear proteins were isolated using TRI Reagent (Sigma) and quantified by Bradford. Western blot analysis were used to prove enrichment for nuclear proteins. Membranes were incubated with RUBISCO, PEPCase, OEE1, Histone and PCNA. The presence of PCNA and Histone were detected only in the nuclear fraction. RUBISCO, PEPCase and OEE1 were very abundant in the total protein fraction and reduced in the nuclear fraction. For the characterization of nuclear proteome, 60 ?g of proteins were separated by SDSPAGE and each lane divided into 20 sections, the proteins from each section were digested and purified. Protein identification was carried out by mass spectrometry (Synapt G2 HDMS) and analyzed using ProteinLynx and SUCEST database. Softwares, such as BaCelLo, WoLF PSORT, Plant-mPloc, SherLoc and PSORT were also used to predict the subcelular localization of the identified proteins. The most abundant protein class is related to the nucleosome assembly. It is represented specially by histones like H2A.2, H2A.8, H3.3, H2B.1, H2B.2, among others. Besides, less abundant classes like the ones related to DNA and RNA metabolism, regulation of transcription and others were also found. Some transcription factors and other typical nuclear proteins were identified as well, but, possibly due to their low abundance, they were not observed in all three repetitions. These results show the applicability of this method to create an accurate sugarcane nuclear proteome profile.
|
100 |
Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina / Comparison of machine learning algorithms performance in predictive analyzes in public health and medicineHellen Geremias dos Santos 28 September 2018 (has links)
Modelos preditivos estimam o risco de eventos ou agravos relacionados à saúde e podem ser utilizados como ferramenta auxiliar em tomadas de decisão por gestores e profissionais de saúde. Algoritmos de machine learning (ML), por sua vez, apresentam potencial para identificar relações complexas e não-lineares presentes nos dados, com consequências positivas na performance preditiva desses modelos. A presente pesquisa objetivou aplicar técnicas supervisionadas de ML e comparar sua performance em problemas de classificação e de regressão para predizer respostas de interesse para a saúde pública e a medicina. Os resultados e discussão estão organizados em três artigos científicos. O primeiro apresenta um tutorial para o uso de ML em pesquisas de saúde, utilizando como exemplo a predição do risco de óbito em até 5 anos (frequência do desfecho 15%; n=395) para idosos do estudo \"Saúde, Bem-estar e Envelhecimento\" (n=2.677), segundo variáveis relacionadas ao seu perfil demográfico, socioeconômico e de saúde. Na etapa de aprendizado, cinco algoritmos foram aplicados: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest, cujos hiperparâmetros foram otimizados por validação cruzada (VC) 10-fold. Todos os modelos apresentaram área abaixo da curva (AUC) ROC (Receiver Operating Characteristic) maior que 0,70. Para aqueles com maior AUC ROC (redes neurais e regressão logística com e sem penalização) medidas de qualidade da probabilidade predita foram avaliadas e evidenciaram baixa calibração. O segundo artigo objetivou predizer o risco de tempo de vida ajustado pela qualidade de vida de até 30 dias (frequência do desfecho 44,7%; n=347) em pacientes com câncer admitidos em Unidade de Terapia Intensiva (UTI) (n=777), mediante características obtidas na admissão do paciente à UTI. Seis algoritmos (regressão logística com e sem penalização, redes neurais, árvore simples, gradient boosted trees e random forest) foram utilizados em conjunto com VC aninhada para estimar hiperparâmetros e avaliar performance preditiva. Todos os algoritmos, exceto a árvore simples, apresentaram discriminação (AUC ROC > 0,80) e calibração satisfatórias. Para o terceiro artigo, características socioeconômicas e demográficas foram utilizadas para predizer a expectativa de vida ao nascer de municípios brasileiros com mais de 10.000 habitantes (n=3.052). Para o ajuste do modelo preditivo, empregou-se VC aninhada e o algoritmo Super Learner (SL), e para a avaliação de performance, o erro quadrático médio (EQM). O SL apresentou desempenho satisfatório (EQM=0,17) e seu vetor de valores preditos foi utilizado para a identificação de overachievers (municípios com expectativa de vida superior à predita) e underachievers (município com expectativa de vida inferior à predita), para os quais características de saúde foram comparadas, revelando melhor desempenho em indicadores de atenção primária para os overachievers e em indicadores de atenção secundária para os underachievers. Técnicas para a construção e avaliação de modelos preditivos estão em constante evolução e há poucas justificativas teóricas para se preferir um algoritmo em lugar de outro. Na presente tese, não foram observadas diferenças substanciais no desempenho preditivo dos algoritmos aplicados aos problemas de classificação e de regressão analisados. Espera-se que a maior disponibilidade de dados estimule a utilização de algoritmos de ML mais flexíveis em pesquisas de saúde futuras. / Predictive models estimate the risk of health-related events or injuries and can be used as an auxiliary tool in decision-making by public health officials and health care professionals. Machine learning (ML) algorithms have the potential to identify complex and non-linear relationships, with positive implications in the predictive performance of these models. The present research aimed to apply various ML supervised techniques and compare their performance in classification and regression problems to predict outcomes of interest to public health and medicine. Results and discussion are organized into three articles. The first, presents a tutorial for the use of ML in health research, using as an example the prediction of death up to 5 years (outcome frequency=15%; n=395) in elderly participants of the study \"Saúde, Bemestar e Envelhecimento\" (n=2,677), using variables related to demographic, socioeconomic and health characteristics. In the learning step, five algorithms were applied: logistic regression with and without regularization, neural networks, gradient boosted trees and random forest, whose hyperparameters were optimized by 10-fold cross-validation (CV). The area under receiver operating characteristic (AUROC) curve was greater than 0.70 for all models. For those with higher AUROC (neural networks and logistic regression with and without regularization), the quality of the predicted probability was evaluated and it showed low calibration. The second article aimed to predict the risk of quality-adjusted life up to 30 days (outcome frequency=44.7%; n=347) in oncologic patients admitted to the Intensive Care Unit (ICU) (n=777), using patients\' characteristics obtained at ICU admission. Six algorithms (logistic regression with and without regularization, neural networks, basic decision trees, gradient boosted trees and random forest) were used with nested CV to estimate hyperparameters values and to evaluate predictive performance. All algorithms, with exception of basic decision trees, presented acceptable discrimination (AUROC > 0.80) and calibration. For the third article, socioeconomic and demographic characteristics were used to predict the life expectancy at birth of Brazilian municipalities with more than 10,000 inhabitants (n=3,052). Nested CV and the Super Learner (SL) algorithm were used to adjust the predictive model, and for evaluating performance, the mean squared error (MSE). The SL showed good performance (MSE=0.17) and its vector of predicted values was used for the identification of underachievers and overachievers (i.e. municipalities showing worse and better outcome than predicted, respectively). Health characteristics were analyzed revealing that overachievers performed better on primary health care indicators, while underachievers fared better on secondary health care indicators. Techniques for constructing and evaluating predictive models are constantly evolving and there is scarce theoretical justification for preferring one algorithm over another. In this thesis no substantial differences were observed in the predictive performance of the algorithms applied to the classification and regression problems analyzed herein. It is expected that increase in data availability will encourage the use of more flexible ML algorithms in future health research.
|
Page generated in 0.0361 seconds