• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 24
  • Tagged with
  • 24
  • 24
  • 17
  • 17
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina / Comparison of machine learning algorithms performance in predictive analyzes in public health and medicine

Hellen Geremias dos Santos 28 September 2018 (has links)
Modelos preditivos estimam o risco de eventos ou agravos relacionados à saúde e podem ser utilizados como ferramenta auxiliar em tomadas de decisão por gestores e profissionais de saúde. Algoritmos de machine learning (ML), por sua vez, apresentam potencial para identificar relações complexas e não-lineares presentes nos dados, com consequências positivas na performance preditiva desses modelos. A presente pesquisa objetivou aplicar técnicas supervisionadas de ML e comparar sua performance em problemas de classificação e de regressão para predizer respostas de interesse para a saúde pública e a medicina. Os resultados e discussão estão organizados em três artigos científicos. O primeiro apresenta um tutorial para o uso de ML em pesquisas de saúde, utilizando como exemplo a predição do risco de óbito em até 5 anos (frequência do desfecho 15%; n=395) para idosos do estudo \"Saúde, Bem-estar e Envelhecimento\" (n=2.677), segundo variáveis relacionadas ao seu perfil demográfico, socioeconômico e de saúde. Na etapa de aprendizado, cinco algoritmos foram aplicados: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest, cujos hiperparâmetros foram otimizados por validação cruzada (VC) 10-fold. Todos os modelos apresentaram área abaixo da curva (AUC) ROC (Receiver Operating Characteristic) maior que 0,70. Para aqueles com maior AUC ROC (redes neurais e regressão logística com e sem penalização) medidas de qualidade da probabilidade predita foram avaliadas e evidenciaram baixa calibração. O segundo artigo objetivou predizer o risco de tempo de vida ajustado pela qualidade de vida de até 30 dias (frequência do desfecho 44,7%; n=347) em pacientes com câncer admitidos em Unidade de Terapia Intensiva (UTI) (n=777), mediante características obtidas na admissão do paciente à UTI. Seis algoritmos (regressão logística com e sem penalização, redes neurais, árvore simples, gradient boosted trees e random forest) foram utilizados em conjunto com VC aninhada para estimar hiperparâmetros e avaliar performance preditiva. Todos os algoritmos, exceto a árvore simples, apresentaram discriminação (AUC ROC > 0,80) e calibração satisfatórias. Para o terceiro artigo, características socioeconômicas e demográficas foram utilizadas para predizer a expectativa de vida ao nascer de municípios brasileiros com mais de 10.000 habitantes (n=3.052). Para o ajuste do modelo preditivo, empregou-se VC aninhada e o algoritmo Super Learner (SL), e para a avaliação de performance, o erro quadrático médio (EQM). O SL apresentou desempenho satisfatório (EQM=0,17) e seu vetor de valores preditos foi utilizado para a identificação de overachievers (municípios com expectativa de vida superior à predita) e underachievers (município com expectativa de vida inferior à predita), para os quais características de saúde foram comparadas, revelando melhor desempenho em indicadores de atenção primária para os overachievers e em indicadores de atenção secundária para os underachievers. Técnicas para a construção e avaliação de modelos preditivos estão em constante evolução e há poucas justificativas teóricas para se preferir um algoritmo em lugar de outro. Na presente tese, não foram observadas diferenças substanciais no desempenho preditivo dos algoritmos aplicados aos problemas de classificação e de regressão analisados. Espera-se que a maior disponibilidade de dados estimule a utilização de algoritmos de ML mais flexíveis em pesquisas de saúde futuras. / Predictive models estimate the risk of health-related events or injuries and can be used as an auxiliary tool in decision-making by public health officials and health care professionals. Machine learning (ML) algorithms have the potential to identify complex and non-linear relationships, with positive implications in the predictive performance of these models. The present research aimed to apply various ML supervised techniques and compare their performance in classification and regression problems to predict outcomes of interest to public health and medicine. Results and discussion are organized into three articles. The first, presents a tutorial for the use of ML in health research, using as an example the prediction of death up to 5 years (outcome frequency=15%; n=395) in elderly participants of the study \"Saúde, Bemestar e Envelhecimento\" (n=2,677), using variables related to demographic, socioeconomic and health characteristics. In the learning step, five algorithms were applied: logistic regression with and without regularization, neural networks, gradient boosted trees and random forest, whose hyperparameters were optimized by 10-fold cross-validation (CV). The area under receiver operating characteristic (AUROC) curve was greater than 0.70 for all models. For those with higher AUROC (neural networks and logistic regression with and without regularization), the quality of the predicted probability was evaluated and it showed low calibration. The second article aimed to predict the risk of quality-adjusted life up to 30 days (outcome frequency=44.7%; n=347) in oncologic patients admitted to the Intensive Care Unit (ICU) (n=777), using patients\' characteristics obtained at ICU admission. Six algorithms (logistic regression with and without regularization, neural networks, basic decision trees, gradient boosted trees and random forest) were used with nested CV to estimate hyperparameters values and to evaluate predictive performance. All algorithms, with exception of basic decision trees, presented acceptable discrimination (AUROC > 0.80) and calibration. For the third article, socioeconomic and demographic characteristics were used to predict the life expectancy at birth of Brazilian municipalities with more than 10,000 inhabitants (n=3,052). Nested CV and the Super Learner (SL) algorithm were used to adjust the predictive model, and for evaluating performance, the mean squared error (MSE). The SL showed good performance (MSE=0.17) and its vector of predicted values was used for the identification of underachievers and overachievers (i.e. municipalities showing worse and better outcome than predicted, respectively). Health characteristics were analyzed revealing that overachievers performed better on primary health care indicators, while underachievers fared better on secondary health care indicators. Techniques for constructing and evaluating predictive models are constantly evolving and there is scarce theoretical justification for preferring one algorithm over another. In this thesis no substantial differences were observed in the predictive performance of the algorithms applied to the classification and regression problems analyzed herein. It is expected that increase in data availability will encourage the use of more flexible ML algorithms in future health research.
2

Ajuste do modelo linear de efeito misto na relação hipsométrica em plantios comerciais de Tectona grandis L.f. / Application of the mixed-effect linear model in height-diameter equation on commercial plantations of Tectona grandis L.f.

Lucas do Nascimento Ferreira 06 July 2018 (has links)
A modelagem de predição de altura comumente exige um amplo conjunto de dados para a etapa de construção e ajuste. Ainda que este tipo de conjunto de dados tenha uma estrutura hierárquica natural, organizada pelas diferentes fazendas, talhões, parcelas, e etc., os modelos de regressão clássicos não consideram a possível variação dos parâmetros, entre os diversos grupos hierárquicos. Os modelos de efeitos mistos, em compensação, podem suportar essa variação, assumindo alguns dos parâmetros dos modelos como sendo estocásticos, além de mostrarem potencial com a possibilidade de diminuição de amostras. Esta técnica permite que a variação interindividual seja explicada considerando parâmetros de efeitos fixos (comuns à população) e parâmetros de efeitos aleatórios (específicos para cada indivíduo). Logo, é natural esperar que em povoamentos florestais com alta variação entre indivíduos, o modelo de efeito misto tenha desempenho superior ao modelo de efeito fixo. Por esta razão, os plantios de Tectona grandis L.f. podem ser considerados como uma população interessante para a modelagem de efeitos aleatórios, uma vez que tal espécie apresenta heterogeneidade de crescimento, sensibilidade à fertilidade e acidez do solo, e a maioria dos seus plantios estabelecidos no Brasil são seminais. Desta maneira este trabalho verifica o ajuste de modelos de efeitos mistos aplicados aos dados de altura total em plantios comerciais de Tectona grandis L.f, localizados no estado do Mato Grosso, com o objetivo na redução do número de amostras quando comparado ao modelo de efeitos fixos. Após a seleção do modelo linear de efeito fixo mais apropriado, testou-se quais dos coeficientes tem efeito aleatório nos diferentes agrupamentos dos dados. Em seguida, selecionou-se o grupo onde o desempenho do modelo de efeito misto em termos de ajuste e predição foi o melhor possível. Por fim, foi verificado a capacidade preditiva dos modelos ajustados por meio de processos de simulação e validação cruzada. Os resultados mostraram que o modelo misto calibrado fornece predições mais confiáveis do que a parte fixa. Este benefício ocorre mesmo ao longo das gradativas diminuições do número de árvores disponíveis para ajuste dentro conjunto de dados teste separados para a calibração do modelo misto. É possível concluir que o modelo calibrado ajustado por talhão, ao invés da parcela, propicia pouca perda de precisão. / Height prediction modeling commonly requires a broad set of data for the construction and adjustment step. Although this type of data set has a natural hierarchical structure, organized by the different farms, plots, plots, etc., the classical regression models do not consider the possible variation of the parameters among the hierarchical groups. The mixed effects models, in compensation, can support this variation, assuming some of the parameters of the models as being stochastic, besides showing potential with the possibility of sample reduction. This technique allows the interindividual variation to be explained considering parameters of fixed effects (common to the population) and parameters of random effects (specific for each individual). Therefore, it is natural to expect that in forest stands with high variation among individuals, the mixed effect model performs better than the fixed effect model. For this reason, the plantations of Tectona grandis L.f. can be considered as an interesting population for the modeling of random effects, since this species presents possible heterogeneity of growth since it is sensitive to the fertility and acidity of the soil, and most of its plantations established in Brazil are seminal. This work verifies the adjustment of mixed effects models applied to total height data in commercial plantations of Tectona grandis L.f, located in the state of Mato Grosso, with the objective of reducing the number of samples when compared to the fixed effects model. After selecting the most appropriate linear model of fixed effect, we tested which of the coefficients have random effect in the different groupings of the data. Then, we selected the group where the performance of the mixed effect model in terms of fit and prediction was the best possible. Finally, the predictive capacity of the adjusted models was verified through simulation and cross-validation processes. The results showed that the calibrated mixed model provides more reliable predictions than the fixed part. This benefit occurs even along the gradual decreases in the number of trees available to fit into separate set of test data for the calibration of the mixed model. It is possible to conclude that the calibrated model adjusted by stand, instead of the plot, provides little loss of precision.
3

Estudo de rastreamento precoce da doença renal na população de Palmas - TO: uma aplicação do Scored comparada aos métodos convencionais / Early screening of renal disease in the population of Palmas TO: an application of SCORED compared to conventional methods

Itágores Hoffman I I Lopes Sousa Coutinho 21 October 2011 (has links)
Introdução: O impacto da doença renal na saúde é alto para os pacientes e para os serviços de saúde em todo o mundo, e a triagem para doença renal crônica (DRC) tem sido cada vez mais defendida. Estudos de base populacional referentes à prevalência da DRC na comunidade são limitados. Objetivos: Estudamos prospectivamente se a estratificação pelos valores do SCORED registrados poderá ser útil para identificar indivíduos que estão em alto risco de ter doença renal crônica em uma amostra da população geral e comparamos com os métodos de diagnósticos convencionais para DRC. Casuística e métodos: A freqüência de indivíduos com alto risco para a DRC foi determinada utilizando um estudo transversal de 873 indivíduos adultos em Palmas, Tocantins, Brasil. Os indivíduos entrevistados foram selecionados aleatoriamente através de um método estratificado por conglomerados. Idade, sexo e raça foram semelhantes à população urbana de Palmas. DRC foi definida através do ritmo de filtração glomerular estimado (RFGe) <60 ml/min/1.73 m2. Resultados: Um RFGe <60 ml/min/ 1.73 m2 estava presente em 46 (5,3%) dos participantes estudados. O risco de ter doença renal crônica foi maior em mulheres que em homens, e aumentou com a idade de 2,7% no grupo de 18-44 anos de idade para 19,0% naqueles com 65 anos de idade ou mais. As freqüências da DRC nos estágios 3, 4 e 5 foram de 4,8%, 0,5% e 0%, respectivamente. Os valores do SCORED incluíram 224 (25,7%) indivíduos com altos valores ( 4), e 649 (74,3%) indivíduos com baixos valores. Indivíduos com maiores valores na pontuação do SCORED tiveram um risco significativamente maior de ter doença renal crônica em comparação com aqueles que tinham menores valores pontuados (12,9% vs 2,6%, 2 = 35,58, p <0,001). A sensibilidade para prever DRC por esse modelo foi de 63% e a especificidade foi de 76%, o valor preditivo positivo foi de 13%, enquanto o valor preditivo negativo foi de 76%. Conclusão: Valores elevados do SCORED foram associados a um risco maior de ter doença renal crônica em uma amostra da população geral. Esta ferramenta simples de triagem foi uma ferramenta útil para identificar indivíduos de alto risco para DRC / Background and objective: The health burden of renal disease is high for patients and health services worldwide, and screening for chronic kidney disease (CKD) has been increasingly advocated. Population-based studies relating to the prevalence of CKD in the community are limited. We prospective studied whether stratification by SCORED values could be useful to identify subjects who are at high-risk for having CKD in a general population-based sampling. Design, participants & methods: The frequency of individuals at high-risk for CKD was determined using a cross-sectional study of 873 adult households in Palmas, Brazil, randomly selected using a stratified, cluster method. Age, gender, and race were similar to the entire Palmas´ urban population. Results: An estimated GFR <60 ml/min/1.73 m2 was present in 46 (5.3%) of participants studied, and the risk for having CKD was greater in women than in men, and it increased with age from 2.7% in the 18 to 44 yr age group to 19.0% in those 65 yr of age older. The frequencies of CKD Stage 3, 4 and 5 were 4.8%, 0.5% and 0%, respectively. SCORED values included 224 (25.7%) patients with high SCORED values (4), and 649 (74.3%) subjects with low SCORED values. Subjects with higher SCORED values were at a significantly higher risk of having CKD compared with those who had lower SCORED values (12.9% vs 2.6%, 2 = 35.58; p <0.001). The sensivity for predicting CKD by SCORED model was 63% and the specificity was 76%; the positive predictive value was 13%, whereas the negative predictive value was 76%. Conclusion: High SCORED values were associated with a higher risk for having CKD in a general population-based sampling. This simple screening tool was a useful tool to identify individuals at high-risk for CKD
4

Ajuste do modelo linear de efeito misto na relação hipsométrica em plantios comerciais de Tectona grandis L.f. / Application of the mixed-effect linear model in height-diameter equation on commercial plantations of Tectona grandis L.f.

Ferreira, Lucas do Nascimento 06 July 2018 (has links)
A modelagem de predição de altura comumente exige um amplo conjunto de dados para a etapa de construção e ajuste. Ainda que este tipo de conjunto de dados tenha uma estrutura hierárquica natural, organizada pelas diferentes fazendas, talhões, parcelas, e etc., os modelos de regressão clássicos não consideram a possível variação dos parâmetros, entre os diversos grupos hierárquicos. Os modelos de efeitos mistos, em compensação, podem suportar essa variação, assumindo alguns dos parâmetros dos modelos como sendo estocásticos, além de mostrarem potencial com a possibilidade de diminuição de amostras. Esta técnica permite que a variação interindividual seja explicada considerando parâmetros de efeitos fixos (comuns à população) e parâmetros de efeitos aleatórios (específicos para cada indivíduo). Logo, é natural esperar que em povoamentos florestais com alta variação entre indivíduos, o modelo de efeito misto tenha desempenho superior ao modelo de efeito fixo. Por esta razão, os plantios de Tectona grandis L.f. podem ser considerados como uma população interessante para a modelagem de efeitos aleatórios, uma vez que tal espécie apresenta heterogeneidade de crescimento, sensibilidade à fertilidade e acidez do solo, e a maioria dos seus plantios estabelecidos no Brasil são seminais. Desta maneira este trabalho verifica o ajuste de modelos de efeitos mistos aplicados aos dados de altura total em plantios comerciais de Tectona grandis L.f, localizados no estado do Mato Grosso, com o objetivo na redução do número de amostras quando comparado ao modelo de efeitos fixos. Após a seleção do modelo linear de efeito fixo mais apropriado, testou-se quais dos coeficientes tem efeito aleatório nos diferentes agrupamentos dos dados. Em seguida, selecionou-se o grupo onde o desempenho do modelo de efeito misto em termos de ajuste e predição foi o melhor possível. Por fim, foi verificado a capacidade preditiva dos modelos ajustados por meio de processos de simulação e validação cruzada. Os resultados mostraram que o modelo misto calibrado fornece predições mais confiáveis do que a parte fixa. Este benefício ocorre mesmo ao longo das gradativas diminuições do número de árvores disponíveis para ajuste dentro conjunto de dados teste separados para a calibração do modelo misto. É possível concluir que o modelo calibrado ajustado por talhão, ao invés da parcela, propicia pouca perda de precisão. / Height prediction modeling commonly requires a broad set of data for the construction and adjustment step. Although this type of data set has a natural hierarchical structure, organized by the different farms, plots, plots, etc., the classical regression models do not consider the possible variation of the parameters among the hierarchical groups. The mixed effects models, in compensation, can support this variation, assuming some of the parameters of the models as being stochastic, besides showing potential with the possibility of sample reduction. This technique allows the interindividual variation to be explained considering parameters of fixed effects (common to the population) and parameters of random effects (specific for each individual). Therefore, it is natural to expect that in forest stands with high variation among individuals, the mixed effect model performs better than the fixed effect model. For this reason, the plantations of Tectona grandis L.f. can be considered as an interesting population for the modeling of random effects, since this species presents possible heterogeneity of growth since it is sensitive to the fertility and acidity of the soil, and most of its plantations established in Brazil are seminal. This work verifies the adjustment of mixed effects models applied to total height data in commercial plantations of Tectona grandis L.f, located in the state of Mato Grosso, with the objective of reducing the number of samples when compared to the fixed effects model. After selecting the most appropriate linear model of fixed effect, we tested which of the coefficients have random effect in the different groupings of the data. Then, we selected the group where the performance of the mixed effect model in terms of fit and prediction was the best possible. Finally, the predictive capacity of the adjusted models was verified through simulation and cross-validation processes. The results showed that the calibrated mixed model provides more reliable predictions than the fixed part. This benefit occurs even along the gradual decreases in the number of trees available to fit into separate set of test data for the calibration of the mixed model. It is possible to conclude that the calibrated model adjusted by stand, instead of the plot, provides little loss of precision.
5

Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina / Comparison of machine learning algorithms performance in predictive analyzes in public health and medicine

Santos, Hellen Geremias dos 28 September 2018 (has links)
Modelos preditivos estimam o risco de eventos ou agravos relacionados à saúde e podem ser utilizados como ferramenta auxiliar em tomadas de decisão por gestores e profissionais de saúde. Algoritmos de machine learning (ML), por sua vez, apresentam potencial para identificar relações complexas e não-lineares presentes nos dados, com consequências positivas na performance preditiva desses modelos. A presente pesquisa objetivou aplicar técnicas supervisionadas de ML e comparar sua performance em problemas de classificação e de regressão para predizer respostas de interesse para a saúde pública e a medicina. Os resultados e discussão estão organizados em três artigos científicos. O primeiro apresenta um tutorial para o uso de ML em pesquisas de saúde, utilizando como exemplo a predição do risco de óbito em até 5 anos (frequência do desfecho 15%; n=395) para idosos do estudo \"Saúde, Bem-estar e Envelhecimento\" (n=2.677), segundo variáveis relacionadas ao seu perfil demográfico, socioeconômico e de saúde. Na etapa de aprendizado, cinco algoritmos foram aplicados: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest, cujos hiperparâmetros foram otimizados por validação cruzada (VC) 10-fold. Todos os modelos apresentaram área abaixo da curva (AUC) ROC (Receiver Operating Characteristic) maior que 0,70. Para aqueles com maior AUC ROC (redes neurais e regressão logística com e sem penalização) medidas de qualidade da probabilidade predita foram avaliadas e evidenciaram baixa calibração. O segundo artigo objetivou predizer o risco de tempo de vida ajustado pela qualidade de vida de até 30 dias (frequência do desfecho 44,7%; n=347) em pacientes com câncer admitidos em Unidade de Terapia Intensiva (UTI) (n=777), mediante características obtidas na admissão do paciente à UTI. Seis algoritmos (regressão logística com e sem penalização, redes neurais, árvore simples, gradient boosted trees e random forest) foram utilizados em conjunto com VC aninhada para estimar hiperparâmetros e avaliar performance preditiva. Todos os algoritmos, exceto a árvore simples, apresentaram discriminação (AUC ROC > 0,80) e calibração satisfatórias. Para o terceiro artigo, características socioeconômicas e demográficas foram utilizadas para predizer a expectativa de vida ao nascer de municípios brasileiros com mais de 10.000 habitantes (n=3.052). Para o ajuste do modelo preditivo, empregou-se VC aninhada e o algoritmo Super Learner (SL), e para a avaliação de performance, o erro quadrático médio (EQM). O SL apresentou desempenho satisfatório (EQM=0,17) e seu vetor de valores preditos foi utilizado para a identificação de overachievers (municípios com expectativa de vida superior à predita) e underachievers (município com expectativa de vida inferior à predita), para os quais características de saúde foram comparadas, revelando melhor desempenho em indicadores de atenção primária para os overachievers e em indicadores de atenção secundária para os underachievers. Técnicas para a construção e avaliação de modelos preditivos estão em constante evolução e há poucas justificativas teóricas para se preferir um algoritmo em lugar de outro. Na presente tese, não foram observadas diferenças substanciais no desempenho preditivo dos algoritmos aplicados aos problemas de classificação e de regressão analisados. Espera-se que a maior disponibilidade de dados estimule a utilização de algoritmos de ML mais flexíveis em pesquisas de saúde futuras. / Predictive models estimate the risk of health-related events or injuries and can be used as an auxiliary tool in decision-making by public health officials and health care professionals. Machine learning (ML) algorithms have the potential to identify complex and non-linear relationships, with positive implications in the predictive performance of these models. The present research aimed to apply various ML supervised techniques and compare their performance in classification and regression problems to predict outcomes of interest to public health and medicine. Results and discussion are organized into three articles. The first, presents a tutorial for the use of ML in health research, using as an example the prediction of death up to 5 years (outcome frequency=15%; n=395) in elderly participants of the study \"Saúde, Bemestar e Envelhecimento\" (n=2,677), using variables related to demographic, socioeconomic and health characteristics. In the learning step, five algorithms were applied: logistic regression with and without regularization, neural networks, gradient boosted trees and random forest, whose hyperparameters were optimized by 10-fold cross-validation (CV). The area under receiver operating characteristic (AUROC) curve was greater than 0.70 for all models. For those with higher AUROC (neural networks and logistic regression with and without regularization), the quality of the predicted probability was evaluated and it showed low calibration. The second article aimed to predict the risk of quality-adjusted life up to 30 days (outcome frequency=44.7%; n=347) in oncologic patients admitted to the Intensive Care Unit (ICU) (n=777), using patients\' characteristics obtained at ICU admission. Six algorithms (logistic regression with and without regularization, neural networks, basic decision trees, gradient boosted trees and random forest) were used with nested CV to estimate hyperparameters values and to evaluate predictive performance. All algorithms, with exception of basic decision trees, presented acceptable discrimination (AUROC > 0.80) and calibration. For the third article, socioeconomic and demographic characteristics were used to predict the life expectancy at birth of Brazilian municipalities with more than 10,000 inhabitants (n=3,052). Nested CV and the Super Learner (SL) algorithm were used to adjust the predictive model, and for evaluating performance, the mean squared error (MSE). The SL showed good performance (MSE=0.17) and its vector of predicted values was used for the identification of underachievers and overachievers (i.e. municipalities showing worse and better outcome than predicted, respectively). Health characteristics were analyzed revealing that overachievers performed better on primary health care indicators, while underachievers fared better on secondary health care indicators. Techniques for constructing and evaluating predictive models are constantly evolving and there is scarce theoretical justification for preferring one algorithm over another. In this thesis no substantial differences were observed in the predictive performance of the algorithms applied to the classification and regression problems analyzed herein. It is expected that increase in data availability will encourage the use of more flexible ML algorithms in future health research.
6

Estudo de rastreamento precoce da doença renal na população de Palmas - TO: uma aplicação do Scored comparada aos métodos convencionais / Early screening of renal disease in the population of Palmas TO: an application of SCORED compared to conventional methods

Coutinho, Itágores Hoffman I I Lopes Sousa 21 October 2011 (has links)
Introdução: O impacto da doença renal na saúde é alto para os pacientes e para os serviços de saúde em todo o mundo, e a triagem para doença renal crônica (DRC) tem sido cada vez mais defendida. Estudos de base populacional referentes à prevalência da DRC na comunidade são limitados. Objetivos: Estudamos prospectivamente se a estratificação pelos valores do SCORED registrados poderá ser útil para identificar indivíduos que estão em alto risco de ter doença renal crônica em uma amostra da população geral e comparamos com os métodos de diagnósticos convencionais para DRC. Casuística e métodos: A freqüência de indivíduos com alto risco para a DRC foi determinada utilizando um estudo transversal de 873 indivíduos adultos em Palmas, Tocantins, Brasil. Os indivíduos entrevistados foram selecionados aleatoriamente através de um método estratificado por conglomerados. Idade, sexo e raça foram semelhantes à população urbana de Palmas. DRC foi definida através do ritmo de filtração glomerular estimado (RFGe) <60 ml/min/1.73 m2. Resultados: Um RFGe <60 ml/min/ 1.73 m2 estava presente em 46 (5,3%) dos participantes estudados. O risco de ter doença renal crônica foi maior em mulheres que em homens, e aumentou com a idade de 2,7% no grupo de 18-44 anos de idade para 19,0% naqueles com 65 anos de idade ou mais. As freqüências da DRC nos estágios 3, 4 e 5 foram de 4,8%, 0,5% e 0%, respectivamente. Os valores do SCORED incluíram 224 (25,7%) indivíduos com altos valores ( 4), e 649 (74,3%) indivíduos com baixos valores. Indivíduos com maiores valores na pontuação do SCORED tiveram um risco significativamente maior de ter doença renal crônica em comparação com aqueles que tinham menores valores pontuados (12,9% vs 2,6%, 2 = 35,58, p <0,001). A sensibilidade para prever DRC por esse modelo foi de 63% e a especificidade foi de 76%, o valor preditivo positivo foi de 13%, enquanto o valor preditivo negativo foi de 76%. Conclusão: Valores elevados do SCORED foram associados a um risco maior de ter doença renal crônica em uma amostra da população geral. Esta ferramenta simples de triagem foi uma ferramenta útil para identificar indivíduos de alto risco para DRC / Background and objective: The health burden of renal disease is high for patients and health services worldwide, and screening for chronic kidney disease (CKD) has been increasingly advocated. Population-based studies relating to the prevalence of CKD in the community are limited. We prospective studied whether stratification by SCORED values could be useful to identify subjects who are at high-risk for having CKD in a general population-based sampling. Design, participants & methods: The frequency of individuals at high-risk for CKD was determined using a cross-sectional study of 873 adult households in Palmas, Brazil, randomly selected using a stratified, cluster method. Age, gender, and race were similar to the entire Palmas´ urban population. Results: An estimated GFR <60 ml/min/1.73 m2 was present in 46 (5.3%) of participants studied, and the risk for having CKD was greater in women than in men, and it increased with age from 2.7% in the 18 to 44 yr age group to 19.0% in those 65 yr of age older. The frequencies of CKD Stage 3, 4 and 5 were 4.8%, 0.5% and 0%, respectively. SCORED values included 224 (25.7%) patients with high SCORED values (4), and 649 (74.3%) subjects with low SCORED values. Subjects with higher SCORED values were at a significantly higher risk of having CKD compared with those who had lower SCORED values (12.9% vs 2.6%, 2 = 35.58; p <0.001). The sensivity for predicting CKD by SCORED model was 63% and the specificity was 76%; the positive predictive value was 13%, whereas the negative predictive value was 76%. Conclusion: High SCORED values were associated with a higher risk for having CKD in a general population-based sampling. This simple screening tool was a useful tool to identify individuals at high-risk for CKD
7

Validação externa de modelos de predição de pneumonia pós cirurgia cardíaca / External validation of prediction models for pneumonia after cardiac surgery

Marisa da Silva Santos 06 April 2010 (has links)
Este trabalho versa sobre a validação externa de um modelo para predição de pneumonias em pacientes submetidos a cirurgias cardíacas. Também apresenta uma revisão dos métodos e técnicas para análise crítica e avaliação de desempenho dos modelos preditivos em medicina e discorre sobre aplicações do nomograma. Método: Dados de uma série de 527 pacientes, consecutivamente submetidos a cirurgias cardíacas entre Junho de 2000 e Agosto de 2002, foram utilizados para desenvolver os modelos de prognósticos. Foram realizadas análise de regressão logística múltipla e árvore de classificação e regressão (CART) para identificar fatores preditivos para a ocorrência de pneumonia. Diversos fatores de risco simples e convencionais pré-operatórios foram avaliados. Os modelos foram validados internamente com um método de bootstrap Um nomograma foi desenvolvido para melhorar a aplicabilidade clínica. O desempenho do nomograma foi avaliado por meio de medidas de calibração, discriminação e indicadores globais. Em uma segunda etapa estudo em um hospital público foi realizado com 333 pacientes adultos submetidos a cirurgias cardíacas entre Outubro de 2006 e Maio de 2007. Modelos construídos previamente por meio de regressão logística (LRM) e árvore de classificação e regressão (CART) foram validados com dados externos. Resultados: Um modelo de nomograma simples foi desenvolvido e validado internamente, mostrando discriminação moderada e boa calibração (AUC 0,79; escore Brier 0,064, ângulo de discriminação 0,13; Hosmer-Lemeshow p = 0,27). Pneumonia ocorreu em 7,6% dos pacientes da amostra de validação externa. LRM apresentou melhor desempenho com baixa discriminação (R2 7,1%, Brier=0,06, AUC=0,694) e com calibração adequada (Hosmer-Lemeshow p=0,08). Conclusões: As probabilidades preditas mostraram concordância global com a freqüência observada de pneumonia após cirurgia cardíaca. O nomograma forneceu uma predição satisfatória da probabilidade de pneumonia. Sua aplicabilidade para o uso clínico pode facilitar a informação do paciente e do cirurgião antes da cirurgia cardíaca. Foi validado externamente um modelo capaz de identificar pacientes de alto risco para pneumonia submetidos à cirurgias cardíacas. CART apresentou um bom desempenho na derivação e maiores perdas do que LRM, quanto à discriminação e calibração, na amostra de validação. / This study concerns the external validation of a prediction model for pneumonias after cardiac surgery. It also presents a review of methods and techniques for critical appraisal and performance assessment of clinical predictive models and nomogram applications. Methods: A consecutive series of 527 patients who underwent cardiac surgeries between June 2000 and August 2002 was used to develop a prognostic model.. Multiple logistic regression analysis was performed to predict the occurrence of pneumonia. Diverse simple and conventional preoperative risk factors were evaluated. The model was internal validated with bootstrap. A nomogram was developed to enhance clinical applicability. The performance was evaluated by calibration, discrimination and global measures. Prospective study was done to validate models predicting pneumonia after cardiac surgery with 333 adult patients who underwent cardiac surgery from October 2006 to May 2007. Previously constructed logistic regression (LRM) and classification and regression tree (CART) models were validated with external data. Results: a simple nomogram model was developed and showing low discrimination and good calibration (AUC 0.79, Brier score 0.064, discrimination slope 0.13, Hosmer-Lemeshow p=0.27). Pneumonia occurred in 7.5% of patients in the external validation set. LRM performed better with moderate discrimination (R2 7.1%, Brier=0.06, AROC=0.694) and calibration (Hosmer-Lemeshow P=0.08). Conclusions: Overall agreement between the predicted probabilities and observed frequencies was good in the development and the internal validation set. The nomogram predicts the probability of pneumonia for individual patients and may help in informing patients and surgeons before undergoing cardiac surgery. We validated a model that can identify which patients undergoing cardiac surgery are at high risk for pneumonia. CART performs well in derivation, and looses more discrimination and calibration than LRM in the validation set.
8

Validação externa de modelos de predição de pneumonia pós cirurgia cardíaca / External validation of prediction models for pneumonia after cardiac surgery

Marisa da Silva Santos 06 April 2010 (has links)
Este trabalho versa sobre a validação externa de um modelo para predição de pneumonias em pacientes submetidos a cirurgias cardíacas. Também apresenta uma revisão dos métodos e técnicas para análise crítica e avaliação de desempenho dos modelos preditivos em medicina e discorre sobre aplicações do nomograma. Método: Dados de uma série de 527 pacientes, consecutivamente submetidos a cirurgias cardíacas entre Junho de 2000 e Agosto de 2002, foram utilizados para desenvolver os modelos de prognósticos. Foram realizadas análise de regressão logística múltipla e árvore de classificação e regressão (CART) para identificar fatores preditivos para a ocorrência de pneumonia. Diversos fatores de risco simples e convencionais pré-operatórios foram avaliados. Os modelos foram validados internamente com um método de bootstrap Um nomograma foi desenvolvido para melhorar a aplicabilidade clínica. O desempenho do nomograma foi avaliado por meio de medidas de calibração, discriminação e indicadores globais. Em uma segunda etapa estudo em um hospital público foi realizado com 333 pacientes adultos submetidos a cirurgias cardíacas entre Outubro de 2006 e Maio de 2007. Modelos construídos previamente por meio de regressão logística (LRM) e árvore de classificação e regressão (CART) foram validados com dados externos. Resultados: Um modelo de nomograma simples foi desenvolvido e validado internamente, mostrando discriminação moderada e boa calibração (AUC 0,79; escore Brier 0,064, ângulo de discriminação 0,13; Hosmer-Lemeshow p = 0,27). Pneumonia ocorreu em 7,6% dos pacientes da amostra de validação externa. LRM apresentou melhor desempenho com baixa discriminação (R2 7,1%, Brier=0,06, AUC=0,694) e com calibração adequada (Hosmer-Lemeshow p=0,08). Conclusões: As probabilidades preditas mostraram concordância global com a freqüência observada de pneumonia após cirurgia cardíaca. O nomograma forneceu uma predição satisfatória da probabilidade de pneumonia. Sua aplicabilidade para o uso clínico pode facilitar a informação do paciente e do cirurgião antes da cirurgia cardíaca. Foi validado externamente um modelo capaz de identificar pacientes de alto risco para pneumonia submetidos à cirurgias cardíacas. CART apresentou um bom desempenho na derivação e maiores perdas do que LRM, quanto à discriminação e calibração, na amostra de validação. / This study concerns the external validation of a prediction model for pneumonias after cardiac surgery. It also presents a review of methods and techniques for critical appraisal and performance assessment of clinical predictive models and nomogram applications. Methods: A consecutive series of 527 patients who underwent cardiac surgeries between June 2000 and August 2002 was used to develop a prognostic model.. Multiple logistic regression analysis was performed to predict the occurrence of pneumonia. Diverse simple and conventional preoperative risk factors were evaluated. The model was internal validated with bootstrap. A nomogram was developed to enhance clinical applicability. The performance was evaluated by calibration, discrimination and global measures. Prospective study was done to validate models predicting pneumonia after cardiac surgery with 333 adult patients who underwent cardiac surgery from October 2006 to May 2007. Previously constructed logistic regression (LRM) and classification and regression tree (CART) models were validated with external data. Results: a simple nomogram model was developed and showing low discrimination and good calibration (AUC 0.79, Brier score 0.064, discrimination slope 0.13, Hosmer-Lemeshow p=0.27). Pneumonia occurred in 7.5% of patients in the external validation set. LRM performed better with moderate discrimination (R2 7.1%, Brier=0.06, AROC=0.694) and calibration (Hosmer-Lemeshow P=0.08). Conclusions: Overall agreement between the predicted probabilities and observed frequencies was good in the development and the internal validation set. The nomogram predicts the probability of pneumonia for individual patients and may help in informing patients and surgeons before undergoing cardiac surgery. We validated a model that can identify which patients undergoing cardiac surgery are at high risk for pneumonia. CART performs well in derivation, and looses more discrimination and calibration than LRM in the validation set.
9

Agrupamento de dados baseado em predições de modelos de regressão: desenvolvimentos e aplicações em sistemas de recomendação / Data clustering based on prediction regression models: developments and applications in recommender systems

André Luiz Vizine Pereira 12 May 2016 (has links)
Sistemas de Recomendação (SR) vêm se apresentando como poderosas ferramentas para portais web tais como sítios de comércio eletrônico. Para fazer suas recomendações, os SR se utilizam de fontes de dados variadas, as quais capturam as características dos usuários, dos itens e suas transações, bem como de modelos de predição. Dada a grande quantidade de dados envolvidos, é improvável que todas as recomendações possam ser bem representadas por um único modelo global de predição. Um outro importante aspecto a ser observado é o problema conhecido por cold-start, que apesar dos avanços na área de SR, é ainda uma questão relevante que merece uma maior atenção. O problema está relacionado com a falta de informação prévia sobre novos usuários ou novos itens do sistema. Esta tese apresenta uma abordagem híbrida de recomendação capaz de lidar com situações extremas de cold-start. A abordagem foi desenvolvida com base no algoritmo SCOAL (Simultaneous Co-Clustering and Learning). Na sua versão original, baseada em múltiplos modelos lineares de predição, o algoritmo SCOAL mostrou-se eficiente e versátil, podendo ser utilizado numa ampla gama de problemas de classificação e/ou regressão. Para melhorar o algoritmo SCOAL no sentido de deixá-lo mais versátil por meio do uso de modelos não lineares, esta tese apresenta uma variante do algoritmo SCOAL que utiliza modelos de predição baseados em Máquinas de Aprendizado Extremo. Além da capacidade de predição, um outro fator que deve ser levado em consideração no desenvolvimento de SR é a escalabilidade do sistema. Neste sentido, foi desenvolvida uma versão paralela do algoritmo SCOAL baseada em OpenMP, que minimiza o tempo envolvido no cálculo dos modelos de predição. Experimentos computacionais controlados, por meio de bases de dados amplamente usadas na prática, comprovam que todos os desenvolvimentos propostos tornam o SCOAL ainda mais atraente para aplicações práticas variadas. / Recommender Systems (RS) are powerful and popular tools for e-commerce. To build its recommendations, RS make use of multiple data sources, capture the characteristics of items, users and their transactions, and take advantage of prediction models. Given the large amount of data involved in the predictions made by RS, is unlikely that all predictions can be well represented by a single global model. Another important aspect to note is the problem known as cold-start that, despite that recent advances in the RS area, it is still a relevant issue that deserves further attention. The problem arises due to the lack of prior information about new users and new items. This thesis presents a hybrid recommendation approach that addresses the (pure) cold start problem, where no collaborative information (ratings) is available for new users. The approach is based on an existing algorithm, named SCOAL (Simultaneous Co-Clustering and Learning). In its original version, based on multiple linear prediction models, the SCOAL algorithm has shown to be efficient and versatile. In addition, it can be used in a wide range of problems of classification and / or regression. The SCOAL algorithm showed impressive results with the use of linear prediction models, but there is still room for improvements with nonlinear models. From this perspective, this thesis presents a variant of the SCOAL based on Extreme Learning Machines. Besides improving the accuracy, another important issue related to the development of RS is system scalability. In this sense, a parallel version of the SCOAL, based on OpenMP, was developed, aimed at minimizing the computational cost involved as prediction models are learned. Experiments using real-world datasets has shown that all proposed developments make SCOAL algorithm even more attractive for a variety of practical applications.
10

Dados hiperespectrais na determinação do conteúdo relativo de água na folha em cana-de-açúcar / Hyperspectral data to determine the relative water content in the sugarcane leaf

Magda Maria Zuleta Bonilla 23 July 2015 (has links)
A cadeia produtiva da cana-de-açúcar vem sofrendo problemas de diversas naturezas, sendo a mais comum a estiagem, agravada pelas mudanças climáticas que reduzem a disponibilidade de água no solo, afetando diretamente a produtividade da cultura. Uma grande proporção da cultura da cana-de-açúcar não é irrigada, sendo sujeita a alterações entre estações úmidas e secas em condições tropicais e subtropicais, mas quando é irrigada, tem-se observado um incremento significativo na produtividade da cultura. As necessidades hídricas da cultura devem ser atendidas, tanto, na quantidade requerida, quanto no momento oportuno. Para isto, devem ser quantificados parâmetros relacionados com o seu estado hídrico. No entanto, os métodos empregados convencionalmente são demorados, custosos e invasivos. Como alternativa que ajuda a reduzir tempo e custos, o sensoriamento remoto hiperespectral vem sendo utilizado para estimar o estado hídrico em diferentes escalas, uma vez que permite a captura de grande quantidade de informação rapidamente. Para o presente trabalho, o comportamento espectral da vegetação de 400 a 2500 nm, foi utilizado na quantificação de alguns parâmetros que estabelecem o seu estado hídrico. As avaliações tanto em casa de vegetação quanto em laboratório foram feitas em folhas de cana-de-açúcar submetidas a déficit hídrico programado. Para os dados de laboratório foram obtidos R2 > 0,8 na região do visível e R2 < 0,55, na região do infravermelho próximo para CRA (conteúdo relativo de água). Para EEA (espessura equivalente da água) foi obtido um R2 < 0,6 na região do infravermelho próximo. / The sugarcane agribusiness has been suffering several kinds of problems. The most common is the drought caused by the weather changes, which reduce the water availability in the soil, affecting directly the crop yield. A large proportion of the sugarcane crop is not irrigated undergoing changes between wet and dry seasons in tropical and subtropical conditions, but when it is irrigated, it has been possible to observe an increase in the crop yield. The crop water requirements must be provided, both at the required amount and at the right time. To do this, parameters related to its moisture status have to be quantized. However, conventional methods are slow, invasive and expensive. As an alternative to reduce time and costs, the hyperspectral remote sensing has been being used to estimate the water status at different scales, because it allows capturing big amounts of information quickly. In the present study, the spectral behavior of vegetation between 400 and 2500 nm was used to quantify some parameters that establish its water status. The evaluations were conducted both in the greenhouse and the laboratory on sugarcane leaves under programmed water deficit. The laboratory data obtained were R2> 0.8 in the visible region and R2 <0.55 in the near infrared region for the RWC (relative water content). For the EWT (equivalent water thickness) was obtained a R2 <0.6 in the near infrared region.

Page generated in 0.1456 seconds