Spelling suggestions: "subject:"predictive models"" "subject:"redictive models""
11 |
Aboveground biomass of Atlantic Forest: modeling and strategies for carbon estimate / Biomassa acima do solo da Mata Atlântica: modelagem e estratégias para a estimativa de carbonoColmanetti, Michel Anderson Almeida 23 May 2018 (has links)
The current concerning on potential effect of CO2 on climate change has assigned to the biomass of the tropical forest the importance as a sink of carbon. However, the heterogeneity of the natural ecosystems in tropics has significant implications for biomass estimation. This study proposed different biomass models using destructive sampling for the highly diverse Atlantic Forest. Models from two different approaches: generalized and species-specific were fitted and had the performance compared. Regarding the generalized models, it was proposed different covariates including diameter at breast height (dbh), height to the crown base, woody specific gravity (wsg) and functional plant traits. The species-specific models were fitted by linear mixed-models (LME) using species as a random effect and ordinary least square (OLS). The performance of all models and approaches were compared to existing models from the literature. Also, different estimates of biomass in stand- and forest-level, and the implications for carbon quantification were verified. Additionally, two methods for calibration for individual tree-level biomass model were proposed, and different strategies for tree selection were tested. The primary results show that the species-specific model using LME had better performance and can be used for the most abundant species, and models that include dbh, wsg, and plant traits are suitable for less abundant species. The calibration using the LME method in some cases can be used as an alternative for species that do not have a random effect presented here being a reasonable alternative for diverse tropical forests such as Atlantic Forest. / Devido à atual preocupação do potencial efeito do CO2 nas mudanças climáticas atribuiu-se à biomassa das florestas tropicais uma grande importância como reservatório de carbono. No entanto, a heterogeneidade dos ecossistemas naturais nos trópicos tem significativas implicações para a estimativa de sua biomassa. O presente estudo propõe diferentes modelos de biomassa utilizando amostragem destrutiva para Mata Atlântica, uma floresta altamente diversa. Duas abordagens de modelos: generalizados e espécies-específicos foram ajustados e o desempenho comparado. Em relação aos modelos generalizados, foram testadas diferentes covariáveis, utilizando o diâmetro à altura do peito (dbh; em inglês), a altura da base da copa, densidade básica da madeira (wsg; em inglês) e os \"functional plant traits\". Os modelos espécies-específicos foram ajustados por modelos mistos lineares (LME; em inglês) utilizando as espécies como efeito aleatório e pelos mínimos quadrados (OLS; em inglês). O desempenho dos diferentes modelos e abordagens foi comparado ao desempenho de modelos existentes da literatura. Também foram verificadas diferentes estimativas de biomassa em nível de estande e floresta, assim como as implicações para a quantificação de carbono. Ainda, foram testados dois métodos de calibração para o modelo de biomassa em nível de árvore individual, variando o número de árvores e estratégias para seleção de árvores. Com base nos resultados, o modelo espécies-específicos usando LME apresentou melhor desempenho, podendo ser uma alternativa para as espécies mais abundantes, enquanto o modelo generalizado que inclui dbh, wsg e \"functional plant traits\" mostraram-se adequados para espécies menos abundantes. A calibração usando o método LME em alguns casos pode ser usada como uma alternativa para espécies que não possuem equação específica, sendo uma alternativa razoável para florestas tropicais altamente diversas, como a Mata Atlântica.
|
12 |
Propriedades físicas de sistemas de interesse para a indústria de óleos e de produção de biodiesel: determinação de dados experimentais, modelagem e predição / Physical properties of concern systems to the oil and biodiesel production industry: determination of experimental data, modeling and predictionFlorido, Priscila Missano 14 September 2018 (has links)
O conhecimento de propriedades físicas de sistemas contendo compostos graxos e solventes é de grande relevância, pois essas informações são essenciais no projeto de tubulações e equipamentos, assim como na simulação e otimização de processos. A aquisição de dados em todas as condições de interesse não é viável e métodos para estimar estas propriedades são de grande importância prática. Esta tese de doutorado teve por objetivos a obtenção de dados das propriedades físicas de sistemas contendo compostos graxos; ajuste e obtenção de novos parâmetros do modelo UNIFAC-VISCO, além de realização de testes preditivos com outros modelos para fins de comparação; determinação indireta e correlação dos dados de volume molar de excesso e coeficiente de atividade na diluição infinita. Foram estudados 218 sistemas, totalizando 2404 pontos experimentais para densidade, 2404 dados de viscosidade, e 199 dados de tensão superficial. Além disso, foram obtidos dados indiretos de volume molar em excesso e coeficiente de atividade para sistemas constituídos por ésteres metílicos e acilglicerol parcial. A influência da temperatura e composição foi estudada, sendo que tanto a densidade quanto a viscosidade foram influenciadas pelos parâmetros citados. A estimativa de densidade utilizando regras de mistura apresentou desvio médio relativo (DMR) menor do que 1%, enquanto que a predição utilizando a versão adaptada do modelo GC-VOL resultou em DMR variando na faixa de 5% a 40%. Para a viscosidade, as regras de mistura proporcionaram desvios entre 0,6% a 204%, enquanto que o modelo UNIFAC-VISCO resultou em desvios em torno de 10% para predição. Para a tensão superficial, os parâmetros de um modelo baseado na Equação de Wilson foram ajustados, e a predição de sistemas multicomponentes resultou em desvios menores do que 7%. Uma equação para estimativa de composição residual foi estudada com base nos dados indiretos de volume molar em excesso e coeficiente de atividade na diluição infinita. / The knowledge of physical properties of systems formed by fatty compounds and solvents has great relevance because these information are essential for the design of equipments and optimization of processes. It is not feasible to gather an experimental database thus, prediction models become of great potential and practical value. The objective of this Ph.D. thesis was to form an experimental database of physical properties of fatty compounds systems; data adjust to obtain new parameters of the UNIFAC-VISCO model, besides performing predictive tests with other models for comparison purposes;and indirect determination and correlation of excess molar volume and activity coefficient at infinite dilution. 218 systems were studied, resulting in 2404 density data, 2404 viscosity data, and 199 surface tension data. In addition, indirect data of excess molar volume and activity coefficient were obtained for systems formed by methyl esters and partial acylglycerol. The influence of temperature and composition were studied, and both density and viscosity are influenced by the mentioned parameters. The density estimation by mixing rules resulted in average relative deviation (ARD) lower than 1%, while prediction using the GC-VOL model resulted in an ARD range of 5% - 40%. For viscosity, the mixing rules resulted in deviations from 0.6% to 204%, and the UNIFAC-VISCO model presented ARD around 10% for data prediction. For surface tension, the parameters of a Wilson\'s Equation based model were adjusted, and the prediction of multicomponent systems resulted in deviations lower than 7%. An equation for estimate the residual composition was studied based on indirect data of excess molar volume and coefficient of activity at infinite dilution.
|
13 |
Tools to help build models that predict student learningUpalekar, Ruta Sunil 02 May 2006 (has links)
Analyzing human learning and performance accurately is one of the main goals of an Intelligent Tutoring System. The“ASSISTment" system is a web-based system that blends assisting students and assessing their performance by providing feedback to the teachers. Good cognitive models are needed for an Intelligent Tutoring system to do a better job at predicting student performance. The ASSISTment system uses a method of cognitive modeling which is called a transfer model. A Transfer Model is a matrix that maps questions to skills. Other researchers have shown that transfer models help in building better predictive models that in-turn help in assessing a student's performance [1, 8]. They provide a viable means of representing a subject matter expert's view of which skills are needed to solve a given problem. However, the process of building a transfer model requires a lot of time. Reducing the time in which a transfer model is built would in turn help reduce the cost of building an Intelligent Tutoring System. Being able to build better transfer models will provide more efficient means of predicting learning in an intelligent tutoring system [6]. In this thesis we studied the creation of one transfer model that maps approximately the 263 released MCAS items to approximately 90 skills. Recently, [5] and [9], using two different modeling methodologies, have both concluded that this transfer model can be used to predict MCAS scores more accurately. Currently the time spent in creating and storing a model is estimated to be approximately 65 hours. This thesis was motivated by the need of a set of tools that would reduce the time spent in building a transfer model. The goal of this thesis was to create a tool that would speed up the process of building a transfer model. The efficiency of this tool is measured by an estimate of the overall time reduced for building a model. The average time reduced by using the tool on per question basis is also measured. The tool is not evaluated for its usability or for the ability to build better fitting transfer models.
|
14 |
Propriedades físicas de sistemas de interesse para a indústria de óleos e de produção de biodiesel: determinação de dados experimentais, modelagem e predição / Physical properties of concern systems to the oil and biodiesel production industry: determination of experimental data, modeling and predictionPriscila Missano Florido 14 September 2018 (has links)
O conhecimento de propriedades físicas de sistemas contendo compostos graxos e solventes é de grande relevância, pois essas informações são essenciais no projeto de tubulações e equipamentos, assim como na simulação e otimização de processos. A aquisição de dados em todas as condições de interesse não é viável e métodos para estimar estas propriedades são de grande importância prática. Esta tese de doutorado teve por objetivos a obtenção de dados das propriedades físicas de sistemas contendo compostos graxos; ajuste e obtenção de novos parâmetros do modelo UNIFAC-VISCO, além de realização de testes preditivos com outros modelos para fins de comparação; determinação indireta e correlação dos dados de volume molar de excesso e coeficiente de atividade na diluição infinita. Foram estudados 218 sistemas, totalizando 2404 pontos experimentais para densidade, 2404 dados de viscosidade, e 199 dados de tensão superficial. Além disso, foram obtidos dados indiretos de volume molar em excesso e coeficiente de atividade para sistemas constituídos por ésteres metílicos e acilglicerol parcial. A influência da temperatura e composição foi estudada, sendo que tanto a densidade quanto a viscosidade foram influenciadas pelos parâmetros citados. A estimativa de densidade utilizando regras de mistura apresentou desvio médio relativo (DMR) menor do que 1%, enquanto que a predição utilizando a versão adaptada do modelo GC-VOL resultou em DMR variando na faixa de 5% a 40%. Para a viscosidade, as regras de mistura proporcionaram desvios entre 0,6% a 204%, enquanto que o modelo UNIFAC-VISCO resultou em desvios em torno de 10% para predição. Para a tensão superficial, os parâmetros de um modelo baseado na Equação de Wilson foram ajustados, e a predição de sistemas multicomponentes resultou em desvios menores do que 7%. Uma equação para estimativa de composição residual foi estudada com base nos dados indiretos de volume molar em excesso e coeficiente de atividade na diluição infinita. / The knowledge of physical properties of systems formed by fatty compounds and solvents has great relevance because these information are essential for the design of equipments and optimization of processes. It is not feasible to gather an experimental database thus, prediction models become of great potential and practical value. The objective of this Ph.D. thesis was to form an experimental database of physical properties of fatty compounds systems; data adjust to obtain new parameters of the UNIFAC-VISCO model, besides performing predictive tests with other models for comparison purposes;and indirect determination and correlation of excess molar volume and activity coefficient at infinite dilution. 218 systems were studied, resulting in 2404 density data, 2404 viscosity data, and 199 surface tension data. In addition, indirect data of excess molar volume and activity coefficient were obtained for systems formed by methyl esters and partial acylglycerol. The influence of temperature and composition were studied, and both density and viscosity are influenced by the mentioned parameters. The density estimation by mixing rules resulted in average relative deviation (ARD) lower than 1%, while prediction using the GC-VOL model resulted in an ARD range of 5% - 40%. For viscosity, the mixing rules resulted in deviations from 0.6% to 204%, and the UNIFAC-VISCO model presented ARD around 10% for data prediction. For surface tension, the parameters of a Wilson\'s Equation based model were adjusted, and the prediction of multicomponent systems resulted in deviations lower than 7%. An equation for estimate the residual composition was studied based on indirect data of excess molar volume and coefficient of activity at infinite dilution.
|
15 |
Estratégias para tratamento de variáveis com dados faltantes durante o desenvolvimento de modelos preditivos / Strategies for treatment of variables with missing data during the development of predictive modelsFernando Assunção 09 May 2012 (has links)
Modelos preditivos têm sido cada vez mais utilizados pelo mercado a fim de auxiliarem as empresas na mitigação de riscos, expansão de carteiras, retenção de clientes, prevenção a fraudes, entre outros objetivos. Entretanto, durante o desenvolvimento destes modelos é comum existirem, dentre as variáveis preditivas, algumas que possuem dados não preenchidos (missings), sendo necessário assim adotar algum procedimento para tratamento destas variáveis. Dado este cenário, este estudo tem o objetivo de discutir metodologias de tratamento de dados faltantes em modelos preditivos, incentivando o uso de algumas delas já conhecidas pelo meio acadêmico, só que não utilizadas pelo mercado. Para isso, este trabalho descreve sete metodologias. Todas elas foram submetidas a uma aplicação empírica utilizando uma base de dados referente ao desenvolvimento de um modelo de Credit Score. Sobre esta base foram desenvolvidos sete modelos (um para cada metodologia descrita) e seus resultados foram avaliados e comparados através de índices de desempenho amplamente utilizados pelo mercado (KS, Gini, ROC e Curva de Aprovação). Nesta aplicação, as técnicas que apresentaram melhor desempenho foram a que tratam os dados faltantes como uma categoria à parte (técnica já utilizada pelo mercado) e a metodologia que consiste em agrupar os dados faltantes na categoria conceitualmente mais semelhante. Já a que apresentou o pior desempenho foi a metodologia que simplesmente não utiliza a variável com dados faltantes, outro procedimento comumente visto no mercado. / Predictive models have been increasingly used by the market in order to assist companies in risk mitigation, portfolio growth, customer retention, fraud prevention, among others. During the model development, however, it is usual to have, among the predictive variables, some who have data not filled in (missing values), thus it is necessary to adopt a procedure to treat these variables. Given this scenario, the aim of this study is to discuss frameworks to deal with missing data in predictive models, encouraging the use of some already known by academia that are still not used by the market. This paper describes seven methods, which were submitted to an empirical application using a Credit Score data set. Each framework described resulted in a predictive model developed and the results were evaluated and compared through a series of widely used performance metrics (KS, Gini, ROC curve, Approval curve). In this application, the frameworks that presented better performance were the ones that treated missing data as a separate category (technique already used by the market) and the framework which consists of grouping the missing data in the category most similar conceptually. The worst performance framework otherwise was the one that simply ignored the variable containing missing values, another procedure commonly used by the market.
|
16 |
Modelos preditivos de conforto térmico: quantificação de relações entre variáveis microclimáticas e de sensação térmica para avaliação e projeto de espaços abertos / Thermal comfort predictive models: quantification of relationships between microclimatic and thermal sensation variables for outdoor spaces assessment and designLeonardo Marques Monteiro 22 August 2008 (has links)
O objeto desta pesquisa é a relação entre as variáveis microclimáticas urbanas e as de sensação térmica. Parte-se da hipótese de que a predição de conforto térmico em espaços abertos requer modelos com calibração e validação específicas para dada população adaptada a determinadas condições climáticas. O objetivo é propor um método para quantificar as correlações entre variáveis microclimáticas urbanas (temperatura, umidade e velocidade do ar e radiação térmica) e variáveis subjetivas (percepção e preferência de sensações térmicas), mediadas por variáveis individuais (vestimentas e atividade física), possibilitando a predição do grau de adequação térmica de espaços abertos para uma população adaptada às condições climáticas em que se encontra (no caso específico, na cidade de São Paulo). O método utilizado é indutivo experimental (levantamento em campo de variáveis microclimáticas, individuais e subjetivas) apoiado por método dedutivo computacional comparativo (simulação preditiva). Os resultados do estudo experimental e computacional comparativo fornecem subsídio para duas proposições: (a) calibração de índices interpretativos para modelos existentes, por meio de método iterativo; (b) proposição de nova modelagem preditiva, por meio de método numérico apoiado por método analítico. Os produtos finais da pesquisa são: (I) procedimento para quantificação empírica de variáveis, (II) quadro comparativo de modelos, (III) calibração de modelos para o caso em estudo, (IV) método de calibração de modelos para outros casos, (V) novo modelo preditivo para o caso em estudo, (VI) método de modelagem preditiva para aplicação em outros casos, (VII) análise e síntese crítica do caso em estudo e dos metódos desenvolvidos. / The subject of this research is the relationship between urban microclimatic and thermal sensation variables. The hypothesis is that outdoor thermal comfort prediction requires modeling with specific calibration and validation to a given population adapted to certain climatic conditions. The objective is to propose a method to quantify the correlations between urban microclimatic variables (temperature, humidity, air velocity and thermal radiation) and subjective variables (thermal sensation perception and preference), mediated by means of individual variables (clothing insulation and metabolic rate), allowing the prediction of the outdoor thermal environment adequacy to a population adapted to a given climatic condition (in the specific case, the city of Sao Paulo). The method used is experimental inductive (field research of microclimatic, individual and subjective variables) supported by comparative computational deductive (predictive simulation). The field research and predictive simulation results allow twos propositions: (a) interpretative indexes calibration for predictive models, by means of iterative method; (b) proposition of a new predictive model, by means of numeric and analytic methods. The research final products are: (I) procedure for empirical estimation of microclimatic, individual and subjective variables (II) comparative chart of predictive models, (III) models calibration for the case in study, (IV) calibration method to be applied in other cases, (V) new predictive model based on the case in study, (VI) predictive modeling method to be applied in other cases, (VII) critical analysis and synthesis of the case in study and the developed methods.
|
17 |
Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina / Comparison of machine learning algorithms performance in predictive analyzes in public health and medicineHellen Geremias dos Santos 28 September 2018 (has links)
Modelos preditivos estimam o risco de eventos ou agravos relacionados à saúde e podem ser utilizados como ferramenta auxiliar em tomadas de decisão por gestores e profissionais de saúde. Algoritmos de machine learning (ML), por sua vez, apresentam potencial para identificar relações complexas e não-lineares presentes nos dados, com consequências positivas na performance preditiva desses modelos. A presente pesquisa objetivou aplicar técnicas supervisionadas de ML e comparar sua performance em problemas de classificação e de regressão para predizer respostas de interesse para a saúde pública e a medicina. Os resultados e discussão estão organizados em três artigos científicos. O primeiro apresenta um tutorial para o uso de ML em pesquisas de saúde, utilizando como exemplo a predição do risco de óbito em até 5 anos (frequência do desfecho 15%; n=395) para idosos do estudo \"Saúde, Bem-estar e Envelhecimento\" (n=2.677), segundo variáveis relacionadas ao seu perfil demográfico, socioeconômico e de saúde. Na etapa de aprendizado, cinco algoritmos foram aplicados: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest, cujos hiperparâmetros foram otimizados por validação cruzada (VC) 10-fold. Todos os modelos apresentaram área abaixo da curva (AUC) ROC (Receiver Operating Characteristic) maior que 0,70. Para aqueles com maior AUC ROC (redes neurais e regressão logística com e sem penalização) medidas de qualidade da probabilidade predita foram avaliadas e evidenciaram baixa calibração. O segundo artigo objetivou predizer o risco de tempo de vida ajustado pela qualidade de vida de até 30 dias (frequência do desfecho 44,7%; n=347) em pacientes com câncer admitidos em Unidade de Terapia Intensiva (UTI) (n=777), mediante características obtidas na admissão do paciente à UTI. Seis algoritmos (regressão logística com e sem penalização, redes neurais, árvore simples, gradient boosted trees e random forest) foram utilizados em conjunto com VC aninhada para estimar hiperparâmetros e avaliar performance preditiva. Todos os algoritmos, exceto a árvore simples, apresentaram discriminação (AUC ROC > 0,80) e calibração satisfatórias. Para o terceiro artigo, características socioeconômicas e demográficas foram utilizadas para predizer a expectativa de vida ao nascer de municípios brasileiros com mais de 10.000 habitantes (n=3.052). Para o ajuste do modelo preditivo, empregou-se VC aninhada e o algoritmo Super Learner (SL), e para a avaliação de performance, o erro quadrático médio (EQM). O SL apresentou desempenho satisfatório (EQM=0,17) e seu vetor de valores preditos foi utilizado para a identificação de overachievers (municípios com expectativa de vida superior à predita) e underachievers (município com expectativa de vida inferior à predita), para os quais características de saúde foram comparadas, revelando melhor desempenho em indicadores de atenção primária para os overachievers e em indicadores de atenção secundária para os underachievers. Técnicas para a construção e avaliação de modelos preditivos estão em constante evolução e há poucas justificativas teóricas para se preferir um algoritmo em lugar de outro. Na presente tese, não foram observadas diferenças substanciais no desempenho preditivo dos algoritmos aplicados aos problemas de classificação e de regressão analisados. Espera-se que a maior disponibilidade de dados estimule a utilização de algoritmos de ML mais flexíveis em pesquisas de saúde futuras. / Predictive models estimate the risk of health-related events or injuries and can be used as an auxiliary tool in decision-making by public health officials and health care professionals. Machine learning (ML) algorithms have the potential to identify complex and non-linear relationships, with positive implications in the predictive performance of these models. The present research aimed to apply various ML supervised techniques and compare their performance in classification and regression problems to predict outcomes of interest to public health and medicine. Results and discussion are organized into three articles. The first, presents a tutorial for the use of ML in health research, using as an example the prediction of death up to 5 years (outcome frequency=15%; n=395) in elderly participants of the study \"Saúde, Bemestar e Envelhecimento\" (n=2,677), using variables related to demographic, socioeconomic and health characteristics. In the learning step, five algorithms were applied: logistic regression with and without regularization, neural networks, gradient boosted trees and random forest, whose hyperparameters were optimized by 10-fold cross-validation (CV). The area under receiver operating characteristic (AUROC) curve was greater than 0.70 for all models. For those with higher AUROC (neural networks and logistic regression with and without regularization), the quality of the predicted probability was evaluated and it showed low calibration. The second article aimed to predict the risk of quality-adjusted life up to 30 days (outcome frequency=44.7%; n=347) in oncologic patients admitted to the Intensive Care Unit (ICU) (n=777), using patients\' characteristics obtained at ICU admission. Six algorithms (logistic regression with and without regularization, neural networks, basic decision trees, gradient boosted trees and random forest) were used with nested CV to estimate hyperparameters values and to evaluate predictive performance. All algorithms, with exception of basic decision trees, presented acceptable discrimination (AUROC > 0.80) and calibration. For the third article, socioeconomic and demographic characteristics were used to predict the life expectancy at birth of Brazilian municipalities with more than 10,000 inhabitants (n=3,052). Nested CV and the Super Learner (SL) algorithm were used to adjust the predictive model, and for evaluating performance, the mean squared error (MSE). The SL showed good performance (MSE=0.17) and its vector of predicted values was used for the identification of underachievers and overachievers (i.e. municipalities showing worse and better outcome than predicted, respectively). Health characteristics were analyzed revealing that overachievers performed better on primary health care indicators, while underachievers fared better on secondary health care indicators. Techniques for constructing and evaluating predictive models are constantly evolving and there is scarce theoretical justification for preferring one algorithm over another. In this thesis no substantial differences were observed in the predictive performance of the algorithms applied to the classification and regression problems analyzed herein. It is expected that increase in data availability will encourage the use of more flexible ML algorithms in future health research.
|
18 |
Modèles prédictifs utilisant des données moléculaires de haute dimension pour une médecine de précision en oncologie / Predictive models using high dimensional molecular data for precision medicine in oncologyFerte, Charles 17 December 2013 (has links)
Le niveau médiocre des taux de réponses et des améliorations de survie lorsque des stratégies conventionnelles sont appliquées souligne la nécessité de développer des outils prédictifs performants, robustes et applicables en clinique. La démocratisation des technologies d’analyses à haut-débit est le substrat de la médecine de précision permettant le développement de modèles prédictifs capables d’orienter les stratégies thérapeutiques et la définition d’une nouvelle taxonomie des cancers par l’intégration de données moléculaires de haute dimension. A travers cette thèse, nous avons d’abord analysé des données publiques d’expression génique de cancer bronchique non à petites cellules dans le but de prédire la probabilité de survie à trois ans. Le fort pouvoir prédictif de la TNM seule et la faible taille des cohortes de validation ont malheureusement limité la possibilité de traduire nos résultats en clinique. Nous avons ensuite développé un prédicteur du phénotype « KRAS muté » spécifique du cancer colorectal, permettant d’identifier de nouveaux traits moléculaires responsables de ce phénotype et d’améliorer la prédiction de la réponse au cetuximab chez les patients KRAS sauvage. Enfin, nous avons combiné les données moléculaires des panels de lignées cellulaires CCLE et Sanger avec les données des cohortes du TCGA pour produire des prédicteurs performants de la sensibilité aux drogues. Ces modèles sont concordants avec des screens produits par interférence RNA et permettent d’expliquer la réponse extrême de patients sectionnés dans le programme de screening moléculaire MOSCATO.Les défis spécifiques posés par les données moléculaires de haute dimension dans le développement d’outils prédictifs applicables en clinique sont discutés dans cette thèse. / The mediocre level of the rates of answers and the improvements of survival when conventional strategies are applied underlines the necessity of developing successful, strong and applicable predictive tools in private hospital. The democratization of the technologies of analyses with top-debit(-flow) is the substratum of the medicine of precision allowing the development of predictive models capable of directing the therapeutic strategies and the definition of a new taxonomy of cancers by the integration of molecular data of high dimension(size).Through this thesis(theory), we analyzed at first public data of genic expression of bronchial cancer not in small cells(units) with the aim of predicting the probability of survival in three years. The strong predictive power of the only TNM and
|
19 |
An Analysis of Boosted Regression Trees to Predict the Strength Properties of Wood CompositesCarty, Dillon Matthew 01 August 2011 (has links)
The forest products industry is a significant contributor to the U.S. economy contributing six percent of the total U.S. manufacturing gross domestic product (GDP), placing it on par with the U.S. automotive and plastics industries. Sustaining business competitiveness by reducing costs and maintaining product quality will be essential in the long term for this industry. Improved production efficiency and business competitiveness is the primary rationale for this work. A challenge facing this industry is to develop better knowledge of the complex nature of process variables and their relationship with final product quality attributes. Quantifying better the relationships between process variables (e.g., press temperature) and final product quality attributes plus predicting the strength properties of final products are the goals of this study. Destructive lab tests are taken at one to two hour intervals to estimate internal bond (IB) tensile strength and modulus of rupture (MOR) strength properties. Significant amounts of production occur between destructive test samples.
In the absence of a real-time model that predicts strength properties, operators may run higher than necessary feedstock input targets (e.g., weight, resin, etc.). Improved prediction of strength properties using boosted regression tree (BRT) models may reduce the costs associated with rework (i.e., remanufactured panels due to poor strength properties), reduce feedstocks costs (e.g., resin and wood), reduce energy usage, and improve wood utilization from the valuable forest resource.
Real-time, temporal process data sets were obtained from a U.S. particleboard manufacturer. In this thesis, BRT models were developed to predict the continuous response variables MOR and IB from a pool of possible continuous predictor variables. BRT model comparisons were done using the root mean squared error for prediction (RMSEP) and the RMSEP relative to the mean of the response variable as a percent (RMSEP%) for the validation data set(s). Overall, for MOR, RMSEP values ranged from 0.99 to 1.443 MPa, and RMSEP% values ranged from 7.9% to 11.6%. Overall, for IB, RMSEP values ranged from 0.074 to 0.108 MPa, and RMSEP% values ranged from 12.7% to 18.6%.
|
20 |
Analysis of Healthcare Coverage Using Data Mining TechniquesTekieh, Mohammad Hossein 12 January 2012 (has links)
This study explores healthcare coverage disparity using a quantitative analysis on a large dataset from the United States. One of the objectives is to build supervised models including decision tree and neural network to study the efficient factors in healthcare coverage. We also discover groups of people with health coverage problems and inconsistencies by employing unsupervised modeling including K-Means clustering algorithm.
Our modeling is based on the dataset retrieved from Medical Expenditure Panel Survey with 98,175 records in the original dataset. After pre-processing the data, including binning, cleaning, dealing with missing values, and balancing, it contains 26,932 records and 23 variables. We build 50 classification models in IBM SPSS Modeler employing decision tree and neural networks. The accuracy of the models varies between 76% and 81%. The models can predict the healthcare coverage for a new sample based on its significant attributes. We demonstrate that the decision tree models provide higher accuracy that the models based on neural networks. Also, having extensively analyzed the results, we discover the most efficient factors in healthcare coverage to be: access to care, age, poverty level of family, and race/ethnicity.
|
Page generated in 0.0837 seconds