Global ETD Search

81	Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina / Comparison of machine learning algorithms performance in predictive analyzes in public health and medicine Santos, Hellen Geremias dos 28 September 2018 (has links) Modelos preditivos estimam o risco de eventos ou agravos relacionados à saúde e podem ser utilizados como ferramenta auxiliar em tomadas de decisão por gestores e profissionais de saúde. Algoritmos de machine learning (ML), por sua vez, apresentam potencial para identificar relações complexas e não-lineares presentes nos dados, com consequências positivas na performance preditiva desses modelos. A presente pesquisa objetivou aplicar técnicas supervisionadas de ML e comparar sua performance em problemas de classificação e de regressão para predizer respostas de interesse para a saúde pública e a medicina. Os resultados e discussão estão organizados em três artigos científicos. O primeiro apresenta um tutorial para o uso de ML em pesquisas de saúde, utilizando como exemplo a predição do risco de óbito em até 5 anos (frequência do desfecho 15%; n=395) para idosos do estudo \"Saúde, Bem-estar e Envelhecimento\" (n=2.677), segundo variáveis relacionadas ao seu perfil demográfico, socioeconômico e de saúde. Na etapa de aprendizado, cinco algoritmos foram aplicados: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest, cujos hiperparâmetros foram otimizados por validação cruzada (VC) 10-fold. Todos os modelos apresentaram área abaixo da curva (AUC) ROC (Receiver Operating Characteristic) maior que 0,70. Para aqueles com maior AUC ROC (redes neurais e regressão logística com e sem penalização) medidas de qualidade da probabilidade predita foram avaliadas e evidenciaram baixa calibração. O segundo artigo objetivou predizer o risco de tempo de vida ajustado pela qualidade de vida de até 30 dias (frequência do desfecho 44,7%; n=347) em pacientes com câncer admitidos em Unidade de Terapia Intensiva (UTI) (n=777), mediante características obtidas na admissão do paciente à UTI. Seis algoritmos (regressão logística com e sem penalização, redes neurais, árvore simples, gradient boosted trees e random forest) foram utilizados em conjunto com VC aninhada para estimar hiperparâmetros e avaliar performance preditiva. Todos os algoritmos, exceto a árvore simples, apresentaram discriminação (AUC ROC > 0,80) e calibração satisfatórias. Para o terceiro artigo, características socioeconômicas e demográficas foram utilizadas para predizer a expectativa de vida ao nascer de municípios brasileiros com mais de 10.000 habitantes (n=3.052). Para o ajuste do modelo preditivo, empregou-se VC aninhada e o algoritmo Super Learner (SL), e para a avaliação de performance, o erro quadrático médio (EQM). O SL apresentou desempenho satisfatório (EQM=0,17) e seu vetor de valores preditos foi utilizado para a identificação de overachievers (municípios com expectativa de vida superior à predita) e underachievers (município com expectativa de vida inferior à predita), para os quais características de saúde foram comparadas, revelando melhor desempenho em indicadores de atenção primária para os overachievers e em indicadores de atenção secundária para os underachievers. Técnicas para a construção e avaliação de modelos preditivos estão em constante evolução e há poucas justificativas teóricas para se preferir um algoritmo em lugar de outro. Na presente tese, não foram observadas diferenças substanciais no desempenho preditivo dos algoritmos aplicados aos problemas de classificação e de regressão analisados. Espera-se que a maior disponibilidade de dados estimule a utilização de algoritmos de ML mais flexíveis em pesquisas de saúde futuras. / Predictive models estimate the risk of health-related events or injuries and can be used as an auxiliary tool in decision-making by public health officials and health care professionals. Machine learning (ML) algorithms have the potential to identify complex and non-linear relationships, with positive implications in the predictive performance of these models. The present research aimed to apply various ML supervised techniques and compare their performance in classification and regression problems to predict outcomes of interest to public health and medicine. Results and discussion are organized into three articles. The first, presents a tutorial for the use of ML in health research, using as an example the prediction of death up to 5 years (outcome frequency=15%; n=395) in elderly participants of the study \"Saúde, Bemestar e Envelhecimento\" (n=2,677), using variables related to demographic, socioeconomic and health characteristics. In the learning step, five algorithms were applied: logistic regression with and without regularization, neural networks, gradient boosted trees and random forest, whose hyperparameters were optimized by 10-fold cross-validation (CV). The area under receiver operating characteristic (AUROC) curve was greater than 0.70 for all models. For those with higher AUROC (neural networks and logistic regression with and without regularization), the quality of the predicted probability was evaluated and it showed low calibration. The second article aimed to predict the risk of quality-adjusted life up to 30 days (outcome frequency=44.7%; n=347) in oncologic patients admitted to the Intensive Care Unit (ICU) (n=777), using patients\' characteristics obtained at ICU admission. Six algorithms (logistic regression with and without regularization, neural networks, basic decision trees, gradient boosted trees and random forest) were used with nested CV to estimate hyperparameters values and to evaluate predictive performance. All algorithms, with exception of basic decision trees, presented acceptable discrimination (AUROC > 0.80) and calibration. For the third article, socioeconomic and demographic characteristics were used to predict the life expectancy at birth of Brazilian municipalities with more than 10,000 inhabitants (n=3,052). Nested CV and the Super Learner (SL) algorithm were used to adjust the predictive model, and for evaluating performance, the mean squared error (MSE). The SL showed good performance (MSE=0.17) and its vector of predicted values was used for the identification of underachievers and overachievers (i.e. municipalities showing worse and better outcome than predicted, respectively). Health characteristics were analyzed revealing that overachievers performed better on primary health care indicators, while underachievers fared better on secondary health care indicators. Techniques for constructing and evaluating predictive models are constantly evolving and there is scarce theoretical justification for preferring one algorithm over another. In this thesis no substantial differences were observed in the predictive performance of the algorithms applied to the classification and regression problems analyzed herein. It is expected that increase in data availability will encourage the use of more flexible ML algorithms in future health research. Expectativa de Vida Life Expectancy Modelos de Predição Mortalidade Mortality Predictive Models Prognostic Prognóstico Qualidade de Vida Quality of Life
82	Avaliação do desempenho de modelos preditivos no contexto de análise de sobrevivência / Evaluation of predictive models in survival analysis. Santos, Tiago Mendonça dos 17 May 2013 (has links) Modelos estatísticos com objetivos preditivos são frequentemente aplicados como ferramentas no processo de tomadas de decisão em diversas áreas. Uma classe importante de modelos estatísticos é composta por modelos de análise de sobrevivência. Duas quantidades são de interesse nessa classe: o tempo até o instante do evento de interesse ou o status para um determinado instante de tempo fixado. Aplicações importantes desses modelos incluem a identificação de novos marcadores para certas doenças e definição de qual terapia será mais adequada de acordo com o paciente. Os marcadores utilizados podem ser dados por biomarcadores, assim como por marcadores baseados em modelos de regressão. Um exemplo de marcador baseado em modelos de regressão é dado pelo preditor linear. Ainda que a utilização de modelos de sobrevivência com objetivos preditivos seja de suma importância, a literatura nesse assunto é muito esparsa e não há consenso na forma de se avaliar o desempenho preditivo desses. Esse trabalho pretende reunir e comparar diferentes abordagens de se avaliar o desempenho preditivo de modelos de sobrevivência. Essa avaliação é feita principalmente utilizando-se funções de perda para o tempo de sobrevivência e quantidades associadas a diferentes definições de curva ROC para o status. Para a comparação dessas diferentes metodologias foi feito um estudo de simulação e no final aplicou-se essas técnicas em um conjunto de dados de um estudo do Instituto do Câncer de São Paulo. / In many fields, predictive models are often applied as a helpful tool in the decision making process. An important class of predictive models is composed by survival models. Two quantities of special interest in these class are: time until the occurrence of a specified event and survival status for a fixed moment of time. Important applications of these models include new markers identification for certain diseases, as well as defining which therapy is the most appropriated for a patient. Markers can be given by biomarkers, but they can also be derived from regression models. An example of regression models based markers is the linear predictor. Despite the importance of survival models applications with predictive goals, literature is this subject is very sparse and there is no agreement on the best methodology to evaluate predictive performance of these models. In this work we intend to assemble and to compare different methodologies for assessing the predictive performance of survival models. This assessment is made mainly with loss functions for the survival time and ROC curve associated quantities for status. An simulation study was done in order to compare these different methodologies, which were also applied to a study about survival of patients at ICU of ICESP (Instituto do Câncer de São Paulo) análise de sobrevivência curva ROC IPCW IPCW predição prediction ROC curve survival analysis
83	Métodos de predição para modelo logístico misto com k efeitos aleatórios / Prediction methods for mixed logistic regression with k random effects Tamura, Karin Ayumi 17 December 2012 (has links) A predição de uma observação futura para modelos mistos é um problema que tem sido extensivamente estudado. Este trabalho trata o problema de atribuir valores para os efeitos aleatórios e/ou variável resposta de novos grupos para o modelo logístico misto, cujo objetivo é predizer respostas futuras com base em parâmetros estimados previamente. Na literatura, existem alguns métodos de predição para este modelo que considera apenas o intercepto aleatório. Para a regressão logística mista com k efeitos aleatórios, atualmente não há métodos propostos para a predição dos efeitos aleatórios de novos grupos. Portanto, foram propostas novas abordagens baseadas no método da média zero, no melhor preditor empírico (MPE), na regressão linear e nos modelos de regressão não-paramétricos. Todos os métodos de predição foram avaliados usando os seguintes métodos de estimação: aproximação de Laplace, quadratura adaptativa de Gauss-Hermite e quase-verossimilhança penalizada. Os métodos de estimação e predição foram analisados por meio de estudos de simulação, com base em sete cenários, com comparações de diferentes valores para: o tamanho de grupo, os desvios-padrão dos efeitos aleatórios, a correlação entre os efeitos aleatórios, e o efeito fixo. Os métodos de predição foram aplicados em dois conjuntos de dados reais. Em ambos os problemas os conjuntos de dados apresentaram estrutura hierárquica, cujo objetivo foi predizer a resposta para novos grupos. Os resultados indicaram que o método MPE apresentou o melhor desempenho em termos de predição, entretanto, apresentou alto custo computacional para grandes bancos de dados. As demais metodologias apresentaram níveis de predição semelhantes ao MPE, e reduziram drasticamente o esforço computacional. / The prediction of a future observation in a mixed regression is a problem that has been extensively studied. This work treat the problem of assigning the random effects and/or the outcome of new groups for the mixed logistic regression, in which the aim is to predict future outcomes based on the parameters previously estimated. In the literature, there are some prediction methods for this model that considers only the random intercept. For the mixed logistic regression with k random effects, there is currently no method for predicting the random effects of new groups. Therefore, we proposed new approaches based on average zero method, empirical best predictor (EBP), linear regression and nonparametric regression models. All prediction methods were evaluated by using the estimation methods: Laplace approximation, adaptive Gauss-Hermite quadrature and penalized quasi-likelihood. The estimation and prediction methods were analyzed by simulation studies, based on seven simulation scenarios, which considered comparisons of different values for: the group size, the standard deviations of the random effects, the correlation between the random effects, and the fixed effect. The prediction methods were applied in two real data sets. In both problems the data set presented hierarchical structure, and the objective was to predict the outcome for new groups. The results indicated that EBP presented the best performance in prediction terms, however it has been presented high computational cost for big data sets. The other methodologies presented similar level of prediction in relation to EBP, and drastically reduced the computational effort. efeitos aleatórios mixed logistic model modelo logístico misto predição prediction random effects
84	Crop prediction and soil response to sugarcane straw removal / Predição da produção e resposta do solo à remoção de palha de cana de açúcar Satiro, Lucas Santos 19 January 2018 (has links) Concerns about global warming and climate change have triggered a growing demand for renewable energy. In this scenario, the interest in using sugarcane straw as raw material for energy production has increased. However, straw plays an important role in maintaining soil quality. In addition, uncertainties as to produced straw amount and the straw removal impact on the stalk yield have raised doubts as to the use this raw material. In this sense, the objective this study was evaluate the short-term (2-year) the sugarcane straw removal impacts on soil and yield modeling of sugarcane stalk and straw, using soil attributes of different layers. Two experiments were carried out in São Paulo state, Brazil: one at Capivari (sandy clay loam soil) and another at Valparaíso (sandy loam soil). We have tested five rates of straw removal (i.e., equivalent to 0, 25, 50, 75 and 100 %). Soil samples were taken from 0-2.5, 2.5-5, 5-10, 10-20 and 20-30 cm layers to analyze pH, total C and N, P, K, Ca, Mg, bulk density and soil penetration resistance. Plant samples were collected to determine the straw and stalk yield. The impacts caused by straw removal differed between the areas, however, they concentrated on the more soil superficial layer. In sandy clay loam soil, straw removal led to organic carbon depletion and soil compaction, while in the sandy loam soil the chemical attributes (i.e. Ca and Mg contents) were the most impacted. In general, the results suggest that straw removal causes reduction more significant in soil quality for the sandy clay loam soil. The results indicate the possibility to remove about half-straw amount deposited on soil\'s surface (8.7 Mg ha-1 straw remaining) without causing severe implications on the quality of this soil. In contrast, although any amount of straw was sufficient to cause alterations the quality of the sandy loam soil, these impacts were less intense and are not magnified with the increase of straw removal. It was possible to model sugarcane straw and stalk yield using soil attributes. The 0-20 cm layer was the most important layer in the stalk yield definition, whereas the 0-5 cm layer, which the impacts caused by the straw removal were concentrated, was less important. Thus, we noticed that impacts caused to soil by straw removal have little influence on crop productivity. Straw prediction has proved more complex and possibly requires additional information (e.g crop and climate information) for good results to be obtained. Overall, the results suggest that the planned removal of straw for energy purposes can occur in a sustainable way, but should take into account site conditions, e.g soil properties. However, long-term research with different approaches is still necessary, both to follow up and confirm our results, and to develop ways to reduce damage caused by this activity. / Preocupações acerca do aquecimento global e mudanças climáticas tem provocado uma crescente demanda por energias renováveis. Nesse cenário, tem aumentado o interesse em utilizar a palha de cana-de-açúcar como matéria prima para produção de energia. Contudo, a palha desempenha importante papel na manutenção da qualidade do solo. Aliado a isso, incertezas quanto a quantidade de palha produzida e o impacto da remoção da palha na produção de colmos tem levantado duvidas quanto ao uso dessa matéria prima. Nesse sentido, o objetivo desse estudo foi avaliar a curto prazo (2 anos) os impactos da remoção da palha de cana-de-açucar no solo, e modelar a produção de palha e colmo de cana-de-açucar utilizando atributos do solo de diferentes camadas. Para tanto, foram conduzidos dois experimentos nos municípios de Capivari (solo de textura média) e Valparaíso (solo de textura arenosa), estado de São Paulo, Brasil. Foram testados cinco taxas de remoção de palha (i.e., equivalentes a 0, 25, 50, 75 e 100 %). Amostras de solo foram coletadas nas camadas 0-2,5, 2,5-5, 5-10, 10-20 e 20-30 cm de profundidade para determinação de C, N, pH, P, K, Ca, Mg, densidade do solo e resistência do solo a penetração. Amostras de planta foram coletadas para determinar a produção de colmo e palha. Os impactos causados pela remoção da palha diferiu entre as áreas, no entato, se concentraram na camada mais superficial do solo. No solo de textura média a remoção da palha levou a depleção do carbono orgânico e a compactação do solo, enquanto que, no solo de textura arenosa os atributos químicos (i.e teores de Ca e Mg) foram os mais impactados. Os resultados indicam a possibilidade de remover cerca de metade da quantidade de palha depositada sobre o solo (8.7 Mg ha-1 palha remanecente) sem causar graves implicações na qualidade deste solo. Em contraste, no solo de textura arenosa, qualquer quantidade de palha foi suficiente para causar alterações na qualidade do solo, contudo, essas alterações foram menos intensas e não aumentaram com as taxas de remoção da palha. Foi possível modelar a produção de colmo e palha de cana-de-açucar utilizando atributos do solo. A camada 0-20 cm foi a mais importante na definição da produção de colmos, ao passo que a camada 0-5 cm, camada em que se concentra os impactos causados pela remoção da palha, foi menos importante. Assim, notamos que os impactos causados ao solo pela remoção da palha tem pouca influencia na produtividade da cultura. A predição da palha se mostrou mais complexa e possivelmente requer informações adicionas (e.g informações da cultivar e de clima) para que bons resultados sejam obtidos. No geral, os resultados sugerem que a remoção planejada da palha para fins energéticos pode ocorre de maneira susutentável, porém deve levar em conta condições locais, e.g propriedades do solo. Contudo, pesquisas de longo prazo com diferentes abordagens ainda são necessárias, tanto para acompanhar e confirmar nossos resultados, como para desenvolver soluções que atenuem os danos causados por esta atividade. Atributos do solo Biocombustíveis Biofuels Manejo de resíduos Predição da palha Soil attributes Straw management Straw prediction
85	Md-pread: um modelo para predição de reprovação de aprendizes na educação a distância usando árvore de decisão Ferreira, João Luiz Cavalcante 25 February 2016 (has links) Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2016-04-13T15:28:01Z No. of bitstreams: 1 João Luiz Cavalcante Ferreira_.pdf: 1672669 bytes, checksum: 80b5c6fbc873c9f858b230e78855dd55 (MD5) / Made available in DSpace on 2016-04-13T15:28:01Z (GMT). No. of bitstreams: 1 João Luiz Cavalcante Ferreira_.pdf: 1672669 bytes, checksum: 80b5c6fbc873c9f858b230e78855dd55 (MD5) Previous issue date: 2016-02-25 / Nenhuma / A Educação a Distância (EaD) no Brasil tem se consolidado com diversos estudantes optando por essa modalidade de ensino para ampliar suas formações e realização profissional, no entanto ela enfrenta alguns obstáculos, como a resistência de educandos e educadores, desafios organizacionais, custos de produção e a questão da reprovação ou retenção de alunos. Um dos principais diferenciais dos cursos EaD é a grande quantidade de dados gerados pelas interações no ambiente educacional, o que abre novas possibilidades para estudar e compreender estas interações. A Mineração de Dados educacionais (MDE) é uma área de pesquisa interdisciplinar que lida com o desenvolvimento de métodos para explorar dados originados no contexto educacional. A Learning Analytics (LA) é outra área de pesquisa emergente. Ela busca medir, coletar, analisar e relatar dados sobre estudantes. O desafio dos pesquisadores é desenvolver métodos capazes de prever o desempenho dos estudantes de modo a possibilitar a intervenção de professores e tutores visando resgatar o estudante antes que reprove. Esta dissertação propõe o MD-PREAD, um modelo para predição de grupos de risco de reprovação em um ambiente de Educação a Distância. A técnica de árvore de decisão foi utilizada para possibilitar um diferencial quanto à possibilidade de interpretação dos dados gerados pelo uso dos métodos de predição, pois outros métodos, tais como Redes Neurais Artificiais possuem como deficiência justamente a dificuldade de identificar as causas que levam aos resultados das predições. O modelo foi prototipado na ferramenta de mineração RapidMiner. Um experimento foi realizado no Instituto Federal de Educação, Ciência e Tecnologia do Amazonas, no programa Universidade Aberta do Brasil, no Curso de Filosofia da educação. Foram feitas coletas de dados históricos de 10 disciplinas de um grupo de 30 aprendizes em dois semestres consecutivos, 2014/2 e 2015/1, o total de alunos matriculados foi de 125, o total de interações levantadas foi de 41070, o cálculo de predição considerou as médias das avaliações de 30 aprendizes, os desvios padrões das interações e suas respectivas situações. Estes dados serviram para compor o conjunto de treinamento necessário para a definição da regra de classificação que teve como predominante a acurácia de 55% e a confiabilidade Kappa de 0,22. Foi realizado um segundo processo de validação, após o experimento, considerou-se os 125 alunos e o melhor classificador encontrado foi o J48 com a acurácia de 84,05%, precisão de 77,08% e recall de 50,23%. Concluiu-se que o MD-PREAD é uma ferramenta de auxílio no prognóstico de grupos de risco de reprovação, uma vez que possibilitou a geração e disponibilização semanal destes grupos a um sistema de recomendação educacional externo. / E-learning in Brazil has been established with many students opting for this type of education to expand their training and professional achievement, however it faces some obstacles, such as resistance from students and educators, organizational challenges, production costs and the question of failure or retention of students. One of the main advantages of e-learning courses is the large amount of data generated by the interactions in the educational environment, which opens up new possibilities to study and understand these interactions. Educational Data Mining (EDM) is an area of interdisciplinary research that deals with the development of methods to explore data that originates in the educational context. Learning Analytics (LA) is another area of emerging research. It seeks to measure, collect, analyze and report data on students. The challenge for researchers is to develop methods to predict the performance of students in order to allow the intervention of teachers and tutors aiming to retrieve the student before failing. This thesis proposes the MD-PREAD, a model for predicting failure of risk groups in a e-learning environment. The decision tree technique was used to enable a difference as to whether the interpretation of the data generated by the use of prediction methods, since other methods such as Artificial Neural Networks that has as disability difficulty in identifying precisely the causes that lead to predictions results. The model was prototyped in RapidMiner mining tool. An experiment was conducted at the Federal Institute of Education, Science and Technology of Amazonas, the Open University of Brazil program in course Philosophy of education. Historical data collection of 10 disciplines from a group of 30 apprentices were made in two consecutive semesters, 2014/2 and 2015/1, the total number of enrolled students was 125, the total raised interactions were 41070, the prediction calculation considered average of 30 apprentices ratings, the standard deviations of the interactions and their situations. These data served to compose the training set required for classification rule defining which had as predominant accuracy of 55% and Kappa reliability 0.22. A second validation process was carried out after the experiment. It was considered the total amount of 125 apprentices and the best classifier found was the J48 with the accuracy of 84.05%, 77.08% of classification precision and recall of 50.23%. It was concluded that the MD-PREAD is a support tool in the prognosis of failure risk groups, since it enabled the generation and weekly availability of these groups to a recommendation system. EaD Predição Árvore de decisão Learning analytics E-learnig Prediction Decision tree
86	A utilização dos indicadores contábeis como previsão de recuperação judicial de empresas brasileiras de capital aberto usando análise discriminante e regressão logística Pires, César Augusto 23 August 2017 (has links) Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2017-08-30T12:55:32Z No. of bitstreams: 1 César Augusto Pires.pdf: 1556011 bytes, checksum: b840c06ef7083d306486c8464b9a921a (MD5) / Made available in DSpace on 2017-08-30T12:55:32Z (GMT). No. of bitstreams: 1 César Augusto Pires.pdf: 1556011 bytes, checksum: b840c06ef7083d306486c8464b9a921a (MD5) Previous issue date: 2017-08-23 / This paper aims to identify the accounting performance indicators through techniques applied in companies that signal the judicial recovery using logistic regression and discriminant analysis, according to its relevance because it seeks to help decision making by the corporate body of Organizations to avoid future financial problems. The origin and evolution of bankruptcy legislation in Brazil and several models of insolvency used in the literature were presented in research, because it is a descriptive research in relation to its objectives, and quantitative, in terms of procedures, using statistical analysis techniques to evaluate the performance of classification techniques applied to the insolvency problem of publicly held companies; documents and accounting data from 2005 to 2015 were collected from the BM & FBovespa database for the application of empirical tests. The discriminant analysis was able to e valuate 88% of the cases correctly, which is a good percentage of prediction and does not present type II error, that is, to classify a solvent company in judicial recovery, and with 11 variables, since one was discarded, but when logistic regression is compared to discriminant analysis, it provides predictive accuracy comparable to a simpler statistical variable that used the same substantial interpretation with only one variable less and with a global 90% hit percentage. From the results of the logistic regression, it is possible to focus only on the variables X4 = asset structure and X2 = Return concerning equity as the main ones in the differentiation of groups, since the goal of the analysis is not to increase the likelihood of success, once that logistic regression provides a direct technique to distinguish firms' judicial recovery from solvent enterprises and to understand the relative impact of each independent variable in creating differences between the two gro ups of firms. Finally, the results presented show that logistic regression, even using a smaller number of variables, holds a better percentage of correctness / Este trabalho tem por objetivo identificar os indicadores de desempenho contábeis através de técnicas aplicadas em empresas que sinalizam a recuperação judicial utilizando-se da regressão logística e da análise discriminante, haja vista sua relevância porque busca auxiliar a tomada de decisões por parte do corpo corporativo das organizações para evitar problemas futuros financeiros. Foram apresentados no decorrer da pesquisa à origem e a evolução da legislação falimentar no Brasil e diversos modelos de insolvência utilizados pela literatura, por se tratar de uma pesquisa que se caracteriza como descritiva em relação a seus objetivos, e quantitativa, quanto aos procedimentos, ao utilizar técnicas de análise estatísticas para avaliação do desempenho das técnicas de classificação aplicadas ao problema de insolvência de empresas de capital aberto, foram coletados da base de dados do site BM&FBovespa documentos e dados contábeis de 2005 à 2015 para aplicação dos testes empíricos. A Análise discriminante conseguiu avaliar 88% dos casos corretamente, o que é uma boa porcentagem de predição e não apresenta erro do tipo II, ou seja, classificar uma empresa solvente em recuperação judicial, e com 11 variáveis, já que uma foi descartada, mas, quando a regressão logística é comparada com a análise discriminante, ela fornece precisão preditiva comparável com uma variável estatística mais simples que usava a mesma interpretação substancial, apenas com uma variável a menos e com uma porcentagem global de acerto de 90%. A partir dos resultados da regressão logística, é possível se concentrar apenas nas variáveis X4 = estrutura de ativos e X2= Retorno sobre o patrimônio líquido como as principais na diferenciação de grupos, pois a meta da análise não é aumentar a probabilidade de sucesso, ainda que a regressão logística forneça uma técnica direta para distinguir as empresas recuperação judicial das empresas solventes e compreender o impacto relativo de cada variável independente na criação de diferenças entre os dois grupos de empresas. Por fim, os resultados apresentados evidencia que a regressão logística mesmo utilizando um menor número de variável tem melhor porcentagem de acerto Recuperação judicial Falência Predição Judicial recovery Insolvency Prediction
87	Fatores de risco associados a mortalidade infantil em Cotia e Vargem Grande Paulista, sp, 1984-1985: uma proposta de instrumentos preditivos / Risk factors associated with infant mortality in Cotia and Vargem Grande Paulista, SP, 1984-1985: a proposal of predictive tools Cesar, Chester Luiz Galvao 19 May 1989 (has links) Estudou-se a aplicação do conceito de \"risco\" na área materno-infantil, partindo da proposta da Organização Mundial de Saúde relativa ao \"enfoque de risco\" na organização dos serviços de saúde. O estudo concentrou-se mais no desenvolvimento de instrumentos de identificação de grupos de alto risco de óbito infantil, seja no período neonatal, seja no período pós-neonatal. O trabalho baseou-se em um estudo de caso-controle, onde o grupo de casos correspondeu a óbitos registrados de menores de um ano de idade, ocorridos nos anos de 1984 e 1985, de pais residentes nos municípios de Cotia e Vargem Grande Paulista, totalizando 149 óbitos (casos). O grupo controle foi formado por uma amostra probabilística de 216 crianças nascidas em 1984, filhas de pais residentes em Cotia e Vargem Grande Paulista e que sobreviveram ao primeiro ano de vida. As mães de ambos os grupos responderam a um questionário, através de entrevistas domiciliárias para a identificação de variáveis independentes associadas ao óbito infantil. As variáveis que mostraram associação estatisticamente significante foram então agrupadas de forma a constituírem quatro escalas de risco: a primeira para uso em pré-natal, a segunda para uso por ocasião do parto, a terceira para uso no período neonatal e a quarta para uso em puericultura após o período neonatal. As variáveis participaram nas escalas ponderadas pelos valores das razões dos produtos cruzados. As escalas apresentam diferentes pontos de corte e a cada um deles corresponde uma dada sensibilidade, especificidade e poder preditivo. As características específicas do sistema de saúde nos municípios estudados e a tendência de alguns indicadores de saúde infantil nesta área indicam a oportunidade e o potencial da aplicação da estratégia de enfoque de risco no setor materno-infantil. Os instrumentos preditivos propostos neste estudo são possivelmente adequados a esta estratégia, uma vez que foram desenvolvidos a partir dos dados locais. No entanto, a sua efetiva utilidade só poderá ser melhor avaliada após sua aplicação em um programa concreto de atenção materno-infantil, baseado no enfoque de risco. / It was studied the application of the concept of \"risk\" in maternal and child health, the starting point being the World Health Organization proposal of \"risk approach\" in health services. The study was concerned with the development of a scoring system for identification of high risk groups of death in the first year of life, whether in the neonatal or in the post-neonatal periods, and was based on a case control study. The case group was the registered death of children under one year of life, during the years of 1984 and 1985, whose parents lived in Cotia and Vargem Grande Paulista. It was studied 149 cases. The control group was a probabilistic sample of 216 children born in 1984, which survived the first year of life and whose parents lived in the study area (Cotia and Vargem Grande Paulista). All the mothers were interviewed according to a questionnaire for the identification of independent variables associated to infant death. The statistically associated variables were grouped in four scales; the first one to be used in the antenatal period, the second to be used before the delivery, the third to be used in the neonatal period and the fourth to be used in the post neonatal period. The variables were weighted in the scales by the values of the odds ratio, and they have different cut points, each one having its own sensibility, specificity and predictive value. The health system and the trends of the infant health indicators of the study area show the opportunity and the potencial for the use of the strategy of \"risk approach\" in maternal and child health care. The predictive scales of this study are, possibly, appropriated to the risk strategy, once they were developed with local data. Nevertheless, its efficiency will be better evaluated only with its real use in a maternal and child health programme, based on the \"risk approach\". Fatores de Risco Infant Mortality Mortalidade Infantil Risk factors Test Prediction Value Valor de Predição de Testes
88	\"Modelo logístico multinível: um enfoque em métodos de estimação e predição\" / Multilevel logistc model: focusing on estimation and prediction methods Tamura, Karin Ayumi 25 May 2007 (has links) Modelo multinível é uma ferramenta estatística cada vez mais popular para análise de dados com estrutura hierárquica. O objetivo deste trabalho é propor um método para realizar a predição de observações de novos grupos usando modelos de regressão logística multinível com 2 níveis. Além disso, é apresentado e comparado dois métodos de estimação para o modelo multinível: Quase-verossimilhança Penalizada (QVP) e Quadratura de Gauss-Hermite (QGH). A idéia central está baseada no trabalho de (Jiang e Lahiri, 2006) no qual se propõe o uso do chamado melhor estimador empírico para o efeito aleatório. Através deste estimador, utilizou-se a parte fixa do modelo em conjunto com uma estimativa do desvio padrão do efeito aleatório para fazer a predição de observações de novos grupos, encontrando a probabilidade estimada dessa observação apresentar o evento de interesse, dadas suas características. / Multilevel model is an statistical tool which is becoming more and more popular in data analysis with hierachical structure. The purpose of this dissertation is to present a method to make a prediction of new group observation in multilevel logistic regression models with 2 levels. Besides, were presented and compared two estimation methods for multilevel model: Penalized Quase-likelihood and Gauss-Hermite Quadrature. The central idea is based on the paper of Jiang and Lahiri (2006), which is presented the empirical best estimator for the random effect. Through this estimator was used the fixed part of the model with an estimative of the standard deviation of the random effect to find the estimated probability of this observation presenting the target event, in accordance with its characteristic. logistic regression Modelos multiníveis Multilevel models predição da variável resposta. regressão logística variable response prediction.
89	The Use of Computational Intelligence for Precision Spraying of Plant Protection Products / Utilizando a Inteligência Computacional para a Pulverização Precisa de Produtos Fitofarmacêuticos Faiçal, Bruno Squizato 19 December 2016 (has links) Protection management with the aid of plant protection products makes it possible to carry out pest control programs in agricultural environments and make them less hazardous for the cultivation of products on a large scale. However, when these programs are put into effect, only a small proportion of the sprayed products is really deposited on the target area while much of it is carried to neighboring regions. The scientific literature includes studies on the use of mathematical techniques to calculate the physical transformation and movement and provide a deposition estimate of the product. On the basis of this prediction, it is possible to configure a system which can allow the spraying to be carried out in normal weather conditions in the region for a satisfactory performance, although these conditions can undergo changes and make any statistical configuration unreliable. An alternative way of overcoming this problem, is to adapt the spray elements to the meteorological conditions while the protection management is being undertaken. However, the current techniques are operationally expensive in computational terms, which makes them unsuitable for situations where a short operational time is required. This thesis can be characterized as descriptive and seeks to allow deposition predictions to be made in a rapid and precise way. Thus it is hoped that the new approaches can enable the spray element to be adapted to the weather conditions while the protection management is being carried out. The study begins by attempting to reduce costs through a computational model of the environment that can speed up its execution. Subsequently, this computational model is used for predicting the rate of deposition as a fitness function in meta-heuristic algorithms and ensure that the mechanical behavior of the spray element can be adapted to the weather conditions while the management is put into effect. The results of this approach show that it can be adapted to environments with low variability. At the same time, it has a poor performance in environments with a high variability of weather conditions. A second approach is investigated and analyzed for this scenario, where the adaptation requires a reduced execution time. In this second approach, a trained machine learning technique is employed together with the results obtained from the first approach in different scenarios. These results show that this approach allows the spray element to be adapted in a way that is compatible with what was provided by the previous approach in less space of time. / O manejo de proteção com uso de produtos fitofarmacêuticos possibilita o controle de pragas em ambientes agrícolas, tornando-o menos nocivo para o desenvolvimento da cultura e com produção em grande escala. Porém, apenas uma pequena parte do produto pulverizado realmente é depositado na área alvo enquanto a maior parte do produto sofre deriva para regiões vizinhas. A literatura científica possui trabalhos com o uso de técnicas matemáticas para calcular a transformação física e movimento para estimar a deposição do produto. Com base nessa predição é possível configurar o sistema de pulverização para realizar a pulverização sob uma condição meteorológica comum na região para um desempenho satisfatório, mas as condições meteorológicas podem sofrer alterações e tornar qualquer configuração estática ineficiente. Uma alternativa para esse problema é realizar a adaptação da atuação do elemento pulverizador às condições meteorológicas durante a execução do manejo de proteção. Contudo, as técnicas existentes são computacionalmente custosas para serem executadas, tornando-as inadequadas para situações em que é requerido baixo tempo de execução. Esta tese se concentra no contexto descrito com objetivo de permitir a predição da deposição de forma rápida e precisa. Assim, espera-se que as novas abordagens sejam capazes de possibilitar a adaptação do elemento pulverizador às condições meteorológicas durante a realização do manejo de proteção. Este trabalho inicia com o processo de redução do custo de execução de um modelo computacional do ambiente, tornando sua execução mais rápida. Posteriormente, utiliza-se este modelo computacional para predição da deposição como função Fitness em algoritmos de meta-heurística para adaptar o comportamento do elemento pulverizador às condições meteorológicas durante a realização do manejo. Os resultados desta abordagem demonstram que é possível utilizá-la para realizar a adaptação em ambientes com baixa variabilidade. Por outro lado, pode apresentar baixo desempenho em ambientes com alta variabilidade nas condições meteorológicas. Uma segunda abordagem é investigada e analisada para este cenário, onde o processo de adaptação requer um tempo de execução reduzido. Nesta segunda abordagem é utilizado uma técnica de Aprendizado de Máquina treinada com os resultados gerados pela primeira abordagem em diferentes cenários. Os resultados obtidos demonstram que essa abordagem possibilita realizar a adaptação do elemento pulverizador compatível com a proporcionada pela abordagem anterior em um menor espaço de tempo. Agricultura de precisão Agricultural spraying Deposition prediction Precision agriculture Predição da deposição Pulverização agrícola
90	Predição de links em redes complexas utilizando informações de estruturas de comunidades / Link prediction in complex networks using community structure information Rebaza, Jorge Carlos Valverde 27 March 2013 (has links) Diferentes sistemas do mundo real podem ser representados por redes. As redes são estruturas nas quais seus vértices (nós) representam entidades e links representam relações entre essas entidades. Além disso, as redes caracterizam-se por ser estruturas dinâmicas, o que implica na rápida aparição e desaparição de entidades e seus relacionamentos. Nesse cenário, um dos problemas importantes a serem enfrentados no contexto das redes, é da predição de links, isto é, prever a ocorrência futura de um link ainda não existente entre dois vértices com base nas informações já existentes. A importância da predição de links deve-se ao fato de ter aplicações na recuperação de informação, identificação de interações espúrias e, ainda, na avaliação de mecanismos de evolução das redes. Para enfrentar o problema da predição de links, a maioria dos métodos utiliza informações da vizinhança topológica das redes para atribuir um valor que represente a probabilidade de conexão futura entre um par de vértices analisados. No entanto, recentemente têm aparecido métodos híbridos, caracterizados por usar outras informações além da vizinhança topológica, sendo as informações das comunidades as normalmente usadas, isso, devido ao fato que, ao serem grupos de vértices densamente ligados entre si e esparsamente ligados com vértices de outros grupos, fornecem informações que podem ser úteis para determinar o comportamento futuro das redes. Assim, neste trabalho são apresentadas duas propostas na linha dos métodos baseados nas informações das comunidades para predição de links. A primeira proposta consiste em um novo índice de similaridade que usa as informações dos vértices pertencentes a mesma comunidade na vizinhança de um par de vértices analisados, bem como as informações dos vértices pertencentes a diferentes comunidades nessa mesma vizinhança. A segunda proposta consiste de um conjunto de índices obtidos a partir da reformulação de algumas propostas já existentes, porém, inserindo neles informações dos vértices pertencentes unicamente à mesma comunidade na vizinhança topológica de um par de vértices analisados. Experimentos realizados em dez redes complexas de diferentes domínios demonstraram que, em geral, os índices propostos obtiveram desempenho superior às abordagens usuais / Different real-world systems can be represented as networks. Networks are structures in which vertices (nodes) represent entities and links represent relationships between these entities. Moreover, networks are dynamic structures, which implies rapid appearance and disappearance of entities and their relationships. In this scenario, the link prediction problem attempts to predict the future existence of a link between a pair of vertices considering existing information. The link prediction importance is due to the fact of having different applications in areas such as information retrieval, identification of spurious interactions, as well as for understanding mechanisms of network evolution. To address the link prediction problem, many proposals use topological information to assign a value that represents the likelihood of a future connection between a pair of vertices. However, hybrid methods have appeared recently. These methods use additional information such as community information. Communities are groups of vertices densely connected among them and sparsely connected to vertices from other groups, providing useful information to determinate the future behavior of networks. So, this research presents two proposals for link prediction based on communities information. The first proposal consists of a new similarity index that uses information about the communities that the vertices in the neighborhood of a analyzed pair of vertices belong. The second proposal is a set of indices obtained from the reformulation of various existing proposals, however, using only the information from vertices belonging to the same community in the neighborhood of a pair of vertices analyzed. Experiments conducted in ten complex networks of different fields show the proposals outperform traditional approaches Community detection Complex netwoprks Detecção de comunidades Link prediction Predição de links Redes complexas

Search results