Spelling suggestions: "subject:"regressão logística."" "subject:"regressão ogística.""
121 |
A estimativa do risco na constituição da PDD. / The risk estimation for the allowance for doubtful accounts.Vicente, Ernesto Fernando Rodrigues 15 May 2001 (has links)
Neste trabalho foram revisados os principais modelos, para a avaliação do risco de crédito e para o provisionamento de perdas com clientes, concluindo-se com uma proposta de adoção de um modelo estatístico, com o objetivo de medir o risco associado ao financiamento e empréstimo a clientes, com o conseqüente impacto na mensuração dos ativos. Sem o objetivo de exaurir o assunto, foram adotados os passos relacionados a seguir para o desenvolvimento do tema até a proposição final. Na introdução, são feitas as justificativas sobre o tema, qual a questão problema associada ao tema e os desafios da contabilidade quanto à mensuração dos ativos. Em relação à gestão de riscos, são relacionados os tipos de riscos em geral, detalhado o risco de crédito em particular e avaliados os modelos de concessão de crédito. Sobre a constituição da Provisão para Devedores Duvidosos, foram pesquisados os principais autores de contabilidade e de finanças, onde se constatou proposições semelhantes, que podem ser resumidas em 4 modelos de provisionamento para Perdas com Devedores Duvidosos: 1. Baixa "Write-off"; 2. Percentual sobre as vendas; 3. Percentual sobre o montante de contas a receber; 4. Idade da carteira "aging". Em seguida são analisadas as correlações entre os modelos de previsão de insolvência e as perdas com crédito, onde é possível identificar que os modelos de insolvência são úteis para a concessão do crédito, mas pouco utilizados para a estimativa da perda provável com devedores duvidosos. Em 21 de dezembro de 1999, o Banco Central do Brasil, emitiu a Resolução 2.682, na qual recomenda às instituições financeiras que alterem suas metodologias de provisionamento para perdas com devedores duvidosos. O Banco Central, entretanto, não indica qual modelo utilizar, deixando a cargo de cada instituição o desenvolvimento dos modelos. Utilizando a norma do Banco Central como referência, e procurando um embasamento científico para a constituição da PDD, é proposto um modelo para a sua constituição, modelo esse testado e avaliado, tanto em conformidade às normas do Banco Central, como com orientação gerencial. Para tanto, foi desenvolvido um modelo estatístico, aplicando-se a técnica da regressão logística, a 202 clientes de uma instituição financeira, onde foi possível concluir-se que o uso do modelo, na constituição da Provisão para Devedores Duvidosos, poderá trazer benefícios na mensuração do real valor dos investimentos em contas a receber. / This project aims at evaluating the used models and proposing the adoption of new models, for the Allowance for Doubtful Accounts, with the objective of measuring the risk related to customers financing and loan activities, and the resulting impact in assets measurements. In order to achieve this goal and try not to over exploit the subject, the following steps related to the development of the theme were adopted. In the introduction the theme is explained; the main issue associated to the theme and the challenges the accounting has to face concerning the assets measurements. As for the risk management the general kinds of risks are described, particularly the credit risk and the credit concession models are evaluated. Referring to the Allowance for Doubtful Accounts constitution, most meaningful authors in the field of Accounting and Finance were researched and similar propositions underlined their writings; that can be summarized in 4 allowance models for Doubtful Accounts. 1. Write off; 2. Percentage over the sales; 3. Percentage over receivables; 4. Aging. Then the correlations between the models of insolvency prediction and the credit losses are analyzed where it is possible to verify that the insolvency models are useful for credit concession, though not very much used for estimating probable loss with Doubtful Accounts. The Central Bank of Brazil (Banco Central do Brasil) issued the act number 2682 on the 21st of December, 1999, that urges all financial institutions to change their methodologies of Allowance for Doubtful Accounts. The Central Bank, however, does not indicate the model to be used, leaving the task of developing the models to each institution. Based on the policy of Central Bank and keeping a scientific approach to the constitution of Allowance for Doubtful Accounts, a model for their constitution in the portfolio is proposed. Such model is tested and evaluated not only, according to the rules of Central Bank of Brazil, but also in terms of management orientation. Having this purpose in mind a statistic model was developed, using LOGIT Regression applied to 202 customers of a financial institution where it was possible to come to the conclusion that the use of the model in the constitution of the Allowance for Doubtful Accounts can bring benefits in measuring the real value of investments in Receivables.
|
122 |
Técnicas de Data Mining na aquisição de clientes para financiamento de Crédito Direto ao Consumidor - CDC / Data Mining Techniques to acquire new customers for financing of Consumer CreditSilva, Adriana Maria Marques da 27 September 2012 (has links)
O trabalho busca dissertar sobre as técnicas de data mining mais difundidas: regressão logística, árvore de decisão e rede neural, além de avaliar se tais técnicas oferecem ganhos financeiros para instituições privadas que contam com processos ativos de conquista de clientes. Uma empresa do setor financeiro será utilizada como objeto de estudo, especificamente nos seus processos de aquisição de novos clientes para adesão do Crédito Direto ao Consumidor (CDC). Serão mostrados os resultados da aplicação nas três técnicas mencionadas, para que seja possível verificar se o emprego de modelos estatísticos discriminam os clientes potenciais mais propensos dos menos propensos à adesão do CDC e, então, verificar se tal ação impulsiona na obtenção de ganhos financeiros. Esses ganhos poderão vir mediante redução dos custos de marketing abordando-se somente os clientes com maiores probabilidades de responderem positivamente à campanha. O trabalho apresentará o funcionamento de cada técnica teoricamente, e conforme os resultados indicam, data mining é uma grande oportunidade para ganhos financeiros em uma empresa. / The paper intends to discourse about most widespread data mining techniques: logistic regression, decision tree and neural network, and assess whether these techniques provide financial gains for private institutions that have active processes for business development. A company of the financial sector is used as object of study, specifically in the processes of acquiring new customers for adhesion to consumer credit (in Brazil CDC). This research will show the results of the three above mentioned techniques, to check whether the statistical models point out relevant differences between prospects´ intentions to adhere to consumer credit. In the meantime, the techniques are checked whether they leverage financial gain. These gains are expected to came from better focused and directed marketing efforts. The paper presents the operation of each technique theoretically, and as the results indicate, data mining is a great opportunity for a company boost profits.
|
123 |
Modelos com sobreviventes de longa duração paramétricos e semi-paramétricos aplicados a um ensaio clínico aleatorizado / Parametric and semiparametric long-term survival models applied to a randomized clinical trialFrazão, Italo Marcus da Mota 14 December 2012 (has links)
Diversos modelos têm sido propostos na literatura com o objetivo de analisar dados de sobrevivência em que a população sob estudo é assumida ser uma mistura de indivíduos suscetíveis (em risco) e não suscetíveis a um específico evento de interesse. Tais modelos são usualmente denominados modelos com sobreviventes de longa duração ou modelos com fração de cura. Neste trabalho, diversos desses modelos (nos contextos paramétrico e semi-paramétrico) foram considerados para analisar os dados de um ensaio clínico aleatorizado conduzido com o objetivo de comparar três estratégias terapêuticas (cirurgia, angioplastia e medicamentoso) utilizadas no tratamento de pacientes com doença coronariana multiarterial. Em todos os modelos, as funções de ligação logito e complemento log-log foram utilizadas para modelar a proporção de sobreviventes de longa duração (indivíduos não suscetíveis). Quanto à função de sobrevivência dos indivíduos suscetíveis, foram utilizados os modelos de Weibull e de Cox. Covariáveis foram consideradas tanto na proporção de sobreviventes de longa duração quanto na função de sobrevivência dos indivíduos suscetíveis. De modo geral, os modelos considerados se mostraram adequados para analisar os dados do ensaio clínico aleatorizado, indicando a cirurgia como a estratégia terapêutica mais eficiente. Indicaram também, que as covariáveis idade, hipertensão e diabetes mellitus exercem influência na ocorrência do óbito cardíaco, mas não no tempo até a ocorrência deste óbito nos pacientes suscetíveis. / Several models have been proposed in the literature with the aim of analyzing survival data when the population under study is assumed to be a mixture of susceptible (at risk) and not susceptible individuals to a specific event of interest. Such models are usually called long-term survivors models or cure rate models. In this work, several of these models (under both parametric and semi-parametric approaches) were considered to analyze the data from a randomized clinical trial conducted in order to compare three therapeutic strategies (surgery, angioplasty and medicine) used in the treatment of patients with multivessel coronary artery disease. For all models the logit and complementary log-log link functions were used to model the proportion of long-term survivors (not susceptible individuals). In regards to the survival function of the susceptible individuals, the Weibull and Cox models were used. Covariates were considered both in the proportion of longterm survivors and in the survival function of the susceptible individuals. Overall, the models considered were suitable for analyzing the data from the randomized clinical trial indicating surgery as the most effective therapeutic strategy. They also indicated that the covariates age, hypertension and diabetes mellitus exhibit influence on the occurrence of cardiac death, but not on the time to the occurrence of this death in susceptible patients.
|
124 |
Fatores sociodemográficos e proporção de crianças que deixam de ter baixo peso para idade, em programa governamental de distribuição de leite fortificado, nas idades de 6 a 23 meses / Sociodemographic factors and proportion of children who stop having low weight for age in program government distribution of fortified milk in ages 6-23 months.Ortelan, Naiá 12 June 2013 (has links)
INTRODUÇÃO: É importante que programas de intervenção nutricional sejam avaliados. Estudo anterior mostrou que o Projeto Vivaleite, programa de distribuição de leite fortificado no Estado de São Paulo, é efetivo quando se comparam as médias dos escores z do indicador de peso para idade (P/I) de crianças ainda fora do programa com as crianças no programa, na faixa etária de 6 a 23 meses, independentemente de variáveis sociodemográficas. OBJETIVO: Estudar a associação entre fatores sociodemográficos e a proporção de crianças que deixam de ter baixo P/I, nas idades de 6 a 23 meses, durante sua participação, no período de janeiro/2003 a setembro/2008, em programa governamental de distribuição de leite fortificado. MÉTODOS: Estudo de coorte prospectiva com dados de 327 crianças residentes no interior do Estado de São Paulo que ingressaram, aos seis meses de idade, com baixo P/I (escore z P/I <-2) no Vivaleite. Foram selecionadas as seguintes variáveis: a) Resposta: baixo P/I, indicadora da situação de baixo P/I (escore z P/I < -2) apresentado pela criança durante as pesagens após a criança ingressar no programa (dicotômica, sim=0|não=1); b) Explanatórias: aleitamento materno (não recebe=0|recebe=1), condição conjugal da mãe (sem companheiro=0|com companheiro=1), idade materna (adolescente=0|não adolescente=1), peso ao nascer (contínua: 1400g a 4400g), sexo (masculino=0|feminino=1), situação de trabalho materno (não trabalha=0|trabalha=1), escolaridade materna (0-4 anos=1|5-8anos=2|9 anos ou mais=3), idade da criança na pesagem (contínua: 6 a 23 meses). Foram realizadas modelagens com regressão logística e regressão logística múltipla mista, esta última para ajuste de observações repetidas da mesma criança, usando a variável de identificação de cada criança. O processamento foi realizado com o pacote Stata 10.1. RESULTADOS: A categoria da variável que se associou positivamente ao ganho de peso das crianças foi não receber aleitamento materno (OR=0,20, p=0,001), ter um maior peso ao nascimento (OR=1,0011; p=0,022), além da maior idade da criança na pesagem (OR=1,20; p=0,001). As variáveis que não se associaram estatisticamente com o ganho de peso das crianças foram: condição conjugal da mãe (com companheiro: p=0,972), idade materna (não adolescente: p=0,935), sexo (feminino: p=0,805), situação de trabalho materno (trabalha: p=0,235) e escolaridade materna (5-8 anos: p=0,965; 9 anos ou mais: p=0,828). CONCLUSÃO: Os fatores associados positivamente à maior proporção de crianças que deixaram a condição de baixo P/I foram não receber aleitamento materno ao ingressar no programa e ter um maior peso ao nascimento, além da maior idade da criança na pesagem / BACKGROUND: It is important that nutritional intervention programs are evaluated. A previous study showed that the Project Vivaleite, a fortified milk distribution program in the State of São Paulo, is effective when comparing the means of weight-for- age z scores indicator of children aged 6 to 23 months out of the program with the children in the program, independently of sociodemographic variables. OBJECTIVES: To study the associations between sociodemographic factors and the proportion of children who no longer have low weight-for-age, in the ages of 6 to 23 months, while participating, in the period from September/2008 to January/2003, in the government program of fortified milk distribution. METHODS: Prospective cohort study with data from 327 children residents of the State of São Paulo who joined the Vivaleite at six months of age, with low weight-for-age (z score weightfor-age < -2). The following variables were selected: a) outcome variable: low weight-for-age, indicative of the situation of low weight-for-age presented by the child after joining the program (dichotomous, yes=0|no=1); b) independent variables: breastfeeding when entering the program (not receive=0|receive=1), mothers marital status (no partner=0|with partner=1), maternal age (teenager=0|no teenager=1), birth weight (continuous: 1400 to 4400 grams), gender (male=0|female=1), maternal job status (does not work=0|works=1), maternal education (0-4 years|5-8 years| 9 or more years), age of the child at each weighing occasion (continuous: 6 to 23 months). Logistic regression and mixed multiple logistic regression were done, the last in order to adjust for repeated observations of the same child, using the variable that identifies each one. Processing was carried out with software Stata 10.0. RESULTS: The category of the variable that was positively associated with the weight gain of the children was not receiving breastfeeding (OR=0,20, p=0,001), have a higher birth weight (OR=1,0011; p=0,022), and the higher age of the child at weighing (OR=1,20; p=0,001). The variables that were not statistically associated with weight gain were: mothers marital status (no partner: p=0,972), maternal age (no teenager: p=0,935), gender (female: p=0,805), maternal job status (works: p=0=235) and maternal education (5-8 years: p=0,965; 9 or more years: p=0,828). CONCLUSION: Factors positively associated with a greater proportion of children who have left the condition of low weight-for-age were not receiving breastfeeding when joining the program, having a higher birth weight and higher age of the child at weighing
|
125 |
Uma abordagem Forward-Looking para estimar a PD segundo IFRS9 / A Forward Looking Approach to estimate PD according to IFRS9Kauffmann, Luiz Henrique Outi 20 November 2017 (has links)
Este trabalho tem por objetivo discutir as metodologias de estimação da PD utilizadas na indústria financeira. Além disso, contextualizar a aplicação do trabalho ao IFRS9 e seu direcionamento para o tema de Risco de Crédito. Historicamente os grandes bancos múltiplos utilizam variadas metodologias econométricas para modelar a Probabilidade de Descumprimento (PD),um dos métodos mais tradicionais é a regressão logística, entretanto com a necessidade do cálculo da Perda Esperada de Crédito através do IFRS9, se torna necessário mudar o paradigma de estimação para uma abordagem forward-looking, isto está sendo interpretado por muitas instituições e consultorias como a inclusão de fatores e variáveis projetadas dentro do processo de estimação, ou seja, não serão utilizados apenas os dados históricos para prever o descumprimento ou inadimplência. Dentro deste contexto será proposto uma abordagem que une a estimação da Probabilidade de Descumprimento com a inclusão de um fator foward-looking. / This paper aims to discuss the methodologies used to estimate the Probability Of Default used in the financial industry. In addition, contextualize the application of the work to IFRS9 requirements and its targeting to the Credit Risk theme. Historically large multi-banks use a variety of econometric methodologies to model the Probability of Default, one of the more traditional methods is logistic regression. However, with the need to calculate the expected credit loss through IFRS9, it becomes necessary to change the estimation paradigm to a forwardlooking approach, this is being interpreted by many institutions and consultancies companies as the inclusion of factors and variables projected within the estimation process, that is, not only historical data are used to predict the default. Within this context will be proposed an approach that joins the estimation of Probability of Default with the inclusion of a forward-looking factor.
|
126 |
Análise de risco de crédito com o uso de modelos de regressão logística, redes neurais e algoritmos genéticos / Credit risk analysis applying logistic regression, neural networks models and genetic algorithmsGonçalves, Eric Bacconi 29 July 2005 (has links)
Praticamente todas as grandes instituições brasileiras que trabalham com concessão de crédito utilizam-se de modelos para avaliar o risco de inadimplência dos potenciais contratantes de produtos de crédito. Qualquer avanço nas técnicas, que resulte no aumento da precisão de um modelo de previsão, acarreta ganhos financeiros para a instituição. Neste trabalho são apresentados, em um primeiro momento, conceitos de crédito e risco. Posteriormente, a partir de uma amostra de dados, fornecida por uma grande instituição financeira brasileira, estão desenvolvidos três modelos, aplicando-se três técnicas para a classificação de clientes: Regressão Logística, Redes Neurais e Algoritmos Genéticos. Em uma etapa final, são avaliadas e comparadas a qualidade e performance dos modelos desenvolvidos, onde é apontado qual o modelo que melhor se ajusta aos dados. Os resultados obtidos pelos modelos de regressão logística e rede neural são satisfatórios e bastante próximos, sendo o primeiro ligeiramente superior. O modelo embasado por algoritmos genéticos apresenta também bons resultados embora num patamar inferior aos dois já citados. Este trabalho ilustra os procedimentos a serem adotados por uma empresa para identificar o melhor modelo de concessão de crédito que tenha boa aderência aos seus dados. A adoção do melhor modelo detectado permite o direcionamento da estratégia da instituição, podendo aumentar a eficiência do seu negócio. / Most of the large Brazilian institutions which work with credit concession use credit models to evaluate the risk of consumer loans. Any improvement in techniques that results in the precision increase of a prediction model, will provide financial gains to the institution. The first phase of this study introduces concepts of credit and risk. Subsequently, with a sample set of applicants from a large Brazilian financial institution, three credit scoring models are built applying three different techniques: Logistic Regression, Neural Networks and Genetic Algorithms. Finally, the quality and the performance of these models are evaluated and compared, and the best one is identified. The results obtained by the logistic regression model and neural network model are good and very similar, but the first one is slightly better. The results obtained with the genetic algorithm model are also good, but a little bit inferior. This study shows proceedings to be adopted by a financial institution in order to identify the best credit model to evaluate the risk of consumer loans. The use of the proper model will help the definition of an adequate business strategy and increase profits.
|
127 |
Proposta de construção de um modelo econométrico para estimar a probabilidade de risco de inadimplência: uma verificação empírica na Universidade Católica de PelotasRibeiro, Cristiane Freitas 26 September 2008 (has links)
Made available in DSpace on 2015-03-05T19:13:44Z (GMT). No. of bitstreams: 0
Previous issue date: 26 / Nenhuma / As facilidades na concessão de crédito a pessoas físicas têm aumentado no decorrer dos últimos três anos. Variáveis como redução das taxas de juros, aumento de prazos de pagamentos e empréstimos consignados à folha de pagamento possibilitaram à população em geral acesso a aquisição de bens móveis, imóveis entre outros. Neste contexto, a procura por mecanismos mais robustos de análise de risco de crédito, no sentido de evitar ou reduzir os níveis de inadimplência do setor se tornaram necessários. Este estudo objetiva construir um modelo econométrico para estimar a probabilidade do risco de inadimplência em uma Instituição Privada de Ensino Superior. Utilizando a técnica estatística de regressão logística, o modelo de risco de crédito foi construído com base em uma amostra de alunos (pessoas físicas) matriculados na Universidade Católica de Pelotas, situada em Pelotas/RS. As variáveis explicativas do modelo foram obtidas a partir da aplicação de um questionário socioeconômico, que gerou um rol de 59 variáveis d / The facilitation in the credit concession to individuals has increased over the last three years. Variables such as the reduction in the interest taxes, increase in maturity, payroll-attached loans, have provided the population in general, with access to consumption property, buildings among others. In this scenario, the search for stronger tools of credit risk analysis, trying to avoid or at least reduce the default rates in the field, has become necessary. This study aims at elaborating an econometric model to predict the probability of default risk in a Private University. By using the statistical technique of logistical regression, the credit risk model has been built based on a sample of students (individuals) enrolled at “Universidade Católica de Pelotas”, located in Pelotas/RS. The explaining variables of the model have been obtained from a socio-economical questionnaire, which has generated 59 variables from which, only 3 were really relevant: existence of previously negotiated debts, possession of a
|
128 |
Algoritmo kNN na imputação de dados de espectros de massa do tipo MALDI-TOF: uma análise da influência da imputação com kNN sobre o desempenho de classificadores logísticos para identificação de bactériasSantos, Fábio dos 14 September 2018 (has links)
Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2018-11-06T17:08:39Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Fábio dos Santos.pdf: 1456053 bytes, checksum: 5ee15a88a68aaef87a46a8f42f816e32 (MD5) / Made available in DSpace on 2018-11-06T17:08:39Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Fábio dos Santos.pdf: 1456053 bytes, checksum: 5ee15a88a68aaef87a46a8f42f816e32 (MD5)
Previous issue date: 2018-09-14 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O processo de identificação de bactérias relacionadas ao crescimento vegetal,é alvo de diversos estudos na área de bioinformática. Uma das formas para realizar esta identificação é utilizar dados de espectrometria de massa do tipo MALDI-TOF para detectar a presença de proteínas ribossomaisemumaamostra,eentão,usarclassificadoresparaprocessarestesdadoseselecionar o rótulo com a maior probabilidade. Durante o processo de geração dos espectros de massa paraclassificaçãoécomumanãodetecçãodealgumdospicosrelacionadosaproteínasribossomais. Considerando isto, este trabalho apresenta um estudo sobre o uso do algoritmo kNN para imputação desses casos. O estudo foi desenvolvido com o uso de classificadores logísticos para identificação de bactérias da espécie Staphylococcus aureus e do gênero Bacillus. Durante os experimentos foram testados três técnicas para imputar dados: imputação com zero, imputação com a média do atributo faltante, e a imputação com kNN. Desta última foram usadas duas abordagens: função de agregação de média e função de agregação de mediana. O protocolo experimental implementado possibilitou avaliar a influência da imputação sobre os resultados de classificação sob diferentes cenários no que se refere ao número de variáveis faltantes. Os resultadosobtidosmostramqueoempregodokNNnãolevouàumareduçãododesempenhodos classificadores, em relação àquele observado quando do uso de dados completos. Além disto, a classificação de dados submetidos a imputação pelo kNN apresentou desempenho superior àquele verificado quando do uso dos demais métodos. / It is subject of several studies in bioinformatics area the plant growth promoting bacteria identification process. An approach to performing it is to process sample’s ribosomal proteins data obtained by MALDI-TOF mass spectrometry through a classifier and select the highest probability label. However, at the time of mass spectra generation, it is common not detecting some ribosomal proteins related peaks data. With this in mind, this work presents a study about data imputation through the kNN algorithm. Logistic classifiers were applied to identify bacteria of the Bacillus genus and the Staphylococcus aureus species while three data imputation techniques were tested: with zero, with the average of the missing attribute, and with kNN algorithm. From this latter imputation technique, two approaches were considered: average aggregation function and median aggregation function. The adopted experimental protocol investigated the imputation influence on classification results under different scenarios regarding missing variablesnumber.TheresultsshowthatbothkNN’sapproachesdidnotpromotesignificantreduction on classifiers’ performance when compared with complete data approach and that the classification of imputed data by kNN presented superior performance to that of other considered methods.
|
129 |
Detecção de fraudes em cartões: um classificador baseado em regras de associação e regressão logística / Card fraud detection: a classifier based on association rules and logistic regressionOliveira, Paulo Henrique Maestrello Assad 11 December 2015 (has links)
Os cartões, sejam de crédito ou débito, são meios de pagamento altamente utilizados. Esse fato desperta o interesse de fraudadores. O mercado de cartões enxerga as fraudes como custos operacionais, que são repassados para os consumidores e para a sociedade em geral. Ainda, o alto volume de transações e a necessidade de combater as fraudes abrem espaço para a aplicação de técnicas de Aprendizagem de Máquina; entre elas, os classificadores. Um tipo de classificador largamente utilizado nesse domínio é o classificador baseado em regras. Entretanto, um ponto de atenção dessa categoria de classificadores é que, na prática, eles são altamente dependentes dos especialistas no domínio, ou seja, profissionais que detectam os padrões das transações fraudulentas, os transformam em regras e implementam essas regras nos sistemas de classificação. Ao reconhecer esse cenário, o objetivo desse trabalho é propor a uma arquitetura baseada em regras de associação e regressão logística - técnicas estudadas em Aprendizagem de Máquina - para minerar regras nos dados e produzir, como resultado, conjuntos de regras de detecção de transações fraudulentas e disponibilizá-los para os especialistas no domínio. Com isso, esses profissionais terão o auxílio dos computadores para descobrir e gerar as regras que embasam o classificador, diminuindo, então, a chance de haver padrões fraudulentos ainda não reconhecidos e tornando as atividades de gerar e manter as regras mais eficientes. Com a finalidade de testar a proposta, a parte experimental do trabalho contou com cerca de 7,7 milhões de transações reais de cartões fornecidas por uma empresa participante do mercado de cartões. A partir daí, dado que o classificador pode cometer erros (falso-positivo e falso-negativo), a técnica de análise sensível ao custo foi aplicada para que a maior parte desses erros tenha um menor custo. Além disso, após um longo trabalho de análise do banco de dados, 141 características foram combinadas para, com o uso do algoritmo FP-Growth, gerar 38.003 regras que, após um processo de filtragem e seleção, foram agrupadas em cinco conjuntos de regras, sendo que o maior deles tem 1.285 regras. Cada um desses cinco conjuntos foi submetido a uma modelagem de regressão logística para que suas regras fossem validadas e ponderadas por critérios estatísticos. Ao final do processo, as métricas de ajuste estatístico dos modelos revelaram conjuntos bem ajustados e os indicadores de desempenho dos classificadores também indicaram, num geral, poderes de classificação muito bons (AROC entre 0,788 e 0,820). Como conclusão, a aplicação combinada das técnicas estatísticas - análise sensível ao custo, regras de associação e regressão logística - se mostrou conceitual e teoricamente coesa e coerente. Por fim, o experimento e seus resultados demonstraram a viabilidade técnica e prática da proposta. / Credit and debit cards are two methods of payments highly utilized. This awakens the interest of fraudsters. Businesses see fraudulent transactions as operating costs, which are passed on to consumers. Thus, the high number of transactions and the necessity to combat fraud stimulate the use of machine learning algorithms; among them, rule-based classifiers. However, a weakness of these classifiers is that, in practice, they are highly dependent on professionals who detect patterns of fraudulent transactions, transform them into rules and implement these rules in the classifier. Knowing this scenario, the aim of this thesis is to propose an architecture based on association rules and logistic regression - techniques studied in Machine Learning - for mining rules on data and produce rule sets to detect fraudulent transactions and make them available to experts. As a result, these professionals will have the aid of computers to discover the rules that support the classifier, decreasing the chance of having non-discovered fraudulent patterns and increasing the efficiency of generate and maintain these rules. In order to test the proposal, the experimental part of the thesis has used almost 7.7 million transactions provided by a real company. Moreover, after a long process of analysis of the database, 141 characteristics were combined using the algorithm FP-Growth, generating 38,003 rules. After a process of filtering and selection, they were grouped into five sets of rules which the biggest one has 1,285 rules. Each of the five sets was subjected to logistic regression, so their rules have been validated and weighted by statistical criteria. At the end of the process, the goodness of fit tests were satisfied and the performance indicators have shown very good classification powers (AUC between 0.788 and 0.820). In conclusion, the combined application of statistical techniques - cost sensitive learning, association rules and logistic regression - proved being conceptually and theoretically cohesive and coherent. Finally, the experiment and its results have demonstrated the technical and practical feasibilities of the proposal.
|
130 |
Uma contribuição ao estudo de acidentes fatais por queda de rochas: o caso da mineração peruana. / A contribuition to the study of fatal accidents by rocks falls: the case of peruvian mining.Collantes Candia, Renan 26 July 2011 (has links)
A dependência de países em vias de desenvolvimento com relação às indústrias primárias como a mineração é evidente. Na economia peruana, aproximadamente, 6% do PIB e mais de 50% das exportações são provenientes desta atividade econômica, destacando sua posição competitiva no cenário mundial. A importância desta atividade aparece, também, quando o assunto em questão é a segurança do trabalho. Assim, embora nos últimos anos tenha-se percebido uma diminuição no número de acidentes na mineração peruana, a taxa de mortalidade ainda é alta quando comparada com outros países de tradição mineira, especialmente os mais desenvolvidos. No Peru, oficialmente, as causas fundamentais para a ocorrência de acidentes são atribuídas aos fatores pessoais e de trabalho, assim como às condições e aos atos inseguros. Nesse contexto, a identificação dessas causas, visando à proposta de soluções efetivas para melhor gerenciar os sistemas de segurança e de saúde na indústria da mineração, é muito importante. Esta tese estuda os acidentes por queda de rochas em minas subterrâneas do Peru. Para tal foi utilizado como fonte de informação primária o registro de acidentes fatais de 2007 em minas de médio e grande porte. Esse registro foi concedido pela Oficina de Fiscalización Minera del Organismo Superior de la Inversión en Energía y Minería del Peru (OSINERGMIN), órgão pertencente ao Ministério de Energía y Minas del Perú (MEM). O estudo mostra que a maioria dos acidentes fatais são provocados pela queda de rochas em escavações subterrâneas; assim, no período em estudo, este tipo de acidente representou 29,41% dos eventos. O estudo das características pessoais das vítimas mostra ainda que trabalhadores que desenvolvem funções de perfuração, preparação e instalação de suporte pós-desmonte tanto em frentes de lavra de produção quanto em escavações de desenvolvimento morrem por causa de traumatismos múltiplos e encefalo-cranianos severos. A maioria das vítimas pertencia a empresas mineiras terceirizadas. A partir do estudo das características pessoais das vítimas e utilizando os Métodos de Regressão Logística (MRL), propõe-se um modelo matemático para determinar a chance de se sofrer acidente por queda de rochas, em relação a outros tipos de acidentes. Os resultados mostram que trabalhadores que desempenham a função de ajudante, bem como trabalhadores com experiência de mais de três anos têm menos chance de sofrer acidentes por queda de rochas. Finalmente, foram identificados as causas fundamentais e imediatas dos acidentes estudados. Entre os fatores pessoais e de trabalho destacam-se o excesso de confiança e a supervisão deficiente como sendo as principais causas deste tipo de acidente. O estudo mostra também que o descumprimento de procedimentos operacionais e a presença de rochas soltas nas escavações constituem os principais tipos de atos e condições inseguras, respectivamente. / There are several evidences that developing countries depend on primary industries like mining. In fact about 6% of the Peruvian Gross Domestic Product (GDP) and 50% of exports are provided by mining. As well as in economy, mining has been strongly affecting the statistics concerning the safety in the workplace. Thus, although in recent years there was a decrease in the number of mining accidents in Peruvian mining, the fatality rate is still high compared to other traditional mining countries, especially the developed ones. In Peru, according to official statements, the primary causes of the accidents are attributed to personal and work factors, as well as unsafe conditions and acts. Based on this information, the identification of these causes, aiming the proposal of effective solutions to enhance safety and health management systems in mining becomes a very important issue. This thesis has studied the accidents caused by the fall of rocks in Peruvian underground mines, using as the main source of information about the fatalities occurred in 2007 in medium and large mines. This information was provided by the Oficina de Fiscalización Minera del Organismo Superior de la Inversión en Energía y Minería del Perú (OSINERGMIN), an agency under administration of the Ministry of Energy and Mines of Peru (MEM). The study shows that the majority of fatal accidents are caused by rock falls in underground excavations, and also that rock falls have accounted for 29.41% of all events during the studied period. Studying the personal characteristics of the victims also showed that the main victims are workers when they were developing drilling and preparation and installation of rock support activities in development areas as well as in production and excavations areas. The data showed that the majority died by severe multiple and cranial traumas and most of them were third part workers. From the study of the personal characteristics of victims and using the Methods of Logistic Regression (MLR), this research proposes a mathematical model to determine the chance of suffering an accident by rocks falls compared to other types of accidents. Also, the selected model showed that, from the statistical point of view, the experience in mining is the most representative variable and those workers having most of three years of experience have lower probability to suffer injuries by rock falls. Finally, the root and immediate causes of accidents were identified. Among personal and working factors the overconfidence and lack of supervision were respectively highlighted. The study also showed that non-complying operational procedures and the presence of loose rocks during the excavations are respectively the main types of unsafe acts and conditions.
|
Page generated in 0.301 seconds