• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 453
  • 158
  • 49
  • 47
  • 46
  • 38
  • 33
  • 25
  • 20
  • 8
  • 6
  • 6
  • 5
  • 4
  • 4
  • Tagged with
  • 1045
  • 1045
  • 250
  • 147
  • 129
  • 124
  • 113
  • 112
  • 96
  • 95
  • 88
  • 84
  • 83
  • 80
  • 79
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
711

Regressão logística – uma estimativa Bayesiana aplicada na identificação de fatores de risco para HIV, em doadores de sangue

QUEIROZ, Niedja Maristone Oliveira Barreto 26 March 2004 (has links)
Submitted by (ana.araujo@ufrpe.br) on 2016-08-09T12:57:36Z No. of bitstreams: 1 Niedja Maristone Oliveira Barreto Queiroz.pdf: 2909360 bytes, checksum: 109caf21db04442310458a38ed638100 (MD5) / Made available in DSpace on 2016-08-09T12:57:36Z (GMT). No. of bitstreams: 1 Niedja Maristone Oliveira Barreto Queiroz.pdf: 2909360 bytes, checksum: 109caf21db04442310458a38ed638100 (MD5) Previous issue date: 2004-03-26 / Logistic regression has application in several fields as epidemiology, medical research, banks, market research and social research. One of its advantages is that the interpretation of the measure is possible through the " Odds Ratios” (OR), that are functions of the parameters of the model. In this study the binary regression model was used, with the objective of estimating the relationship between two variables, taking into account the presence of other factors. For his purpose a Bayesian approach was used to estimate those risk measures, and these results were compared with the corresponding classical results obtained by application of a stepwise backward process, using the maximum likelihood as criterion for exclusion of the variable of the model, and the Wald test as analysis of each parameter of the final model, both at the level of significance of 0,05. An application was performed using real data from a transverse study of 106.203 blood donor candidates, found apt by the clinical screening process performed at the blood bank Recife of the HEMOPE foundation. Measures of HIV infection association “OR” were estimated in relation with certain socio-demographic conditions, sorological markers for other Sexually Transmissible Diseases as well as the donation type. For the classical analysis thestatistical package SPSS version 10 was used, and for the bayesian analysis the Winbugs 14. The results indicated that OR obtained using the two methods are rather similar, in spite of the fact that the classical approach used Maximum likelihood and the bayesian approach used the Markov Chain Monte Carlo(MCMC), which are quite different methods. It was concluded, that the factors independently associated to the HIV infection risk among donors of blood in the observed period, for the bayesian estimate, were: age 18 to 28 years (2,45) and 29 to 39 years (2,79); illiteracy (8,17), primary school (3,31) and secundary school (3,29); positive Anti-Hbc (1,95), positive syphilis (3,14), residence in the Metropolitan Area of Recife (2,41) and type of voluntary donation (11,94). / Regressão logística tem aplicação em diversos campos como epidemiologia, pesquisa médica, bancos, pesquisa de mercado e pesquisa social. Uma de suas vantagens é que a interpretação da medida é possível através das “Odds Ratios” (OR), que são funções dos parâmetros do modelo. Neste estudo foi usado o modelo de regressão binária, com o objetivo de estimar a relação entre duas variáveis tendo em conta a presença de outros fatores. Utilizou-se para isso uma abordagem bayesiana para estimar essas medidas de risco, fazendo uma comparação com os resultados da abordagem clássica proveniente de um processo stepwise backward, utilizando o critério da razão de verossimilhança como exclusão da variável do modelo e o teste de Wald como análise de cada parâmetro do modelo final, ambos no nível de significância de 0,05. Realizou-se uma aplicação com dados reais proveniente de um estudo transversal de 106.203 doadores de sangue de 1ª doação aptos na triagem clínica no Hemocentro Recife da Fundação HEMOPE. Estimou-se medidas de associação “OR”, da infecção por HIV, com relação a algumas condições sócio-demográficas, marcadores sorológicos para outras Doenças Sexualmente Transmissíveis (DST) e tipo de doação. Para as análises no método clássico foi utilizado o pacote estatístico SPSS versão 10 e no método bayesiano o Winbugs 14. Os resultados indicaram que as OR estimadas, utilizando os dois métodos, foram bastante próximas, apesar do clássico utilizar o método de estimação por Máxima Verossimilhança, e o bayesiano utilizar os métodos de Monte Carlo Cadeia de Markov (MCMC), que são métodos diferentes. Concluiu-se, que os fatores independentemente associados ao risco de infecção por HIV entre doadores de sangue no período foram, pela estimativa bayesiana: idade 18 a 28 anos (2,45) e 29 a 39 anos (2,79); escolaridade: analfabeto (8,17), ensino fundamental (3,31) e médio (3,29); Anti-Hbc positivo (1,95); sífilis positivo (3,14); residir na Região Metropolitana do Recife (RMR) (2,41) e tipo de doação voluntária (11,94).
712

Técnicas de machine learning aplicadas na recuperação de crédito do mercado brasileiro

Forti, Melissa 08 August 2018 (has links)
Submitted by Melissa Forti (melissaforti@gmail.com) on 2018-09-03T12:07:02Z No. of bitstreams: 1 Melissa_Forti_dissertacao.pdf: 2661806 bytes, checksum: a588904f04c4b3d523f82e716231ffd6 (MD5) / Approved for entry into archive by Joana Martorini (joana.martorini@fgv.br) on 2018-09-03T17:14:01Z (GMT) No. of bitstreams: 1 Melissa_Forti_dissertacao.pdf: 2661806 bytes, checksum: a588904f04c4b3d523f82e716231ffd6 (MD5) / Approved for entry into archive by Suzane Guimarães (suzane.guimaraes@fgv.br) on 2018-09-04T13:30:27Z (GMT) No. of bitstreams: 1 Melissa_Forti_dissertacao.pdf: 2661806 bytes, checksum: a588904f04c4b3d523f82e716231ffd6 (MD5) / Made available in DSpace on 2018-09-04T13:30:28Z (GMT). No. of bitstreams: 1 Melissa_Forti_dissertacao.pdf: 2661806 bytes, checksum: a588904f04c4b3d523f82e716231ffd6 (MD5) Previous issue date: 2018-08-08 / A necessidade de conhecer o cliente sempre foi um diferencial para o mercado e nestes últimos anos vivenciamos um crescimento exponencial de informações e técnicas que promovem a avaliação para todas as fases do ciclo de crédito, desde a prospecção até a recuperação de dívidas. Nesse contexto, as empresas estão investindo cada vez mais em métodos de Machine Learning para que possam extrair o máximo de informações e assim terem processos mais assertivos e rentáveis. No entanto, essas técnicas possuem ainda alguma desconfiança no ambiente financeiro. Diante desse contexto, o objetivo desse trabalho foi aplicar as técnicas de Machine Learning: Random Forest, Support Vector Machine e Gradient Boosting para um banco de dados real de cobrança, a fim de identificar os clientes mais propensos a quitar suas dívidas (Collection Score) e comparar a acurácia e interpretação desses modelos com a metodologia tradicional de Regressão Logística. A principal contribuição desse trabalho está relacionada com a comparação das técnicas em um cenário de recuperação de crédito considerando as principais características, vantagens e desvantagens. / The need to know the customer has always been a differential for the market, and in currently years we have experienced an exponential growth of information and techniques that promote this evaluation for all phases of the credit cycle, from prospecting to debt recovery. In this context, companies are increasingly investing in Machine Learning methods, so that they can extract the maximum information and thus have more assertive and profitable processes. However, these models still have a lot of distrust in the financial environment. Given this need and uncertainty, the objective of this work was to apply the Machine Learning techniques: Random Forest, Support Vector Machine and Gradient Boosting to a real collection database in order to identify the recover clients (Collection Score) and to compare the accuracy and interpretation of these models with the classical logistic regression methodology. The main contribution of this work is related to the comparison of the techniques and if they are suitable for this application, considering its main characteristics, pros and cons.
713

Fatores de risco associados à ocorrência de anticorpos anti-Neospora caninum em fêmeas bovinas leiteiras da microrregião leste do estado de Antioquia - Colômbia / Risk factors and seroprevalence associated to Neospora caninum in female bovines from the eastern Antioquia state, Colombia

Llano, Horwald Alexander Bedoya 27 February 2015 (has links)
Submitted by Cláudia Bueno (claudiamoura18@gmail.com) on 2016-05-12T19:22:49Z No. of bitstreams: 2 Dissertação - Horwald Alexander Bedoya Llano - 2015.PDF: 1452271 bytes, checksum: 8c74931380412669cdce1f30153c9558 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-05-13T11:44:03Z (GMT) No. of bitstreams: 2 Dissertação - Horwald Alexander Bedoya Llano - 2015.PDF: 1452271 bytes, checksum: 8c74931380412669cdce1f30153c9558 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2016-05-13T11:44:03Z (GMT). No. of bitstreams: 2 Dissertação - Horwald Alexander Bedoya Llano - 2015.PDF: 1452271 bytes, checksum: 8c74931380412669cdce1f30153c9558 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2015-02-27 / Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / Bovine neosporosis is a parasitic disease distributed worldwide, that causes large economic losses due to abortions, low milk production, neonatal mortality and repeated estrus. Because of the limited information from Colombia’s studies, we aimed to identify the risk factors associated with this infection and to determine its seroprevalence for Antioquia's east region, which is the largest milk producer state of the country. We collected 1,038 blood samples from Holstein, Jersey and crossbred cows from 31 farms in five municipal districts. An epidemiologic questionnaire was applied to the owner of each farm. For the determination of seropositivity we employed indirect ELISA and for titration of positive samples we used the indirect immunofluorescence assay test (cutoff ≥ 1:200). The soropositivity for N. caninum was estimated to be 28.32% (294/1038). All properties had at least one positive animal with frequencies of seropositivity ranging from 5.5% to 50%. Analysis of risk factors was performed by Chi-square test (X²) and multiple logistic regression. The presence of dogs, history of abortion, breed, age, replacement cattle purchase outside the farm, gestation, repetition of estrus, type of milking and the presence of chickens on farms showed significant association with seropositive animals by Chi-square test (X²=P<0.25) and were selected for a final multivariable logistic regression model where the history of abortion (OR = 5.33, p <0.001), age (OR = 1.7, p = 0.038), replacement cattle purchase outside the farm (OR = 1.54 p = 0.008) and manual milking (OR = 1.69, p = 0.0029) were identified as risk factors. These findings record the first report of seroprevalence and risk factors for the region and allow us to conclude that N. caninum is widely distributed in the evaluated properties and significantly associated with these factors. / A neosporose bovina é uma enfermidade parasitária de ampla distribuição mundial, causa de grandes perdas econômicas por abortos, baixa produção de leite, mortalidade neonatal e repetições de serviços. Devido a pouca informação que se tem na Colômbia, objetivou-se identificar os fatores de risco associados à infecção e determinar a sua soroprevalência para a microrregião do leste de Antioquia, que é o Estado de maior produção leiteira do país. Coletaram-se 1.038 amostras de sangue de fêmeas bovinas das raças Holandesa, Jersey e mestiça provenientes de 31 fazendas em cinco municípios. Um questionário epidemiológico foi aplicado ao proprietário de cada fazenda. Para a determinação do soropositividade foi empregado o teste de ELISA indireto (Civtest®) e para titulação das amostras positivas foi empregado o teste de reação de imunofluorescência indireta (ponto de corte ≥ 1:200). A ocorrência total de anticorpos anti-N. caninum foi de 28,32% (294/1038). Cem por cento das propriedades apresentaram ao menos um animal positivo com frequências de soropositividade variando entre 5,5% a 50%. A análise dos fatores de risco foi realizada pelo teste de Quiquadrado (X²) e regressão logística múltipla. A presença de cães, histórico de abortos, raça, idade, compra de animais para reposição, período de gestação, repetição de cios, tipo de ordenha e presença de aves nas fazendas demonstraram associação significativa com animais soropositivos pelo teste Qui-quadrado (X²=P<0,25) e foram selecionadas para um modelo final de regressão logística multivariável onde o histórico de abortos (OR=5,33;p<0,001), idade (OR=1,7;p=0,038), compra de animais para reposição (OR=1,54;p=0,008) e ordenha manual (OR=1,699; p=0,0029) foram identificados como fatores de risco. Esses achados registram o primeiro relato de fatores do risco e soroprevalência para a região e permitem concluir que N. caninum está amplamente distribuído nas propriedades avaliadas e significativamente associado a esses fatores.
714

Uma contribuição ao estudo de acidentes fatais por queda de rochas: o caso da mineração peruana. / A contribuition to the study of fatal accidents by rocks falls: the case of peruvian mining.

Renan Collantes Candia 26 July 2011 (has links)
A dependência de países em vias de desenvolvimento com relação às indústrias primárias como a mineração é evidente. Na economia peruana, aproximadamente, 6% do PIB e mais de 50% das exportações são provenientes desta atividade econômica, destacando sua posição competitiva no cenário mundial. A importância desta atividade aparece, também, quando o assunto em questão é a segurança do trabalho. Assim, embora nos últimos anos tenha-se percebido uma diminuição no número de acidentes na mineração peruana, a taxa de mortalidade ainda é alta quando comparada com outros países de tradição mineira, especialmente os mais desenvolvidos. No Peru, oficialmente, as causas fundamentais para a ocorrência de acidentes são atribuídas aos fatores pessoais e de trabalho, assim como às condições e aos atos inseguros. Nesse contexto, a identificação dessas causas, visando à proposta de soluções efetivas para melhor gerenciar os sistemas de segurança e de saúde na indústria da mineração, é muito importante. Esta tese estuda os acidentes por queda de rochas em minas subterrâneas do Peru. Para tal foi utilizado como fonte de informação primária o registro de acidentes fatais de 2007 em minas de médio e grande porte. Esse registro foi concedido pela Oficina de Fiscalización Minera del Organismo Superior de la Inversión en Energía y Minería del Peru (OSINERGMIN), órgão pertencente ao Ministério de Energía y Minas del Perú (MEM). O estudo mostra que a maioria dos acidentes fatais são provocados pela queda de rochas em escavações subterrâneas; assim, no período em estudo, este tipo de acidente representou 29,41% dos eventos. O estudo das características pessoais das vítimas mostra ainda que trabalhadores que desenvolvem funções de perfuração, preparação e instalação de suporte pós-desmonte tanto em frentes de lavra de produção quanto em escavações de desenvolvimento morrem por causa de traumatismos múltiplos e encefalo-cranianos severos. A maioria das vítimas pertencia a empresas mineiras terceirizadas. A partir do estudo das características pessoais das vítimas e utilizando os Métodos de Regressão Logística (MRL), propõe-se um modelo matemático para determinar a chance de se sofrer acidente por queda de rochas, em relação a outros tipos de acidentes. Os resultados mostram que trabalhadores que desempenham a função de ajudante, bem como trabalhadores com experiência de mais de três anos têm menos chance de sofrer acidentes por queda de rochas. Finalmente, foram identificados as causas fundamentais e imediatas dos acidentes estudados. Entre os fatores pessoais e de trabalho destacam-se o excesso de confiança e a supervisão deficiente como sendo as principais causas deste tipo de acidente. O estudo mostra também que o descumprimento de procedimentos operacionais e a presença de rochas soltas nas escavações constituem os principais tipos de atos e condições inseguras, respectivamente. / There are several evidences that developing countries depend on primary industries like mining. In fact about 6% of the Peruvian Gross Domestic Product (GDP) and 50% of exports are provided by mining. As well as in economy, mining has been strongly affecting the statistics concerning the safety in the workplace. Thus, although in recent years there was a decrease in the number of mining accidents in Peruvian mining, the fatality rate is still high compared to other traditional mining countries, especially the developed ones. In Peru, according to official statements, the primary causes of the accidents are attributed to personal and work factors, as well as unsafe conditions and acts. Based on this information, the identification of these causes, aiming the proposal of effective solutions to enhance safety and health management systems in mining becomes a very important issue. This thesis has studied the accidents caused by the fall of rocks in Peruvian underground mines, using as the main source of information about the fatalities occurred in 2007 in medium and large mines. This information was provided by the Oficina de Fiscalización Minera del Organismo Superior de la Inversión en Energía y Minería del Perú (OSINERGMIN), an agency under administration of the Ministry of Energy and Mines of Peru (MEM). The study shows that the majority of fatal accidents are caused by rock falls in underground excavations, and also that rock falls have accounted for 29.41% of all events during the studied period. Studying the personal characteristics of the victims also showed that the main victims are workers when they were developing drilling and preparation and installation of rock support activities in development areas as well as in production and excavations areas. The data showed that the majority died by severe multiple and cranial traumas and most of them were third part workers. From the study of the personal characteristics of victims and using the Methods of Logistic Regression (MLR), this research proposes a mathematical model to determine the chance of suffering an accident by rocks falls compared to other types of accidents. Also, the selected model showed that, from the statistical point of view, the experience in mining is the most representative variable and those workers having most of three years of experience have lower probability to suffer injuries by rock falls. Finally, the root and immediate causes of accidents were identified. Among personal and working factors the overconfidence and lack of supervision were respectively highlighted. The study also showed that non-complying operational procedures and the presence of loose rocks during the excavations are respectively the main types of unsafe acts and conditions.
715

Probabilidade de insolvência das empresas que compõem o Índice de Sustentabilidade Empresarial (ISE) e das demais listadas na BM&FBovespa no período de 2006 a 2011

Moraes, Luis Fernando Salles 15 August 2012 (has links)
Made available in DSpace on 2016-03-15T19:32:41Z (GMT). No. of bitstreams: 1 Luis Fernando Salles Moraes.pdf: 926577 bytes, checksum: 167e10d14baae4f409fdf302c7e5eefe (MD5) Previous issue date: 2012-08-15 / The current economic scenery, with high competition level among market players, easy access to economic and financial information and increasing number of companies that went bankrupt in recent years, changed the investors behavior and the decisive factors of investment targets. Nowadays, to mitigate these risks, shareholders became more concerned to long-term analysis and in this context arise the new concept of socially responsible companies, those that are sustainable and profitable to shareholders, even though this idea is also shared by BM&FBovespa it is not supported by current researches. This research aims to compare the probability of insolvency of corporations that make up the Corporate Sustainability Index (ISE) and others traded on BM&FBovespa. The research was done in two different moments: model creation and model application to a controlled group. The model used the insolvent and solvent companies from 2006 up to 2011 and established annual equations to calculate the probability of insolvency. Applying the model it was possible to identify the corporations probability of insolvency that belong to the ISE. The results of this study allowed to confirm based on the average probability of insolvency that ISE´s companies have less default chances if compared with sector correspondents traded in the stock market. / A conjuntura econômica atual, com alto nível de competição entre os agentes mercadológicos, a facilidade ao acesso às informações econômico-financeiro e o aumento do número de casos de falência empresarial, alteraram o comportamento dos investidores e o critério de seleção de empresas para investimento. Atualmente, visando mitigar os riscos de suas aplicações, os acionistas tornaram-se mais críticos e conscientes na análise de longo prazo e neste contexto, surge o conceito de empresas socialmente responsáveis. Estas empresas são caracterizadas por possuírem um negócio sustentável e rentável para os acionistas, porém este discurso, também adotado pela BM&FBovespa, não está comprovado pelas pesquisas atuais. Esta dissertação objetivou comparar a probabilidade de insolvência entre as empresas que compõem o Índice de Sustentabilidade Empresarial (ISE) e as demais transacionadas na BM&FBovespa. Foram realizadas duas etapas na pesquisa: construção do modelo e aplicação no grupo de controle. O modelo utilizou as empresas insolventes e solventes no período de 2006 a 2011 e estabeleceu equações anuais para o cálculo da probabilidade de insolvência. A aplicação do modelo identificou a probabilidade de insolvência entre as empresas pertencentes ao Índice de Sustentabilidade Empresarial (ISE) da BM&FBovespa e nas demais transacionadas. Os resultados obtidos permitiram confirmar através das médias da probabilidade de insolvência que as empresas pertencentes ao Índice de Sustentabilidade Empresarial possuem menor probabilidade ao default se comparadas com suas correspondentes setoriais comercializadas na bolsa.
716

Análise de crédito com segmentação da carteira, modelos de análise discriminante, regressão logística e classification and regression trees (CART) / Análise de crédito com segmentação da carteira, modelos de análise discriminante, regressão logística e classification and regression trees (CART)

Santos, Ernani Possato dos 14 August 2015 (has links)
Made available in DSpace on 2016-03-15T19:32:56Z (GMT). No. of bitstreams: 1 Ernani Possato dos Santosprot.pdf: 2286270 bytes, checksum: 96bb14c147c5baa96f3ae6ca868056d6 (MD5) Previous issue date: 2015-08-14 / The credit claims to be one of the most important tools to trigger and move the economic wheel. Once it is well used it will bring benefits on a large scale to society; although if it is used without any balance it might bring loss to the banks, companies, to governments and also to the population. In relation to this context it becomes fundamental to evaluate models of credit capable of anticipating processses of default with an adequate degree of accuracy so as to avoid or at least to reduce the risk of credit. This study also aims to evaluate three credit risk models, being two parametric models, discriminating analysis and logistic regression, and one non-parametric, decision tree, aiming to check the accuracy of them, before and after the segmentation of such sample through the criteria of costumer s size. This research relates to an applied study about Industry BASE. / O crédito se configura em uma das mais importantes ferramentas para alavancar negócios e girar a roda da economia. Se bem utilizado, trará benefícios em larga escala à sociedade, porém, se utilizado sem equilíbrio, poderá trazer prejuízos, também em larga escala, a bancos, a empresas, aos governos e aos cidadãos. Em função deste contexto, é precípuo avaliar modelos de crédito capazes de prever, com grau adequado de acurácia, processos de default, a fim de se evitar ou, pelo menos, reduzir o risco de crédito. Este estudo tem como finalidade avaliar três modelos de análise do risco de crédito, sendo dois modelos paramétricos, análise discriminante e regressão logística, e um não-paramétrico, árvore de decisão, em que se avaliou a acurácia destes modelos, antes e após a segmentação da amostra desta pesquisa por meio do critério de porte dos clientes. Esta pesquisa se refere a um estudo aplicado sobre a Indústria BASE.
717

Uma abordagem Forward-Looking para estimar a PD segundo IFRS9 / A Forward Looking Approach to estimate PD according to IFRS9

Luiz Henrique Outi Kauffmann 20 November 2017 (has links)
Este trabalho tem por objetivo discutir as metodologias de estimação da PD utilizadas na indústria financeira. Além disso, contextualizar a aplicação do trabalho ao IFRS9 e seu direcionamento para o tema de Risco de Crédito. Historicamente os grandes bancos múltiplos utilizam variadas metodologias econométricas para modelar a Probabilidade de Descumprimento (PD),um dos métodos mais tradicionais é a regressão logística, entretanto com a necessidade do cálculo da Perda Esperada de Crédito através do IFRS9, se torna necessário mudar o paradigma de estimação para uma abordagem forward-looking, isto está sendo interpretado por muitas instituições e consultorias como a inclusão de fatores e variáveis projetadas dentro do processo de estimação, ou seja, não serão utilizados apenas os dados históricos para prever o descumprimento ou inadimplência. Dentro deste contexto será proposto uma abordagem que une a estimação da Probabilidade de Descumprimento com a inclusão de um fator foward-looking. / This paper aims to discuss the methodologies used to estimate the Probability Of Default used in the financial industry. In addition, contextualize the application of the work to IFRS9 requirements and its targeting to the Credit Risk theme. Historically large multi-banks use a variety of econometric methodologies to model the Probability of Default, one of the more traditional methods is logistic regression. However, with the need to calculate the expected credit loss through IFRS9, it becomes necessary to change the estimation paradigm to a forwardlooking approach, this is being interpreted by many institutions and consultancies companies as the inclusion of factors and variables projected within the estimation process, that is, not only historical data are used to predict the default. Within this context will be proposed an approach that joins the estimation of Probability of Default with the inclusion of a forward-looking factor.
718

Avaliação do uso de classificadores para verificação de atendimento a critérios de seleção em programas sociais

Santos, Cinara de Jesus 07 March 2017 (has links)
Submitted by isabela.moljf@hotmail.com (isabela.moljf@hotmail.com) on 2017-08-15T12:01:50Z No. of bitstreams: 1 cinaradejesussantos.pdf: 4566569 bytes, checksum: bddc2ea97276541c0a8ad30a371102d1 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-08-15T12:02:54Z (GMT) No. of bitstreams: 1 cinaradejesussantos.pdf: 4566569 bytes, checksum: bddc2ea97276541c0a8ad30a371102d1 (MD5) / Made available in DSpace on 2017-08-15T12:02:54Z (GMT). No. of bitstreams: 1 cinaradejesussantos.pdf: 4566569 bytes, checksum: bddc2ea97276541c0a8ad30a371102d1 (MD5) Previous issue date: 2017-03-07 / Classificadores são separadores de grupos que mediante determinadas características organiza os dados agrupando elementos que apresentem traços semelhantes, o que permite reconhecimento de padrões e identificação de elementos que não se encaixam. Esse procedimento de classificação e separação pode ser observado em processos do cotidiano como exames (clínicos ou por imagem), separadores automáticos de grãos na agroindústria, identificador de probabilidades, reconhecedores de caracteres, identificação biométrica - digital, íris, face, etc. O estudo aqui proposto utiliza uma base de dados do Ministério do Desenvolvimento Social e Combate a Fome (MDS), contendo informações sobre beneficiários do Programa Bolsa Família (PBF), onde contamos com registros descritores do ambiente domiciliar, grau de instrução dos moradores do domicílio assim como o uso de serviços de saúde pelos mesmos e informações de cunho financeiro (renda e gastos das famílias). O foco deste estudo não visa avaliar o PBF, mas o comportamento de classificadores aplicados sobre bases de caráter social, pois estas apresentam certas particularidades. Sobre as variáveis que descrevem uma família como beneficiária ou não do PBF, testamos três algoritmos classificadores - regressão logística, árvore binária de decisão e rede neural artificial em múltiplas camadas. O desempenho destes processos foi medido a partir de métricas decorrentes da chamada matriz de confusão. Como os erros e acertos de uma classe n˜ao s˜ao os complementares da outra classe é de suma importância que ambas sejam corretamente identificadas. Um desempenho satisfatório para ambas as classes em um mesmo cenário não foi alçado - a identificação do grupo minoritário apresentou baixa eficiência mesmo com reamostragem seguida de reaplicação dos três processos classificatórios escolhidos, o que aponta para a necessidade de novos experimentos. / Classifiers are group separators that, by means of certain characteristics, organize the data by grouping elements that present similar traits, which allows pattern recognition and the identification of elements that do not fit. Classification procedures can be used in everyday processes such as clinical or imaging exams, automatic grain separators in agribusiness, probability identifiers, character recognition, biometric identification by thumbprints, iris, face, etc. This study uses a database of the Ministry of Social Development and Fight against Hunger (MDS), containing information on beneficiaries of the Bolsa Fam´ılia Program (PBF). The data describe the home environment, the level of education of the residents of the household, their use of public health services, and some financial information (income and expenses of families). The focus of this study is not to evaluate the PBF, but to analyze the performance of the classifiers when applied to bases of social character, since these have certain peculiarities. We have tested three classification algorithms - logistic regression, binary decision trees and artificial neural networks. The performance of these algorithms was measured by metrics computed from the so-called confusion matrix. As the probabilities of right and wrong classifications of a class are not complementary, it is of the utmost importance that both are correctly identified. A good evaluation could not be archive for both classes in a same scenario was not raised - the identification of the minority group showed low efficiency even with resampling followed by reapplication of the three classificatory processes chosen, which points to the need for new experiments.
719

Detecção de fraudes em cartões: um classificador baseado em regras de associação e regressão logística / Card fraud detection: a classifier based on association rules and logistic regression

Paulo Henrique Maestrello Assad Oliveira 11 December 2015 (has links)
Os cartões, sejam de crédito ou débito, são meios de pagamento altamente utilizados. Esse fato desperta o interesse de fraudadores. O mercado de cartões enxerga as fraudes como custos operacionais, que são repassados para os consumidores e para a sociedade em geral. Ainda, o alto volume de transações e a necessidade de combater as fraudes abrem espaço para a aplicação de técnicas de Aprendizagem de Máquina; entre elas, os classificadores. Um tipo de classificador largamente utilizado nesse domínio é o classificador baseado em regras. Entretanto, um ponto de atenção dessa categoria de classificadores é que, na prática, eles são altamente dependentes dos especialistas no domínio, ou seja, profissionais que detectam os padrões das transações fraudulentas, os transformam em regras e implementam essas regras nos sistemas de classificação. Ao reconhecer esse cenário, o objetivo desse trabalho é propor a uma arquitetura baseada em regras de associação e regressão logística - técnicas estudadas em Aprendizagem de Máquina - para minerar regras nos dados e produzir, como resultado, conjuntos de regras de detecção de transações fraudulentas e disponibilizá-los para os especialistas no domínio. Com isso, esses profissionais terão o auxílio dos computadores para descobrir e gerar as regras que embasam o classificador, diminuindo, então, a chance de haver padrões fraudulentos ainda não reconhecidos e tornando as atividades de gerar e manter as regras mais eficientes. Com a finalidade de testar a proposta, a parte experimental do trabalho contou com cerca de 7,7 milhões de transações reais de cartões fornecidas por uma empresa participante do mercado de cartões. A partir daí, dado que o classificador pode cometer erros (falso-positivo e falso-negativo), a técnica de análise sensível ao custo foi aplicada para que a maior parte desses erros tenha um menor custo. Além disso, após um longo trabalho de análise do banco de dados, 141 características foram combinadas para, com o uso do algoritmo FP-Growth, gerar 38.003 regras que, após um processo de filtragem e seleção, foram agrupadas em cinco conjuntos de regras, sendo que o maior deles tem 1.285 regras. Cada um desses cinco conjuntos foi submetido a uma modelagem de regressão logística para que suas regras fossem validadas e ponderadas por critérios estatísticos. Ao final do processo, as métricas de ajuste estatístico dos modelos revelaram conjuntos bem ajustados e os indicadores de desempenho dos classificadores também indicaram, num geral, poderes de classificação muito bons (AROC entre 0,788 e 0,820). Como conclusão, a aplicação combinada das técnicas estatísticas - análise sensível ao custo, regras de associação e regressão logística - se mostrou conceitual e teoricamente coesa e coerente. Por fim, o experimento e seus resultados demonstraram a viabilidade técnica e prática da proposta. / Credit and debit cards are two methods of payments highly utilized. This awakens the interest of fraudsters. Businesses see fraudulent transactions as operating costs, which are passed on to consumers. Thus, the high number of transactions and the necessity to combat fraud stimulate the use of machine learning algorithms; among them, rule-based classifiers. However, a weakness of these classifiers is that, in practice, they are highly dependent on professionals who detect patterns of fraudulent transactions, transform them into rules and implement these rules in the classifier. Knowing this scenario, the aim of this thesis is to propose an architecture based on association rules and logistic regression - techniques studied in Machine Learning - for mining rules on data and produce rule sets to detect fraudulent transactions and make them available to experts. As a result, these professionals will have the aid of computers to discover the rules that support the classifier, decreasing the chance of having non-discovered fraudulent patterns and increasing the efficiency of generate and maintain these rules. In order to test the proposal, the experimental part of the thesis has used almost 7.7 million transactions provided by a real company. Moreover, after a long process of analysis of the database, 141 characteristics were combined using the algorithm FP-Growth, generating 38,003 rules. After a process of filtering and selection, they were grouped into five sets of rules which the biggest one has 1,285 rules. Each of the five sets was subjected to logistic regression, so their rules have been validated and weighted by statistical criteria. At the end of the process, the goodness of fit tests were satisfied and the performance indicators have shown very good classification powers (AUC between 0.788 and 0.820). In conclusion, the combined application of statistical techniques - cost sensitive learning, association rules and logistic regression - proved being conceptually and theoretically cohesive and coherent. Finally, the experiment and its results have demonstrated the technical and practical feasibilities of the proposal.
720

Evidential calibration and fusion of multiple classifiers : application to face blurring / Calibration et fusion évidentielles de classifieurs : application à l'anonymisation de visages

Minary, Pauline 08 December 2017 (has links)
Afin d’améliorer les performances d’un problème de classification, une piste de recherche consiste à utiliser plusieurs classifieurs et à fusionner leurs sorties. Pour ce faire, certaines approches utilisent une règle de fusion. Cela nécessite que les sorties soient d’abord rendues comparables, ce qui est généralement effectué en utilisant une calibration probabiliste de chaque classifieur. La fusion peut également être réalisée en concaténant les sorties et en appliquant à ce vecteur une calibration probabiliste conjointe. Récemment, des extensions des calibrations d’un classifieur individuel ont été proposées en utilisant la théorie de l’évidence, afin de mieux représenter les incertitudes. Premièrement, cette idée est adaptée aux techniques de calibrations probabilistes conjointes, conduisant à des versions évidentielles. Cette approche est comparée à celles mentionnées ci-dessus sur des jeux de données de classification classiques. Dans la seconde partie, le problème d’anonymisation de visages sur des images, auquel SNCF doit répondre, est considéré. Une méthode consiste à utiliser plusieurs détecteurs de visages, qui retournent des boites et des scores de confiance associés, et à combiner ces sorties avec une étape d’association et de calibration évidentielle. Il est montré que le raisonnement au niveau pixel est plus intéressant que celui au niveau boite et que, parmi les approches de fusion abordées dans la première partie, la calibration conjointe évidentielle donne les meilleurs résultats. Enfin, le cas des images provenant de vidéos est considéré. Pour tirer parti de l’information contenue dans les vidéos, un algorithme de suivi classique est ajouté au système. / In order to improve overall performance of a classification problem, a path of research consists in using several classifiers and to fuse their outputs. To perform this fusion, some approaches merge the outputs using a fusion rule. This requires that the outputs be made comparable beforehand, which is usually done using a probabilistic calibration of each classifier. The fusion can also be performed by concatenating the classifier outputs into a vector, and applying a joint probabilistic calibration to it. Recently, extensions of probabilistic calibrations of an individual classifier have been proposed using evidence theory, in order to better represent the uncertainties inherent to the calibration process. In the first part of this thesis, this latter idea is adapted to joint probabilistic calibration techniques, leading to evidential versions. This approach is then compared to the aforementioned ones on classical classification datasets. In the second part, the challenging problem of blurring faces on images, which SNCF needs to address, is tackled. A state-of-the-art method for this problem is to use several face detectors, which return boxes with associated confidence scores, and to combine their outputs using an association step and an evidential calibration. In this report, it is shown that reasoning at the pixel level is more interesting than reasoning at the box-level, and that among the fusion approaches discussed in the first part, the evidential joint calibration yields the best results. Finally, the case of images coming from videos is considered. To leverage the information contained in videos, a classical tracking algorithm is added to the blurring system.

Page generated in 0.1011 seconds