Spelling suggestions: "subject:"deoria bayesian"" "subject:"ateoria bayesian""
121 |
Redes bayesianas aplicadas à modelagem de fraudes em cartão de créditoRamos, Jhonata Emerick 21 August 2015 (has links)
Submitted by Jhonata Ramos (jhonata.emerick@gmail.com) on 2015-09-18T16:47:09Z
No. of bitstreams: 1
dissertacao_final.pdf: 820128 bytes, checksum: b7fc5ca71a3debaf99da902b518ff748 (MD5) / Approved for entry into archive by Renata de Souza Nascimento (renata.souza@fgv.br) on 2015-09-18T17:17:43Z (GMT) No. of bitstreams: 1
dissertacao_final.pdf: 820128 bytes, checksum: b7fc5ca71a3debaf99da902b518ff748 (MD5) / Made available in DSpace on 2015-09-18T21:34:00Z (GMT). No. of bitstreams: 1
dissertacao_final.pdf: 820128 bytes, checksum: b7fc5ca71a3debaf99da902b518ff748 (MD5)
Previous issue date: 2015-08-21 / For fraud detection models are used to identify whether a transaction is legitimate or fraudulent based on registration and transactional information. The proposal on technical study presented in this thesis consists in the Bayesian Networks (BN); their results were compared to logistic regression technique (RL), widely used by the market. Bayesian classifiers were evaluated, with the Naive Bayes structure. The structures of Bayesian networks were obtained from actual data, provided by a financial institution. The database was divided into samples development and validation by cross validation ten partitions. Naive Bayes classifiers were chosen due to the simplicity and efficiency. The model performance was evaluated taking into account the confusion matrix and the area under the ROC curve. The analyzes of performance models revealed slightly higher than the logistic regression compared to bayesian classifiers. Logistic regression was chosen as the most appropriate model for performed better in predicting fraudulent operations, compared to the confusion matrix. Based on area under the ROC curve, logistic regression demonstrated greater ability to discriminate the operations being classified correctly, those that are not. / Modelos para detecção de fraude são utilizados para identificar se uma transação é legítima ou fraudulenta com base em informações cadastrais e transacionais. A técnica proposta no estudo apresentado, nesta dissertação, consiste na de Redes Bayesianas (RB); seus resultados foram comparados à técnica de Regressão Logística (RL), amplamente utilizada pelo mercado. As Redes Bayesianas avaliadas foram os classificadores bayesianos, com a estrutura Naive Bayes. As estruturas das redes bayesianas foram obtidas a partir de dados reais, fornecidos por uma instituição financeira. A base de dados foi separada em amostras de desenvolvimento e validação por cross validation com dez partições. Naive Bayes foram os classificadores escolhidos devido à simplicidade e a sua eficiência. O desempenho do modelo foi avaliado levando-se em conta a matriz de confusão e a área abaixo da curva ROC. As análises dos modelos revelaram desempenho, levemente, superior da regressão logística quando comparado aos classificadores bayesianos. A regressão logística foi escolhida como modelo mais adequado por ter apresentado melhor desempenho na previsão das operações fraudulentas, em relação à matriz de confusão. Baseada na área abaixo da curva ROC, a regressão logística demonstrou maior habilidade em discriminar as operações que estão sendo classificadas corretamente, daquelas que não estão.
|
122 |
Aplicação de classificadores Bayesianos e regressão logística na análise de desempenho dos alunos de graduaçãoKuribara, Alex Rodrigo 15 December 2015 (has links)
Submitted by Alex Kuribara (alex_kuribara@yahoo.com.br) on 2016-01-04T20:27:16Z
No. of bitstreams: 1
MPA Sistema da Informação - Alex Kuribara.pdf: 2558507 bytes, checksum: 5157a9a4230813d00ed67591adac5ccf (MD5) / Rejected by Ana Luiza Holme (ana.holme@fgv.br), reason: Alex,
Na pagina 04 precisa retirar os dizeres Projeto de Dissertação.
Ana Luiza Holme
3799-3492 on 2016-01-05T11:50:07Z (GMT) / Submitted by Alex Kuribara (alex_kuribara@yahoo.com.br) on 2016-01-05T13:16:47Z
No. of bitstreams: 1
MPA Sistema da Informação - Alex Kuribara.pdf: 2558380 bytes, checksum: 7b98268613b3870b062daca2fceae2ab (MD5) / Approved for entry into archive by Ana Luiza Holme (ana.holme@fgv.br) on 2016-01-05T13:22:22Z (GMT) No. of bitstreams: 1
MPA Sistema da Informação - Alex Kuribara.pdf: 2558380 bytes, checksum: 7b98268613b3870b062daca2fceae2ab (MD5) / Made available in DSpace on 2016-01-05T13:33:50Z (GMT). No. of bitstreams: 1
MPA Sistema da Informação - Alex Kuribara.pdf: 2558380 bytes, checksum: 7b98268613b3870b062daca2fceae2ab (MD5)
Previous issue date: 2015-12-15 / Este trabalho minera as informações coletadas no processo de vestibular entre 2009 e 2012 para o curso de graduação de administração de empresas da FGV-EAESP, para estimar classificadores capazes de calcular a probabilidade de um novo aluno ter bom desempenho. O processo de KDD (Knowledge Discovery in Database) desenvolvido por Fayyad et al. (1996a) é a base da metodologia adotada e os classificadores serão estimados utilizando duas ferramentas matemáticas. A primeira é a regressão logística, muito usada por instituições financeiras para avaliar se um cliente será capaz de honrar com seus pagamentos e a segunda é a rede Bayesiana, proveniente do campo de inteligência artificial. Este estudo mostre que os dois modelos possuem o mesmo poder discriminatório, gerando resultados semelhantes. Além disso, as informações que influenciam a probabilidade de o aluno ter bom desempenho são a sua idade no ano de ingresso, a quantidade de vezes que ele prestou vestibular da FGV/EAESP antes de ser aprovado, a região do Brasil de onde é proveniente e as notas das provas de matemática fase 01 e fase 02, inglês, ciências humanas e redação. Aparentemente o grau de formação dos pais e o grau de decisão do aluno em estudar na FGV/EAESP não influenciam nessa probabilidade. / This dissertation mines a database with information gathered from 2009 to 2012 during the application process to join the business administration course offered by FGV-EAESP. The goal is to develop classifiers which estimate whether a new student will have good performance. The methodology of this dissertation is based on KDD process (Knowledge Discovery in Database) developed by Fayyad et al. (1996a); in addition, the classifiers will be developed by using two theories. The first one is the logistic regression, broadly adopted in financial institutions to assess the potential default of their customers in the credit market. The second one Bayesian networks from artificial intelligence field. The outcomes of this dissertation show that both classifiers have the same discriminant capacity. In addition, the student’s age, the number of times she/he applied for FGV/EAESP before joining the school, the region of Brazil she/he comes from and the grades of five exams: Mathematics phase 01 and phase 02, English, Human Science and Essay influence the student performance. However, neither the parents’ formal education background nor the student’s willingness to join FGV/EAESP impact on such performance.
|
123 |
Bad reputation with rating systemsLorecchio, Caio Paes Leme 11 May 2017 (has links)
Submitted by Caio Paes Leme Lorecchio (caio.lorecchio@gmail.com) on 2017-06-07T16:01:31Z
No. of bitstreams: 1
Bad Reputation with Rating Systems.pdf: 556649 bytes, checksum: 01e7c1222ac8b0ed3258d714f7adc3b2 (MD5) / Rejected by Suzinei Teles Garcia Garcia (suzinei.garcia@fgv.br), reason: Boa tarde Caio,
Por favor, tirar o acento da palavra Getulio em todas as páginas, Agradecimento/Resumo/Abstract em caixa alta, letra padrão ABNT ou APA (capa.....) e tirar a linha do cabeçalho conforme conversamos.
Abs.
Suzi 3799-7876 on 2017-06-07T18:39:31Z (GMT) / Submitted by Caio Paes Leme Lorecchio (caio.lorecchio@gmail.com) on 2017-06-07T19:58:22Z
No. of bitstreams: 1
Bad Reputation with Rating Systems.pdf: 373018 bytes, checksum: 6855d5f3fc595b138d084679ef3eeabe (MD5) / Approved for entry into archive by Suzinei Teles Garcia Garcia (suzinei.garcia@fgv.br) on 2017-06-08T11:43:14Z (GMT) No. of bitstreams: 1
Bad Reputation with Rating Systems.pdf: 373018 bytes, checksum: 6855d5f3fc595b138d084679ef3eeabe (MD5) / Made available in DSpace on 2017-06-08T12:52:00Z (GMT). No. of bitstreams: 1
Bad Reputation with Rating Systems.pdf: 373018 bytes, checksum: 6855d5f3fc595b138d084679ef3eeabe (MD5)
Previous issue date: 2017-05-11 / Este trabalho analisa um modelo de má reputação com sistemas de rating como uma forma particular de memória limitada. Em cada período, um cliente preocupado apenas com ganhos correntes escolhe se contrata ou não um especialista. O cliente compreende as regras de transição do sistema, mas observa apenas a realização de um rating (uma nota) que carrega informação sobre o provável tipo de especialista para tomar a decisão de contrato. Um especialista do tipo estratégico escolhe prover ou não o tratamento correto quando contratado e um especialista do tipo ruim sempre oferece o tratamento mais caro, independentemente do problema observado. Quando clientes observam todo o histórico de interacões, um especialista estratégico ou tem fortes incentivos para oferecer o tratamento barato (quando o tratamento correto seria o mais caro) ou eventualmente a crença no mercado de que ele é do tipo ruim é suficientemente grande para que deixe de ser contratado. Quando clientes possuem apenas o sistema de rating como fonte de informação, este trabalho demonstra que não apenas é possível evitar esse efeito negativo, como também é possível aumentar os ganhos de equilíbrio em comparação à ausência de qualquer sistema informacional. Ademais, este trabalho desenha os sistemas ótimos do ponto de vista tanto do cliente quando do especialista para todas as crenças iniciais, discutindo como eles diferem em um sistema de dois estados e quando há ganhos de eficiência. / We study a bad reputation model with rating system as a special form of limited memory. At each period, a myopic customer knowing the rules of the system but observing only a current public realization of a finite set of states uses this information to infer expert's type and take hiring decisions. A strategic expert chooses whether or not to provide correct treatment whenever hired and a bad (committed) expert always proposes an expensive treatment. With full memory, a patient expert cannot refrain from gaining reputation of being bad or lying to separate herself from a bad type. With rating systems, we show that it is possible not only to overcome bad reputation effect, but generate higher equilibrium outcomes relative to trivial information censoring (no memory at all). We characterize optimal systems from customer and strategic expert's point of view in a two-state setting for all prior beliefs and show how they differ and when a rating system can bring efficiency to experts' markets.
|
124 |
Análise da curva de crescimento de bovinos da raça Nelore utilizando funções não-lineares em análises Bayesianas: Selma Forni. -Forni, Selma [UNESP] 16 February 2007 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:32:16Z (GMT). No. of bitstreams: 0
Previous issue date: 2007-02-16Bitstream added on 2014-06-13T21:03:49Z : No. of bitstreams: 1
forni_s_dr_jabo.pdf: 637612 bytes, checksum: 7582789a64d339985e5f44fda47b627d (MD5) / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O objetivo do presente trabalho foi estimar conjuntamente os parâmetros das curvas de crescimento de animais da raça Nelore, seus componentes de (co)variâncias e os efeitos genéticos e ambientais que atuaram sobre eles. As funções de Brody, Von Bertalanffy, Gompertz e Logística foram empregadas no primeiro estágio de um modelo hierárquico Bayesiano. Os efeitos genéticos e ambientais foram considerados em um modelo animal no segundo estágio de hierarquia. Diferentes abordagens para a variância do erro de ajuste foram avaliadas: constância ao longo da trajetória, aumento linear até os três anos de idade e aumento exponencial. Amostras aleatórias das distribuições marginais foram obtidas aplicando-se os algoritmos de Metropolis-Hastings e amostragem de Gibbs. A presença de animais que não atingiram a maturidade no conjunto de dados não prejudicou a predição dos pesos adultos. Grande parte da variância fenotípica observada neste peso foi devida a efeitos genéticos aditivos. O parâmetro a das curvas de Brody, Von Bertalanffy e Gompertz poderia ser utilizado como critério de seleção para controlar o aumento de peso adulto. O ambiente materno influenciou não somente o crescimento inicial dos animais mas também os pesos maduros e deve ser considerado na avaliação de todas as etapas do crescimento. Os modelos linear e exponencial empregados para a variância do erro de ajuste não representaram de forma adequada este parâmetro no início da curva. A seleção para alterar a pendente da curva de crescimento mantendo o peso adulto constante seria ineficiente, uma vez que, é alta e positiva a correlação genética entre o peso assintótico e a taxa de maturação. / The objective of this work was to estimate the joint posterior distribution of Nelore growth curve parameters, their (co)variance components and the environmental and additive genetic components affecting them. The Brody, Von Bertalanffy, Gompertz and Logistic functions were applied in the first stage of a hierarchical Bayesian model. The environmental and genetic effects were described by an animal model in the second stage. Different approaches for describing the adjustment error variance along the growth curve were evaluated: constancy throughout the trajectory, linear increasing until three years of age and exponential increasing. Random samples of the marginal distributions were drawn using Metropolis-Hastings and Gibbs sampling algorithms. Even thought the curve parameters were estimated for animals with records just from the beginning of the growth process, the adult weights were accurately predicted. A high additive genetic variance for mature weight was observed. The parameter a of Brody, Von Bertalanffy and Gompertz models could be used as a selection criterion to control adult weight increases. The effect of maternal environment on growth was carried through to maturity and it should be considered while evaluating all weights. The adjustment error variances at the beginning of growth curve were not adequately described by the linear and exponential models. Selection to change the growth curve slope without modifying adult weight would be inefficient, since their genetic correlation is high.
|
125 |
Um enfoque bayesiano do modelo de captura-recaptura na presença de covariáveis.Paula, Marcelo de 22 February 2006 (has links)
Made available in DSpace on 2016-06-02T20:06:11Z (GMT). No. of bitstreams: 1
DissMP.pdf: 748309 bytes, checksum: b6a638a5f9ec09f6622480b42f13d699 (MD5)
Previous issue date: 2006-02-22 / Financiadora de Estudos e Projetos / This work has as main objective to insert covariates in the capture probability of the multiple capture-recapture method for closed animal population. Factors like climate, seasons of the year, animal size, could a¤ect the animal capture probability. We revise the methodology concepts, we make a study about the posteriori parameters sensibility, we present new parameters for the capture probability in specific situations and we insert covariates in the model used by Castledine (1981) through bayesian methods. The bayesian analysis was made through several studies of stochastic simulation through MCMC (Monte Carlo Markov Chain) with simulated and real data to obtain the population size posteriori results. / Este trabalho tem como objetivo principal a inserção de covariáveis nas probabilidades de captura do método de captura-recaptura múltipla para população fechada. No
caso de população animal, por exemplo, fatores como clima, época do ano, tamanho do animal, podem afetar a probabilidade de captura do animal. Revisamos os conceitos da
metodologia, fazemos um breve estudo sobre a sensibilidade das estimativas a posteriori em relação a escolha dos hiperparâmetros, apresentamos uma reparametrização para a
probabilidade de captura em situações específicas e, motivados nessa reparametrização, inserimos covariáveis no modelo proposto por Castledine (1981) por meio de métodos
bayesianos. A análise bayesiana foi feita através de vários estudos de simulação estocástica via MCMC (Monte Carlo Markov Chain) com dados simulados e reais para obter os
resultados a posteriori do tamanho populacional.
|
126 |
Suporte à elaboração de plano diretor com ênfase na aplicação de instrumento urbanístico do estatuto da cidade. Estudo de caso : Bastos-SP /Oliveira, Humberto Emmanuel Schmidt. January 2005 (has links)
Resumo: A aprovação do Estatuto da Cidade, em 2001, promoveu novas discussões relativas ao Planejamento Urbano. Da mesma forma, obrigou os Municípios aprovarem seu Plano Diretor. Sendo assim, surgiu a necessidade de se desenvolver novas técnicas que forneçam ao Planejador Urbano subsídios para elaborar um Plano Diretor baseado em dados da realidade local. A questão da espacialização dos dados assume grande importância neste contexto, porque para se saber onde aplicar os instrumentos urbanísticos do Estatuto da Cidade é preciso conhecer a posição das informações. A análise espacial dos dados, a Cartografia e as técnicas estatísticas fornecem o subsídio necessário para que o Planejador Urbano tenha um importante suporte para a elaboração de um Plano Diretor, que inclua a aplicação do instrumento urbanístico do Estatuto da Cidade e que vise a correta aplicação do Imposto Predial Territorial Urbano (IPTU) Progressivo no Tempo. Aqui, a ênfase está no desenvolvimento de técnicas que indiquem a priorização dos bairros da cidade para intervenção. Para isso, foram exploradas duas diferentes abordagens. A primeira, análise de agrupamento, permite o agrupamento dos loteamentos com base em características comuns e a segunda, modelagem Bayesiana, que permite a classificação de acordo com a prioridade de intervenção. Os resultados, para a cidade de Bastos-SP, são apresentados e analisados, verificando-os com a situação real, através de informações colhidas no campo. Demonstram a possibilidade da espacialização das áreas onde devem ser aplicados os instrumentos do Estatuto da Cidade, e a importância da posição espacial da informação nas análises. / Abstract: The approval of the City Statute, in 2001, promoted new quarrels relative to the Urban Planning. In the same way, it enhanced the importance of the Cities to approve its Managing Plan. Being thus, it appeared the necessity of developing new techniques that supply to the Urban Planner subsidies to elaborate an established Managing Plan based in data of the local reality. The question of the spacialization of the data assumes great importance in this context, because to know itself where to apply the urbanistics instruments of the City Statute is necessary to know the position of the information. The space analysis of the data, the Cartography and statistical techniques supply the necessary subsidy so that the Urban Planner has an important support for the elaboration of a Managing Plan, that include the application of urbanistic instrument of the City Statute and aiming for right application of urban building and territorial tax with progressive at time. Here, the emphasis is the development of techniques that indicates the priorization of areas of town to intervention. For this, two differents approachments were explored. The first, Cluster Analysis, allows the grouping of areas of town on the basis of common characteristics and the second, Bayesian modeling, that allows the classification in agreement with the intervention priorization. The results, for the city of Bastos-SP, are presented and analysed, checking with the real situation, through of informations gathered in the city. They demonstrate the possibility of the spacialization of the areas where the instruments of the City Statute must be applied, and the importance of the space position of the information in the analyses. / Orientador: Nilton Nobuhiro Imai / Coorientador: Aparecida Doniseti Pires de Souza / Banca: Norberto Hochheim / Banca: Amilton Amorim / Mestre
|
127 |
Análise bayesiana de dados espaciais explorando diferentes estruturas de variância /Rampaso, Renato Couto. January 2014 (has links)
Orientador: Aparecida Doniseti Pires de Souza / Coorientador: Edilson Ferreira Flores / Banca: Vilma Mayumi Tachibana / Banca: Ricardo Sandes Ehlers / Resumo: No mapeamento de doenças, o objetivo geral é estudar a incidência ou risco de mortalidade causado por uma determinada doença em um conjunto de regiões geográficas. É comum assumir que a variável resposta, geralmente uma contagem, segue uma distribuição de Poisson, cuja taxa média pode ser explicada por um grupo de covariáveis e um efeito aleatório. Para este efeito aleatório, considera-se modelos autorregressivos condicionais (CAR) que carregam informação sobre a relação de vizinhança entre as regiões. Tais relações de vizinhança são expressas por meio da matriz de variâncias presente nestes modelos. Cada modelo CAR possui características distintas que atendem a diferentes propósitos a serem considerados pelo pesquisador. O foco do trabalho foi o estudo e comparação de alguns modelos autorregressivos condicionais propostos na literatura. Para a melhor compreensão das características de cada modelo, duas aplicações com dados epidemiológicos foram conduzidas para modelar o risco de óbito por Doença de Crohn e Colite Ulcerativa e por Câncer de traqueia, brônquios e pulmões no Estado de São Paulo, no período de 2008 a 2012... / Abstract: In disease mapping, the overall goal is to study the incidence or risk of mortality caused by a specific disease in a number of geographical regions. It is common to assume that the response variable, generally a count, follows a Poisson distribution, whose average rate can be explained by a group of covariates and a random effect. For this random effect, it is considered conditional autoregressive models (CAR), which carry information about the neighborhood relationship between the regions. Such neighborhood relations are expressed by the variance matrix present in the models. Each CAR model has distinct characteristics that serve different purposes to be considered by the researcher. The focus of this dissertation was the study and comparison of some conditional autoregressive models proposed in the literature. For better understanding of the characteristics of each model, two applications with epidemiological data were conducted to model the risk of death due to Crohn's Disease and Ulcerative Colitis, and due to trachea, bronchus and lung cancer in the State of São Paulo, in the period of 2008-2012... / Mestre
|
128 |
Utilizando técnicas de mineração de dados para apoiar a busca ativa de famílias em situação de vulnerabilidade e risco social / Using data mining techniques to support active search for families in situations of social risk and vulnerabilityTerrin, Marcos Alexandre Pastori 18 August 2015 (has links)
No âmbito da Assistência Social, existe a necessidade de se identificar as famílias em situação de vulnerabilidade e risco social, processo esse chamado de “Busca Ativa”, para que as famílias nesta situação possam ser assistidas adequadamente. O Ministério do Desenvolvimento Social e Combate à Fome do Brasil orienta que seja realizado o cruzamento de bases de dados como forma de realizar a Busca Ativa, mas não disponibiliza nenhuma ferramenta para realização desse processo. Este trabalho busca identificar e aplicar técnicas de mineração de dados para apoiar a identificação das famílias em situação de vulnerabilidade e risco social. Os resultados obtidos em experimentos preliminares demonstraram que na maioria dos casos os modelos gerados preveem sempre a classe majoritária. Após realizar um balanceamento manual das classes removendo algumas amostras os experimentos foram repetidos e indicaram que os resultados estavam sendo diretamente afetados devido ao desbalanceamento das classes. Por esse motivo foram utilizados diversos métodos específicos para realizar o balanceamento das amostras a fim de que todas as classes possuíssem a mesma quantidade de amostras. Após realizar o balanceamento das amostras novos experimentos foram realizados. Durante a análise dos resultados foi observado que com as medidas padrões de avaliação de aprendizado de máquina não estava sendo possível identificar qual método havia obtido o melhor resultado. Em função disso um método de qualidade de ranking foi utilizado juntamente com a medida Recall para avaliar os resultados. / In the current Brazilian Government there is a Social Assistance policy that is highly concerned about helping families who might be at social risk and vulnerability. The process of identification of these families is known as “active search”. The task of active search is defined in a document by the Brazilian Ministry of Social Development and Fight Against Hunger. This document provides the main guidelines about how to perform the active search. However, despite the task’s importance, there are still no tool to help the social assistants with this task. This work aim to investigate the use of data mining techniques to identify the families in vulnerability and social risk situations. The results obtained in preliminary experiments showed that the classification models created always predict the majority class. After balancing manually the datasets by removing some examples the experiments were repeated and showed that the results were being directly influenced by the imbalanced data. Because of it was used a bunch of sampling methods to produce the same amount of examples in each class. After proceed with the sampling of the examples new experiments were proceeded. During the result’s evaluation it was realized that the standard metrics used in machine learn were not being able to identify wich method obtained the best result. Due to this situation a ranking quality method was used combined with the Recall metric to evaluate the results.
|
129 |
Utilizando técnicas de mineração de dados para apoiar a busca ativa de famílias em situação de vulnerabilidade e risco social / Using data mining techniques to support active search for families in situations of social risk and vulnerabilityTerrin, Marcos Alexandre Pastori 18 August 2015 (has links)
No âmbito da Assistência Social, existe a necessidade de se identificar as famílias em situação de vulnerabilidade e risco social, processo esse chamado de “Busca Ativa”, para que as famílias nesta situação possam ser assistidas adequadamente. O Ministério do Desenvolvimento Social e Combate à Fome do Brasil orienta que seja realizado o cruzamento de bases de dados como forma de realizar a Busca Ativa, mas não disponibiliza nenhuma ferramenta para realização desse processo. Este trabalho busca identificar e aplicar técnicas de mineração de dados para apoiar a identificação das famílias em situação de vulnerabilidade e risco social. Os resultados obtidos em experimentos preliminares demonstraram que na maioria dos casos os modelos gerados preveem sempre a classe majoritária. Após realizar um balanceamento manual das classes removendo algumas amostras os experimentos foram repetidos e indicaram que os resultados estavam sendo diretamente afetados devido ao desbalanceamento das classes. Por esse motivo foram utilizados diversos métodos específicos para realizar o balanceamento das amostras a fim de que todas as classes possuíssem a mesma quantidade de amostras. Após realizar o balanceamento das amostras novos experimentos foram realizados. Durante a análise dos resultados foi observado que com as medidas padrões de avaliação de aprendizado de máquina não estava sendo possível identificar qual método havia obtido o melhor resultado. Em função disso um método de qualidade de ranking foi utilizado juntamente com a medida Recall para avaliar os resultados. / In the current Brazilian Government there is a Social Assistance policy that is highly concerned about helping families who might be at social risk and vulnerability. The process of identification of these families is known as “active search”. The task of active search is defined in a document by the Brazilian Ministry of Social Development and Fight Against Hunger. This document provides the main guidelines about how to perform the active search. However, despite the task’s importance, there are still no tool to help the social assistants with this task. This work aim to investigate the use of data mining techniques to identify the families in vulnerability and social risk situations. The results obtained in preliminary experiments showed that the classification models created always predict the majority class. After balancing manually the datasets by removing some examples the experiments were repeated and showed that the results were being directly influenced by the imbalanced data. Because of it was used a bunch of sampling methods to produce the same amount of examples in each class. After proceed with the sampling of the examples new experiments were proceeded. During the result’s evaluation it was realized that the standard metrics used in machine learn were not being able to identify wich method obtained the best result. Due to this situation a ranking quality method was used combined with the Recall metric to evaluate the results.
|
130 |
Estudo sobre a aplicação de estatística bayesiana e método de máxima entropia em análise de dados / Study on application of bayesian statistics and method of maximun entropy in data analysisPerassa, Eder Arnedo, 1982- 19 April 2007 (has links)
Orientador: Jose Augusto Chinellato / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Fisica Gleb Wataghin / Made available in DSpace on 2018-08-09T22:35:29Z (GMT). No. of bitstreams: 1
Perassa_EderArnedo_M.pdf: 7742499 bytes, checksum: 5f8e2630e2b11b5f5965e6b95c19be9b (MD5)
Previous issue date: 2007 / Resumo: Neste trabalho são estudados os métodos de estatística bayesiana e máxima entropia na análise de dados. É feita uma revisão dos conceitos básicos e procedimentos que podem ser usados para in-ferência de distribuições de probabilidade. Os métodos são aplicados em algumas áreas de interesse, com especial atenção para os casos em que há pouca informação sobre o conjunto de dados. São apresentados algoritmos para a aplicação de tais métodos, bem como alguns exemplos detalhados em que espera-se servirem de auxílio aos interessados em aplicações em casos mais comuns de análise de dados / Abstract: In this work, we study the methods of Bayesian Statistics and Maximum Entropy in data analysis. We present a review of basic concepts and procedures that can be used for inference of probability distributions. The methods are applied in some interesting fields, with special attention to the cases where there¿s few information on set of data, which can be found in physics experiments such as high energies physics, astrophysics, among others. Algorithms are presented for the implementation of such methods, as well as some detailed examples where it is expected to help interested in applications in most common cases of data analysis / Mestrado / Física das Particulas Elementares e Campos / Mestre em Física
|
Page generated in 0.113 seconds