• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 145
  • 60
  • 27
  • 14
  • 12
  • 11
  • 9
  • 8
  • 6
  • 4
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 335
  • 335
  • 106
  • 91
  • 88
  • 67
  • 58
  • 51
  • 47
  • 45
  • 41
  • 41
  • 39
  • 37
  • 35
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
191

[en] RELATIONSHIP MARKETING: CROSS-SELLING ON MOBILE TELECOM / [pt] MARKETING DE RELACIONAMENTO: CROSS-SELLING NA TELEFONIA MÓVEL

MANOELA BRANDAO DE OLIVEIRA 20 April 2015 (has links)
[pt] Com rápido crescimento nos últimos anos, o mercado de telecomunicações está ficando cada vez mais saturado. Como a comunicação tradicional por meio de serviços de voz já é amplamente utilizada, as operadoras têm enfrentado dificuldades em atrair novos usuários. Neste cenário, as operadoras têm direcionado cada vez mais esforços nas ações de cross-selling para rentabilizar sua base de clientes, oferecendo e estimulando o uso de novos serviços. Nesta pesquisa, serão utilizados dados existentes no banco de dados de uma operadora de telefonia móvel do mercado brasileiro para testar um modelo que facilita a identificação dos clientes mais propensos à contratação de novos serviços. Os dados foram tratados por meio de técnicas de mineração de dados e árvore de decisão. Os resultados sugerem que, com base na modelagem proposta, ações de cross-selling podem ser otimizadas com o aumento da taxa de retorno e, conseqüentemente, redução no custo das abordagens e menos desgaste da base de clientes com contatos irrelevantes. / [en] Due to its fast growth in recent years, the wireless market is becoming increasingly saturated. Since traditional communication through voice services is already widely used by most individuals, wireless carriers are facing difficulties in finding and attracting new users for such services. Given this scenario, enterprises are turning their attention to cross-selling campaigns to monetize their client base, offering and stimulating the use of new services. In this research, an existent data set from a Brazilian mobile telecom carrier was used to test a model that could facilitate the identification of current customers more likely to be interested in acquiring new services. The data were analyzed and modeled via data mining and decision tree. The results suggest that, if the proposed model is used, cross-selling campaigns could be optimized, achieving an increased rate of return, reduction in the cost of contacts and less wear of the client base with irrelevant offers.
192

Anomaly Detection in Categorical Data with Interpretable Machine Learning : A random forest approach to classify imbalanced data

Yan, Ping January 2019 (has links)
Metadata refers to "data about data", which contains information needed to understand theprocess of data collection. In this thesis, we investigate if metadata features can be usedto detect broken data and how a tree-based interpretable machine learning algorithm canbe used for an effective classification. The goal of this thesis is two-fold. Firstly, we applya classification schema using metadata features for detecting broken data. Secondly, wegenerate the feature importance rate to understand the model’s logic and reveal the keyfactors that lead to broken data. The given task from the Swedish automotive company Veoneer is a typical problem oflearning from extremely imbalanced data set, with 97 percent of data belongs healthy dataand only 3 percent of data belongs to broken data. Furthermore, the whole data set containsonly categorical variables in nominal scales, which brings challenges to the learningalgorithm. The notion of handling imbalanced problem for continuous data is relativelywell-studied, but for categorical data, the solution is not straightforward. In this thesis, we propose a combination of tree-based supervised learning and hyperparametertuning to identify the broken data from a large data set. Our methods arecomposed of three phases: data cleaning, which is eliminating ambiguous and redundantinstances, followed by the supervised learning algorithm with random forest, lastly, weapplied a random search for hyper-parameter optimization on random forest model. Our results show empirically that tree-based ensemble method together with a randomsearch for hyper-parameter optimization have made improvement to random forest performancein terms of the area under the ROC. The model outperformed an acceptableclassification result and showed that metadata features are capable of detecting brokendata and providing an interpretable result by identifying the key features for classificationmodel.
193

[en] CONTRACTING STRATEGIES IN ENERGY AUCTIONS FOR DISTRIBUTION COMPANIES UNDER DEMAND UNCERTAINTY / [pt] ESTRATÉGIA DE CONTRATAÇÃO DAS DISTRIBUIDORAS EM LEILÕES DE ENERGIA SOB INCERTEZA NA DEMANDA

ANDRE RESENDE GUIMARAES 16 October 2006 (has links)
[pt] O objetivo desta dissertação de mestrado é analisar o novo marco regulatório do setor elétrico brasileiro e seus impactos para as empresas distribuidoras de energia. Para isto, foi desenvolvida uma ferramenta computacional para elaborar estratégias de atuação das distribuidoras nos leilões de compra de energia instituídos pela nova regulamentação. Desta forma, é possível simular o processo de contratação das distribuidoras no âmbito do ACR e, com os resultados, realizar análises do impacto das novas regras na alocação dos riscos as distribuidoras. O problema consiste, em um ambiente de incerteza da demanda e dado um conjunto de instrumentos de risco, determinar a estratégia de contratação das distribuidoras, fornecendo o montante de energia a ser comprado em cada leilão anteriormente descrito e resultado da melhor compra dados os contratos candidatos. A metodologia de solução é otimização estocástica multi-estágio, levando em consideração, principalmente, os diversos horizontes de contratação e preços da energia, visando minimizar uma ponderação entre tarifa para consumidor e custos para distribuidora. / [en] The objective of this work is to analyze the new regulatory framework of the Brazilian electric sector. In this sense, it was developed a computational tool in order to elaborate strategies for the distribution companies (DISCOs) in the energy auctions instituted by the new regulation. The computational tool was used to simulate the contracts acquisition process by the DISCOs and the results were analyzed to measure impact of new rules and risks allocation for the distribution companies. The problem consists, considering the demand uncertainty and the available risk management instruments, in determining the contracting strategy of the DISCOs, i.e., the amount of energy to be bought in each auction that results from the best purchase given the candidate contracts. The solution methodology is based on a multi-stage stochastic optimization algorithm, minimizing the tariff for consumer and costs for DISCO, taking into account different prices and horizons of the energy contracts.
194

Metodologia baseada em medidas dispersas de tensão e árvores de decisão para localização de faltas em sistemas de distribuição modernos / Methodology based on dispersed voltage measures and decision trees for fault location in modern distribution systems

Araújo, Marcel Ayres de 06 October 2017 (has links)
Nos sistemas de distribuição, a grande ramificação, radialidade, heterogeneidade, dinâmica das cargas e demais particularidades, impõem dificuldades à localização de faltas, representando um desafio permanente na busca por melhores indicadores de continuidade e confiabilidade no fornecimento de energia elétrica. A regulação incisiva dos órgãos do setor, a penetração de geração distribuída e a tendência de modernização trazida pelas redes inteligentes, demandam detalhados estudos para readequação dos sistemas elétricos a conjuntura atual. Neste contexto, esta tese propõe o desenvolvimento de uma metodologia para localização de faltas em sistemas de distribuição empregando a capacidade dos medidores inteligentes de monitoramento e de aquisição de tensão em diferentes pontos da rede elétrica. A abordagem proposta baseia-se na estimação, por ferramentas de aprendizado de máquina, das impedâncias de sequência zero e positiva entre os pontos de alocação dos medidores inteligentes e de ocorrência de falta, e do estado de sensibilização destes medidores frente a correntes de falta. Assim, calculando-se as respectivas distâncias elétricas em função das impedâncias estimadas e definidas as direções das mesmas em relação a topologia da rede, busca-se identificar o ponto ou área com maior sobreposição de distâncias elétricas como o local ou a região de maior probabilidade da falta em relação aos medidores inteligentes. Para tanto, faz-se uso combinado de ferramentas convencionais e inteligentes pela aplicação dos conceitos de análise de sistemas elétricos, diagnóstico dos desvios de tensão, e classificação de padrões por meio da técnica de aprendizado de máquina denominada Árvore de Decisão. Os resultados obtidos pela aplicação desta metodologia demonstram que o uso de informações redundantes fornecidas pelos medidores inteligentes minimiza os erros de estimação. Além disso, para a maior parte dos casos testados o erro absoluto máximo de localização da falta se concentra entre 200 m e 1000 m, o que reduz a busca pelo local de ocorrência da falta pelas equipes de manutenção da rede elétrica. / In distribution systems, the dense branching, radial pattern, heterogeneity, dynamic of the loads, and other characteristics create several difficulties in defining the fault location, representing a great challenge in the search for better continuity and reliability indicators of the electrical energy supply. The intense government regulations, the increasing use of distributed generation, and the trend towards modernization via smart grids require a detailed study in order to upgrade the current systems. In this context, this thesis proposes a methodology development for fault location in distribution systems with the use of smart meters monitors and the acquisition of voltage at different points in the electrical network. The proposed method is based on the estimation, using machine learning, of the state of awareness of smart meters across the fault currents and of the zero and positive sequence impedance between the location of these meters and of the fault occurrence. Therefore, by calculating the electrical distances as a function of the estimated impedances and defining its the direction in relation to the network topology, the point/region with the biggest superposition of the electrical distances can be assigned as the point/region with the highest probability of fault occurrence in relation to the smart probes. For this purpose, a machine learning technique named decision tree is used to apply concept analyses to the electrical systems, diagnosis of voltage deviations, and pattern recognition of the electrical systems. The results obtained by the application of this methodology demonstrate that the use of redundant information provided by the smart meters minimizes estimation errors. In addition, for most of the cases tested, the maximum absolute error of the fault location is concentrated between 200 m and 1000 m, which reduces the search for the fault location by the maintenance teams of the electrical network.
195

Análise inteligente de dados em um banco de dados de procedimentos em cardiologia intervencionista / Intelligent data analysis in an interventional cardiology procedures database

Campos Neto, Cantídio de Moura 02 August 2016 (has links)
O tema deste estudo abrange duas áreas do conhecimento: a Medicina e a Ciência da Computação. Consiste na aplicação do processo de descoberta de conhecimento em base de Dados (KDD - Knowledge Discovery in Databases), a um banco de dados real na área médica denominado Registro Desire. O Registro Desire é o registro mais longevo da cardiologia intervencionista mundial, unicêntrico e acompanha por mais de 13 anos 5.614 pacientes revascularizados unicamente pelo implante de stents farmacológicos. O objetivo é criar por meio desta técnica um modelo que seja descritivo e classifique os pacientes quanto ao risco de ocorrência de eventos cardíacos adversos maiores e indesejáveis, e avaliar objetivamente seu desempenho. Posteriormente, apresentar as regras extraídas deste modelo aos usuários para avaliar o grau de novidade e de concordância do seu conteúdo com o conhecimento dos especialistas. Foram criados modelos simbólicos de classificação pelas técnicas da árvore de decisão e regras de classificação utilizando para a etapa de mineração de dados os algoritmos C4.5, Ripper e CN2, em que o atributo-classe foi a ocorrência ou não do evento cardíaco adverso. Por se tratar de uma classificação binária, os modelos foram avaliados objetivamente pelas métricas associadas à matriz de confusão como acurácia, sensibilidade, área sob a curva ROC e outras. O algoritmo de mineração processa automaticamente todos os atributos de cada paciente exaustivamente para identificar aqueles fortemente associados com o atributo-classe (evento cardíaco) e que irão compor as regras. Foram extraídas as principais regras destes modelos de modo indireto, por meio da árvore de decisão ou diretamente pela regra de classificação, que apresentaram as variáveis mais influentes e preditoras segundo o algoritmo de mineração. Os modelos permitiram entender melhor o domínio de aplicação, relacionando a influência de detalhes da rotina e as situações associadas ao procedimento médico. Pelo modelo, foi possível analisar as probabilidades da ocorrência e da não ocorrência de eventos em diversas situações. Os modelos induzidos seguiram uma lógica de interpretação dos dados e dos fatos com a participação do especialista do domínio. Foram geradas 32 regras das quais três foram rejeitadas, 20 foram regras esperadas e sem novidade, e 9 foram consideradas regras não tão esperadas, mas que tiveram grau de concordância maior ou igual a 50%, o que as tornam candidatas à investigação para avaliar sua eventual importância. Tais modelos podem ser atualizados ao aplicar novamente o algoritmo de mineração ao banco com os dados mais recentes. O potencial dos modelos simbólicos e interpretáveis é grande na Medicina quando aliado à experiência do profissional, contribuindo para a Medicina baseada em evidência. / The main subject of this study comprehends two areas of knowledge, the Medical and Computer Science areas. Its purpose is to apply the Knowledge Discovery Database-KDD to the DESIRE Registry, an actual Database in Medical area. The DESIRE Registry is the oldest world\'s registry in interventional cardiology, is unicentric, which has been following up 5.614 resvascularized patients for more then 13 years, solely with pharmacological stent implants. The goal is to create a model using this technique that is meaningful to classify patients as the risk of major adverse cardiac events (MACE) and objectively evaluate their performance. Later present rules drawn from this model to the users to assess the degree of novelty and compliance of their content with the knowledge of experts. Symbolic classification models were created using decision tree model, and classification rules using for data mining step the C4.5 algorithms, Ripper and CN2 where the class attribute is the presence or absence of a MACE. As the classification is binary, the models where objectively evaluated by metrics associated to the Confusion Matrix, such as accuracy, sensitivity, area under the ROC curve among others. The data mining algorithm automatically processes the attributes of each patient, who are thoroughly tested in order to identify the most predictive to the class attribute (MACE), whom the rules will be based on. Indirectly, using decision tree, or directly, using the classification rules, the main rules of these models were extracted to show the more predictable and influential variables according to the mining algorithm. The models allowed better understand the application range, creating a link between the influence of the routine details and situations related to the medical procedures. The model made possible to analyse the probability of occurrence or not of events in different situations. The induction of the models followed an interpretation of the data and facts with the participation of the domain expert. Were generated 32 rules of which only three were rejected, 20 of them were expected rules and without novelty and 9 were considered rules not as expected but with a degree of agreement higher or equal 50%, which became candidates for an investigation to assess their possible importance. These models can be easily updated by reapplying the mining process to the database with the most recent data. There is a great potential of the interpretable symbolic models when they are associated with professional background, contributing to evidence-based medicine.
196

Técnicas de Data Mining na aquisição de clientes para financiamento de Crédito Direto ao Consumidor - CDC / Data Mining Techniques to acquire new customers for financing of Consumer Credit

Silva, Adriana Maria Marques da 27 September 2012 (has links)
O trabalho busca dissertar sobre as técnicas de data mining mais difundidas: regressão logística, árvore de decisão e rede neural, além de avaliar se tais técnicas oferecem ganhos financeiros para instituições privadas que contam com processos ativos de conquista de clientes. Uma empresa do setor financeiro será utilizada como objeto de estudo, especificamente nos seus processos de aquisição de novos clientes para adesão do Crédito Direto ao Consumidor (CDC). Serão mostrados os resultados da aplicação nas três técnicas mencionadas, para que seja possível verificar se o emprego de modelos estatísticos discriminam os clientes potenciais mais propensos dos menos propensos à adesão do CDC e, então, verificar se tal ação impulsiona na obtenção de ganhos financeiros. Esses ganhos poderão vir mediante redução dos custos de marketing abordando-se somente os clientes com maiores probabilidades de responderem positivamente à campanha. O trabalho apresentará o funcionamento de cada técnica teoricamente, e conforme os resultados indicam, data mining é uma grande oportunidade para ganhos financeiros em uma empresa. / The paper intends to discourse about most widespread data mining techniques: logistic regression, decision tree and neural network, and assess whether these techniques provide financial gains for private institutions that have active processes for business development. A company of the financial sector is used as object of study, specifically in the processes of acquiring new customers for adhesion to consumer credit (in Brazil CDC). This research will show the results of the three above mentioned techniques, to check whether the statistical models point out relevant differences between prospects´ intentions to adhere to consumer credit. In the meantime, the techniques are checked whether they leverage financial gain. These gains are expected to came from better focused and directed marketing efforts. The paper presents the operation of each technique theoretically, and as the results indicate, data mining is a great opportunity for a company boost profits.
197

Commande prédictive hybride et apprentissage pour la synthèse de contrôleurs logiques dans un bâtiment. / Hybrid Model Predictive Control and Machine Learning for development of logical controllers in buildings

Le, Duc Minh Khang 09 February 2016 (has links)
Une utilisation efficace et coordonnée des systèmes installés dans le bâtiment doit permettre d’améliorer le confort des occupants tout en consommant moins d’énergie. Ces objectifs à optimiser sont pourtant antagonistes. Le problème résultant peut être alors vu comme un problème d’optimisation multicritères. Par ailleurs, pour répondre aux enjeux industriels, il devra être résolu non seulement dans une optique d’implémentation simple et peu coûteuse, avec notamment un nombre réduit de capteurs, mais aussi dans un souci de portabilité pour que le contrôleur résultant puisse être implanté dans des bâtiments d’orientation différente et situés dans des lieux géographiques variés.L’approche choisie est de type commande prédictive (MPC, Model Predictive Control) dont l’efficacité pour le contrôle du bâtiment a déjà été illustrée dans de nombreux travaux, elle requiert cependant des efforts de calcul trop important. Cette thèse propose une méthodologie pour la synthèse des contrôleurs, qui doivent apporter une performance satisfaisante en imitant les comportements du MPC, tout en répondant à des contraintes industriels. Elle est divisée deux grandes étapes :1. La première étape consiste à développer un contrôleur MPC. De nombreux défis doivent être relevés tels que la modélisation, le réglage des paramètres et la résolution du problème d’optimisation.2. La deuxième étape applique différents algorithmes d’apprentissage automatique (l’arbre de décision, AdaBoost et SVM) sur une base de données obtenue à partir de simulations utilisant le contrôleur prédictif développé. Les grands points levés sont la construction de la base de données, le choix de l’algorithme de l’apprentissage et le développement du contrôleur logique.La méthodologie est appliquée dans un premier temps à un cas simple pour piloter un volet,puis validée dans un cas plus complexe : le contrôle coordonné du volet, de l’ouvrant et dusystème de ventilation. / An efficient and coordinated control of systems in buildings should improve occupant comfort while consuming less energy. However, these objectives are antagonistic. It can then be formulated as a multi-criteria optimization problem. Moreover, it should be solved not only in a simple and cheap implementation perspective, but also for the sake of adaptability of the controller which can be installed in buildings with different orientations and different geographic locations.The MPC (Model Predictive Control) approach is shown well suited for building control in the state of the art but it requires a big computing effort. This thesis presents a methodology to develop logical controllers for equipments in buildings. It helps to get a satisfactory performance by mimicking the MPC behaviors while dealing with industrial constraints. Two keys steps are required :1. In the first step, an optimal controller is developed with hybrid MPC technique. There are challenges in modeling, parameters tuning and solving the optimization problem.2. In the second step, different Machine Learning algorithms (Decision tree, AdaBoost, SVM) are tested on database which is obtained with the simulation with the MPC controller. The main points are the construction of the database, the choice of learning algorithm and the development of logic controller.First, our methodology is tested on a simple case study to control a blind. Then, it is validatedwith a more complex case : development of a coordinated controller for a blind, natural ventilationand mechanical ventilation.
198

Estimation of distribution algorithms for clustering and classification

Cagnini, Henry Emanuel Leal 20 March 2017 (has links)
Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-06-29T11:51:00Z No. of bitstreams: 1 DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf: 3650909 bytes, checksum: 55d52061a10460875dba677a9812fe9c (MD5) / Made available in DSpace on 2017-06-29T11:51:00Z (GMT). No. of bitstreams: 1 DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf: 3650909 bytes, checksum: 55d52061a10460875dba677a9812fe9c (MD5) Previous issue date: 2017-03-20 / Extrair informa??es relevantes a partir de dados n?o ? uma tarefa f?cil. Tais dados podem vir a partir de lotes ou em fluxos cont?nuos, podem ser completos ou possuir partes faltantes, podem ser duplicados, e tamb?m podem ser ruidosos. Ademais, existem diversos algoritmos que realizam tarefas de minera??o de dados e, segundo o teorema do "Almo?o Gr?tis", n?o existe apenas um algoritmo que venha a solucionar satisfatoriamente todos os poss?veis problemas. Como um obst?culo final, algoritmos geralmente necessitam que hiper-par?metros sejam definidos, o que n?o surpreendentemente demanda um m?nimo de conhecimento sobre o dom?nio da aplica??o para que tais par?metros sejam corretamente definidos. J? que v?rios algoritmos tradicionais empregam estrat?gias de busca local gulosas, realizar um ajuste fino sobre estes hiper-par?metros se torna uma etapa crucial a fim de obter modelos preditivos de qualidade superior. Por outro lado, Algoritmos de Estimativa de Distribui??o realizam uma busca global, geralmente mais eficiente que realizar uma buscam exaustiva sobre todas as poss?veis solu??es para um determinado problema. Valendo-se de uma fun??o de aptid?o, algoritmos de estimativa de distribui??o ir?o iterativamente procurar por melhores solu??es durante seu processo evolutivo. Baseado nos benef?cios que o emprego de algoritmos de estimativa de distribui??o podem oferecer para as tarefas de agrupamento e indu??o de ?rvores de decis?o, duas tarefas de minera??o de dados consideradas NP-dif?cil e NP-dif?cil/completo respectivamente, este trabalho visa desenvolver novos algoritmos de estimativa de distribui??o a fim de obter melhores resultados em rela??o a m?todos tradicionais que empregam estrat?gias de busca local gulosas, e tamb?m sobre outros algoritmos evolutivos. / Extracting meaningful information from data is not an easy task. Data can come in batches or through a continuous stream, and can be incomplete or complete, duplicated, or noisy. Moreover, there are several algorithms to perform data mining tasks, and the no-free lunch theorem states that there is not a single best algorithm for all problems. As a final obstacle, algorithms usually require hyperparameters to be set in order to operate, which not surprisingly often demand a minimum knowledge of the application domain to be fine-tuned. Since many traditional data mining algorithms employ a greedy local search strategy, fine-tuning is a crucial step towards achieving better predictive models. On the other hand, Estimation of Distribution Algorithms perform a global search, which often is more efficient than performing a wide search through the set of possible parameters. By using a quality function, estimation of distribution algorithms will iteratively seek better solutions throughout its evolutionary process. Based on the benefits that estimation of distribution algorithms may offer to clustering and decision tree-induction, two data mining tasks considered to be NP-hard and NPhard/ complete, respectively, this works aims at developing novel algorithms in order to obtain better results than traditional, greedy algorithms and baseline evolutionary approaches.
199

Avaliação da alteração da qualidade do solo em diferentes áreas de Cerrado / Evaluation of soil quality change in different areas of Cerrado

Guerra, Fernando 11 September 2015 (has links)
A necessidade de minimizar os impactos ambientais, sem reduções da produtividade, levou à busca por métodos alternativos de produção, visando à manutenção da qualidade do solo (QS) e a sustentabilidade dos ecossistemas. Para a avaliação e quantificação da QS, o estudo foi dividido em três capítulos, cada qual com um objetivo específico: avaliação dos atributos do solo para obter um conjunto mínimo de indicadores (MDS, minimum data set) e cálculo de índice aditivo (IQSa) e aditivo ponderado (IQSap); avaliação do desempenho ambiental de sistemas agrícolas na produção de biomassa pela ótica da emergia e; aplicação do modelo de árvore de decisão (AD) para identificar os principais atributos afetados com a mudança do uso da terra. O estudo foi conduzido em São Carlos e São Desidério, Estado de São Paulo e da Bahia, respectivamente. Em São Carlos, as amostras de solo foram coletadas de duas áreas nativas (cerradão e cerrado stricto sensu) e áreas de cana-de-açúcar e pastagem. Em São Desidério, foram avaliadas quatro áreas agrícolas com diferentes tempos de uso (5, 8, 12 e 18 anos) no sistema de rotação soja-milho-algodão e área de Cerrado nativo. No 1º capítulo, o MDS foi obtido por meio da análise de componentes principais, normalizado em escores e integrado em IQSa e IQSap. No 2º capítulo foi quantificada somente a alteração da qualidade do solo (?QS) entre as áreas agrícolas e Cerrado nativo e, aliado à adoção de protocolos de contabilidade ambiental, foram propostos os indicadores emergéticos Input Embodiment in Soil Quality Change (IESQ) e Input Embodiment in Additional Biomass (IEAB). No último capítulo, foi gerada AD com o uso do solo estabelecido como atributo meta, enquanto atributos químicos e físicos do solo foram utilizados como atributos preditores. No 1º capítulo, o MDS foi composto por: soma de bases, pH, matéria orgânica do solo, teor de alumínio (Al), teor de argila, densidade do solo, água na capacidade de campo e carbono da biomassa microbiana do solo. Os valores de IQSa e IQSap para cerradão, cerrado stricto sensu, cana-de-açúcar e pastagem foram de 3,88, 2,24, 4,72 e 3,76 e 0,62, 0,36, 0,57 e 0,54, respectivamente, onde os maiores valores foram observados para o cerradão. No 2º capítulo, a área com 12 anos apresentou o maior ?QS com valores de +29,3. O total de emergia incorporada à soja, milho e algodão foram de 4,68E+15, 5,38E+15 e 7,28E+15 sej ha-1 ano-1, respectivamente. A área de 12 anos foi a que apresentou maior eficiência no uso de recursos por acréscimo de QS (IESQ = 0,19E+15 sej unidade-1) e por unidade de biomassa (IEAB = 0,78E15 sej Mg-1), o que equivale a uma demanda de 73% a menos de insumos (em termos de emergia) para obter o mesmo acréscimo de biomassa que a área de 8 anos de cultivo. A AD gerada no 3º capítulo permitiu a identificação dos atributos do solo mais importantes na diferenciação de Cerrado nativo e de cultivos agrícolas. O teor de Al, pH, fósforo e carbono orgânico total foram os atributos selecionados pela AD / The need to minimize environmental impacts without productivity reductions led to the search for alternative methods of production, in order to maintain soil quality (SQ) and the sustainability of ecosystems. This study was divided into three chapters, each one with a specific goal: soil attributes were analyzed in an attempt to obtain a minimum data set (MDS). Then the additive and weighted additive index were calculated, aimed at quantifying the SQ; the environmental performance of agricultural systems in the production of biomass was evaluated from the perspective of emergy; decision tree model (DT) was applied to identify the soil attributes which are affected by the change use from native Cerrado to non-tillage systems. This study was carried out in São Carlos and São Desidério cities, São Paulo and Bahia States, respectively. At São Carlos, topsoil samples were collected from different land uses includes two natural (cerradão and stricto sensu cerrado) and two agricultural areas (sugarcane and pasture). At São Desidério, soil samples were collected from four agricultural areas with different usage periods (5, 8, 12 and 18 years) in the rotation soy-corn-cotton system and native Cerrado area. In chapter 1, MDS was identified through principal component analysis, normalized and integrated into additive and weight additive index. In chapter 2, only the soil quality change (?SQ) between agricultural areas and native Cerrado was quantified, and combined with the adoption of environmental accounting protocols, the emergy indicators Input Embodiment in Soil Quality Change (IESQ) and Input Embodiment in Additional Biomass (IEAB) were proposed. In chapter 3, the data set used was the same from the second chapter. The soil attributes were used as potential predictor in the generation of the DT and the target attribute was land use. In chapter 1, the MDS was composed by sum of bases, pH, soil organic matter, aluminum content (Al), clay, bulk density, water content at field capacity and microbial biomass carbon. The SQI additive and weight additive for cerradão, cerrado, sugarcane and pasture were 3.88, 2.24, 4.72 and 3.76, and 0.62, 0.36, 0.57 and 0.54, respectively, with the highest value for cerradão. In chapter 2, the 12 years area had the highest ?SQ with +29.3 values. The total emergy incorporated into the soybeans, corn and cotton crops were 4.68E+15, 5.38E+15 and 7.28E+15 sej ha-1 year-1, res pectively. The 12 year area was the most efficient on the use of resources (external inputs) by SQ increase (IESQ = 0.19E+15 sej unit-1) and per unit of biomass (IEAB = 0.78E+15 sej Mg-1). This is equivalent to 73% less inputs demand (in terms of emergy) for obtaining the same increase of biomass of area of 8 years of cultivation. The DT model in chapter 3 allowed us to better understand the main attributes responsible for the differentiation of native Cerrado and agricultural areas. The content of Al, pH, phosphorus and total organic carbon were the attributes selected for the DT
200

Uma comparação de métodos de classificação aplicados à detecção de fraude em cartões de crédito / A comparison of classification methods applied to credit card fraud detection

Gadi, Manoel Fernando Alonso 22 April 2008 (has links)
Em anos recentes, muitos algoritmos bio-inspirados têm surgido para resolver problemas de classificação. Em confirmação a isso, a revista Nature, em 2002, publicou um artigo que já apontava para o ano de 2003 o uso comercial de Sistemas Imunológicos Artificiais para detecção de fraude em instituições financeiras por uma empresa britânica. Apesar disso, não observamos, a luz de nosso conhecimento, nenhuma publicação científica com resultados promissores desde então. Nosso trabalho tratou de aplicar Sistemas Imunológicos Artificiais (AIS) para detecção de fraude em cartões de crédito. Comparamos AIS com os métodos de Árvore de Decisão (DT), Redes Neurais (NN), Redes Bayesianas (BN) e Naive Bayes (NB). Para uma comparação mais justa entre os métodos, busca exaustiva e algoritmo genético (GA) foram utilizados para selecionar um conjunto paramétrico otimizado, no sentido de minimizar o custo de fraude na base de dados de cartões de crédito cedida por um emissor de cartões de crédito brasileiro. Em adição à essa otimização, fizemos também uma análise e busca por parâmetros mais robustos via multi-resolução, estes parâmetros são apresentados neste trabalho. Especificidades de bases de fraude como desbalanceamento de dados e o diferente custo entre falso positivo e negativo foram levadas em conta. Todas as execuções foram realizadas no Weka, um software público e Open Source, e sempre foram utilizadas bases de teste para validação dos classificadores. Os resultados obtidos são consistentes com Maes et al. que mostra que BN são melhores que NN e, embora NN seja um dos métodos mais utilizados hoje, para nossa base de dados e nossas implementações, encontra-se entre os piores métodos. Apesar do resultado pobre usando parâmetros default, AIS obteve o melhor resultado com os parâmetros otimizados pelo GA, o que levou DT e AIS a apresentarem os melhores e mais robustos resultados entre todos os métodos testados. / In 2002, January the 31st, the famous journal Nature, with a strong impact in the scientific environment, published some news about immune based systems. Among the different considered applications, we can find detection of fraudulent financial transactions. One can find there the possibility of a commercial use of such system as close as 2003, in a British company. In spite of that, we do not know of any scientific publication that uses Artificial Immune Systems in financial fraud detection. This work reports results very satisfactory on the application of Artificial Immune Systems (AIS) to credit card fraud detection. In fact, scientific financial fraud detection publications are quite rare, as point out Phua et al. [PLSG05], in particular for credit card transactions. Phua et al. points out the fact that no public database of financial fraud transactions is available for public tests as the main cause of such a small number of publications. Two of the most important publications in this subject that report results about their implementations are the prized Maes (2000), that compares Neural Networks and Bayesian Networks in credit card fraud detection, with a favored result for Bayesian Networks and Stolfo et al. (1997), that proposed the method AdaCost. This thesis joins both these works and publishes results in credit card fraud detection. Moreover, in spite the non availability of Maes data and implementations, we reproduce the results of their and amplify the set of comparisons in such a way to compare the methods Neural Networks, Bayesian Networks, and also Artificial Immune Systems, Decision Trees, and even the simple Naïve Bayes. We reproduce in certain way the results of Stolfo et al. (1997) when we verify that the usage of a cost sensitive meta-heuristics, in fact generalized from the generalization done from the AdaBoost to the AdaCost, applied to several tested methods substantially improves it performance for all methods, but Naive Bayes. Our analysis took into account the skewed nature of the dataset, as well as the need of a parametric adjustment, sometimes through the usage of genetic algorithms, in order to obtain the best results from each compared method.

Page generated in 0.1386 seconds