• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 591
  • 18
  • 18
  • 13
  • 13
  • 12
  • 12
  • 9
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 629
  • 629
  • 376
  • 373
  • 243
  • 110
  • 104
  • 104
  • 103
  • 102
  • 90
  • 89
  • 87
  • 81
  • 67
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
331

Aplicação de algoritmos genéticos multiobjetivo ao problema de seleção de atributos

Spolaôr, Newton January 2010 (has links)
Orientadora: Ana Carolina Lorena. / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Engenharia da Informação.
332

Metodologia baseada em mineração de dados para redução de múltipla estimação na localização de faltas em alimentadores de distribuição radiais / Data mining-based method to reduce multiple estimation for fault location in radial distribution feeders

Evandro Agostinho Reche 27 June 2018 (has links)
A complexidade dos sistemas de distribuição é uma característica intrínseca dos mesmos, isso dificulta a aplicação de ferramentas convencionais para localização de faltas, cuja eficiência é determinante para melhoria dos índices de qualidade de energia e serviços prestados por concessionárias de energia. Este trabalho tem o objetivo de apresentar uma abordagem alternativa para a localização de faltas em alimentadores de distribuição aéreos com topologia radial. A proposta consiste no desenvolvimento de um algoritmo de auxílio à decisão para técnicas convencionais de localização de faltas, capaz de reduzir o problema da múltipla estimação. Esta proposta se dá num contexto onde é vislumbrado uma infraestrutura de Smart Grids consolidada. A ferramenta consiste em um pré-processamento de sinais analógicos e extração de parâmetros para posterior uso da técnica DAMICORE (do inglês Data Mining of Code Repositories) a fim de encontrar relações entre os eventos, agrupando aqueles que forem similares, de modo a auxiliar na localização de faltas. O sistema utilizado para a simulação de curtos-circuitos foi o alimentador-teste IEEE 34 barras em que os testes preliminares do algoritmo para este sistema resultaram em uma redução considerável para a múltipla estimação. / The complexity of distribution systems is an intrinsic characteristic from them, making it difficult to apply conventional fault locating methods, whose efficiency is decisive for the improvement of power quality and service indexes provided by the utilities. This work aims to present an alternative approach for fault location in aerial distribution feeders with radial topology. The tool consists of the development of a decision aid algorithm for conventional fault location techniques capable of reducing the multiple estimation problem. This proposal takes place in a context where a Smart Grids-based infrastructure is envisaged. This tool consists of a pre-processing of analog signals and feature extraction for later use of the DAMICORE (Data Mining of Code Repositories) technique to find connections between events, forming groups of similar events, and helping the Fault Location. The system used to simulate short circuits was the IEEE 34 Node Test Feeder and, for this system, the algorithm responded with a significant reduction of multiple estimations.
333

Algoritmo para indução de árvores de classificação para dados desbalanceados / Algorithm for induction of classification trees for unbalanced data

Cláudio Frizzarini 21 November 2013 (has links)
As técnicas de mineração de dados, e mais especificamente de aprendizado de máquina, têm se popularizado enormemente nos últimos anos, passando a incorporar os Sistemas de Informação para Apoio à Decisão, Previsão de Eventos e Análise de Dados. Por exemplo, sistemas de apoio à decisão na área médica e ambientes de \\textit{Business Intelligence} fazem uso intensivo dessas técnicas. Algoritmos indutores de árvores de classificação, particularmente os algoritmos TDIDT (Top-Down Induction of Decision Trees), figuram entre as técnicas mais comuns de aprendizado supervisionado. Uma das vantagens desses algoritmos em relação a outros é que, uma vez construída e validada, a árvore tende a ser interpretada com relativa facilidade, sem a necessidade de conhecimento prévio sobre o algoritmo de construção. Todavia, são comuns problemas de classificação em que as frequências relativas das classes variam significativamente. Algoritmos baseados em minimização do erro global de classificação tendem a construir classificadores com baixas taxas de erro de classificação nas classes majoritárias e altas taxas de erro nas classes minoritárias. Esse fenômeno pode ser crítico quando as classes minoritárias representam eventos como a presença de uma doença grave (em um problema de diagnóstico médico) ou a inadimplência em um crédito concedido (em um problema de análise de crédito). Para tratar esse problema, diversos algoritmos TDIDT demandam a calibração de parâmetros {\\em ad-hoc} ou, na ausência de tais parâmetros, a adoção de métodos de balanceamento dos dados. As duas abordagens não apenas introduzem uma maior complexidade no uso das ferramentas de mineração de dados para usuários menos experientes, como também nem sempre estão disponíveis. Neste trabalho, propomos um novo algoritmo indutor de árvores de classificação para problemas com dados desbalanceados. Esse algoritmo, denominado atualmente DDBT (Dynamic Discriminant Bounds Tree), utiliza um critério de partição de nós que, ao invés de se basear em frequências absolutas de classes, compara as proporções das classes nos nós com as proporções do conjunto de treinamento original, buscando formar subconjuntos com maior discriminação de classes em relação ao conjunto de dados original. Para a rotulação de nós terminais, o algoritmo atribui a classe com maior prevalência relativa no nó em relação à prevalência no conjunto original. Essas características fornecem ao algoritmo a flexibilidade para o tratamento de conjuntos de dados com desbalanceamento de classes, resultando em um maior equilíbrio entre as taxas de erro em classificação de objetos entre as classes. / Data mining techniques and, particularly, machine learning methods, have become very popular in recent years. Many decision support information systems and business intelligence tools have incorporated and made intensive use of such techniques. Top-Down Induction of Decision Trees Algorithms (TDIDT) appear among the most popular tools for supervised learning. One of their advantages with respect to other methods is that a decision tree is frequently easy to be interpreted by the domain specialist, precluding the necessity of previous knowledge about the induction algorithms. On the other hand, several typical classification problems involve unbalanced data (heterogeneous class prevalence). In such cases, algorithms based on global error minimization tend to induce classifiers with low error rates over the high prevalence classes, but with high error rates on the low prevalence classes. This phenomenon may be critical when low prevalence classes represent rare or important events, like the presence of a severe disease or the default in a loan. In order to address this problem, several TDIDT algorithms require the calibration of {\\em ad-hoc} parameters, or even data balancing techniques. These approaches usually make data mining tools more complex for less expert users, if they are ever available. In this work, we propose a new TDIDT algorithm for problems involving unbalanced data. This algorithm, currently named DDBT (Dynamic Discriminant Bounds Tree), uses a node partition criterion which is not based on absolute class frequencies, but compares the prevalence of each class in the current node with those in the original training sample. For terminal nodes labeling, the algorithm assigns the class with maximum ration between the relative prevalence in the node and the original prevalence in the training sample. Such characteristics provide more flexibility for the treatment of unbalanced data-sets, yielding a higher equilibrium among the error rates in the classes.
334

Proposição de um algoritmo para identificação biométrica de pessoas baseado nos padrões de veias das mãos. / Proposition of an algorithm for biometric identification of people based on hands vein pattern.

Ricardo Janes 15 December 2015 (has links)
Esta tese tem por finalidade apresentar o desenvolvimento de um sistema biométrico de baixo custo, capaz de identificar pessoas pela análise dos padrões de veias das mãos com obtenção de imagens no espectro infravermelho próximo. O sistema foi montado fisicamente através da construção de um protótipo e então foram aquisitadas e armazenadas 520 imagens da parte dorsal da mão direita de 52 diferentes usuários, após isto foi realizada a extração de uma região de interesse definida pela maior porção quadrada da parte dorsal da mão. Em seguida foram aplicados três diferentes métodos de equalização e suavização da imagem na fase de pré-processamento, para posterior extração das características das veias com a utilização da transformada de Curvelet na função \"wrapping\" e aplicação do algoritmo Padrão Binário Local (LBP) para a digitalização do conteúdo extraído. No próximo passo, uma análise de identificação foi realizada usando cinco diferentes métodos de classificação. Em primeiro lugar, foi utilizado um classificador probabilístico Naive Bayes, em seguida um classificador baseado em aprendizagem por regressão linear Kernel Nearest Neighbor (K-NN), ainda foram aplicados dois algoritmos baseados em árvores de decisão C4.5 e Random Forest e finalmente um algoritmo baseado em redes neurais artificiais Multilayer Perceptron. Os classificadores foram testados utilizando o método de validação cruzada, e as informações foram separadas por 10 folds sendo que 10% dos dados foram utilizados para treino e 90% dos dados foram utilizados para teste. Com os mesmos dados resultantes da fase de pré-processamento, dois algoritmos foram aplicados para seleção de características, sendo o primeiro baseado na correlação da função de seleção de recursos e o segundo na seleção de atributos pelo conceito da entropia dos dados. Os resultados provam que o método de equalização de histograma adaptativa por limite de contraste na fase de pré-processamento apresentou os melhores resultados. Quanto aos classificadores, os melhores resultados foram obtidos com o uso da rede neural artificial proposta e as taxas de falsa aceitação (FAR) e falsa rejeição (FRR) obtidas após o processamento foram estimadas em 0,038 e 0,003 respectivamente. Foram realizados ainda testes com a quantidade mínima de imagens necessárias para identificação de pessoas e chegou-se ao valor de cinco imagens por usuário. Finalmente a avaliação da permanência do sistema biométrico foi realizada através da análise de imagens capturadas após um ano da primeira análise e os resultados mostram que o sistema é robusto, apesar das imagens conterem pequenas alterações, proporcionais às variações do índice de massa corporal dos usuários. / The system has been assembled as a prototype then were acquired and storaged 520 images from the dorsal side of the right hand of 52 different users, and then is accomplished an extracting of a region of interest defined by the largest square portion of the dorsal hand. Then a pre-processing of image has been applied using three different methods of image equalization and smoothing for later extraction of the veins characteristics using the Curvelet Transform in \"wrapping\" function and application of the Local Binary Pattern algorithm (LBP) for scanning the extracted content. On the next step, an identification analysis has been performed using five different classification methods. First, a probabilistic Naive Bayes classifier was used, second a classifier based on linear regression called Kernel Nearest Neighbor (K-NN) was applied, third and fourth two algorithms based on decision trees, C4.5 and Random Forest were tested, and finally an algorithm based on artificial neural networks Multilayer Perceptron was performed. The classifiers have been tested using the cross-validation method, and the information was separated by 10 folds wherein 10% of the data were used for training and 90% of the data were used for testing. From the same data resulted of the pre-processing step, two algorithms have been applied for selection features, the first based on the correlation based feature selection and the second in selecting attributes based to the concept of entropy data. The results proof that the equalization method by contrast limited adaptive histogram equalization, in the pre-processing stage, shown the best results. From the application of classifiers, the best result was achieved by using the artificial neural network proposal and the false acceptance rate (FAR) and false rejection rate (FRR) found through the processing were estimated in 0.038 and 0.003 respectively. Tests were also performed to assess the minimum amount of images needed to identify people and as result five images per user were found as the ideal number. Finally, the assessment of the biometric system permanence was performed using acquired images after a year of the first analysis and the results shown that the system is robust, even that the pictures contain minor changes proportional to index variations of body mass of users.
335

Utilização de técnicas de dados não estruturados para desenvolvimento de modelos aplicados ao ciclo de crédito

Andrade Junior, Valter Lacerda de 13 August 2014 (has links)
Made available in DSpace on 2016-04-29T14:23:30Z (GMT). No. of bitstreams: 1 Valter Lacerda de Andrade Junior.pdf: 673552 bytes, checksum: 68480511c98995570354a0166d2bb577 (MD5) Previous issue date: 2014-08-13 / The need for expert assessment of Data Mining in textual data fields and other unstructured information is increasingly present in the public and private sector. Through probabilistic models and analytical studies, it is possible to broaden the understanding of a particular information source. In recent years, technology progress caused exponential growth of the information produced and accessed in the virtual media (web and private). It is estimated that by 2003 humanity had historically generated a total of 5 exabytes of content; today that asset volume can be produced in a few days. With the increasing demand, this project aims to work with probabilistic models related to the financial market in order to check whether the textual data fields, or unstructured information, contained within the business environment, can predict certain customers behaviors. It is assumed that in the corporate environment and on the web, there is great valuable information that, due to the complexity and lack of structure, they are barely considered in probabilistic studies. This material may represent competitive and strategic advantage for business, so analyzing unstructured information one can acquire important data on behaviors and mode of user interaction in the environment in which it operates, providing data as to obtain psychographic profile and satisfaction degree. The corpus of this study consists of the results of experiments made in negotiating environment of a financial company in São Paulo. On the foregoing analysis, it was applied statistical bias semiotic concepts. Among the findings of this study, it is possible to get a critical review and thorough understanding of the processes of textual data assessment / A necessidade de análise especializada de Mineração de Dados (Data Mining) em campos textuais e em outras informações não estruturadas estão, cada vez mais, presente nas instituições dos setores públicos e privados. Por meio de modelos probabilísticos e estudos analíticos, torna-se possível ampliar o entendimento sobre determinada fonte de informação. Nos últimos anos, devido ao avanço tecnológico, observa-se um crescimento exponencial na quantidade de informação produzida e acessada nas mídias virtuais (web e privada). Até 2003, a humanidade havia gerado, historicamente, um total de 5 exabytes de conteúdo; hoje estima-se que esse volume possa ser produzido em poucos dias. Assim, a partir desta crescente demanda identificada, este projeto visa trabalhar com modelos probabilísticos relacionados ao mercado financeiro com o intuito de analisar se os campos textuais e ilustrativos, ou informações não estruturadas, contidas dentro do ambiente de negócio, podem prever certos comportamentos de clientes. Parte-se do pressuposto que, no ambiente corporativo e na web, existem informações de grande valor e que, devido à complexidade e falta de estrutura, não são consideradas em estudos probabilísticos. Isso pode representar vantagem competitiva e estratégica para o negócio, pois, por meio da análise da informação não estruturada, podem-se conhecer comportamentos e modos de interação do usuário nestes ambientes, proporcionando obter dados como perfil psicográfico e grau de satisfação. O corpus deste estudo constitui-se de resultados de experimentos efetuados no ambiente negocial de uma empresa do setor financeiro. Para as análises, foram aplicados conceitos estatísticos com viés semiótico. Entre as informações obtidas por esta pesquisa, verifica-se a compreensão crítica e aprofundada dos processos de análise textual
336

Análise das micro e pequenas empresas e produtores do segmento agronegócio participantes do prêmio MPE Brasil noEstado do Paraná / Analysis of micro and small enterprises and agribusiness producers participants of MPE Brazil award in Paraná State

Barboza, José Vinícius Santos 17 March 2016 (has links)
Made available in DSpace on 2017-07-10T16:05:01Z (GMT). No. of bitstreams: 1 _Jose_Vinicius_Santos_Barboza.pdf: 4262655 bytes, checksum: 3bc9bcfa715a05e7fb59fc7cf6cdc34d (MD5) Previous issue date: 2016-03-17 / Micro and Small Enterprises (MSEs) as well as the Rural Enterprise have great relevance in a regional context. The research aimed to analyze the profile of 121 MPE Brazil Award (Competitiveness Award for Micro and Small Enterprises) in the agribusiness category which is represented by 32% companies and 82% rural producers. Through an exploratory analysis was possible to identify a global overview of the criteria and their respective performances in Leadership (45%), Strategies and Plans (33%), Customers (37%), Society (42%), Information and Knowledge (44 %) People (35%), Processes (45%) and Results (3%). After, data mining techniques were used for analysis by groups; the participants were grouped into four clusters due to their similar characteristics, highlighting the Leadership and Processes criteria with the highest average among all of the criteria. Finally, a detailed analysis by criterion of Excellence was carried out as a way to deepen the results and diagnose the main factors that influence the outcome. It was highlighted some critical factors such as the definition of mission and vision, definition of functions, standardization of processes, availability of information, lack of customer satisfaction assessment, control and then the performance in the social sphere by the entrepreneurs. For these critical factors has been proposed an action plan for results improvement. Among the activities are the executions of courses and workshops, development of management tools, dissemination of good practices, among others. It is suggested the support of entities such as the Sebrae (Brazilian Micro and Small Business Support Service), Senar (Brazilian National Rural Learning Service) and universities. The results show that, as in the literature analyzed, both farmers and micro and small businesses have in common the difficulty in management, development of strategies and management practices. At the same time, there is an increased demand for support services / As Micro e Pequenas Empresas (MPEs) assim como os Empreendimentos Rurais têm grande relevância no cenário regional. A pesquisa objetivou analisar o perfil dos 121 participantes paranaenses do Prêmio MPE Brasil - Prêmio de Competitividade para Micro e Pequenas Empresas, do segmento agronegócio sendo a população representada por 32% empresas e 82% produtores rurais. Por meio de uma análise exploratória foi possível identificar um panorama global dos critérios e os seus respectivos desempenhos (Liderança (45%), Estratégias e Planos (33%), Clientes (37%), Sociedade (42%), Informação e conhecimento (44%), Pessoas (35%), Processos (45%) e Resultado (3%)). Após, foram utilizadas técnicas de data mining (mineração de dados) para uma análise por agrupamentos, sendo os participantes agrupados em quatro clusters por apresentarem características semelhantes, destacando-se os critérios de Liderança e Processos com as maiores médias entre os critérios. Por fim, uma análise detalhada por critério de excelência foi realizada como forma de aprofundar os resultados e diagnosticar os principais fatores que influenciam no resultado. Destacaram-se alguns fatores críticos como a definição da missão e visão, definição de funções, padronização de processos, disponibilidade de informações, ausência de avaliação de satisfação de clientes, controle e por fim atuação no âmbito social por parte dos empreendedores. Para esses fatores críticos foi proposto um plano de ação para que os resultados sejam melhorados. Entre as ações estão a realização de cursos e oficinas, desenvolvimento de ferramentas de gestão, divulgação de boas práticas, entre outros. Sugere-se o apoio de órgãos como exemplo o Sebrae, Senar e Universidades. Os resultados demonstram que, assim como na literatura analisada, os produtores rurais e as micro e pequenas empresas, possuem como característica comum a dificuldade na gestão, na elaboração de estratégias e a práticas administrativas. Ao mesmo tempo ocorre uma procura crescente dos pequenos empreendimentos aos órgãos de apoio.
337

Uso de árvore de decisão para avaliação da segurança estática em tempo real de sistemas elétricos de potência

RODRIGUES, Benedito das Graças Duarte 12 September 2014 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2015-02-04T20:46:44Z No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_UsoArvoreDecisao.pdf: 2624946 bytes, checksum: 662b4b1511a21632291f49b15365859c (MD5) / Approved for entry into archive by Ana Rosa Silva (arosa@ufpa.br) on 2015-02-05T16:23:15Z (GMT) No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_UsoArvoreDecisao.pdf: 2624946 bytes, checksum: 662b4b1511a21632291f49b15365859c (MD5) / Made available in DSpace on 2015-02-05T16:23:15Z (GMT). No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_UsoArvoreDecisao.pdf: 2624946 bytes, checksum: 662b4b1511a21632291f49b15365859c (MD5) Previous issue date: 2014 / As técnicas utilizadas para avaliação da segurança estática em sistemas elétricos de potência dependem da execução de grande número de casos de fluxo de carga para diversas topologias e condições operacionais do sistema. Em ambientes de operação de tempo real, esta prática é de difícil realização, principalmente em sistemas de grande porte onde a execução de todos os casos de fluxo de carga que são necessários, exige elevado tempo e esforço computacional mesmo para os recursos atuais disponíveis. Técnicas de mineração de dados como árvore de decisão estão sendo utilizadas nos últimos anos e tem alcançado bons resultados nas aplicações de avaliação da segurança estática e dinâmica de sistemas elétricos de potência. Este trabalho apresenta uma metodologia para avaliação da segurança estática em tempo real de sistemas elétricos de potência utilizando árvore de decisão, onde a partir de simulações off-line de fluxo de carga, executadas via software Anarede (CEPEL), foi gerada uma extensa base de dados rotulada relacionada ao estado do sistema, para diversas condições operacionais. Esta base de dados foi utilizada para indução das árvores de decisão, fornecendo um modelo de predição rápida e precisa que classifica o estado do sistema (seguro ou inseguro) para aplicação em tempo real. Esta metodologia reduz o uso de computadores no ambiente on-line, uma vez que o processamento das árvores de decisão exigem apenas a verificação de algumas instruções lógicas do tipo if-then, de um número reduzido de testes numéricos nos nós binários para definição do valor do atributo que satisfaz as regras, pois estes testes são realizados em quantidade igual ao número de níveis hierárquicos da árvore de decisão, o que normalmente é reduzido. Com este processamento computacional simples, a tarefa de avaliação da segurança estática poderá ser executada em uma fração do tempo necessário para a realização pelos métodos tradicionais mais rápidos. Para validação da metodologia, foi realizado um estudo de caso baseado em um sistema elétrico real, onde para cada contingência classificada como inseguro, uma ação de controle corretivo é executada, a partir da informação da árvore de decisão sobre o atributo crítico que mais afeta a segurança. Os resultados mostraram ser a metodologia uma importante ferramenta para avaliação da segurança estática em tempo real para uso em um centro de operação do sistema. / The techniques used to Static Security Assessment in power systems depend on the implementation of a large number of cases of load flow for various topologies and system operating conditions. In real-time operation environments, this practice is difficult to implement, especially in large systems where the execution of all cases of load flow needed, requires high time and computational effort even for the current resources available. Data Mining techniques such as decision tree have been used in recent years and have achieved good results in the applications of static and dynamic security assessment of electrical power systems. This work presents a methodology for static security assessment in real-time of electrical power systems using the decision tree, where off-line load flow simulations, performed by software ANAREDE (CEPEL), has been generated an extensive labeled database related to the state of the system for various operating conditions. This database was used for induction of decision trees, providing a model for fast and accurate prediction that classifies the state of the system (secure or insecure) for real time application. This methodology reduces the use of computers in the on-line environment, since the processing of the decision tree requires only checking some if-then logical instructions of a limited number of numerical tests in the binary nodes for the attribute value definition that satisfies the rules, because these tests are performed in a same number of hierarchical levels of the decision tree, which is usually reduced. With this simple computational processing, the task of the static security evaluating will be able to be performed in a fraction of the time required to perform by faster traditional methods. To validate the methodology, a case study based on a real power system was performed, where for every contingency classified as insecure a corrective control action was executed from the decision tree information on the critical attribute that affects the security. The results showed the methodology is an important tool for static security assessment in real time for use in a center's operation system.
338

Algoritmo para indução de árvores de classificação para dados desbalanceados / Algorithm for induction of classification trees for unbalanced data

Frizzarini, Cláudio 21 November 2013 (has links)
As técnicas de mineração de dados, e mais especificamente de aprendizado de máquina, têm se popularizado enormemente nos últimos anos, passando a incorporar os Sistemas de Informação para Apoio à Decisão, Previsão de Eventos e Análise de Dados. Por exemplo, sistemas de apoio à decisão na área médica e ambientes de \\textit{Business Intelligence} fazem uso intensivo dessas técnicas. Algoritmos indutores de árvores de classificação, particularmente os algoritmos TDIDT (Top-Down Induction of Decision Trees), figuram entre as técnicas mais comuns de aprendizado supervisionado. Uma das vantagens desses algoritmos em relação a outros é que, uma vez construída e validada, a árvore tende a ser interpretada com relativa facilidade, sem a necessidade de conhecimento prévio sobre o algoritmo de construção. Todavia, são comuns problemas de classificação em que as frequências relativas das classes variam significativamente. Algoritmos baseados em minimização do erro global de classificação tendem a construir classificadores com baixas taxas de erro de classificação nas classes majoritárias e altas taxas de erro nas classes minoritárias. Esse fenômeno pode ser crítico quando as classes minoritárias representam eventos como a presença de uma doença grave (em um problema de diagnóstico médico) ou a inadimplência em um crédito concedido (em um problema de análise de crédito). Para tratar esse problema, diversos algoritmos TDIDT demandam a calibração de parâmetros {\\em ad-hoc} ou, na ausência de tais parâmetros, a adoção de métodos de balanceamento dos dados. As duas abordagens não apenas introduzem uma maior complexidade no uso das ferramentas de mineração de dados para usuários menos experientes, como também nem sempre estão disponíveis. Neste trabalho, propomos um novo algoritmo indutor de árvores de classificação para problemas com dados desbalanceados. Esse algoritmo, denominado atualmente DDBT (Dynamic Discriminant Bounds Tree), utiliza um critério de partição de nós que, ao invés de se basear em frequências absolutas de classes, compara as proporções das classes nos nós com as proporções do conjunto de treinamento original, buscando formar subconjuntos com maior discriminação de classes em relação ao conjunto de dados original. Para a rotulação de nós terminais, o algoritmo atribui a classe com maior prevalência relativa no nó em relação à prevalência no conjunto original. Essas características fornecem ao algoritmo a flexibilidade para o tratamento de conjuntos de dados com desbalanceamento de classes, resultando em um maior equilíbrio entre as taxas de erro em classificação de objetos entre as classes. / Data mining techniques and, particularly, machine learning methods, have become very popular in recent years. Many decision support information systems and business intelligence tools have incorporated and made intensive use of such techniques. Top-Down Induction of Decision Trees Algorithms (TDIDT) appear among the most popular tools for supervised learning. One of their advantages with respect to other methods is that a decision tree is frequently easy to be interpreted by the domain specialist, precluding the necessity of previous knowledge about the induction algorithms. On the other hand, several typical classification problems involve unbalanced data (heterogeneous class prevalence). In such cases, algorithms based on global error minimization tend to induce classifiers with low error rates over the high prevalence classes, but with high error rates on the low prevalence classes. This phenomenon may be critical when low prevalence classes represent rare or important events, like the presence of a severe disease or the default in a loan. In order to address this problem, several TDIDT algorithms require the calibration of {\\em ad-hoc} parameters, or even data balancing techniques. These approaches usually make data mining tools more complex for less expert users, if they are ever available. In this work, we propose a new TDIDT algorithm for problems involving unbalanced data. This algorithm, currently named DDBT (Dynamic Discriminant Bounds Tree), uses a node partition criterion which is not based on absolute class frequencies, but compares the prevalence of each class in the current node with those in the original training sample. For terminal nodes labeling, the algorithm assigns the class with maximum ration between the relative prevalence in the node and the original prevalence in the training sample. Such characteristics provide more flexibility for the treatment of unbalanced data-sets, yielding a higher equilibrium among the error rates in the classes.
339

Um processo para modelagem e aplicação de técnicas computacionais para detecção de fraudes em transações eletrônicas / A process for modeling and application of computational techniques for fraud detection in electronic transactions

Santiago, Gabriel Preti 08 May 2014 (has links)
Nos últimos anos, tem-se observado um aumento significativo no volume de transações financeiras realizadas pela Internet. Esse crescimento no volume financeiro, associado à fragilidade inerente à ausência de verificações básicas, possíveis somente em transações do mundo físico, tem atraído a atenção de pessoas com o objetivo de obter vantagens financeiras de forma ilícita. Devido aos prejuízos causados pelas fraudes, surgiram empresas de pagamento online com o objetivo de tornar as transações de compra e venda na Internet mais seguras. Essas empresas atuam como um intermediário das transações e assumem os riscos associados, mostrando-se ser esse um negócio de alto risco. Dado o alto volume de transações com as quais essas empresas precisam lidar, torna-se clara a necessidade de métodos computacionais para detecção de transações fraudulentas, visto que a utilização estrita de verificações manuais é inviável para lidar com tal volume de transações. Essa tarefa de análise e identificação de transações fraudulentas pode ser vista como um problema computacional de classificação, sendo então aplicáveis técnicas de classificação, aprendizado computacional e mineração de dados. Porém, dada a complexidade do problema, a aplicação de técnicas computacionais só é possível após um profundo entendimento do problema e a definição de uma modelagem eficiente associada a um processo consistente e abrangente, capaz de lidar com todas as etapas necessárias para a análise eficiente de uma transação. Face a isso, o presente trabalho propõe uma abordagem abrangente para tratar o problema da fraude nesse novo mercado de intermediação de pagamentos online utilizando como base um processo já muito bem estabelecido na indústria. Abordaremos mais especificamente uma das fases desse processo, que se refere justamente a utilização de ferramentas computacionais para a detecção das fraudes, e apresentaremos um sub-processo que envolve a utilização de várias ferramentas para o tratamento do ponto de vista computacional do problema de detecção de fraudes. Para a validação dos resultados da proposta, utilizaremos uma enorme quantidade de dados reais disponibilizados por uma grande empresa do setor de intermediação de pagamentos online que colaborou com nossa pesquisa. / In recent years, there has been a significant increase in the volume of electronic transactions in the Web. This growth in trading volume, associated with the risks caused by the absence of basic checks, possible only in transactions of the physical world, has attracted the attention of people with the intention of taking advantage to obtain illicit financial benefits. Due to the injuries caused by fraud, online payment service companies emerged, with the goal of making Web transactions safer. These companies act as an intermediary between buyers and sellers, assuming all the risks, and so it is clear that it is a high-risk business. Given the high volume of transactions with which these companies must deal, it is clear the need for computational methods for detecting fraudulent transactions, as the strict use of manual checks is infeasible to handle such a volume. The task of analysis and identification of fraudulent transactions can be seen as a classification problem, and so classification, data mining and machine learning techniques can be applied to it. However, given the complexity of the problem, the application of computational techniques is only possible after a thorough understanding of the problem and the definition of an efficient model, associated with a consistent and comprehensive process which would be able to handle all the steps needed to analyze a transaction in an efficient way. Given this scenario, this work proposes a comprehensive approach to address the problem of fraud in this new business of online payment intermediation, using as basis a process already established in the industry. We will discuss more specifically one of the phases of this process, which refers to the use of computational tools to detect frauds, and we will present a sub-process using several tools to deal with the problem from a computational point of view. To validate our results, we will use a huge amount of real data provided by an important company of the online payment industry, which cooperated with our research.
340

Um sistema imunológico artificial para classificação hierárquica e multi-label de funções de proteínas

Alves, Roberto Teixeira 26 February 2010 (has links)
CAPES / Esta tese propõe um novo algoritmo baseado em Sistemas Imunológicos Artificiais (SIA) para classificação hierárquica e multi-label, onde os classificadores gerados são representados na forma de regras SE-ENTÃO. A classificação hierárquica e multi-label é considerada desafiadora uma vez que um exemplo está associado a uma ou mais classes organizadas hierarquicamente, sendo que esta organização estrutural de classes deve ser considerada na construção dos classificadores. A técnica proposta aborda a construção de classificadores hierárquicos locais (onde cada classificador processa apenas exemplos de classes em uma região local da hierarquia) e globais (onde um único classificador processa exemplos de todas as classes ao mesmo tempo). A área de aplicação utilizada para validação desta tese foi a predição de função biológica de proteínas usando termos da ontologia gênica como classes a serem preditas pelo SIA. O desempenho do algoritmo é avaliado experimentalmente para 10 bases de proteínas. Os critérios de avaliação do algoritmo nos experimentos computacionais são a precisão preditiva (taxa de acerto e área da curva precision-recall) e a simplicidade do conhecimento descoberto (medida pelo número de regras e número total de condições nas regras descobertas). Os experimentos computacionais permitem identificar parâmetros e procedimentos que influenciam no desempenho da técnica proposta. Os testes comparativos com outras abordagens mostram que sobre alguns conjuntos de experimentos a abordagem proposta se mostrou superior, enquanto em outros conjuntos não foi possível superar a técnica da literatura usada para comparação. / This thesis proposes a new approach based on Artificial Immune System (AIS) for hierarchical multi-label classification, where the classifiers produced by the system are represented in the form of IF-THEN classification rules. Hierarchical multi-label classification is a challenging problem, because an example is associated with one or more classes organized into a hierarchy and the class hierarchy must be considered in the construction of the classifiers. The proposed method addresses the construction of local hierarchical classifiers (where each classifier processes only examples of classes in a local region of the hierarchy) and global hierarchical classifiers (where a single classifier processes examples of all classes at the same time). The application domain used to validate the proposed methods was the prediction of the biological function of proteins, using terms of the Gene Ontology as classes to be predicted by the AIS. The performance of the algorithm was evaluated in computational experiments with 10 datasets of proteins. The evaluation criteria in these experiments were the predictive accuracy (accuracy rate and the area under the precision-recall curve) and the simplicity of the discovered knowledge (measured by the number of rules and total number of conditions in the discovered rules). The computational experiments allowed the identification of parameter settings and procedures that significantly influence the performance of the proposed method. The experiments comparing the proposed method with other methods have shown that in some datasets the proposed method outperformed other methods, whilst in other datasets it was not possible to outperform other methods proposed in the literature.

Page generated in 0.2008 seconds