• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 43
  • 2
  • 1
  • Tagged with
  • 46
  • 46
  • 32
  • 23
  • 19
  • 17
  • 12
  • 11
  • 9
  • 9
  • 8
  • 8
  • 8
  • 8
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Extração de características combinadas com árvore de decisão para detecção e classificação dos distúrbios de qualidade da energia elétrica / Features extraction combined with decision tree for detection and classification of disorders of power quality

Fábbio Anderson Silva Borges 11 July 2013 (has links)
Este trabalho apresenta uma metodologia de detecção e classificação de distúrbios relacionados à qualidade da energia elétrica. A detecção é feita utilizando-se somente uma regra para inferir na presença ou não do distúrbio em uma janela analisada. Para a classificação é proposto um método baseado em árvore de decisão. A árvore recebe como entrada as características do sinal extraídas tanto no domínio do tempo como no domínio da frequência, sendo a última obtida pela Transformada de Fourier. Destaca-se que toda a metodologia de extração de características foi idealizada como tentativa de se reduzir ao máximo o esforço computacional das tarefas de detecção e classificação de distúrbios. Em suma, verifica-se que os resultados obtidos são satisfatórios para a proposta desta pesquisa. / This work presents a methodology for detection and classification of disturbance related to the electric power quality. The detection is performed using only one rule to infer in the presence or not of the disturbance in a window analyzed. For the classification is proposed a method based on decision tree. The tree receives as input features of the extracted signal both in time domain and in the frequency domain, being the last obtained by Fourier transform. It is emphasized that all the features extraction methodology was idealized as an attempt to reduce to the maximum the computational effort for the tasks of detection and classification of disturbances. In short, it is possible to verify that the results obtained are satisfactory for the purpose of this research.
22

Análise de técnicas de data mining na aquisição de clientes de cartão de crédito não correntistas

Kisahleitner, Marcelo 23 March 2009 (has links)
Made available in DSpace on 2010-04-20T20:20:25Z (GMT). No. of bitstreams: 1 68060200600.pdf: 1676148 bytes, checksum: 5cff0f07d403683552d0f33e4607dd05 (MD5) Previous issue date: 2009-03-23T00:00:00Z / O trabalho busca analisar e entender se a aplicação de técnicas de Data mining em processos de aquisição de clientes de cartão de crédito, especificamente os que não possuem uma conta corrente em banco, podem trazer resultados positivos para as empresas que contam com processos ativos de conquista de clientes. Serão exploradas três técnicas de amplo reconhecimento na comunidade acadêmica : Regressão logística, Árvores de decisão, e Redes neurais. Será utilizado como objeto de estudo uma empresa do setor financeiro, especificamente nos seus processos de aquisição de clientes não correntistas para o produto cartão de crédito. Serão mostrados resultados da aplicação dos modelos para algumas campanhas passadas de venda de cartão de crédito não correntistas, para que seja possível verificar se o emprego de modelos estatísticos que discriminem os clientes potenciais mais propensos dos menos propensos à contratação podem se traduzir na obtenção de ganhos financeiros. Esses ganhos podem vir mediante redução dos custos de marketing abordando-se somente os clientes com maiores probabilidades de responderem positivamente à campanha. A fundamentação teórica se dará a partir da introdução dos conceitos do mercado de cartões de crédito, do canal telemarketing, de CRM, e das técnicas de data mining. O trabalho apresentará exemplos práticos de aplicação das técnicas mencionadas verificando os potenciais ganhos financeiros. Os resultados indicam que há grandes oportunidades para o emprego das técnicas de data mining nos processos de aquisição de clientes, possibilitando a racionalização da operação do ponto de vista de custos de aquisição.
23

Processo de descoberta de conhecimento em bases de dados para a analise e o alerta de doenças de culturas agricolas e sua aplicação na ferrugem do cafeeiro / Process of knowledge discovery in databases for analysis and warning of crop diseases and its application on coffee rust

Meira, Carlos Alberto Alves 13 June 2008 (has links)
Orientador: Luiz Henrique Antunes Rodrigues / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-11T10:02:19Z (GMT). No. of bitstreams: 1 Meira_CarlosAlbertoAlves_D.pdf: 2588338 bytes, checksum: 869cc28d2c71dbc901870285cc32d8f9 (MD5) Previous issue date: 2008 / Resumo: Sistemas de alerta de doenças de plantas permitem racionalizar o uso de agrotóxicos, mas são pouco utilizados na prática. Complexidade dos modelos, dificuldade de obtenção dos dados necessários e custos para o agricultor estão entre as razões que inibem o seu uso. Entretanto, o desenvolvimento tecnológico recente - estações meteoro lógicas automáticas, bancos de dados, monitoramento agrometeorológico na Web e técnicas avançadas de análise de dados - permite se pensar em um sistema de acesso simples e gratuito. Uma instância do processo de descoberta de conhecimento em bases de dados foi realizada com o objetivo de avaliar o uso de classificação e de indução de árvores de decisão na análise e no alerta da ferrugem do cafeeiro causada por Hemileia vastatrix. Taxas de infecção calculadas a partir de avaliações mensais de incidência da ferrugem foram agrupadas em três classes: TXl - redução ou estagnação; TX2 - crescimento moderado (até 5 p.p.); e TX3 - crescimento acelerado (acima de 5 p.p.). Dados meteorológicos, carga pendente de frutos do cafeeiro (Coffea arabica) e espaçamento entre plantas foram as variáveis independentes. O conjunto de treinamento totalizou 364 exemplos, preparados a partir de dados coletados em lavouras de café em produção, de outubro de 1998 a outubro de 2006. Uma árvore de decisão foi desenvolvida para analisar a epidemia da ferrugem do cafeeiro. Ela demonstrou seu potencial como modelo simbólico e interpretável, permitindo a identificação das fronteiras de decisão e da lógica contidas nos dados, allf'iliando na compreensão de quais variáveis e como as interações dessas variáveis condicionaram o progresso da doença no campo. As variáveis explicativas mais importantes foram a temperatura média nos períodos de molhamento foliar, a carga pendente de frutos, a média das temperaturas máximas diárias no período de inG:!Jbação e a umidade relativa do ar. Os modelos de alerta foram deserivolvtdos considerando taxas de infecção binárias, segundo os limites de 5 p.p e 10 p.p. (classe- '1' para taxas maiores ou iguais ao limite; classe 'O', caso contrário). Os modelos são específicos para lavouras com alta carga pendente ou para lavouras com baixa carga. Os primeiros tiveram melhor desempenho na avaliação. A estimativa de acurácia, por validação cruzada, foi de até 83%, considerando o alerta a partir de 5 p.p. Houve ainda equilíbrio entre a acurácia e medidas importantes como sensitividade, especificidade e confiabilidade positiva ou negativa. Considerando o alerta a partir de 10 p.p., a acurácia foi de 79%. Para lavouras com baixa carga pendente, os modelos considerando o alerta a partir de 5 p.p. tiveram acurácia de até 72%. Os modelos para a taxa de infecção mais elevada (a partir de 10 p.p.) tiveram desempenho fraco. Os modelos mais bem avaliados mostraram ter potencial para servir como apoio na tomada de decisão referente à adoção de medidas de controle da ferrugem do cafeeiro. O processo de descoberta de conhecimento em bases de dados foi caracterizado, com a intenção de que possa vir a ser útil em aplicações semelhantes para outras culturas agrícolas ou para a própria cultura do café, no caso de outras doenças ou pragas / Abstract: Plant disease warning systems can contribute for diminishing the use of chemicals in agriculture, but they have received limited acceptance in practice. Complexity of models, difficulties in obtaining the required data and costs for the growers are among the reasons that inhibit their use. However, recent technological advance - automatic weather stations, databases, Web based agrometeorological monitoring and advanced techniques of data analysis - allows the development of a system with simple and free access. A process .instance of knowledge discovery in databases has been realized to evaluate the use of classification and decision tree induction in the analysis and warning of coffee rust caused by Hemileia vastatrix. Infection rates calculated from monthly assessments of rust incidence were grouped into three classes: TXl - reduction or stagnation; TX2 - moderate growth (up to 5 pp); and TX3 - accelerated growth (above 5 pp). Meteorological data, expected yield and space between plants were used as independent variables. The training data set contained 364 examples prepared from data collected in coffee-growing areas between October 1998 and October 2006. A decision tree has been developed to analyse the coffee rust epidemics. The decision tree demonstrated its potential as a symbolic and interpretable model. Its mo deI representation identified the existing decision boundaries in the data and the logic underlying them, helping to understand which variables, and interactions between these variables, led to, coffee rust epidemics in the field. The most important explanatory variables were mean temperature during leaf wetness periods, expected yield, mean of maximum temperatures during the incubation period and relative air humidity. The warning models have been developed considering binary infection rates, according to the 5 pp and 10 pp thresholds, (class '1' for rates greater than or equal the threshold; class 'O;, otherwise). These models are specific for growing are as with high expected yield or areas with low expected yield. The former had best performance in the evaluation. The estimated accuracy by cross-validation was up to 83%, considering the waming for 5 pp and higher. There was yet equivalence between accuracy and such important measures like sensitivity, specificity a~d positive or negative reliability. Considering the waming for 10 pp and higher, the accuracy was 79%. For growing areas with low expected yield, the accuracy of the models considering the waming for 5 pp and higher was up to 72%. The models for the higher infection rate (10 pp and higher) had low performance. The best evaluated models showed potential to be used in decision making about coffee rust disease control. The process of knowledge discovery in databases was characterized in such a way it can be employed in similar problems of the application domain with other crops or other coffee diseases or pests / Doutorado / Planejamento e Desenvolvimento Rural Sustentável / Doutor em Engenharia Agrícola
24

Análise de dados de bases de honeypots: estatística descritiva e regras de IDS

Ferreira, Pedro Henrique Matheus da Costa 04 March 2015 (has links)
Made available in DSpace on 2016-03-15T19:37:56Z (GMT). No. of bitstreams: 1 PEDRO HENRIQUE MATHEUS DA COSTA FERREIRA.pdf: 2465586 bytes, checksum: c81a1527d816aeb0b216330fd4267b93 (MD5) Previous issue date: 2015-03-04 / Fundação de Amparo a Pesquisa do Estado de São Paulo / A honeypot is a computer security system dedicated to being probed, attacked or compromised. The information collected help in the identification of threats to computer network assets. When probed, attacked and compromised the honeypot receives a sequence of commands that are mainly intended to exploit a vulnerability of the emulated systems. This work uses data collected by honeypots to create rules and signatures for intrusion detection systems. The rules are extracted from decision trees constructed from the data sets of real honeypots. The results of experiments performed with four databases, both public and private, showed that the extraction of rules for an intrusion detection system is possible using data mining techniques, particularly decision trees. The technique pointed out similarities between the data sets, even the collection occurring in places and periods of different times. In addition to the rules obtained, the technique allows the analyst to identify problems quickly and visually, facilitating the analysis process. / Um honeypot é um sistema computacional de segurança dedicado a ser sondado, atacado ou comprometido. As informações coletadas auxiliam na identificação de ameaças computacionais aos ativos de rede. Ao ser sondado, atacado e comprometido o honeypot recebe uma sequência de comandos que têm como principal objetivo explorar uma vulnerabilidade dos sistemas emulados. Este trabalho faz uso dos dados coletados por honeypots para a criação de regras e assinaturas para sistemas de detecção de intrusão. As regras são extraídas de árvores de decisão construídas a partir dos conjuntos de dados de um honeypot real. Os resultados dos experimentos realizados com quatro bases de dados, duas públicas e duas privadas, mostraram que é possível a extração de regras para um sistema de detecção de intrusão utilizando técnicas de mineração de dados, em particular as árvores de decisão. A técnica empregada apontou similaridades entre os conjuntos de dados, mesmo a coleta ocorrendo em locais e períodos de tempos distintos. Além das regras obtidas, a técnica permite ao analista identificar problemas existentes de forma rápida e visual, facilitando o processo de análise.
25

Uma adaptação do método Binary Relevance utilizando árvores de decisão para problemas de classificação multirrótulo aplicado à genômica funcional / An Adaptation of Binary Relevance for Multi-Label Classification applied to Functional Genomics

Erica Akemi Tanaka 30 August 2013 (has links)
Muitos problemas de classificação descritos na literatura de aprendizado de máquina e mineração de dados dizem respeito à classificação em que cada exemplo pertence a um único rótulo. Porém, vários problemas de classificação, principalmente no campo de Bioinformática são associados a mais de um rótulo; esses problemas são conhecidos como problemas de classificação multirrótulo. O princípio básico da classificação multirrótulo é similar ao da classificação tradicional (que possui um único rótulo), sendo diferenciada no número de rótulos a serem preditos, na qual há dois ou mais rótulos. Na área da Bioinformática muitos problemas são compostos por uma grande quantidade de rótulos em que cada exemplo pode estar associado. Porém, algoritmos de classificação tradicionais são incapazes de lidar com um conjunto de exemplos mutirrótulo, uma vez que esses algoritmos foram projetados para predizer um único rótulo. Uma solução mais simples é utilizar o método conhecido como método Binary Relevance. Porém, estudos mostraram que tal abordagem não constitui uma boa solução para o problema da classificação multirrótulo, pois cada classe é tratada individualmente, ignorando as possíveis relações entre elas. Dessa maneira, o objetivo dessa pesquisa foi propor uma nova adaptação do método Binary Relevance que leva em consideração relações entre os rótulos para tentar minimizar sua desvantagem, além de também considerar a capacidade de interpretabilidade do modelo gerado, não só o desempenho. Os resultados experimentais mostraram que esse novo método é capaz de gerar árvores que relacionam os rótulos correlacionados e também possui um desempenho comparável ao de outros métodos, obtendo bons resultados usando a medida-F. / Many classification problems described in the literature on Machine Learning and Data Mining relate to the classification in which each example belongs to a single class. However, many classification problems, especially in the field of Bioinformatics, are associated with more than one class; these problems are known as multi-label classification problems. The basic principle of multi-label classification is similar to the traditional classification (single label), and distinguished by the number of classes to be predicted, in this case, in which there are two or more labels. In Bioinformatics many problems are composed of a large number of labels that can be associated with each example. However, traditional classification algorithms are unable to cope with a set of multi-label examples, since these algorithms are designed to predict a single label. A simpler solution is to use the method known as Binary Relevance. However, studies have shown that this approach is not a good solution to the problem of multi-label classification because each class is treated individually, ignoring possible relations between them. Thus, the objective of this research was to propose a new adaptation of Binary Relevance method that took into account relations between labels trying to minimize its disadvantage, and also consider the ability of interpretability of the model generated, not just its performance. The experimental results show that this new method is capable of generating trees that relate labels and also has a performance comparable to other methods, obtaining good results using F-measure.
26

Sistema de gestão da qualidade baseado na arquitetura da informação

Lotti, Luciane Politi 03 August 2018 (has links)
Orientador: Ettore Bresciani Filho / Dissertação (mestrado profissional) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecanica / Made available in DSpace on 2018-08-03T21:08:05Z (GMT). No. of bitstreams: 1 Lotti_LucianePoliti_M.pdf: 934202 bytes, checksum: cf611aaed12d9c9f54bfd2371136835f (MD5) Previous issue date: 2004 / Mestrado
27

Uma abordagem para a indução de árvores de decisão voltada para dados de expressão gênica / An Approach for the Induction of Decision Trees Focused on Gene Expression Data

Pedro Santoro Perez 18 April 2012 (has links)
Estudos de expressão gênica têm sido de extrema importância, permitindo desenvolver terapias, exames diagnósticos, medicamentos e desvendar uma infinidade de processos biológicos. No entanto, estes estudos envolvem uma série de dificuldades: grande quantidade de genes, sendo que geralmente apenas um pequeno número deles está envolvido no problema estudado; presença de ruído nos dados analisados; entre muitas outras. O projeto de pesquisa deste mestrado consiste no estudo de algoritmos de indução de árvores de decisão; na definição de uma metodologia capaz de tratar dados de expressão gênica usando árvores de decisão; e na implementação da metodologia proposta como algoritmos capazes de extrair conhecimento a partir desse tipo de dados. A indução de árvores de decisão procura por características relevantes nos dados que permitam modelar precisamente um conceito, mas tem também a preocupação com a compreensibilidade do modelo gerado, auxiliando os especialistas na descoberta de conhecimento, algo importante nas áreas médica e biológica. Por outro lado, tais indutores apresentam relativa instabilidade, podendo gerar modelos bem diferentes com pequenas mudanças nos dados de treinamento. Este é um dos problemas tratados neste mestrado. Mas o principal problema tratado se refere ao comportamento destes indutores em dados de alta dimensionalidade, mais especificamente dados de expressão gênica: atributos irrelevantes prejudicam o aprendizado e vários modelos com desempenho similar podem ser gerados. Diversas técnicas foram exploradas para atacar os problemas mencionados, mas este estudo se concentrou em duas delas: windowing, que foi a técnica mais explorada e para a qual este mestrado propôs uma série de alterações com vistas à melhoria de seu desempenho; e lookahead, que procura construir a árvore levando em considerações passos subsequentes do processo de indução. Quanto ao windowing, foram explorados aspectos relacionados ao procedimento de poda das árvores geradas durante a execução do algoritmo; uso do erro estimado em substituição ao erro de treinamento; uso de ponderação do erro calculado durante a indução de acordo com o tamanho da janela; e uso da confiança na classificação para decidir quais exemplos utilizar na atualização da janela corrente. Com relação ao lookahead, foi implementada uma versão de um passo à frente, ou seja, para tomar a decisão na iteração corrente, o indutor leva em consideração a razão de ganho de informação do passo seguinte. Os resultados obtidos, principalmente com relação às medidas de desempenho baseadas na compreensibilidade dos modelos induzidos, mostram que os algoritmos aqui propostos superaram algoritmos clássicos de indução de árvores. / Gene expression studies have been of great importance, allowing the development of new therapies, diagnostic exams, drugs and the understanding of a variety of biological processes. Nevertheless, those studies involve some obstacles: a huge number of genes, while only a very few of them are really relevant to the problem at hand; data with the presence of noise; among others. This research project consists of: the study of decision tree induction algorithms; the definition of a methodology capable of handling gene expression data using decision trees; and the implementation of that methodology as algorithms that can extract knowledge from that kind of data. The decision tree induction searches for relevant characteristics in the data which would allow it to precisely model a certain concept, but it also worries about the comprehensibility of the generated model, helping specialists to discover new knowledge, something very important in the medical and biological areas. On the other hand, such inducers present some instability, because small changes in the training data might produce great changes in the generated model. This is one of the problems being handled in this Master\'s project. But the main problem this project handles refers to the behavior of those inducers when it comes to high-dimensional data, more specifically to gene expression data: irrelevant attributes may harm the learning process and many models with similar performance may be generated. A variety of techniques have been explored to treat those problems, but this study focused on two of them: windowing, which was the most explored technique and to which this project has proposed some variations in order to improve its performance; and lookahead, which builds each node of a tree taking into consideration subsequent steps of the induction process. As for windowing, the study explored aspects related to the pruning of the trees generated during intermediary steps of the algorithm; the use of the estimated error instead of the training error; the use of the error weighted according to the size of the current window; and the use of the classification confidence as the window update criterion. As for lookahead, a 1-step version was implemented, i.e., in order to make the decision in the current iteration, the inducer takes into consideration the information gain ratio of the next iteration. The results show that the proposed algorithms outperform the classical ones, especially considering measures of complexity and comprehensibility of the induced models.
28

Análise inteligente de dados em um banco de dados de procedimentos em cardiologia intervencionista / Intelligent data analysis in an interventional cardiology procedures database

Campos Neto, Cantídio de Moura 02 August 2016 (has links)
O tema deste estudo abrange duas áreas do conhecimento: a Medicina e a Ciência da Computação. Consiste na aplicação do processo de descoberta de conhecimento em base de Dados (KDD - Knowledge Discovery in Databases), a um banco de dados real na área médica denominado Registro Desire. O Registro Desire é o registro mais longevo da cardiologia intervencionista mundial, unicêntrico e acompanha por mais de 13 anos 5.614 pacientes revascularizados unicamente pelo implante de stents farmacológicos. O objetivo é criar por meio desta técnica um modelo que seja descritivo e classifique os pacientes quanto ao risco de ocorrência de eventos cardíacos adversos maiores e indesejáveis, e avaliar objetivamente seu desempenho. Posteriormente, apresentar as regras extraídas deste modelo aos usuários para avaliar o grau de novidade e de concordância do seu conteúdo com o conhecimento dos especialistas. Foram criados modelos simbólicos de classificação pelas técnicas da árvore de decisão e regras de classificação utilizando para a etapa de mineração de dados os algoritmos C4.5, Ripper e CN2, em que o atributo-classe foi a ocorrência ou não do evento cardíaco adverso. Por se tratar de uma classificação binária, os modelos foram avaliados objetivamente pelas métricas associadas à matriz de confusão como acurácia, sensibilidade, área sob a curva ROC e outras. O algoritmo de mineração processa automaticamente todos os atributos de cada paciente exaustivamente para identificar aqueles fortemente associados com o atributo-classe (evento cardíaco) e que irão compor as regras. Foram extraídas as principais regras destes modelos de modo indireto, por meio da árvore de decisão ou diretamente pela regra de classificação, que apresentaram as variáveis mais influentes e preditoras segundo o algoritmo de mineração. Os modelos permitiram entender melhor o domínio de aplicação, relacionando a influência de detalhes da rotina e as situações associadas ao procedimento médico. Pelo modelo, foi possível analisar as probabilidades da ocorrência e da não ocorrência de eventos em diversas situações. Os modelos induzidos seguiram uma lógica de interpretação dos dados e dos fatos com a participação do especialista do domínio. Foram geradas 32 regras das quais três foram rejeitadas, 20 foram regras esperadas e sem novidade, e 9 foram consideradas regras não tão esperadas, mas que tiveram grau de concordância maior ou igual a 50%, o que as tornam candidatas à investigação para avaliar sua eventual importância. Tais modelos podem ser atualizados ao aplicar novamente o algoritmo de mineração ao banco com os dados mais recentes. O potencial dos modelos simbólicos e interpretáveis é grande na Medicina quando aliado à experiência do profissional, contribuindo para a Medicina baseada em evidência. / The main subject of this study comprehends two areas of knowledge, the Medical and Computer Science areas. Its purpose is to apply the Knowledge Discovery Database-KDD to the DESIRE Registry, an actual Database in Medical area. The DESIRE Registry is the oldest world\'s registry in interventional cardiology, is unicentric, which has been following up 5.614 resvascularized patients for more then 13 years, solely with pharmacological stent implants. The goal is to create a model using this technique that is meaningful to classify patients as the risk of major adverse cardiac events (MACE) and objectively evaluate their performance. Later present rules drawn from this model to the users to assess the degree of novelty and compliance of their content with the knowledge of experts. Symbolic classification models were created using decision tree model, and classification rules using for data mining step the C4.5 algorithms, Ripper and CN2 where the class attribute is the presence or absence of a MACE. As the classification is binary, the models where objectively evaluated by metrics associated to the Confusion Matrix, such as accuracy, sensitivity, area under the ROC curve among others. The data mining algorithm automatically processes the attributes of each patient, who are thoroughly tested in order to identify the most predictive to the class attribute (MACE), whom the rules will be based on. Indirectly, using decision tree, or directly, using the classification rules, the main rules of these models were extracted to show the more predictable and influential variables according to the mining algorithm. The models allowed better understand the application range, creating a link between the influence of the routine details and situations related to the medical procedures. The model made possible to analyse the probability of occurrence or not of events in different situations. The induction of the models followed an interpretation of the data and facts with the participation of the domain expert. Were generated 32 rules of which only three were rejected, 20 of them were expected rules and without novelty and 9 were considered rules not as expected but with a degree of agreement higher or equal 50%, which became candidates for an investigation to assess their possible importance. These models can be easily updated by reapplying the mining process to the database with the most recent data. There is a great potential of the interpretable symbolic models when they are associated with professional background, contributing to evidence-based medicine.
29

Aplicação de minerador de dados na obtenção de relações entre padrões de encadeamento de viagens codificados e características sócio-econômicas / Applicability of a data miner for obtaining relationships bteween trip-chaining patterns and urban trip-makers socioeconomic characteristics

Sandra Matiko Ichikawa 29 November 2002 (has links)
O principal objetivo deste trabalho é analisar a aplicabilidade de um minerador de dados para obter relações entre padrões de viagens encadeadas e características sócio-econômicas de viajantes urbanos. Para representar as viagens encadeadas, as viagens correspondentes a cada indivíduo do banco de dados foram codificadas em termos de seqüência de letras que indicam uma ordem cronológica em que atividades são desenvolvidas. O minerador de dados utilizado neste trabalho é árvore de decisão e classificação, uma ferramenta de análise disponível no software S-Plus. A análise foi baseada na pesquisa origem-destino realizada pelo Metrô-SP na região metropolitana de São Paulo, por meio de entrevistas domiciliares, em 1987. Um dos importantes resultados é que indivíduos que têm atributos sócio-econômicos e de viagens similares não se comportam de maneira similar; pelo contrário, eles fazem diferentes padrões de viagens encadeadas, as quais podem ser descritas em termos de probabilidade ou freqüência associada a cada padrão. Portanto, o minerador de dados deve possuir a habilidade para representar essa distribuição. A consistência do resultado foi analisada comparando-os com alguns resultados encontrados na literatura referente a análise de viagem baseada em atividades. A principal conclusão é que árvore de decisão e classificação aplicada a dados individuais, contendo encadeamento de viagem codificado e atributos socioeconômicos e de viagem, permite extrair conhecimento e informações ocultas que ajudam a compreender o comportamento de viagem de viajantes urbanos. / The main aim of this work is to analyze the applicability of a data miner for obtaining relationships between trip-chaining patterns and urban trip-makers socioeconomic characteristics. In order to represent the trip-chains, trips corresponding to each individual in the data set were coded in terms of letters indicating a chronological order in which activities are performed. Data miner applied in this work is decision and classification tree, an analysis tool available in S-Plus software package. The analysis was based on the origin-destination home-interview survey carried out by Metrô-SP in São Paulo metropolitan area. One of the important findings is that individuals having similar socieconomic and trip attributes do not behave in a similar way; on the contrary, they make different trip-chaining patterns, which may be described in term of probability or frequency associated to each pattern. Therefore, the data miner should have ability to represent that distribution. The consistency of results was analyzed by comparing them with some results found in literature related to activity-based travel analysis. The main conclusion is that decision and classification tree applied to individual data, containing coded trip-chaining and socioeconomic and trip attributes, allows extracting hidden knowledge and information that help to understand the travel behaviour of urban trip-makers.
30

Detecção de fraudes no consumo de energia elétrica usando árvores de decisão

MATOS, Yasmin Christine Correa 11 July 2017 (has links)
Submitted by Hellen Luz (hellencrisluz@gmail.com) on 2017-10-06T18:06:43Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_DeteccaoFraudesConsumo.pdf: 1616969 bytes, checksum: c2d6c39634607cb9195183bbcf50a032 (MD5) / Rejected by Irvana Coutinho (irvana@ufpa.br), reason: Aguardar as orientações on 2017-10-10T16:45:45Z (GMT) / Submitted by Hellen Luz (hellencrisluz@gmail.com) on 2017-10-11T16:28:39Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_DeteccaoFraudesConsumo.pdf: 1616969 bytes, checksum: c2d6c39634607cb9195183bbcf50a032 (MD5) / Approved for entry into archive by Irvana Coutinho (irvana@ufpa.br) on 2017-10-16T12:50:20Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_DeteccaoFraudesConsumo.pdf: 1616969 bytes, checksum: c2d6c39634607cb9195183bbcf50a032 (MD5) / Made available in DSpace on 2017-10-16T12:50:20Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_DeteccaoFraudesConsumo.pdf: 1616969 bytes, checksum: c2d6c39634607cb9195183bbcf50a032 (MD5) Previous issue date: 2017-07-11 / Os prejuízos causados nos últimos anos pelas perdas comerciais às concessionárias de distribuição de energia elétrica no Brasil têm sido estimados aproximadamente em R$ 7 bilhões. Essa realidade representa, um desafio para algumas das distribuidoras do país, as quais necessitam de medidas eficazes no combate às perdas comerciais. Neste cenário, a presente dissertação de mestrado, apresenta uma metodologia capaz de detectar fraudes no consumo de energia elétrica, usando uma técnica de mineração de dados, conhecida como árvore de decisão. Testes de desempenho do método foram realizados usando dados reais do histórico de consumo de energia elétrica e de fiscalização de irregularidades em unidades consumidoras (UC’s) da região metropolitana de Belém. Os resultados mostraram que o método proposto baseado em árvore de decisão possui bom desempenho na detecção de fraudes no consumo de energia elétrica. / In recent years, the injury caused by the nontechnical losses to power distribution utilities, in Brazil have been estimated at R$ 7 billion per year. This reality represents a challenge for some of country’s utilities, who need effective measures to combat commercial losses. In this scenario, this dissertation presents a methodology able of detecting fraud in the consumption of electric energy, using a technique of data mining, known as decision tree. Performance tests of the method were done using real data from the history of electricity consumption and the inspection of consumer units (CU’s) suspected of being irregular in the metropolitan region of Belém. The results showed that the proposed decision-tree based method performs well in the detection of fraud in the electric power consumption.

Page generated in 0.0191 seconds