• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 20
  • 8
  • Tagged with
  • 28
  • 28
  • 28
  • 28
  • 28
  • 6
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

[en] DEVELOPMENT OF LEARNING OBJECTS DIGITAL LIBRARIES USING DATA WAREHOUSING AND DATA MINING TECHNIQUES / [pt] DESENVOLVIMENTO DE BIBLIOTECAS DIGITAIS DE LEARNING OBJECTS UTILIZANDO TÉCNICAS DE DATA WAREHOUSING E DATA MINING

CASSIA BLONDET BARUQUE 01 February 2006 (has links)
[pt] Este trabalho objetiva o desenvolvimento de Bibliotecas Digitais de Learning Objects (LO-DLs), usando técnicas de Data Warehousing (DWing) e Data Mining (DMing). Através da abordagem de Data Warehousing pode-se correlacionar os passos principais desta técnica, que são Extração, Transformação, Carga e OLAP, com os principais serviços de Bibliotecas Tradicionais, que são Aquisição, Classificação por Assunto, Catalogação e Consulta/Análise, de forma que eles sejam processados automaticamente. Técnicas de Data Mining são incorporadas a alguns desses processos automatizando o desenvolvimento da biblioteca. Além de integrar múltiplas fontes de LOs, que estão armazenadas em diferentes SGBDs (Sistemas de Gerência de Banco de Dados) e catalogadas através de diferentes padrões de metadados, esta abordagem contribui para prover o usuário de uma maneira mais sofisticada de consulta ao acervo, mais abrangente que as usuais opções por título, autor e assunto, já que OLAP propicia acesso multidiimensional. Além disso, também contribui para melhorar a qualidade da biblioteca, uma vez que as técnicas OLAP e de Data Mining são usadas para analisar os LOs e os acessos aos mesmos. Uma atualização automática da biblioteca acontece quando há mudança no perfil do usuário. / [en] This work aims at the development of Learning Objects Digital Libraries (LO-DLs), using Data Warehousing (DWing) and Data Mining (DMining) techniques. By using the Data Warehousing approach, we will be able to correlate the main steps of this technique, which area Extraction, Transformation, Loading and OLAP, with the main services of a Traditional Library which are Acquisition, Subject Classification, Cataloging, and Searching, so that they will work in an automatic way. Data Mining techniques are incorporated in some of these processes automating the process of the development of the library. Besides integrating multiple LOs sources, which are stored in diverse DBMSs (Data Base Management Systems) and catalogued in different metadata languages, this approach contributes to providing the user with a sophisticated query to the library that is more comprehensive than the usual author, subject or title options, since OLAP allows multidimensional access. Furthermore it also contributes to the improvement of the library, since OLAP and data mining techniques are used to analyze LOs data and the access to them. An automatic refresh of the library is made when users´ profile changes.
12

[en] CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS / [pt] CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOS

CARLOS HENRIQUE PEREIRA LOPES 19 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de Algoritmos Genéticos (AG) no processo de descoberta de conhecimento implícito em Banco de Dados (KDD - Knowledge Discovery Database). O objetivo do trabalho foi avaliar o desempenho de Algoritmos Genéticos no processo de classificação de registros em Bancos de Dados (BD). O processo de classificação no contexto de Algoritmos Genéticos consiste na evolução de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros do BD. O trabalho consistiu de 4 etapas principais: um estudo sobre a área de Knowledge Discovery Database (KDD); a definição de um modelo de AG aplicado à Mineração de Dados (Data Mining); a implementação de uma ferramenta (Rule-Evolver) de Mineração de Dados; e o estudo de casos. O estudo sobre a área de KDD envolveu todo o processo de descoberta de conhecimento útil em banco de dados: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados e a interpretação dos resultados. Em particular, o estudo destacou a fase de Mineração de Dados e os algoritmos e técnicas empregadas (Redes Neurais, Indução de regras, Modelos Estatísticos e Algoritmos Genéticos). Deste estudo resultou um survey sobre os principais projetos de pesquisa na área. A modelagem do Algoritmo Genético consistiu fundamentalmente na definição de uma representação dos cromossomas, da função de avaliação e dos operadores genéticos. Em mineração de dados por regras de associação é necessário considerar-se atributos quantitativos e categóricos. Atributos quantitativos representam variáveis contínuas (faixa de valores) e atributos categóricos variáveis discretas. Na representação definida, cada cromossoma representa uma regra e cada gene corresponde a um atributo do BD, que pode ser quantitativo ou categórico conforme a aplicação. A função de avaliação associa um valor numérico à regra encontrada, refletindo assim uma medida da qualidade desta solução. A Mineração de Dados por AG é um problema de otimização onde a função de avaliação deve apontar para as melhores regras de associação. A acurácia e a abrangência são medidas de desempenho e, em alguns casos, se mantém nulas durante parte da evolução. Assim, a função de avaliação deve ser uma medida que destaca cromossomas contendo regras promissoras em apresentar acurácia e abrangência diferentes de zero. Foram implementadas 10 funções de avaliação. Os operadores genéticos utilizados (crossover e mutação) buscam recombinar as cláusulas das regras, de modo a procurar obter novas regras com maior acurácia e abrangência dentre as já encontradas. Foram implementados e testados 4 operadores de cruzamento e 2 de mutação. A implementação de uma ferramenta de modelagem de AG aplicada à Mineração de Dados, denominada Rule-Evolver, avaliou o modelo proposto para o problema de classificação de registros. O Rule-Evolver analisa um Banco de Dados e extrai as regras de associação que melhor diferenciem um grupo de registros em relação a todos os registros do Banco de Dados. Suas características principais são: seleção de atributos do BD; informações estatísticas dos atributos; escolha de uma função de avaliação entre as 10 implementadas; escolha dos operadores genéticos; visualização gráfica de desempenho do sistema; e interpretação de regras. Um operador genético é escolhido a cada reprodução em função de uma taxa preestabelecida pelo usuário. Esta taxa pode permanecer fixa ou variar durante o processo evolutivo. As funções de avaliação também podem ser alteradas (acrescidas de uma recompensa) em função da abrangência e da acurácia da regra. O Rule- Evolver possui uma interface entre o BD e o AG, necessária para tor / [en] This dissertation investigates the application of Genetic Algorithms (GAs) to the process of implicit knowledge discovery over databases (KDD - Knowledge Discovery Database). The objective of the work has been the assessment of the Genetic Algorithms (GA) performance in the classification process of database registers. In the context of Genetic Algorithms, this classification process consists in the evolution of association rules that characterise, through its accuracy and range, a particular group of database registers. This work has encompassed four main steps: a study over the area of Knowledge Discovery Databases; the GA model definition applied to Data Mining; the implementation of the Data Mining Rule Evolver; and the case studies. The study over the KDD area included the overall process of useful knowledge discovery; the problem definition; data organisation; data pre-processing; data encoding; data improvement; data mining; and results´ interpretation. Particularly, the investigation emphasied the data mining procedure, techniques and algorithms (neural Networks, rule Induction, Statistics Models and Genetic Algorithms). A survey over the mais research projects in this area was developed from this work. The Genetic Algorithm modelling encompassed fundamentally, the definition of the chromosome representation, the fitness evaluation function and the genetic operators. Quantitative and categorical attributes must be taken into account within data mining through association rules. Quantitative attribites represent continuous variables (range of values), whereas categorical attributes are discrete variable. In the representation employed in this work, each chromosome represents a rule and each gene corresponds to a database attribute, which can be quantitative or categorical, depending on the application. The evaluation function associates a numerical value to the discovered rule, reflecting, therefore, the fitness evaluation function should drive the process towards the best association rules. The accuracy and range are performance statistics and, in some cases, their values stay nil during part of the evolutionary process. Therefore, the fitness evaluation function should reward chromosomes containing promising rules, which present accuracy and range different of zero. Ten fitness evaluation functions have been implemented. The genetic operators used in this work, crossover and mutation, seek to recombine rules´clauses in such a way to achieve rules of more accuracy and broader range when comparing the ones already sampled. Four splicing operators and two mutation operators have been experimented. The GA modeling tool implementation applied to Data Mining called Rule Evolever, evaluated the proposed model to the problem of register classification. The Rule Evolver analyses the database and extracts association rules that can better differentiate a group of registers comparing to the overall database registers. Its main features are: database attributes selection; attributes statistical information; evaluation function selection among ten implemented ones; genetic operators selection; graphical visualization of the system performance; and rules interpretation. A particular genetic operator is selected at each reproduction step, according to a previously defined rate set by the user. This rate may be kept fix or may very along the evolutionary process. The evolutionary process. The evaluation functions may also be changed (a rewarding may be included) according to the rule´s range and accuracy. The Rule Evolver implements as interface between the database and the GA, endowing the KDD process and the Data Mining phase with flexibility. In order to optimise the rules´ search process and to achieve better quality rules, some evolutionary techniques have been implemented (linear rank and elitism), and different random initialisation methods have been used as well; global averag
13

[en] HIBRID NEURO-FUZZY-GENETIC SYSTEM FOR AUTOMATIC DATA MINING / [pt] SISTEMA HÍBRIDO NEURO-FUZZY-GENÉTICO PARA MINERAÇÃO AUTOMÁTICA DE DADOS

MANOEL ROBERTO AGUIRRE DE ALMEIDA 20 August 2004 (has links)
[pt] Esta dissertação apresenta a proposta e o desenvolvimento de um sistema de mineração de dados inteiramente automático. O objetivo principal é criar um sistema que seja capaz de realizar a extração de informações obscuras a partir de bases de dados complexas, sem exigir a presença de um especialista técnico para configurá-lo. O sistema híbrido neuro-fuzzy hierárquico com particionamento binário (NFHB) vem apresentando excelentes resultados em tarefas de classificação de padrões e previsão, além de possuir importantes características não encontradas em outros sistemas similares, entre elas: aprendizado automático de sua estrutura; capacidade de receber um número maior de entradas abrangendo um maior número de aplicações; e geração de regras lingüísticas como produto de seu treinamento. Entretanto, este modelo ainda necessita de uma complexa parametrização inicial antes de seu treinamento, impedindo que o processo seja automático em sua totalidade. O novo modelo proposto busca otimizar a parametrização do sistema NFHB utilizando a técnica de coevolução genética, criando assim um novo sistema de mineração de dados completamente automático. O trabalho foi realizado em quatro partes principais: avaliação de sistemas existentes utilizados na mineração de dados; estudo do sistema NFHB e a determinação de seus principais parâmetros; desenvolvimento do sistema híbrido neuro-fuzzy-genético automático para mineração de dados; e o estudo de casos. No estudo dos sistemas existentes para mineração de dados buscou-se encontrar algum modelo que apresentasse bons resultados e ainda fosse passível de automatização. Várias técnicas foram estudadas, entre elas: Métodos Estatísticos, Árvores de Decisão, Associação de Regras, Algoritmos Genéticos, Redes Neurais Artificiais, Sistemas Fuzzy e Sistemas Neuro-Fuzzy. O sistema NFHB foi escolhido como sistema de inferência e extração de regras para a realização da mineração de dados. Deste modo, este modelo foi estudado e seus parâmetros mais importantes foram determinados. Além disso, técnicas de seleção de variáveis de entradas foram investigadas para servirem como opções para o modelo. Ao final, foi obtido um conjunto de parâmetros que deve ser automaticamente determinado para a completa configuração deste sistema. Um modelo coevolutivo genético hierárquico foi criado para realizar com excelência a tarefa de otimização do sistema NFHB. Desta forma, foi modelada uma arquitetura hierárquica de Algoritmos Genéticos (AG s), onde os mesmos realizam tarefas de otimização complementares. Nesta etapa, também foram determinados os melhores operadores genéticos, a parametrização dos AG s, a melhor representação dos cromossomas e as funções de avaliação. O melhor conjunto de parâmetros encontrado é utilizado na configuração do NFHB, tornando o processo inteiramente automático. No estudo de casos, vários testes foram realizados em bases de dados reais e do tipo benchmark. Para problemas de previsão, foram utilizadas séries de carga de energia elétrica de seis empresas: Cerj, Copel, Eletropaulo, Cemig, Furnas e Light. Na área de classificação de padrões, foram utilizadas bases conhecidas de vários artigos da área como Glass Data, Wine Data, Bupa Liver Disorders e Pima Indian Diabetes. Após a realização dos testes, foi feita uma comparação com os resultados obtidos por vários algoritmos e pelo NFHB original, porém com parâmetros determinados por um especialista. Os testes mostraram que o modelo criado obteve resultados bastante satisfatórios, pois foi possível, com um processo completamente automático, obter taxas de erro semelhantes às obtidas por um especialista, e em alguns casos taxas menores. Desta forma, um usuário do sistema, sem qualquer conhecimento técnico sobre os modelos utilizados, pode utilizá-lo para realizar mineração de banco de dados, extraindo informações e até mesmo conhecimento que podem auxiliá-lo em processos de tomada de decisão, o qual é o objetivo final de um processo de Knowledge Data Discovery. / [en] This dissertation presents the proposal and the development of a totally automatic data mining system. The main objective is to create a system that is capable of extracting obscure information from complex databases, without demanding the presence of a technical specialist to configure it. The Hierarchical Neuro-Fuzzy Binary Space Partitioning model (NFHB) has produced excellent results in pattern classification and time series forecasting tasks. Additionally, it provides important features that are not present in other similar systems, such as: automatic learning of its structure; ability to deal with a larger number of input variables, thus increasing the range of possible applications; and generation of linguistic rules as a result of its training process. However, this model depends on a complex configuration process before the training is performed, hindering to achieve a totally automatic system. The model proposed in this Dissertation tries to optimize the NFHB system parameters by using the genetic coevolution technique, thus creating a new automatic data mining system. This work consisted of four main parts: evaluation of existing systems used in data mining; study of the NFHB system and definition of its main parameters; development of the automatic hybrid neuro-fuzzy-genetic system for data mining; and case studies. In the study of existing data mining systems, the aim was to find a suitable model that could yield good results and still be automated. Several techniques have been studied, among them: Statistical methods, Decision Trees, Rules Association, Genetic Algorithms, Artificial Neural Networks, Fuzzy and Neuro- Fuzzy Systems. The NFHB System was chosen for inference and rule extraction in the data mining process. In this way, this model was carefully studied and its most important parameters were determined. Moreover, input variable selection techniques were investigated, to be used with the proposed model. Finally, a set of parameters was defined, which must be determined automatically for the complete system configuration. A hierarchical coevolutive genetic model was created to execute the system optimization task with efficiency. Therefore, a hierarchical architecture of genetic algorithms (GAs) was created, where the GAs execute complementary optimization tasks. In this stage, the best genetic operators, the GAs configuration, the chromossomes representation, and evaluation functions were also determined. The best set of parameters found was used in the NFHB configuration, making the process entirely automatic. In the case studies, various tests were performed with benchmark databases. For forecasting problems, six electric load series were used: Cerj, Copel, Eletropaulo, Cemig, Furnas and Light. In the pattern classification area, some well known databases were used, namely Glass Data, Wine Data, Bupa Liver Disorders and Pima Indian Diabetes. After the tests were carried out, a comparison was made with known models and with the original NFHB System, configured by a specialist. The tests have demonstrated that the proposed model generates satisfactory results, producing, with an automatic process, similar errors to the ones obtained with a specialist configuration, and, in some cases, even better results can be obtained. Therefore, a user without any technical knowledge of the system, can use it to perform data mining, extracting information and knowledge that can help him/her in decision taking processes, which is the final objective of a Knowledge Data Discovery process.
14

[en] RELATIONSHIP MARKETING: CROSS-SELLING ON MOBILE TELECOM / [pt] MARKETING DE RELACIONAMENTO: CROSS-SELLING NA TELEFONIA MÓVEL

MANOELA BRANDAO DE OLIVEIRA 20 April 2015 (has links)
[pt] Com rápido crescimento nos últimos anos, o mercado de telecomunicações está ficando cada vez mais saturado. Como a comunicação tradicional por meio de serviços de voz já é amplamente utilizada, as operadoras têm enfrentado dificuldades em atrair novos usuários. Neste cenário, as operadoras têm direcionado cada vez mais esforços nas ações de cross-selling para rentabilizar sua base de clientes, oferecendo e estimulando o uso de novos serviços. Nesta pesquisa, serão utilizados dados existentes no banco de dados de uma operadora de telefonia móvel do mercado brasileiro para testar um modelo que facilita a identificação dos clientes mais propensos à contratação de novos serviços. Os dados foram tratados por meio de técnicas de mineração de dados e árvore de decisão. Os resultados sugerem que, com base na modelagem proposta, ações de cross-selling podem ser otimizadas com o aumento da taxa de retorno e, conseqüentemente, redução no custo das abordagens e menos desgaste da base de clientes com contatos irrelevantes. / [en] Due to its fast growth in recent years, the wireless market is becoming increasingly saturated. Since traditional communication through voice services is already widely used by most individuals, wireless carriers are facing difficulties in finding and attracting new users for such services. Given this scenario, enterprises are turning their attention to cross-selling campaigns to monetize their client base, offering and stimulating the use of new services. In this research, an existent data set from a Brazilian mobile telecom carrier was used to test a model that could facilitate the identification of current customers more likely to be interested in acquiring new services. The data were analyzed and modeled via data mining and decision tree. The results suggest that, if the proposed model is used, cross-selling campaigns could be optimized, achieving an increased rate of return, reduction in the cost of contacts and less wear of the client base with irrelevant offers.
15

[en] HYBRID GENETIC ALGORITHM FOR THE MINIMUM SUM-OF-SQUARES CLUSTERING PROBLEM / [pt] ALGORITMO GENÉTICO HÍBRIDO PARA O PROBLEMA DE CLUSTERIZAÇÃO MINIMUM SUM-OF-SQUARES

DANIEL LEMES GRIBEL 27 July 2017 (has links)
[pt] Clusterização desempenha um papel importante em data mining, sendo útil em muitas áreas que lidam com a análise exploratória de dados, tais como recuperação de informações, extração de documentos e segmentação de imagens. Embora sejam essenciais em aplicações de data mining, a maioria dos algoritmos de clusterização são métodos ad-hoc. Eles carecem de garantias na qualidade da solução, que em muitos casos está relacionada a uma convergência prematura para um mínimo local no espaço de busca. Neste trabalho, abordamos o problema de clusterização a partir da perspectiva de otimização, onde propomos um algoritmo genético híbrido para resolver o problema Minimum Sum-of-Squares Clustering (MSSC, em inglês). A meta-heurística proposta é capaz de escapar de mínimos locais e gerar soluções quase ótimas para o problema MSSC. Os resultados mostram que o método proposto superou os resultados atuais da literatura – em termos de qualidade da solução – para quase todos os conjuntos de instâncias considerados para o problema MSSC. / [en] Clustering plays an important role in data mining, being useful in many fields that deal with exploratory data analysis, such as information retrieval, document extraction, and image segmentation. Although they are essential in data mining applications, most clustering algorithms are adhoc methods. They have a lack of guarantee on the solution quality, which in many cases is related to a premature convergence to a local minimum of the search space. In this research, we address the problem of data clustering from an optimization perspective, where we propose a hybrid genetic algorithm to solve the Minimum Sum-of-Squares Clustering (MSSC) problem. This meta-heuristic is capable of escaping from local minima and generating near-optimal solutions to the MSSC problem. Results show that the proposed method outperformed the best current literature results - in terms of solution quality - for almost all considered sets of benchmark instances for the MSSC objective.
16

[en] BUS NETWORK ANALYSIS AND MONITORING / [pt] ANÁLISE E MONITORAMENTO DE REDES DE ÔNIBUS

KATHRIN RODRIGUEZ LLANES 17 August 2017 (has links)
[pt] Ônibus, equipados com dispositivos GPS ativos que transmitem continuamente a sua posição, podem ser entendidos como sensores móveis de trânsito. De fato, as trajetórias dos ônibus fornecem uma fonte de dados útil para analisar o trânsito na rede de ônibus de uma cidade, dado que as autoridades de trânsito da cidade disponibilizem as trajetórias de forma aberta, oportuna e contínua. Neste contexto, esta tese propõe uma abordagem que usa os dados de GPS dos ônibus para analisar e monitorar a rede de ônibus de uma cidade. Ela combina algoritmos de grafos, técnicas de mineração de dados geoespaciais e métodos estatísticos. A principal contribuição desta tese é uma definição detalhada de operações e algoritmos para analisar e monitorar o tráfego na rede de ônibus, especificamente: (1) modelagem, análise e segmentaçãoda rede de ônibus; (2) mineração do conjunto de dados de trajetória de ônibus para descobrir padrões de tráfego; (3) detecção de anomalias de trânsito, classificação de acordo com sua gravidade, e avaliação do seu impacto; (4) manutenção e comparação de diferentes versões da rede de ônibus e dos seus padrões de tráfego para ajudar os planejadores urbanos a avaliar as mudanças. Uma segunda contribuição é a descrição de experimentos realizados para a rede de ônibus da Cidade do Rio de Janeiro, utilizando trajetórias de ônibus correspondentes ao período de junho de 2014 até fevereiro de 2017, disponibilizadas pela Prefeitura do Rio de Janeiro. Os resultados obtidos corroboram a utilidade da abordagem proposta para analisar e monitorar a rede de ônibus de uma cidade, o que pode ajudar os gestores do trânsito e as autoridades municipais a melhorar os planos de controle de trânsito e de mobilidade urbana. / [en] Buses, equipped with active GPS devices that continuously transmit their position, can be understood as mobile traffic sensors. Indeed, bus trajectories provide a useful data source for analyzing traffic in the bus network of a city, if the city traffic authority makes the bus trajectories available openly, timely and in a continuous way. In this context, this thesis proposes a bus GPS data-driven approach for analyzing and monitoring the bus network of a city. It combines graph algorithms, geospatial data mining techniques and statistical methods. The major contribution of this thesis is a detailed discussion of key operations and algorithms for modeling, analyzing and monitoring bus network traffic, specifically: (1) modelling, analyzing, and segmentation of the bus network; (2) mining the bus trajectory dataset to uncover traffic patterns; (3) detecting traffic anomalies, classifying them according to their severity, and estimating their impact; (4) maintaining and comparing different versions of the bus network and traffic patterns to help urban planners assess changes. Another contribution is the description of experiments conducted for the bus network of the City of Rio de Janeiro, using bus trajectories obtained from June 2014 to February 2017, which have been made available by the City Hall of Rio de Janeiro. The results obtained corroborate the usefulness of the proposed approach for analyzing and monitoring the bus network of a city, which may help traffic managers and city authorities improve traffic control and urban mobility plans.
17

[en] CLASSIFICATION OF OBJECTS IN REAL CONTEXT BY CONVOLUTIONAL NEURAL NETWORKS / [pt] CLASSIFICAÇÃO DE OBJETOS EM CONTEXTO REAL POR REDES NEURAIS CONVOLUTIVAS

LUIS MARCELO VITAL ABREU FONSECA 08 June 2017 (has links)
[pt] A classificação de imagens em contexto real é o ápice tecnológico do reconhecimento de objetos. Esse tipo de classificação é complexo, contendo diversos problemas de visão computacional em abundância. Este projeto propõe solucionar esse tipo de classificação através do uso do conhecimento no aprendizado de máquina aplicado ao dataset do MS COCO. O algoritmo implementado neste projeto consiste de um modelo de Rede Neural Convolutiva que consegue aprender características dos objetos e realizar predições sobre suas classes. São elaborados alguns experimentos que comparam diferentes resultados de predições a partir de diferentes técnicas de aprendizado. É também realizada uma comparação dos resultados da implementação com o estado da arte na segmentação de objetos em contexto. / [en] The classification of objects in real contexts is the technological apex of object recognition. This type of classification is complex, containing diverse computer vision problems in abundance. This project proposes to solve that type of classification through the use of machine learning knowledge applied to the MS COCO dataset. The implemented algorithm in this project consists of a Convolutional Neural Network model that is able to learn characteristics of the objects and predict their classes. Some experiments are made that compare different results of predictions using different techniques of learning. There is also a comparison of the results from the implementation with state of art in contextual objects segmentation.
18

[en] NEURO-FUZZY BSP HIERARCHICAL SYSTEM FOR TIME FORECASTING AND FUZZY RULE EXTRACTION DOR DATA MINING APPLICATONS / [pt] SISTEMA NEURO-FUZZY HIERÁRQUICO BSP PARA PREVISÃO E EXTRAÇÃO DE REGRAS FUZZY EM APLICAÇÕES DE DATA MINING

ALBERTO IRIARTE LANAS 11 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de um sistema Neuro-Fuzzy Hierárquico para previsão de séries e a extração de regras fuzzy em aplicações de Mineração de Dados. O objetivo do trabalho foi estender o modelo Neuro- Fuzzy Hierárquico BSP para a classificação de registros e a previsão de séries temporais. O processo de classificação de registros no contexto de Mineração de Dados consiste na extração de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros de um banco de dados (BD). A previsão de séries temporais, outra tarefa comum em Mineração de Dados tem como objetivo prever o comportamento de uma série temporal no instante t+k (k ? 1).O trabalho consistiu de 5 etapas principais: elaborar um survey dos principais sistemas e modelos mais utilizados nas aplicações de Mineração de Dados; avaliar o desempenho do sistema NFHB original em aplicações de Mineração de Dados; desenvolver uma extensão do modelo NFHB dedicado à classificação de registros em uma BD; desenvolver um novo modelo híbrido Neuro-Fuzzy Genético para o ajuste automático dos parâmetros do sistema dedicado a previsão de séries temporais; e o estudo dos casos. O estudo da área resultou num survey sobre os principais modelos para Mineração de Dados. São apresentados os modelos mais utilizados em tarefas de classificação e extração de regras tais como: redes neurais, árvores de decisão crisp e fuzzy, algoritmos genéticos, estatística e sistemas neuro-fuzzy. Na etapa de avaliação do modelo NFHB original, foi verificado que além do tradicional aprendizado dos parâmetros, comuns às redes neurais e aos sistemas neuro-fuzzy, o modelo possui as seguintes aracterísticas: aprendizado da estrutura, a partir do uso de particionamentos recursivos; número maior de entradas que o habitualmente encontrado nos sistemas neuro-fuzzy; e regras com hierarquia, características adequadas para as aplicações de Mineração de Dados. Entretanto, o processo de extração de regras e a seleção de atributos não são adequados para este tipo de aplicação, assim como a excessiva complexidade da parametrização do modelo para aplicações de previsão de séries temporais. Uma extensão ao modelo NFHB original foi então proposta para aplicações de classificação de registros no contexto da Mineração de Dados onde se têm como objetivo principal a extração de informação em forma de regras interpretáveis. Foi necessário modificar a seleção de atributos e o processo original de extração de regras. O sistema fuzzy do tipo Takagi-Sugeno do modelo NFHB original fornece regras inadequadas do ponto de vista da Mineração de Dados. O novo modelo NFHB, dotado das modificações necessárias, mostrou um ótimo desempenho na extração de regras fuzzy válidas que descrevem a informação contida no banco de dados. As medidas de avaliação normalmente usadas para analisar regras crisp (Se x1 é <14.3 e...), como abrangência e acurácia, foram modificadas para poderem ser aplicadas ao caso de avaliação das regras fuzzy (Se x1 é Baixo e..) extraídas pelo sistema NFHB após da fase de aprendizado. A quantidade e a qualidade das regras extraídas é um ponto fundamental dos sistemas voltados para aplicações de Mineração de Dados, que buscam sempre obter o menor número de regras e da maior qualidade possível. Nesse sentido, o processo de seleção das características de entrada foi alterado para evitar particionamentos excessivos, ou seja regras desnecessárias. Foram implementadas duas estratégias de seleção (Fixa e Adaptativa) em função de diferentes medidas de avaliação como a Entropia e o método de Jang. Um novo modelo híbrido neuro-fuzzy genético para previsão de séries temporais foi criado para resolver o problema da excessiva complexidade de parametrização do sistema, o qual conta com mais de 15 parâmetros.Foi proposto um novo modelo híbrido neuro-fuzzy genético capaz de evoluir e obter um conjunto de parâmetros adequado par / [en] This dissertation investigates the use of a Neuro-Fuzzy Hierarchical system for time series forecasting and fuzzy rule extraction for Data Mining applications. The objective of this work was to extend the Neuro-Fuzzy BSP Hierarchical model for the classification of registers and time series forecasting. The process of classification of registers in the Data Mining context consists of extracting association rules that best characterise, through its accuracy and coverage measures, a certain group of registers of database (DB). The time series forecasting other common task in Data Mining, has a main objective to foresee the behavior of a time series in the instant t+k (k>=1). The work consisted of 5 main stages: to elaborate a survey of the main systems and the most common models in Data Mining applications; to evaluate the performance of the original NFHB system in Data Mining applicatons; to develop an extension of the NFHB model dedicated to the classification of registers in a DB; to develop a new Neuro-Fuzzy Genetic hybrid model for the automatic adjustment of the parameters of the system for time series forecasting applicatons; and the case estudies. The study of the area resulted in a survey of the main Data Mining models. The most common methods used in Data Mining application are presented such as: neural nets, crisp and fuzzy decision trees, genetic algorithms, statistics and neuro-fuzzy systems. In the stage of evaluation of the original NFHB model, it verified that besides the traditional learning of the parameters, common to the neural nets and the neuro-fuzzy systems, the model possesses the following characteristics: learning of the structure; recursive partitioning; larger number of inputs than usually found on the neuro-fuzzy systems; rule with hierarchy; which are characteristics adapted for Data Mining applications. However the rule extraction process and attributes selection are not appropriate for this type of applications, as well as the excessive complexity of the tuning of the model for time series forecasting applicatons. An extension of the original NFHB model was then proposed for applicatons of classification of registers in the Data Mining context, where the main objective in the extraction of information in form of interpratable rules. It was necessary to modify the attributes selection and the original rule extraction process. The Takagi-Sugeno fuzzy system of the original NFHB model supplies inadequate rules, from the Data Mining point of view. The new NFHB models, endowed with necessary modifications, showed good performance in extracting valid fuzzy rules that describe the information contained in the database. The evaluation metrics, usually used to analyse crips rules (If x1 is <14.3 and), as coverage and accuracy, were modified to be applied to the evaluation of the fuzzy rules (If x1 is Low and) extracted from the NFHB system after the learning process. The amount and quality of the extracted rules are important points of the systems dedicated for Data Mining applicatons, where the target is to obtain the smallest number of rules and of the best quality. In that sense, the input selection strategies were implemented (Static and Adaptive), using different evaluation measures as Entropy and the jang algorithm. A new genetic neuro-fuzzy hybrid model for time series forecasting was created to solve the problem of the excessive complexity of the model tuning, which comprises more than 15 parameters. A new model wes proposed, a genetic neuro-fuzzy hybrid, model capable to develop and to obtain an appropriate set of parameters for the forecasting of time series. The new hybrid, model capable to develop and to obtain an appropriate set of parameters for the forecasting of time series. The new hybrid model presented good results with different types of series. A tool based on the NFHB model was developed for classification and forecasting applications. Th
19

[en] A METHOD FOR INTERPRETING CONCEPT DRIFTS IN A STREAMING ENVIRONMENT / [pt] UM MÉTODO PARA INTERPRETAÇÃO DE MUDANÇAS DE REGIME EM UM AMBIENTE DE STREAMING

JOAO GUILHERME MATTOS DE O SANTOS 10 August 2021 (has links)
[pt] Em ambientes dinâmicos, os modelos de dados tendem a ter desempenho insatisfatório uma vez que a distribuição subjacente dos dados muda. Este fenômeno é conhecido como Concept Drift. Em relação a este tema, muito esforço tem sido direcionado ao desenvolvimento de métodos capazes de detectar tais fenômenos com antecedência suficiente para que os modelos possam se adaptar. No entanto, explicar o que levou ao drift e entender suas consequências ao modelo têm sido pouco explorado pela academia. Tais informações podem mudar completamente a forma como adaptamos os modelos. Esta dissertação apresenta uma nova abordagem, chamada Detector de Drift Interpretável, que vai além da identificação de desvios nos dados. Ele aproveita a estrutura das árvores de decisão para prover um entendimento completo de um drift, ou seja, suas principais causas, as regiões afetadas do modelo e sua severidade. / [en] In a dynamic environment, models tend to perform poorly once the underlying distribution shifts. This phenomenon is known as Concept Drift. In the last decade, considerable research effort has been directed towards developing methods capable of detecting such phenomena early enough so that models can adapt. However, not so much consideration is given to explain the drift, and such information can completely change the handling and understanding of the underlying cause. This dissertation presents a novel approach, called Interpretable Drift Detector, that goes beyond identifying drifts in data. It harnesses decision trees’ structure to provide a thorough understanding of a drift, i.e., its principal causes, the affected regions of a tree model, and its severity. Moreover, besides all information it provides, our method also outperforms benchmark drift detection methods in terms of falsepositive rates and true-positive rates across several different datasets available in the literature.
20

[en] INTELLIGENT ASSISTANCE FOR KDD-PROCESS ORIENTATION / [pt] ASSISTÊNCIA INTELIGENTE À ORIENTAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS

RONALDO RIBEIRO GOLDSCHMIDT 15 December 2003 (has links)
[pt] A notória complexidade inerente ao processo de KDD - Descoberta de Conhecimento em Bases de Dados - decorre essencialmente de aspectos relacionados ao controle e à condução deste processo (Fayyad et al., 1996b; Hellerstein et al., 1999). De uma maneira geral, estes aspectos envolvem dificuldades em perceber inúmeros fatos cuja origem e os níveis de detalhe são os mais diversos e difusos, em interpretar adequadamente estes fatos, em conjugar dinamicamente tais interpretações e em decidir que ações devem ser realizadas de forma a procurar obter bons resultados. Como identificar precisamente os objetivos do processo, como escolher dentre os inúmeros algoritmos de mineração e de pré-processamento de dados existentes e, sobretudo, como utilizar adequadamente os algoritmos escolhidos em cada situação são alguns exemplos das complexas e recorrentes questões na condução de processos de KDD. Cabe ao analista humano a árdua tarefa de orientar a execução de processos de KDD. Para tanto, diante de cada cenário, o homem utiliza sua experiência anterior, seus conhecimentos e sua intuição para interpretar e combinar os fatos de forma a decidir qual a estratégia a ser adotada (Fayyad et al., 1996a, b; Wirth et al., 1998). Embora reconhecidamente úteis e desejáveis, são poucas as alternativas computacionais existentes voltadas a auxiliar o homem na condução do processo de KDD (Engels, 1996; Amant e Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). Aliado ao exposto acima, a demanda por aplicações de KDD em diversas áreas vem crescendo de forma muito acentuada nos últimos anos (Buchanan, 2000). É muito comum não existirem profissionais com experiência em KDD disponíveis para atender a esta crescente demanda (Piatetsky-Shapiro, 1999). Neste contexto, a criação de ferramentas inteligentes que auxiliem o homem no controle do processo de KDD se mostra ainda mais oportuna (Brachman e Anand, 1996; Mitchell, 1997). Assim sendo, esta tese teve como objetivos pesquisar, propor, desenvolver e avaliar uma Máquina de Assistência Inteligente à Orientação do Processo de KDD que possa ser utilizada, fundamentalmente, como instrumento didático voltado à formação de profissionais especializados na área da Descoberta de Conhecimento em Bases de Dados. A máquina proposta foi formalizada com base na Teoria do Planejamento para Resolução de Problemas (Russell e Norvig, 1995) da Inteligência Artificial e implementada a partir da integração de funções de assistência utilizadas em diferentes níveis de controle do processo de KDD: Definição de Objetivos, Planejamento de Ações de KDD, Execução dos Planos de Ações de KDD e Aquisição e Formalização do Conhecimento. A Assistência à Definição de Objetivos tem como meta auxiliar o homem na identificação de tarefas de KDD cuja execução seja potencialmente viável em aplicações de KDD. Esta assistência foi inspirada na percepção de um certo tipo de semelhança no nível intensional apresentado entre determinados bancos de dados. Tal percepção auxilia na prospecção do tipo de conhecimento a ser procurado, uma vez que conjuntos de dados com estruturas similares tendem a despertar interesses similares mesmo em aplicações de KDD distintas. Conceitos da Teoria da Equivalência entre Atributos de Bancos de Dados (Larson et al., 1989) viabilizam a utilização de uma estrutura comum na qual qualquer base de dados pode ser representada. Desta forma, bases de dados, ao serem representadas na nova estrutura, podem ser mapeadas em tarefas de KDD, compatíveis com tal estrutura. Conceitos de Espaços Topológicos (Lipschutz, 1979) e recursos de Redes Neurais Artificiais (Haykin, 1999) são utilizados para viabilizar os mapeamentos entre padrões heterogêneos. Uma vez definidos os objetivos em uma aplicação de KDD, decisões sobre como tais objetivos podem ser alcançados se tornam necessárias. O primeiro passo envolve a escolha de qual algoritmo de mineração de dados é o mais apropriado para o problema em questão. A Assistência ao Planejamento de Ações de KDD auxilia o homem nesta escolha. Utiliza, para tanto, uma metodologia de ordenação dos algoritmos de mineração baseada no desempenho prévio destes algoritmos em problemas similares (Soares et al., 2001; Brazdil et al., 2003). Critérios de ordenação de algoritmos baseados em similaridade entre bases de dados nos níveis intensional e extensional foram propostos, descritos e avaliados. A partir da escolha de um ou mais algoritmos de mineração de dados, o passo seguinte requer a escolha de como deverá ser realizado o pré-processamento dos dados. Devido à diversidade de algoritmos de pré-processamento, são muitas as alternativas de combinação entre eles (Bernstein et al., 2002). A Assistência ao Planejamento de Ações de KDD também auxilia o homem na formulação e na escolha do plano ou dos planos de ações de KDD a serem adotados. Utiliza, para tanto, conceitos da Teoria do Planejamento para Resolução de Problemas. Uma vez escolhido um plano de ações de KDD, surge a necessidade de executá-lo. A execução de um plano de ações de KDD compreende a execução, de forma ordenada, dos algoritmos de KDD previstos no plano. A execução de um algoritmo de KDD requer conhecimento sobre ele. A Assistência à Execução dos Planos de Ações de KDD provê orientações específicas sobre algoritmos de KDD. Adicionalmente, esta assistência dispõe de mecanismos que auxiliam, de forma especializada, no processo de execução de algoritmos de KDD e na análise dos resultados obtidos. Alguns destes mecanismos foram descritos e avaliados. A execução da Assistência à Aquisição e Formalização do Conhecimento constitui-se em um requisito operacional ao funcionamento da máquina proposta. Tal assistência tem por objetivo adquirir e disponibilizar os conhecimentos sobre KDD em uma representação e uma organização que viabilizem o processamento das funções de assistência mencionadas anteriormente. Diversos recursos e técnicas de aquisição de conhecimento foram utilizados na concepção desta assistência. / [en] Generally speaking, such aspects involve difficulties in perceiving innumerable facts whose origin and levels of detail are highly diverse and diffused, in adequately interpreting these facts, in dynamically conjugating such interpretations, and in deciding which actions must be performed in order to obtain good results. How are the objectives of the process to be identified in a precise manner? How is one among the countless existing data mining and preprocessing algorithms to be selected? And most importantly, how can the selected algorithms be put to suitable use in each different situation? These are but a few examples of the complex and recurrent questions that are posed when KDD processes are performed. Human analysts must cope with the arduous task of orienting the execution of KDD processes. To this end, in face of each different scenario, humans resort to their previous experiences, their knowledge, and their intuition in order to interpret and combine the facts and therefore be able to decide on the strategy to be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing computational alternatives have proved to be useful and desirable, few of them are designed to help humans to perform KDD processes (Engels, 1996; Amant and Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In association with the above-mentioned fact, the demand for KDD applications in several different areas has increased dramatically in the past few years (Buchanan, 2000). Quite commonly, the number of available practitioners with experience in KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999). Within such a context, the creation of intelligent tools that aim to assist humans in controlling KDD processes proves to be even more opportune (Brachman and Anand, 1996; Mitchell, 1997). Such being the case, the objectives of this thesis were to investigate, propose, develop, and evaluate an Intelligent Machine for KDD-Process Orientation that is basically intended to serve as a teaching tool to be used in professional specialization courses in the area of Knowledge Discovery in Databases. The basis for formalization of the proposed machine was the Planning Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence. Its implementation was based on the integration of assistance functions that are used at different KDD process control levels: Goal Definition, KDD Action-Planning, KDD Action Plan Execution, and Knowledge Acquisition and Formalization. The Goal Definition Assistant aims to assist humans in identifying KDD tasks that are potentially executable in KDD applications. This assistant was inspired by the detection of a certain type of similarity between the intensional levels presented by certain databases. The observation of this fact helps humans to mine the type of knowledge that must be discovered since data sets with similar structures tend to arouse similar interests even in distinct KDD applications. Concepts from the Theory of Attribute Equivalence in Databases (Larson et al., 1989) make it possible to use a common structure in which any database may be represented. In this manner, when databases are represented in the new structure, it is possible to map them into KDD tasks that are compatible with such a structure. Topological space concepts and ANN resources as described in Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999) have been employed so as to allow mapping between heterogeneous patterns. After the goals have been defined in a KDD application, it is necessary to decide how such goals are to be achieved. The first step involves selecting the most appropriate data mining algorithm for the problem at hand. The KDD Action-Planning Assistant helps humans to make this choice. To this end, it makes use of a methodology for ordering the mining algorithms that is based on the previous experiences, their knowledge, and their intuition in order to interpret and combine the facts and therefore be able to decide on the strategy to be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing computational alternatives have proved to be useful and desirable, few of them are designed to help humans to perform KDD processes (Engels, 1996; Amant & Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In association with the above-mentioned fact, the demand for KDD applications in several different areas has increased dramatically in the past few years (Buchanan, 2000). Quite commonly, the number of available practitioners with experience in KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999). Within such a context, the creation of intelligent tools that aim to assist humans in controlling KDD processes proves to be even more opportune (Brachman & Anand, 1996; Mitchell, 1997). Such being the case, the objectives of this thesis were to investigate, propose, develop, and evaluate an Intelligent Machine for KDD-Process Orientation that is basically intended to serve as a teaching tool to be used in professional specialization courses in the area of Knowledge Discovery in Databases. The basis for formalization of the proposed machine was the Planning Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence. Its implementation was based on the integration of assistance functions that are used at different KDD process control levels: Goal Definition, KDD Action- Planning, KDD Action Plan Execution, and Knowledge Acquisition and Formalization. The Goal Definition Assistant aims to assist humans in identifying KDD tasks that are potentially executable in KDD applications. This assistant was inspired by the detection of a certain type of similarity between the intensional levels presented by certain databases. The observation of this fact helps humans to mine the type of knowledge that must be discovered since data sets with similar structures tend to arouse similar interests even in distinct KDD applications. Concepts from the Theory of Attribute Equivalence in Databases (Larson et al., 1989) make it possible to use a common structure in which any database may be represented. In this manner, when databases are represented in the new structure, it is possible to map them into KDD tasks that are compatible with such a structure. Topological space concepts and ANN resources as described in Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999) have been employed so as to allow mapping between heterogeneous patterns. After the goals have been defined in a KDD application, it is necessary to decide how such goals are to be achieved. The first step involves selecting the most appropriate data mining algorithm for the problem at hand. The KDD Action-Planning Assistant helps humans to make this choice. To this end, it makes use of a methodology for ordering the mining algorithms that is based on the previous performance of these algorithms in similar problems (Soares et al., 2001; Brazdil et al., 2003). Algorithm ordering criteria based on database similarity at the intensional and extensional levels were proposed, described and evaluated. The data mining algorithm or algorithms having been selected, the next step involves selecting the way in which data preprocessing is to be performed. Since there is a large variety of preprocessing algorithms, many are the alternatives for combining them (Bernstein et al., 2002). The KDD Action-Planning Assistant also helps humans to formulate and to select the KDD action plan or plans to be adopted. To this end, it makes use of concepts contained in the Planning Theory for Problem-Solving. Once a KDD action plan has been chosen, it is necessary to execute it. Executing a KDD action plan involves the ordered execution of the KDD algorithms that have been anticipated in the plan. Executing a KDD algorithm requires knowledge about it. The KDD Action Plan Execution Assistant provides specific guidance on KDD algorithms. In addition, this assistant is equipped with mechanisms that provide specialized assistance for performing the KDD algorithm execution process and for analyzing the results obtained. Some of these mechanisms have been described and evaluated. The execution of the Knowledge Acquisition and Formalization Assistant is an operational requirement for running the proposed machine. The objective of this assistant is to acquire knowledge about KDD and to make such knowledge available by representing and organizing it a way that makes it possible to process the above-mentioned assistance functions. A variety of knowledge acquisition resources and techniques were employed in the conception of this assistant.

Page generated in 0.0337 seconds