Global ETD Search

11	[en] DEVELOPMENT OF LEARNING OBJECTS DIGITAL LIBRARIES USING DATA WAREHOUSING AND DATA MINING TECHNIQUES / [pt] DESENVOLVIMENTO DE BIBLIOTECAS DIGITAIS DE LEARNING OBJECTS UTILIZANDO TÉCNICAS DE DATA WAREHOUSING E DATA MINING CASSIA BLONDET BARUQUE 01 February 2006 (has links) [pt] Este trabalho objetiva o desenvolvimento de Bibliotecas Digitais de Learning Objects (LO-DLs), usando técnicas de Data Warehousing (DWing) e Data Mining (DMing). Através da abordagem de Data Warehousing pode-se correlacionar os passos principais desta técnica, que são Extração, Transformação, Carga e OLAP, com os principais serviços de Bibliotecas Tradicionais, que são Aquisição, Classificação por Assunto, Catalogação e Consulta/Análise, de forma que eles sejam processados automaticamente. Técnicas de Data Mining são incorporadas a alguns desses processos automatizando o desenvolvimento da biblioteca. Além de integrar múltiplas fontes de LOs, que estão armazenadas em diferentes SGBDs (Sistemas de Gerência de Banco de Dados) e catalogadas através de diferentes padrões de metadados, esta abordagem contribui para prover o usuário de uma maneira mais sofisticada de consulta ao acervo, mais abrangente que as usuais opções por título, autor e assunto, já que OLAP propicia acesso multidiimensional. Além disso, também contribui para melhorar a qualidade da biblioteca, uma vez que as técnicas OLAP e de Data Mining são usadas para analisar os LOs e os acessos aos mesmos. Uma atualização automática da biblioteca acontece quando há mudança no perfil do usuário. / [en] This work aims at the development of Learning Objects Digital Libraries (LO-DLs), using Data Warehousing (DWing) and Data Mining (DMining) techniques. By using the Data Warehousing approach, we will be able to correlate the main steps of this technique, which area Extraction, Transformation, Loading and OLAP, with the main services of a Traditional Library which are Acquisition, Subject Classification, Cataloging, and Searching, so that they will work in an automatic way. Data Mining techniques are incorporated in some of these processes automating the process of the development of the library. Besides integrating multiple LOs sources, which are stored in diverse DBMSs (Data Base Management Systems) and catalogued in different metadata languages, this approach contributes to providing the user with a sophisticated query to the library that is more comprehensive than the usual author, subject or title options, since OLAP allows multidimensional access. Furthermore it also contributes to the improvement of the library, since OLAP and data mining techniques are used to analyze LOs data and the access to them. An automatic refresh of the library is made when users´ profile changes. [pt] BIBLIOTECAS DIGITAIS [en] DIGITAL LIBRARIES [pt] MINERACAO DE DADOS [en] DATA MINING [pt] EDUCACAO VIA WEB [en] E-LEARNING [pt] LEARNING OBJECT [en] LEARNING OBJECT
12	[en] CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS / [pt] CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOS CARLOS HENRIQUE PEREIRA LOPES 19 October 2005 (has links) [pt] Esta dissertação investiga a utilização de Algoritmos Genéticos (AG) no processo de descoberta de conhecimento implícito em Banco de Dados (KDD - Knowledge Discovery Database). O objetivo do trabalho foi avaliar o desempenho de Algoritmos Genéticos no processo de classificação de registros em Bancos de Dados (BD). O processo de classificação no contexto de Algoritmos Genéticos consiste na evolução de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros do BD. O trabalho consistiu de 4 etapas principais: um estudo sobre a área de Knowledge Discovery Database (KDD); a definição de um modelo de AG aplicado à Mineração de Dados (Data Mining); a implementação de uma ferramenta (Rule-Evolver) de Mineração de Dados; e o estudo de casos. O estudo sobre a área de KDD envolveu todo o processo de descoberta de conhecimento útil em banco de dados: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados e a interpretação dos resultados. Em particular, o estudo destacou a fase de Mineração de Dados e os algoritmos e técnicas empregadas (Redes Neurais, Indução de regras, Modelos Estatísticos e Algoritmos Genéticos). Deste estudo resultou um survey sobre os principais projetos de pesquisa na área. A modelagem do Algoritmo Genético consistiu fundamentalmente na definição de uma representação dos cromossomas, da função de avaliação e dos operadores genéticos. Em mineração de dados por regras de associação é necessário considerar-se atributos quantitativos e categóricos. Atributos quantitativos representam variáveis contínuas (faixa de valores) e atributos categóricos variáveis discretas. Na representação definida, cada cromossoma representa uma regra e cada gene corresponde a um atributo do BD, que pode ser quantitativo ou categórico conforme a aplicação. A função de avaliação associa um valor numérico à regra encontrada, refletindo assim uma medida da qualidade desta solução. A Mineração de Dados por AG é um problema de otimização onde a função de avaliação deve apontar para as melhores regras de associação. A acurácia e a abrangência são medidas de desempenho e, em alguns casos, se mantém nulas durante parte da evolução. Assim, a função de avaliação deve ser uma medida que destaca cromossomas contendo regras promissoras em apresentar acurácia e abrangência diferentes de zero. Foram implementadas 10 funções de avaliação. Os operadores genéticos utilizados (crossover e mutação) buscam recombinar as cláusulas das regras, de modo a procurar obter novas regras com maior acurácia e abrangência dentre as já encontradas. Foram implementados e testados 4 operadores de cruzamento e 2 de mutação. A implementação de uma ferramenta de modelagem de AG aplicada à Mineração de Dados, denominada Rule-Evolver, avaliou o modelo proposto para o problema de classificação de registros. O Rule-Evolver analisa um Banco de Dados e extrai as regras de associação que melhor diferenciem um grupo de registros em relação a todos os registros do Banco de Dados. Suas características principais são: seleção de atributos do BD; informações estatísticas dos atributos; escolha de uma função de avaliação entre as 10 implementadas; escolha dos operadores genéticos; visualização gráfica de desempenho do sistema; e interpretação de regras. Um operador genético é escolhido a cada reprodução em função de uma taxa preestabelecida pelo usuário. Esta taxa pode permanecer fixa ou variar durante o processo evolutivo. As funções de avaliação também podem ser alteradas (acrescidas de uma recompensa) em função da abrangência e da acurácia da regra. O Rule- Evolver possui uma interface entre o BD e o AG, necessária para tor / [en] This dissertation investigates the application of Genetic Algorithms (GAs) to the process of implicit knowledge discovery over databases (KDD - Knowledge Discovery Database). The objective of the work has been the assessment of the Genetic Algorithms (GA) performance in the classification process of database registers. In the context of Genetic Algorithms, this classification process consists in the evolution of association rules that characterise, through its accuracy and range, a particular group of database registers. This work has encompassed four main steps: a study over the area of Knowledge Discovery Databases; the GA model definition applied to Data Mining; the implementation of the Data Mining Rule Evolver; and the case studies. The study over the KDD area included the overall process of useful knowledge discovery; the problem definition; data organisation; data pre-processing; data encoding; data improvement; data mining; and results´ interpretation. Particularly, the investigation emphasied the data mining procedure, techniques and algorithms (neural Networks, rule Induction, Statistics Models and Genetic Algorithms). A survey over the mais research projects in this area was developed from this work. The Genetic Algorithm modelling encompassed fundamentally, the definition of the chromosome representation, the fitness evaluation function and the genetic operators. Quantitative and categorical attributes must be taken into account within data mining through association rules. Quantitative attribites represent continuous variables (range of values), whereas categorical attributes are discrete variable. In the representation employed in this work, each chromosome represents a rule and each gene corresponds to a database attribute, which can be quantitative or categorical, depending on the application. The evaluation function associates a numerical value to the discovered rule, reflecting, therefore, the fitness evaluation function should drive the process towards the best association rules. The accuracy and range are performance statistics and, in some cases, their values stay nil during part of the evolutionary process. Therefore, the fitness evaluation function should reward chromosomes containing promising rules, which present accuracy and range different of zero. Ten fitness evaluation functions have been implemented. The genetic operators used in this work, crossover and mutation, seek to recombine rules´clauses in such a way to achieve rules of more accuracy and broader range when comparing the ones already sampled. Four splicing operators and two mutation operators have been experimented. The GA modeling tool implementation applied to Data Mining called Rule Evolever, evaluated the proposed model to the problem of register classification. The Rule Evolver analyses the database and extracts association rules that can better differentiate a group of registers comparing to the overall database registers. Its main features are: database attributes selection; attributes statistical information; evaluation function selection among ten implemented ones; genetic operators selection; graphical visualization of the system performance; and rules interpretation. A particular genetic operator is selected at each reproduction step, according to a previously defined rate set by the user. This rate may be kept fix or may very along the evolutionary process. The evolutionary process. The evaluation functions may also be changed (a rewarding may be included) according to the rule´s range and accuracy. The Rule Evolver implements as interface between the database and the GA, endowing the KDD process and the Data Mining phase with flexibility. In order to optimise the rules´ search process and to achieve better quality rules, some evolutionary techniques have been implemented (linear rank and elitism), and different random initialisation methods have been used as well; global averag [pt] MINERACAO DE DADOS [en] DATA MINING [pt] ALGORITMO GENETICO [en] GENETIC ALGORITHM [pt] BANCO DE DADOS [en] DATABASE [pt] REGRAS DE ASSOCIACAO [en] ASSOCIATION RULES
13	Extração e mineração de informação independente de domínios da web na língua portuguesa / Extraction and mining domain independent information from web in portuguese Pires, Julio Cesar Batista 08 May 2015 (has links) Submitted by Cássia Santos (cassia.bcufg@gmail.com) on 2015-10-21T14:08:06Z No. of bitstreams: 2 Dissertação - Julio Cesar Batista Pires - 2015.pdf: 2026124 bytes, checksum: dda6bea6dfa125f21d2023f288178ebc (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2015-10-22T13:08:50Z (GMT) No. of bitstreams: 2 Dissertação - Julio Cesar Batista Pires - 2015.pdf: 2026124 bytes, checksum: dda6bea6dfa125f21d2023f288178ebc (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2015-10-22T13:08:50Z (GMT). No. of bitstreams: 2 Dissertação - Julio Cesar Batista Pires - 2015.pdf: 2026124 bytes, checksum: dda6bea6dfa125f21d2023f288178ebc (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2015-05-08 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Many people are constantly connected on the Web. They are looking for all kinds of things. The Web is a huge source of information. So, they can find almost everything they want. However, Web information is disorganized and have no formal structure. This hampers machine processing and consequently makes information access more difficult. Bringing structure to the Web can be one of the key points for facilitating user searching and navigation. A recent technique, Open Information Extraction, has been successfully applied to extract structured information from the Web. This technique has been mostly applied in pages written in English. This work is specifically focused on information extraction for Portuguese. Techniques used here can be also used to other languages too. / Muitas pessoas estão constantemente conectadas na Web. Elas estão procurando por todo tipo de coisa. A Web é uma enorme fonte de informação. Assim, as pessoas podem encontrar praticamente tudo que elas precisam. Entretanto, as informações da Web são desorganizadas e não possuem uma estrutura formal. Isso dificulta o processamento das máquinas e consequentemente torna o acesso à informaçã mais difícil. Trazer estrutura para a Web pode ser um dos pontos chave para facilitar a busca e navegaçã dos usuários. Uma técnica recente, Extração de Informação Aberta, foi aplicada com sucesso para extrair informação da Web. Essa técnica foi aplicada principalmente em páginas em Inglês. Este trabalho é focado especificamente na extração de informação em Português. As técnicas usadas aqui também podem ser utilizadas para outras linguagens. Web Semantica Extracao de informacao Mineracao de dados Semantic web Information extraction Data mining
14	[en] HIBRID NEURO-FUZZY-GENETIC SYSTEM FOR AUTOMATIC DATA MINING / [pt] SISTEMA HÍBRIDO NEURO-FUZZY-GENÉTICO PARA MINERAÇÃO AUTOMÁTICA DE DADOS MANOEL ROBERTO AGUIRRE DE ALMEIDA 20 August 2004 (has links) [pt] Esta dissertação apresenta a proposta e o desenvolvimento de um sistema de mineração de dados inteiramente automático. O objetivo principal é criar um sistema que seja capaz de realizar a extração de informações obscuras a partir de bases de dados complexas, sem exigir a presença de um especialista técnico para configurá-lo. O sistema híbrido neuro-fuzzy hierárquico com particionamento binário (NFHB) vem apresentando excelentes resultados em tarefas de classificação de padrões e previsão, além de possuir importantes características não encontradas em outros sistemas similares, entre elas: aprendizado automático de sua estrutura; capacidade de receber um número maior de entradas abrangendo um maior número de aplicações; e geração de regras lingüísticas como produto de seu treinamento. Entretanto, este modelo ainda necessita de uma complexa parametrização inicial antes de seu treinamento, impedindo que o processo seja automático em sua totalidade. O novo modelo proposto busca otimizar a parametrização do sistema NFHB utilizando a técnica de coevolução genética, criando assim um novo sistema de mineração de dados completamente automático. O trabalho foi realizado em quatro partes principais: avaliação de sistemas existentes utilizados na mineração de dados; estudo do sistema NFHB e a determinação de seus principais parâmetros; desenvolvimento do sistema híbrido neuro-fuzzy-genético automático para mineração de dados; e o estudo de casos. No estudo dos sistemas existentes para mineração de dados buscou-se encontrar algum modelo que apresentasse bons resultados e ainda fosse passível de automatização. Várias técnicas foram estudadas, entre elas: Métodos Estatísticos, Árvores de Decisão, Associação de Regras, Algoritmos Genéticos, Redes Neurais Artificiais, Sistemas Fuzzy e Sistemas Neuro-Fuzzy. O sistema NFHB foi escolhido como sistema de inferência e extração de regras para a realização da mineração de dados. Deste modo, este modelo foi estudado e seus parâmetros mais importantes foram determinados. Além disso, técnicas de seleção de variáveis de entradas foram investigadas para servirem como opções para o modelo. Ao final, foi obtido um conjunto de parâmetros que deve ser automaticamente determinado para a completa configuração deste sistema. Um modelo coevolutivo genético hierárquico foi criado para realizar com excelência a tarefa de otimização do sistema NFHB. Desta forma, foi modelada uma arquitetura hierárquica de Algoritmos Genéticos (AG s), onde os mesmos realizam tarefas de otimização complementares. Nesta etapa, também foram determinados os melhores operadores genéticos, a parametrização dos AG s, a melhor representação dos cromossomas e as funções de avaliação. O melhor conjunto de parâmetros encontrado é utilizado na configuração do NFHB, tornando o processo inteiramente automático. No estudo de casos, vários testes foram realizados em bases de dados reais e do tipo benchmark. Para problemas de previsão, foram utilizadas séries de carga de energia elétrica de seis empresas: Cerj, Copel, Eletropaulo, Cemig, Furnas e Light. Na área de classificação de padrões, foram utilizadas bases conhecidas de vários artigos da área como Glass Data, Wine Data, Bupa Liver Disorders e Pima Indian Diabetes. Após a realização dos testes, foi feita uma comparação com os resultados obtidos por vários algoritmos e pelo NFHB original, porém com parâmetros determinados por um especialista. Os testes mostraram que o modelo criado obteve resultados bastante satisfatórios, pois foi possível, com um processo completamente automático, obter taxas de erro semelhantes às obtidas por um especialista, e em alguns casos taxas menores. Desta forma, um usuário do sistema, sem qualquer conhecimento técnico sobre os modelos utilizados, pode utilizá-lo para realizar mineração de banco de dados, extraindo informações e até mesmo conhecimento que podem auxiliá-lo em processos de tomada de decisão, o qual é o objetivo final de um processo de Knowledge Data Discovery. / [en] This dissertation presents the proposal and the development of a totally automatic data mining system. The main objective is to create a system that is capable of extracting obscure information from complex databases, without demanding the presence of a technical specialist to configure it. The Hierarchical Neuro-Fuzzy Binary Space Partitioning model (NFHB) has produced excellent results in pattern classification and time series forecasting tasks. Additionally, it provides important features that are not present in other similar systems, such as: automatic learning of its structure; ability to deal with a larger number of input variables, thus increasing the range of possible applications; and generation of linguistic rules as a result of its training process. However, this model depends on a complex configuration process before the training is performed, hindering to achieve a totally automatic system. The model proposed in this Dissertation tries to optimize the NFHB system parameters by using the genetic coevolution technique, thus creating a new automatic data mining system. This work consisted of four main parts: evaluation of existing systems used in data mining; study of the NFHB system and definition of its main parameters; development of the automatic hybrid neuro-fuzzy-genetic system for data mining; and case studies. In the study of existing data mining systems, the aim was to find a suitable model that could yield good results and still be automated. Several techniques have been studied, among them: Statistical methods, Decision Trees, Rules Association, Genetic Algorithms, Artificial Neural Networks, Fuzzy and Neuro- Fuzzy Systems. The NFHB System was chosen for inference and rule extraction in the data mining process. In this way, this model was carefully studied and its most important parameters were determined. Moreover, input variable selection techniques were investigated, to be used with the proposed model. Finally, a set of parameters was defined, which must be determined automatically for the complete system configuration. A hierarchical coevolutive genetic model was created to execute the system optimization task with efficiency. Therefore, a hierarchical architecture of genetic algorithms (GAs) was created, where the GAs execute complementary optimization tasks. In this stage, the best genetic operators, the GAs configuration, the chromossomes representation, and evaluation functions were also determined. The best set of parameters found was used in the NFHB configuration, making the process entirely automatic. In the case studies, various tests were performed with benchmark databases. For forecasting problems, six electric load series were used: Cerj, Copel, Eletropaulo, Cemig, Furnas and Light. In the pattern classification area, some well known databases were used, namely Glass Data, Wine Data, Bupa Liver Disorders and Pima Indian Diabetes. After the tests were carried out, a comparison was made with known models and with the original NFHB System, configured by a specialist. The tests have demonstrated that the proposed model generates satisfactory results, producing, with an automatic process, similar errors to the ones obtained with a specialist configuration, and, in some cases, even better results can be obtained. Therefore, a user without any technical knowledge of the system, can use it to perform data mining, extracting information and knowledge that can help him/her in decision taking processes, which is the final objective of a Knowledge Data Discovery process. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] SISTEMAS NEURO-FUZZY [en] NEURO-FUZZY SYSTEMS [pt] COEVOLUCAO GENETICA [en] GENETIC COEVOLUTION
15	[en] RELATIONSHIP MARKETING: CROSS-SELLING ON MOBILE TELECOM / [pt] MARKETING DE RELACIONAMENTO: CROSS-SELLING NA TELEFONIA MÓVEL MANOELA BRANDAO DE OLIVEIRA 20 April 2015 (has links) [pt] Com rápido crescimento nos últimos anos, o mercado de telecomunicações está ficando cada vez mais saturado. Como a comunicação tradicional por meio de serviços de voz já é amplamente utilizada, as operadoras têm enfrentado dificuldades em atrair novos usuários. Neste cenário, as operadoras têm direcionado cada vez mais esforços nas ações de cross-selling para rentabilizar sua base de clientes, oferecendo e estimulando o uso de novos serviços. Nesta pesquisa, serão utilizados dados existentes no banco de dados de uma operadora de telefonia móvel do mercado brasileiro para testar um modelo que facilita a identificação dos clientes mais propensos à contratação de novos serviços. Os dados foram tratados por meio de técnicas de mineração de dados e árvore de decisão. Os resultados sugerem que, com base na modelagem proposta, ações de cross-selling podem ser otimizadas com o aumento da taxa de retorno e, conseqüentemente, redução no custo das abordagens e menos desgaste da base de clientes com contatos irrelevantes. / [en] Due to its fast growth in recent years, the wireless market is becoming increasingly saturated. Since traditional communication through voice services is already widely used by most individuals, wireless carriers are facing difficulties in finding and attracting new users for such services. Given this scenario, enterprises are turning their attention to cross-selling campaigns to monetize their client base, offering and stimulating the use of new services. In this research, an existent data set from a Brazilian mobile telecom carrier was used to test a model that could facilitate the identification of current customers more likely to be interested in acquiring new services. The data were analyzed and modeled via data mining and decision tree. The results suggest that, if the proposed model is used, cross-selling campaigns could be optimized, achieving an increased rate of return, reduction in the cost of contacts and less wear of the client base with irrelevant offers. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] ARVORE DE DECISAO [en] DECISION TREE [pt] TELEFONIA MOVEL [en] MOBILE PHONE [pt] MARKETING DE RELACIONAMENTO [en] MARKETING OF RELATIONSHIP [pt] CROSS-SELLING
16	[en] HYBRID GENETIC ALGORITHM FOR THE MINIMUM SUM-OF-SQUARES CLUSTERING PROBLEM / [pt] ALGORITMO GENÉTICO HÍBRIDO PARA O PROBLEMA DE CLUSTERIZAÇÃO MINIMUM SUM-OF-SQUARES DANIEL LEMES GRIBEL 27 July 2017 (has links) [pt] Clusterização desempenha um papel importante em data mining, sendo útil em muitas áreas que lidam com a análise exploratória de dados, tais como recuperação de informações, extração de documentos e segmentação de imagens. Embora sejam essenciais em aplicações de data mining, a maioria dos algoritmos de clusterização são métodos ad-hoc. Eles carecem de garantias na qualidade da solução, que em muitos casos está relacionada a uma convergência prematura para um mínimo local no espaço de busca. Neste trabalho, abordamos o problema de clusterização a partir da perspectiva de otimização, onde propomos um algoritmo genético híbrido para resolver o problema Minimum Sum-of-Squares Clustering (MSSC, em inglês). A meta-heurística proposta é capaz de escapar de mínimos locais e gerar soluções quase ótimas para o problema MSSC. Os resultados mostram que o método proposto superou os resultados atuais da literatura – em termos de qualidade da solução – para quase todos os conjuntos de instâncias considerados para o problema MSSC. / [en] Clustering plays an important role in data mining, being useful in many fields that deal with exploratory data analysis, such as information retrieval, document extraction, and image segmentation. Although they are essential in data mining applications, most clustering algorithms are adhoc methods. They have a lack of guarantee on the solution quality, which in many cases is related to a premature convergence to a local minimum of the search space. In this research, we address the problem of data clustering from an optimization perspective, where we propose a hybrid genetic algorithm to solve the Minimum Sum-of-Squares Clustering (MSSC) problem. This meta-heuristic is capable of escaping from local minima and generating near-optimal solutions to the MSSC problem. Results show that the proposed method outperformed the best current literature results - in terms of solution quality - for almost all considered sets of benchmark instances for the MSSC objective. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] META-HEURISTICAS [en] META-HEURISTICS [pt] CLUSTERIZACAO [en] CLUSTERING [pt] APRENDIZADO NAO-SUPERVISIONADO [en] UNSUPERVISED LEARNING [pt] MINIMA SOMA DOS QUADRADOS [en] MINIMUM SUMOF- SQUARES
17	[en] BUS NETWORK ANALYSIS AND MONITORING / [pt] ANÁLISE E MONITORAMENTO DE REDES DE ÔNIBUS KATHRIN RODRIGUEZ LLANES 17 August 2017 (has links) [pt] Ônibus, equipados com dispositivos GPS ativos que transmitem continuamente a sua posição, podem ser entendidos como sensores móveis de trânsito. De fato, as trajetórias dos ônibus fornecem uma fonte de dados útil para analisar o trânsito na rede de ônibus de uma cidade, dado que as autoridades de trânsito da cidade disponibilizem as trajetórias de forma aberta, oportuna e contínua. Neste contexto, esta tese propõe uma abordagem que usa os dados de GPS dos ônibus para analisar e monitorar a rede de ônibus de uma cidade. Ela combina algoritmos de grafos, técnicas de mineração de dados geoespaciais e métodos estatísticos. A principal contribuição desta tese é uma definição detalhada de operações e algoritmos para analisar e monitorar o tráfego na rede de ônibus, especificamente: (1) modelagem, análise e segmentaçãoda rede de ônibus; (2) mineração do conjunto de dados de trajetória de ônibus para descobrir padrões de tráfego; (3) detecção de anomalias de trânsito, classificação de acordo com sua gravidade, e avaliação do seu impacto; (4) manutenção e comparação de diferentes versões da rede de ônibus e dos seus padrões de tráfego para ajudar os planejadores urbanos a avaliar as mudanças. Uma segunda contribuição é a descrição de experimentos realizados para a rede de ônibus da Cidade do Rio de Janeiro, utilizando trajetórias de ônibus correspondentes ao período de junho de 2014 até fevereiro de 2017, disponibilizadas pela Prefeitura do Rio de Janeiro. Os resultados obtidos corroboram a utilidade da abordagem proposta para analisar e monitorar a rede de ônibus de uma cidade, o que pode ajudar os gestores do trânsito e as autoridades municipais a melhorar os planos de controle de trânsito e de mobilidade urbana. / [en] Buses, equipped with active GPS devices that continuously transmit their position, can be understood as mobile traffic sensors. Indeed, bus trajectories provide a useful data source for analyzing traffic in the bus network of a city, if the city traffic authority makes the bus trajectories available openly, timely and in a continuous way. In this context, this thesis proposes a bus GPS data-driven approach for analyzing and monitoring the bus network of a city. It combines graph algorithms, geospatial data mining techniques and statistical methods. The major contribution of this thesis is a detailed discussion of key operations and algorithms for modeling, analyzing and monitoring bus network traffic, specifically: (1) modelling, analyzing, and segmentation of the bus network; (2) mining the bus trajectory dataset to uncover traffic patterns; (3) detecting traffic anomalies, classifying them according to their severity, and estimating their impact; (4) maintaining and comparing different versions of the bus network and traffic patterns to help urban planners assess changes. Another contribution is the description of experiments conducted for the bus network of the City of Rio de Janeiro, using bus trajectories obtained from June 2014 to February 2017, which have been made available by the City Hall of Rio de Janeiro. The results obtained corroborate the usefulness of the proposed approach for analyzing and monitoring the bus network of a city, which may help traffic managers and city authorities improve traffic control and urban mobility plans. [pt] DETECCAO DE ANOMALIAS NO TRANSITO [en] DETECTION OF TRAFFIC ANOMALIES [pt] ESTIMATIVA DO TEMPO DE VIAGEM [en] TRAVEL TIME ESTIMATION [pt] MINERACAO DE DADOS DE TRAJETORIAS [en] TRAJECTORY DATA MINING [pt] REDES DE ONIBUS [en] BUS NETWORKS
18	[en] CLASSIFICATION OF OBJECTS IN REAL CONTEXT BY CONVOLUTIONAL NEURAL NETWORKS / [pt] CLASSIFICAÇÃO DE OBJETOS EM CONTEXTO REAL POR REDES NEURAIS CONVOLUTIVAS LUIS MARCELO VITAL ABREU FONSECA 08 June 2017 (has links) [pt] A classificação de imagens em contexto real é o ápice tecnológico do reconhecimento de objetos. Esse tipo de classificação é complexo, contendo diversos problemas de visão computacional em abundância. Este projeto propõe solucionar esse tipo de classificação através do uso do conhecimento no aprendizado de máquina aplicado ao dataset do MS COCO. O algoritmo implementado neste projeto consiste de um modelo de Rede Neural Convolutiva que consegue aprender características dos objetos e realizar predições sobre suas classes. São elaborados alguns experimentos que comparam diferentes resultados de predições a partir de diferentes técnicas de aprendizado. É também realizada uma comparação dos resultados da implementação com o estado da arte na segmentação de objetos em contexto. / [en] The classification of objects in real contexts is the technological apex of object recognition. This type of classification is complex, containing diverse computer vision problems in abundance. This project proposes to solve that type of classification through the use of machine learning knowledge applied to the MS COCO dataset. The implemented algorithm in this project consists of a Convolutional Neural Network model that is able to learn characteristics of the objects and predict their classes. Some experiments are made that compare different results of predictions using different techniques of learning. There is also a comparison of the results from the implementation with state of art in contextual objects segmentation. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] MINERACAO DE DADOS [en] DATA MINING [pt] PROCESSAMENTO DE IMAGENS [en] IMAGE PROCESSING [pt] REDES NEURAIS CONVOLUTIVAS [pt] CLASSIFICACAO DE OBJETOS
19	[en] NEURO-FUZZY BSP HIERARCHICAL SYSTEM FOR TIME FORECASTING AND FUZZY RULE EXTRACTION DOR DATA MINING APPLICATONS / [pt] SISTEMA NEURO-FUZZY HIERÁRQUICO BSP PARA PREVISÃO E EXTRAÇÃO DE REGRAS FUZZY EM APLICAÇÕES DE DATA MINING ALBERTO IRIARTE LANAS 11 October 2005 (has links) [pt] Esta dissertação investiga a utilização de um sistema Neuro-Fuzzy Hierárquico para previsão de séries e a extração de regras fuzzy em aplicações de Mineração de Dados. O objetivo do trabalho foi estender o modelo Neuro- Fuzzy Hierárquico BSP para a classificação de registros e a previsão de séries temporais. O processo de classificação de registros no contexto de Mineração de Dados consiste na extração de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros de um banco de dados (BD). A previsão de séries temporais, outra tarefa comum em Mineração de Dados tem como objetivo prever o comportamento de uma série temporal no instante t+k (k ? 1).O trabalho consistiu de 5 etapas principais: elaborar um survey dos principais sistemas e modelos mais utilizados nas aplicações de Mineração de Dados; avaliar o desempenho do sistema NFHB original em aplicações de Mineração de Dados; desenvolver uma extensão do modelo NFHB dedicado à classificação de registros em uma BD; desenvolver um novo modelo híbrido Neuro-Fuzzy Genético para o ajuste automático dos parâmetros do sistema dedicado a previsão de séries temporais; e o estudo dos casos. O estudo da área resultou num survey sobre os principais modelos para Mineração de Dados. São apresentados os modelos mais utilizados em tarefas de classificação e extração de regras tais como: redes neurais, árvores de decisão crisp e fuzzy, algoritmos genéticos, estatística e sistemas neuro-fuzzy. Na etapa de avaliação do modelo NFHB original, foi verificado que além do tradicional aprendizado dos parâmetros, comuns às redes neurais e aos sistemas neuro-fuzzy, o modelo possui as seguintes aracterísticas: aprendizado da estrutura, a partir do uso de particionamentos recursivos; número maior de entradas que o habitualmente encontrado nos sistemas neuro-fuzzy; e regras com hierarquia, características adequadas para as aplicações de Mineração de Dados. Entretanto, o processo de extração de regras e a seleção de atributos não são adequados para este tipo de aplicação, assim como a excessiva complexidade da parametrização do modelo para aplicações de previsão de séries temporais. Uma extensão ao modelo NFHB original foi então proposta para aplicações de classificação de registros no contexto da Mineração de Dados onde se têm como objetivo principal a extração de informação em forma de regras interpretáveis. Foi necessário modificar a seleção de atributos e o processo original de extração de regras. O sistema fuzzy do tipo Takagi-Sugeno do modelo NFHB original fornece regras inadequadas do ponto de vista da Mineração de Dados. O novo modelo NFHB, dotado das modificações necessárias, mostrou um ótimo desempenho na extração de regras fuzzy válidas que descrevem a informação contida no banco de dados. As medidas de avaliação normalmente usadas para analisar regras crisp (Se x1 é <14.3 e...), como abrangência e acurácia, foram modificadas para poderem ser aplicadas ao caso de avaliação das regras fuzzy (Se x1 é Baixo e..) extraídas pelo sistema NFHB após da fase de aprendizado. A quantidade e a qualidade das regras extraídas é um ponto fundamental dos sistemas voltados para aplicações de Mineração de Dados, que buscam sempre obter o menor número de regras e da maior qualidade possível. Nesse sentido, o processo de seleção das características de entrada foi alterado para evitar particionamentos excessivos, ou seja regras desnecessárias. Foram implementadas duas estratégias de seleção (Fixa e Adaptativa) em função de diferentes medidas de avaliação como a Entropia e o método de Jang. Um novo modelo híbrido neuro-fuzzy genético para previsão de séries temporais foi criado para resolver o problema da excessiva complexidade de parametrização do sistema, o qual conta com mais de 15 parâmetros.Foi proposto um novo modelo híbrido neuro-fuzzy genético capaz de evoluir e obter um conjunto de parâmetros adequado par / [en] This dissertation investigates the use of a Neuro-Fuzzy Hierarchical system for time series forecasting and fuzzy rule extraction for Data Mining applications. The objective of this work was to extend the Neuro-Fuzzy BSP Hierarchical model for the classification of registers and time series forecasting. The process of classification of registers in the Data Mining context consists of extracting association rules that best characterise, through its accuracy and coverage measures, a certain group of registers of database (DB). The time series forecasting other common task in Data Mining, has a main objective to foresee the behavior of a time series in the instant t+k (k>=1). The work consisted of 5 main stages: to elaborate a survey of the main systems and the most common models in Data Mining applications; to evaluate the performance of the original NFHB system in Data Mining applicatons; to develop an extension of the NFHB model dedicated to the classification of registers in a DB; to develop a new Neuro-Fuzzy Genetic hybrid model for the automatic adjustment of the parameters of the system for time series forecasting applicatons; and the case estudies. The study of the area resulted in a survey of the main Data Mining models. The most common methods used in Data Mining application are presented such as: neural nets, crisp and fuzzy decision trees, genetic algorithms, statistics and neuro-fuzzy systems. In the stage of evaluation of the original NFHB model, it verified that besides the traditional learning of the parameters, common to the neural nets and the neuro-fuzzy systems, the model possesses the following characteristics: learning of the structure; recursive partitioning; larger number of inputs than usually found on the neuro-fuzzy systems; rule with hierarchy; which are characteristics adapted for Data Mining applications. However the rule extraction process and attributes selection are not appropriate for this type of applications, as well as the excessive complexity of the tuning of the model for time series forecasting applicatons. An extension of the original NFHB model was then proposed for applicatons of classification of registers in the Data Mining context, where the main objective in the extraction of information in form of interpratable rules. It was necessary to modify the attributes selection and the original rule extraction process. The Takagi-Sugeno fuzzy system of the original NFHB model supplies inadequate rules, from the Data Mining point of view. The new NFHB models, endowed with necessary modifications, showed good performance in extracting valid fuzzy rules that describe the information contained in the database. The evaluation metrics, usually used to analyse crips rules (If x1 is <14.3 and), as coverage and accuracy, were modified to be applied to the evaluation of the fuzzy rules (If x1 is Low and) extracted from the NFHB system after the learning process. The amount and quality of the extracted rules are important points of the systems dedicated for Data Mining applicatons, where the target is to obtain the smallest number of rules and of the best quality. In that sense, the input selection strategies were implemented (Static and Adaptive), using different evaluation measures as Entropy and the jang algorithm. A new genetic neuro-fuzzy hybrid model for time series forecasting was created to solve the problem of the excessive complexity of the model tuning, which comprises more than 15 parameters. A new model wes proposed, a genetic neuro-fuzzy hybrid, model capable to develop and to obtain an appropriate set of parameters for the forecasting of time series. The new hybrid, model capable to develop and to obtain an appropriate set of parameters for the forecasting of time series. The new hybrid model presented good results with different types of series. A tool based on the NFHB model was developed for classification and forecasting applications. Th [pt] CLASSIFICACAO [pt] EXTRACAO DE REGRAS [pt] SISTEMAS NEURO-FUZZY [pt] PREVISAO [pt] MINERACAO DE DADOS [en] CLASSIFICATION [en] EXTRACTION OF RULES [en] NEURO-FUZZY SYSTEMS [en] FORECASTING [en] DATA MINING
20	[en] A METHOD FOR INTERPRETING CONCEPT DRIFTS IN A STREAMING ENVIRONMENT / [pt] UM MÉTODO PARA INTERPRETAÇÃO DE MUDANÇAS DE REGIME EM UM AMBIENTE DE STREAMING JOAO GUILHERME MATTOS DE O SANTOS 10 August 2021 (has links) [pt] Em ambientes dinâmicos, os modelos de dados tendem a ter desempenho insatisfatório uma vez que a distribuição subjacente dos dados muda. Este fenômeno é conhecido como Concept Drift. Em relação a este tema, muito esforço tem sido direcionado ao desenvolvimento de métodos capazes de detectar tais fenômenos com antecedência suficiente para que os modelos possam se adaptar. No entanto, explicar o que levou ao drift e entender suas consequências ao modelo têm sido pouco explorado pela academia. Tais informações podem mudar completamente a forma como adaptamos os modelos. Esta dissertação apresenta uma nova abordagem, chamada Detector de Drift Interpretável, que vai além da identificação de desvios nos dados. Ele aproveita a estrutura das árvores de decisão para prover um entendimento completo de um drift, ou seja, suas principais causas, as regiões afetadas do modelo e sua severidade. / [en] In a dynamic environment, models tend to perform poorly once the underlying distribution shifts. This phenomenon is known as Concept Drift. In the last decade, considerable research effort has been directed towards developing methods capable of detecting such phenomena early enough so that models can adapt. However, not so much consideration is given to explain the drift, and such information can completely change the handling and understanding of the underlying cause. This dissertation presents a novel approach, called Interpretable Drift Detector, that goes beyond identifying drifts in data. It harnesses decision trees’ structure to provide a thorough understanding of a drift, i.e., its principal causes, the affected regions of a tree model, and its severity. Moreover, besides all information it provides, our method also outperforms benchmark drift detection methods in terms of falsepositive rates and true-positive rates across several different datasets available in the literature. [pt] ARVORE DE DECISAO [pt] ENTENDIMENTO DE DRIFT [pt] INTERPRETACAO DE DRIFT [pt] DETECCAO DE DRIFT [pt] MINERACAO DE DADOS DE TRAJETORIAS [en] DECISION TREE [en] DRIFT UNDERSTANDING [en] DRIFT INTERPRETATION [en] DRIFT DETECTION [en] TRAJECTORY DATA MINING

Search results