11 |
[en] DEVELOPMENT OF LEARNING OBJECTS DIGITAL LIBRARIES USING DATA WAREHOUSING AND DATA MINING TECHNIQUES / [pt] DESENVOLVIMENTO DE BIBLIOTECAS DIGITAIS DE LEARNING OBJECTS UTILIZANDO TÉCNICAS DE DATA WAREHOUSING E DATA MININGCASSIA BLONDET BARUQUE 01 February 2006 (has links)
[pt] Este trabalho objetiva o desenvolvimento de Bibliotecas
Digitais de
Learning Objects (LO-DLs), usando técnicas de Data
Warehousing (DWing) e
Data Mining (DMing).
Através da abordagem de Data Warehousing pode-se
correlacionar os
passos principais desta técnica, que são Extração,
Transformação, Carga e
OLAP, com os principais serviços de Bibliotecas
Tradicionais, que são Aquisição,
Classificação por Assunto, Catalogação e Consulta/Análise,
de forma que eles
sejam processados automaticamente. Técnicas de Data Mining
são
incorporadas a alguns desses processos automatizando o
desenvolvimento da
biblioteca.
Além de integrar múltiplas fontes de LOs, que estão
armazenadas em
diferentes SGBDs (Sistemas de Gerência de Banco de Dados)
e catalogadas
através de diferentes padrões de metadados, esta abordagem
contribui para
prover o usuário de uma maneira mais sofisticada de
consulta ao acervo, mais
abrangente que as usuais opções por título, autor e
assunto, já que OLAP
propicia acesso multidiimensional. Além disso, também
contribui para melhorar
a qualidade da biblioteca, uma vez que as técnicas OLAP e
de Data Mining são
usadas para analisar os LOs e os acessos aos mesmos.
Uma atualização automática da biblioteca acontece quando
há mudança
no perfil do usuário. / [en] This work aims at the development of Learning Objects
Digital Libraries
(LO-DLs), using Data Warehousing (DWing) and Data Mining
(DMining)
techniques.
By using the Data Warehousing approach, we will be able to
correlate the
main steps of this technique, which area Extraction,
Transformation, Loading and
OLAP, with the main services of a Traditional Library
which are Acquisition,
Subject Classification, Cataloging, and Searching, so that
they will work in an
automatic way. Data Mining techniques are incorporated in
some of these
processes automating the process of the development of the
library.
Besides integrating multiple LOs sources, which are stored
in diverse
DBMSs (Data Base Management Systems) and catalogued in
different metadata
languages, this approach contributes to providing the user
with a sophisticated
query to the library that is more comprehensive than the
usual author, subject
or title options, since OLAP allows multidimensional
access. Furthermore it
also contributes to the improvement of the library, since
OLAP and data mining
techniques are used to analyze LOs data and the access to
them.
An automatic refresh of the library is made when users´
profile changes.
|
12 |
[en] CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS / [pt] CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOSCARLOS HENRIQUE PEREIRA LOPES 19 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de Algoritmos
Genéticos (AG) no processo de descoberta de conhecimento
implícito em Banco de Dados (KDD - Knowledge Discovery
Database). O objetivo do trabalho foi avaliar o desempenho
de Algoritmos Genéticos no processo de classificação de
registros em Bancos de Dados (BD). O processo de
classificação no contexto de Algoritmos Genéticos consiste
na evolução de regras de associação que melhor
caracterizem, através de sua acurácia e abrangência, um
determinado grupo de registros do BD. O trabalho consistiu
de 4 etapas principais: um estudo sobre a área de
Knowledge Discovery Database (KDD); a definição de um
modelo de AG aplicado à Mineração de Dados (Data Mining);
a implementação de uma ferramenta (Rule-Evolver) de
Mineração de Dados; e o estudo de casos.
O estudo sobre a área de KDD envolveu todo o processo de
descoberta de conhecimento útil em banco de dados:
definição do problema; seleção dos dados; limpeza dos
dados; pré-processamento dos dados; codificação dos dados;
enriquecimento dos dados; mineração dos dados e a
interpretação dos resultados. Em particular, o estudo
destacou a fase de Mineração de Dados e os algoritmos e
técnicas empregadas (Redes Neurais, Indução de regras,
Modelos Estatísticos e Algoritmos Genéticos). Deste estudo
resultou um survey sobre os principais projetos de
pesquisa na área.
A modelagem do Algoritmo Genético consistiu
fundamentalmente na definição de uma representação dos
cromossomas, da função de avaliação e dos operadores
genéticos. Em mineração de dados por regras de associação
é necessário considerar-se atributos quantitativos e
categóricos. Atributos quantitativos representam variáveis
contínuas (faixa de valores) e atributos categóricos
variáveis discretas. Na representação definida, cada
cromossoma representa uma regra e cada gene corresponde a
um atributo do BD, que pode ser quantitativo ou categórico
conforme a aplicação. A função de avaliação associa um
valor numérico à regra encontrada, refletindo assim uma
medida da qualidade desta solução. A Mineração de Dados
por AG é um problema de otimização onde a função de
avaliação deve apontar para as melhores regras de
associação. A acurácia e a abrangência são medidas de
desempenho e, em alguns casos, se mantém nulas durante
parte da evolução. Assim, a função de avaliação deve ser
uma medida que destaca cromossomas contendo regras
promissoras em apresentar acurácia e abrangência
diferentes de zero. Foram implementadas 10 funções de
avaliação. Os operadores genéticos utilizados (crossover e
mutação) buscam recombinar as cláusulas das regras, de
modo a procurar obter novas regras com maior acurácia e
abrangência dentre as já encontradas. Foram implementados
e testados 4 operadores de cruzamento e 2 de mutação.
A implementação de uma ferramenta de modelagem de AG
aplicada à Mineração de Dados, denominada Rule-Evolver,
avaliou o modelo proposto para o problema de classificação
de registros. O Rule-Evolver analisa um Banco de Dados e
extrai as regras de associação que melhor diferenciem um
grupo de registros em relação a todos os registros do
Banco de Dados. Suas características principais são:
seleção de atributos do BD; informações estatísticas dos
atributos; escolha de uma função de avaliação entre as 10
implementadas; escolha dos operadores genéticos;
visualização gráfica de desempenho do sistema; e
interpretação de regras. Um operador genético é escolhido
a cada reprodução em função de uma taxa preestabelecida
pelo usuário. Esta taxa pode permanecer fixa ou variar
durante o processo evolutivo. As funções de avaliação
também podem ser alteradas (acrescidas de uma recompensa)
em função da abrangência e da acurácia da regra. O Rule-
Evolver possui uma interface entre o BD e o AG, necessária
para tor / [en] This dissertation investigates the application of Genetic
Algorithms (GAs) to the process of implicit knowledge
discovery over databases (KDD - Knowledge Discovery
Database). The objective of the work has been the
assessment of the Genetic Algorithms (GA) performance in
the classification process of database registers. In the
context of Genetic Algorithms, this classification process
consists in the evolution of association rules that
characterise, through its accuracy and range, a particular
group of database registers. This work has encompassed
four main steps: a study over the area of Knowledge
Discovery Databases; the GA model definition applied to
Data Mining; the implementation of the Data Mining Rule
Evolver; and the case studies.
The study over the KDD area included the overall process
of useful knowledge discovery; the problem definition;
data organisation; data pre-processing; data encoding;
data improvement; data mining; and results´
interpretation. Particularly, the investigation emphasied
the data mining procedure, techniques and algorithms
(neural Networks, rule Induction, Statistics Models and
Genetic Algorithms). A survey over the mais research
projects in this area was developed from this work.
The Genetic Algorithm modelling encompassed fundamentally,
the definition of the chromosome representation, the
fitness evaluation function and the genetic operators.
Quantitative and categorical attributes must be taken into
account within data mining through association rules.
Quantitative attribites represent continuous variables
(range of values), whereas categorical attributes are
discrete variable. In the representation employed in this
work, each chromosome represents a rule and each gene
corresponds to a database attribute, which can be
quantitative or categorical, depending on the application.
The evaluation function associates a numerical value to
the discovered rule, reflecting, therefore, the fitness
evaluation function should drive the process towards the
best association rules. The accuracy and range are
performance statistics and, in some cases, their values
stay nil during part of the evolutionary process.
Therefore, the fitness evaluation function should reward
chromosomes containing promising rules, which present
accuracy and range different of zero. Ten fitness
evaluation functions have been implemented. The genetic
operators used in this work, crossover and mutation, seek
to recombine rules´clauses in such a way to achieve rules
of more accuracy and broader range when comparing the ones
already sampled. Four splicing operators and two mutation
operators have been experimented.
The GA modeling tool implementation applied to Data Mining
called Rule Evolever, evaluated the proposed model to the
problem of register classification. The Rule Evolver
analyses the database and extracts association rules that
can better differentiate a group of registers comparing to
the overall database registers. Its main features are:
database attributes selection; attributes statistical
information; evaluation function selection among ten
implemented ones; genetic operators selection; graphical
visualization of the system performance; and rules
interpretation. A particular genetic operator is selected
at each reproduction step, according to a previously
defined rate set by the user. This rate may be kept fix or
may very along the evolutionary process. The evolutionary
process. The evaluation functions may also be changed (a
rewarding may be included) according to the rule´s range
and accuracy. The Rule Evolver implements as interface
between the database and the GA, endowing the KDD process
and the Data Mining phase with flexibility. In order to
optimise the rules´ search process and to achieve better
quality rules, some evolutionary techniques have been
implemented (linear rank and elitism), and different
random initialisation methods have been used as well;
global averag
|
13 |
[en] HIBRID NEURO-FUZZY-GENETIC SYSTEM FOR AUTOMATIC DATA MINING / [pt] SISTEMA HÍBRIDO NEURO-FUZZY-GENÉTICO PARA MINERAÇÃO AUTOMÁTICA DE DADOSMANOEL ROBERTO AGUIRRE DE ALMEIDA 20 August 2004 (has links)
[pt] Esta dissertação apresenta a proposta e o desenvolvimento
de um sistema
de mineração de dados inteiramente automático. O objetivo
principal é criar um
sistema que seja capaz de realizar a extração de
informações obscuras a partir
de bases de dados complexas, sem exigir a presença de um
especialista técnico
para configurá-lo. O sistema híbrido neuro-fuzzy
hierárquico com
particionamento binário (NFHB) vem apresentando excelentes
resultados em
tarefas de classificação de padrões e previsão, além de
possuir importantes
características não encontradas em outros sistemas
similares, entre elas:
aprendizado automático de sua estrutura; capacidade de
receber um número
maior de entradas abrangendo um maior número de aplicações;
e geração de
regras lingüísticas como produto de seu treinamento.
Entretanto, este modelo
ainda necessita de uma complexa parametrização inicial
antes de seu
treinamento, impedindo que o processo seja automático em
sua totalidade. O
novo modelo proposto busca otimizar a parametrização do
sistema NFHB
utilizando a técnica de coevolução genética, criando assim
um novo sistema de
mineração de dados completamente automático. O trabalho foi
realizado em
quatro partes principais: avaliação de sistemas existentes
utilizados na
mineração de dados; estudo do sistema NFHB e a determinação
de seus
principais parâmetros; desenvolvimento do sistema híbrido
neuro-fuzzy-genético
automático para mineração de dados; e o estudo de casos.
No estudo dos sistemas existentes para mineração de dados
buscou-se
encontrar algum modelo que apresentasse bons resultados e
ainda fosse
passível de automatização. Várias técnicas foram estudadas,
entre elas:
Métodos Estatísticos, Árvores de Decisão, Associação de
Regras, Algoritmos
Genéticos, Redes Neurais Artificiais, Sistemas Fuzzy e
Sistemas Neuro-Fuzzy.
O sistema NFHB foi escolhido como sistema de inferência e
extração de regras
para a realização da mineração de dados. Deste modo, este
modelo foi estudado
e seus parâmetros mais importantes foram determinados. Além
disso, técnicas
de seleção de variáveis de entradas foram investigadas para
servirem como
opções para o modelo. Ao final, foi obtido um conjunto de
parâmetros que deve
ser automaticamente determinado para a completa
configuração deste sistema. Um modelo coevolutivo genético
hierárquico foi criado para realizar com
excelência a tarefa de otimização do sistema NFHB. Desta
forma, foi modelada
uma arquitetura hierárquica de Algoritmos Genéticos (AG s),
onde os mesmos
realizam tarefas de otimização complementares. Nesta etapa,
também foram
determinados os melhores operadores genéticos, a
parametrização dos AG s, a
melhor representação dos cromossomas e as funções de
avaliação. O melhor
conjunto de parâmetros encontrado é utilizado na
configuração do NFHB,
tornando o processo inteiramente automático.
No estudo de casos, vários testes foram realizados em bases
de dados
reais e do tipo benchmark. Para problemas de previsão,
foram utilizadas séries
de carga de energia elétrica de seis empresas: Cerj, Copel,
Eletropaulo, Cemig,
Furnas e Light. Na área de classificação de padrões, foram
utilizadas bases
conhecidas de vários artigos da área como Glass Data, Wine
Data, Bupa Liver
Disorders e Pima Indian Diabetes. Após a realização dos
testes, foi feita uma
comparação com os resultados obtidos por vários algoritmos
e pelo NFHB
original, porém com parâmetros determinados por um
especialista.
Os testes mostraram que o modelo criado obteve resultados
bastante
satisfatórios, pois foi possível, com um processo
completamente automático,
obter taxas de erro semelhantes às obtidas por um
especialista, e em alguns
casos taxas menores. Desta forma, um usuário do sistema,
sem qualquer
conhecimento técnico sobre os modelos utilizados, pode
utilizá-lo para realizar mineração de banco de dados, extraindo informações e até mesmo conhecimento que podem auxiliá-lo em processos de tomada de decisão, o qual é o objetivo final de um processo de Knowledge Data Discovery. / [en] This dissertation presents the proposal and the development
of a totally
automatic data mining system. The main objective is to
create a system that is
capable of extracting obscure information from complex
databases, without
demanding the presence of a technical specialist to
configure it. The Hierarchical
Neuro-Fuzzy Binary Space Partitioning model (NFHB) has
produced excellent
results in pattern classification and time series
forecasting tasks. Additionally, it
provides important features that are not present in other
similar systems, such
as: automatic learning of its structure; ability to deal
with a larger number of input
variables, thus increasing the range of possible
applications; and generation of
linguistic rules as a result of its training process.
However, this model depends on
a complex configuration process before the training is
performed, hindering to
achieve a totally automatic system. The model proposed in
this Dissertation tries
to optimize the NFHB system parameters by using the genetic
coevolution
technique, thus creating a new automatic data mining
system. This work
consisted of four main parts: evaluation of existing
systems used in data mining;
study of the NFHB system and definition of its main
parameters; development of
the automatic hybrid neuro-fuzzy-genetic system for data
mining; and case
studies.
In the study of existing data mining systems, the aim was
to find a suitable
model that could yield good results and still be automated.
Several techniques
have been studied, among them: Statistical methods,
Decision Trees, Rules
Association, Genetic Algorithms, Artificial Neural
Networks, Fuzzy and Neuro-
Fuzzy Systems. The NFHB System was chosen for inference and
rule extraction
in the data mining process. In this way, this model was
carefully studied and its
most important parameters were determined. Moreover, input
variable selection
techniques were investigated, to be used with the proposed
model. Finally, a set
of parameters was defined, which must be determined
automatically for the
complete system configuration.
A hierarchical coevolutive genetic model was created to
execute the
system optimization task with efficiency. Therefore, a
hierarchical architecture of genetic algorithms (GAs) was
created, where the GAs execute complementary
optimization tasks. In this stage, the best genetic
operators, the GAs
configuration, the chromossomes representation, and
evaluation functions were
also determined. The best set of parameters found was used
in the NFHB
configuration, making the process entirely automatic.
In the case studies, various tests were performed with
benchmark
databases. For forecasting problems, six electric load
series were used: Cerj,
Copel, Eletropaulo, Cemig, Furnas and Light. In the pattern
classification area,
some well known databases were used, namely Glass Data,
Wine Data, Bupa
Liver Disorders and Pima Indian Diabetes. After the tests
were carried out, a
comparison was made with known models and with the original
NFHB System,
configured by a specialist.
The tests have demonstrated that the proposed model
generates
satisfactory results, producing, with an automatic process,
similar errors to the
ones obtained with a specialist configuration, and, in some
cases, even better
results can be obtained. Therefore, a user without any
technical knowledge of the
system, can use it to perform data mining, extracting
information and knowledge
that can help him/her in decision taking processes, which
is the final objective of
a Knowledge Data Discovery process.
|
14 |
[en] RELATIONSHIP MARKETING: CROSS-SELLING ON MOBILE TELECOM / [pt] MARKETING DE RELACIONAMENTO: CROSS-SELLING NA TELEFONIA MÓVELMANOELA BRANDAO DE OLIVEIRA 20 April 2015 (has links)
[pt] Com rápido crescimento nos últimos anos, o mercado de telecomunicações está ficando cada vez mais saturado. Como a comunicação tradicional por meio de serviços de voz já é amplamente utilizada, as operadoras têm enfrentado dificuldades em atrair novos usuários. Neste cenário, as operadoras têm direcionado cada vez mais esforços nas ações de cross-selling para rentabilizar sua base de clientes, oferecendo e estimulando o uso de novos serviços. Nesta pesquisa, serão utilizados dados existentes no banco de dados de uma operadora de telefonia móvel do mercado brasileiro para testar um modelo que facilita a identificação dos clientes mais propensos à contratação de novos serviços. Os dados foram tratados por meio de técnicas de mineração de dados e árvore de decisão. Os resultados sugerem que, com base na modelagem proposta, ações de cross-selling podem ser otimizadas com o aumento da taxa de retorno e, conseqüentemente, redução no custo das abordagens e menos desgaste da base de clientes com contatos irrelevantes. / [en] Due to its fast growth in recent years, the wireless market is becoming increasingly saturated. Since traditional communication through voice services is already widely used by most individuals, wireless carriers are facing difficulties in finding and attracting new users for such services. Given this scenario, enterprises are turning their attention to cross-selling campaigns to monetize their client base, offering and stimulating the use of new services. In this research, an existent data set from a Brazilian mobile telecom carrier was used to test a model that could facilitate the identification of current customers more likely to be interested in acquiring new services. The data were analyzed and modeled via data mining and decision tree. The results suggest that, if the proposed model is used, cross-selling campaigns could be optimized, achieving an increased rate of return, reduction in the cost of contacts and less wear of the client base with irrelevant offers.
|
15 |
[en] HYBRID GENETIC ALGORITHM FOR THE MINIMUM SUM-OF-SQUARES CLUSTERING PROBLEM / [pt] ALGORITMO GENÉTICO HÍBRIDO PARA O PROBLEMA DE CLUSTERIZAÇÃO MINIMUM SUM-OF-SQUARESDANIEL LEMES GRIBEL 27 July 2017 (has links)
[pt] Clusterização desempenha um papel importante em data mining, sendo útil em muitas áreas que lidam com a análise exploratória de dados, tais como recuperação de informações, extração de documentos e segmentação de imagens. Embora sejam essenciais em aplicações de data mining, a maioria
dos algoritmos de clusterização são métodos ad-hoc. Eles carecem de garantias na qualidade da solução, que em muitos casos está relacionada a uma convergência prematura para um mínimo local no espaço de busca. Neste trabalho, abordamos o problema de clusterização a partir da perspectiva de otimização, onde propomos um algoritmo genético híbrido para resolver o problema Minimum Sum-of-Squares Clustering (MSSC, em inglês). A meta-heurística proposta é capaz de escapar de mínimos locais e gerar soluções quase ótimas para o problema MSSC. Os resultados mostram que o método proposto superou os resultados atuais da literatura – em termos de qualidade da solução – para quase todos os conjuntos de instâncias considerados para o problema MSSC. / [en] Clustering plays an important role in data mining, being useful in many fields that deal with exploratory data analysis, such as information retrieval, document extraction, and image segmentation. Although they are essential in data mining applications, most clustering algorithms are adhoc methods. They have a lack of guarantee on the solution quality, which in many cases is related to a premature convergence to a local minimum of the search space. In this research, we address the problem of data clustering from an optimization perspective, where we propose a hybrid genetic algorithm to solve the Minimum Sum-of-Squares Clustering (MSSC) problem. This meta-heuristic is capable of escaping from local minima and generating near-optimal solutions to the MSSC problem. Results show that the proposed method outperformed the best current literature results - in terms of solution quality - for almost all considered sets of benchmark
instances for the MSSC objective.
|
16 |
[en] BUS NETWORK ANALYSIS AND MONITORING / [pt] ANÁLISE E MONITORAMENTO DE REDES DE ÔNIBUSKATHRIN RODRIGUEZ LLANES 17 August 2017 (has links)
[pt] Ônibus, equipados com dispositivos GPS ativos que transmitem continuamente a sua posição, podem ser entendidos como sensores móveis de trânsito. De fato, as trajetórias dos ônibus fornecem uma fonte de dados útil para analisar o trânsito na rede de ônibus de uma cidade, dado que as autoridades de trânsito da cidade disponibilizem as trajetórias de forma aberta, oportuna e contínua. Neste contexto, esta tese propõe uma abordagem que usa os dados de GPS dos ônibus para analisar e monitorar a rede de ônibus de uma cidade. Ela combina algoritmos de grafos, técnicas de mineração de dados geoespaciais e métodos estatísticos. A principal contribuição desta tese é uma definição detalhada de operações e algoritmos para analisar e monitorar o tráfego na rede de ônibus, especificamente: (1) modelagem, análise e segmentaçãoda rede de ônibus; (2) mineração do conjunto de dados de trajetória de ônibus para descobrir padrões de tráfego; (3) detecção de anomalias de trânsito, classificação de acordo com sua gravidade, e avaliação do seu impacto; (4) manutenção e comparação de diferentes versões da rede de ônibus e dos seus padrões de tráfego para ajudar os planejadores urbanos a avaliar as mudanças. Uma segunda contribuição é a descrição de experimentos realizados para a rede de ônibus da Cidade do Rio de Janeiro, utilizando trajetórias de ônibus correspondentes ao período de junho de 2014 até fevereiro de 2017, disponibilizadas pela Prefeitura do Rio de Janeiro. Os resultados obtidos corroboram a utilidade da abordagem proposta para analisar e monitorar a rede de ônibus de uma cidade, o que pode ajudar os gestores do trânsito e as autoridades municipais a melhorar os planos de controle de trânsito e de mobilidade urbana. / [en] Buses, equipped with active GPS devices that continuously transmit their position, can be understood as mobile traffic sensors. Indeed, bus trajectories provide a useful data source for analyzing traffic in the bus network of a city, if the city traffic authority makes the bus trajectories available openly, timely and in a continuous way. In this context, this thesis proposes a bus GPS data-driven approach for analyzing and monitoring the bus network of a city. It combines graph algorithms, geospatial data mining techniques and statistical methods. The major contribution of this thesis is a detailed discussion of key operations and algorithms for modeling, analyzing and monitoring bus network traffic, specifically: (1) modelling, analyzing, and segmentation of the bus network; (2) mining the bus trajectory dataset to uncover traffic patterns; (3) detecting traffic anomalies, classifying them according to their severity, and estimating their impact; (4) maintaining and comparing different versions of the bus network and traffic patterns to help urban planners assess changes. Another contribution is the description of experiments conducted for the bus network of the City of Rio de Janeiro, using bus trajectories obtained from June 2014 to February 2017, which have been made available by the City Hall of Rio de Janeiro. The results obtained corroborate the usefulness of the proposed approach for analyzing and monitoring the bus network of a city, which may help traffic managers and city authorities improve traffic control and urban mobility plans.
|
17 |
[en] CLASSIFICATION OF OBJECTS IN REAL CONTEXT BY CONVOLUTIONAL NEURAL NETWORKS / [pt] CLASSIFICAÇÃO DE OBJETOS EM CONTEXTO REAL POR REDES NEURAIS CONVOLUTIVASLUIS MARCELO VITAL ABREU FONSECA 08 June 2017 (has links)
[pt] A classificação de imagens em contexto real é o ápice tecnológico do reconhecimento de objetos. Esse tipo de classificação é complexo, contendo diversos problemas de visão computacional em abundância. Este projeto
propõe solucionar esse tipo de classificação através do uso do conhecimento no aprendizado de máquina aplicado ao dataset do MS COCO. O algoritmo implementado neste projeto consiste de um modelo de Rede Neural Convolutiva que consegue aprender características dos objetos e realizar predições sobre suas classes. São elaborados alguns experimentos que comparam diferentes resultados de predições a partir de diferentes técnicas de aprendizado. É também realizada uma comparação dos resultados da implementação com o estado da arte na segmentação de objetos em contexto. / [en] The classification of objects in real contexts is the technological apex of object recognition. This type of classification is complex, containing diverse computer vision problems in abundance. This project proposes
to solve that type of classification through the use of machine learning knowledge applied to the MS COCO dataset. The implemented algorithm in this project consists of a Convolutional Neural Network model that
is able to learn characteristics of the objects and predict their classes. Some experiments are made that compare different results of predictions using different techniques of learning. There is also a comparison of the results from the implementation with state of art in contextual objects segmentation.
|
18 |
[en] NEURO-FUZZY BSP HIERARCHICAL SYSTEM FOR TIME FORECASTING AND FUZZY RULE EXTRACTION DOR DATA MINING APPLICATONS / [pt] SISTEMA NEURO-FUZZY HIERÁRQUICO BSP PARA PREVISÃO E EXTRAÇÃO DE REGRAS FUZZY EM APLICAÇÕES DE DATA MININGALBERTO IRIARTE LANAS 11 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de um sistema
Neuro-Fuzzy Hierárquico para previsão de séries e a
extração de regras fuzzy em aplicações de Mineração de
Dados. O objetivo do trabalho foi estender o modelo Neuro-
Fuzzy Hierárquico BSP para a classificação de registros e
a previsão de séries temporais. O processo de
classificação de registros no contexto de Mineração de
Dados consiste na extração de regras de associação que
melhor caracterizem, através de sua acurácia e
abrangência, um determinado grupo de registros de um banco
de dados (BD). A previsão de séries temporais, outra
tarefa comum em Mineração de Dados tem como objetivo
prever o comportamento de uma série temporal no instante
t+k (k ? 1).O trabalho consistiu de 5 etapas principais:
elaborar um survey dos principais sistemas e modelos
mais utilizados nas aplicações de Mineração de Dados;
avaliar o desempenho do sistema NFHB original em
aplicações de Mineração de Dados; desenvolver uma extensão
do modelo NFHB dedicado à classificação de registros em
uma BD; desenvolver um novo modelo híbrido Neuro-Fuzzy
Genético para o ajuste automático dos parâmetros do
sistema dedicado a previsão de séries temporais; e o
estudo dos casos. O estudo da área resultou num survey
sobre os principais modelos para Mineração de Dados. São
apresentados os modelos mais utilizados em tarefas de
classificação e extração de regras tais como: redes
neurais, árvores de decisão crisp e fuzzy, algoritmos
genéticos, estatística e sistemas neuro-fuzzy. Na etapa de
avaliação do modelo NFHB original, foi verificado que além
do tradicional aprendizado dos parâmetros, comuns às redes
neurais e aos sistemas neuro-fuzzy, o modelo possui as
seguintes aracterísticas: aprendizado da estrutura, a
partir do uso de particionamentos recursivos; número maior
de entradas que o habitualmente encontrado nos sistemas
neuro-fuzzy; e regras com hierarquia, características
adequadas para as aplicações de Mineração de Dados.
Entretanto, o processo de extração de regras e a seleção
de atributos não são adequados para este tipo de
aplicação, assim como a excessiva complexidade da
parametrização do modelo para aplicações de previsão de
séries temporais. Uma extensão ao modelo NFHB original foi
então proposta para aplicações de classificação de
registros no contexto da Mineração de Dados onde se têm
como objetivo principal a extração de informação em forma
de regras interpretáveis. Foi necessário modificar a
seleção de atributos e o processo original de extração de
regras. O sistema fuzzy do tipo Takagi-Sugeno do modelo
NFHB original fornece regras inadequadas do ponto de vista
da Mineração de Dados. O novo modelo NFHB, dotado das
modificações necessárias, mostrou um ótimo desempenho na
extração de regras fuzzy válidas que descrevem a
informação contida no banco de dados. As medidas de
avaliação normalmente usadas para analisar regras crisp
(Se x1 é <14.3 e...), como abrangência e acurácia, foram
modificadas para poderem ser aplicadas ao caso de
avaliação das regras fuzzy (Se x1 é Baixo e..) extraídas
pelo sistema NFHB após da fase de aprendizado. A
quantidade e a qualidade das regras extraídas é um ponto
fundamental dos sistemas voltados para aplicações de
Mineração de Dados, que buscam sempre obter o menor número
de regras e da maior qualidade possível. Nesse sentido, o
processo de seleção das características de entrada foi
alterado para evitar particionamentos excessivos, ou seja
regras desnecessárias. Foram implementadas duas
estratégias de seleção (Fixa e Adaptativa) em função de
diferentes medidas de avaliação como a Entropia e o método
de Jang. Um novo modelo híbrido neuro-fuzzy genético para
previsão de séries temporais foi criado para resolver o
problema da excessiva complexidade de parametrização do
sistema, o qual conta com mais de 15 parâmetros.Foi
proposto um novo modelo híbrido neuro-fuzzy genético capaz
de evoluir e obter um conjunto de parâmetros adequado par / [en] This dissertation investigates the use of a Neuro-Fuzzy
Hierarchical system for time series forecasting and fuzzy
rule extraction for Data Mining applications. The
objective of this work was to extend the Neuro-Fuzzy BSP
Hierarchical model for the classification of registers and
time series forecasting. The process of classification of
registers in the Data Mining context consists of
extracting association rules that best characterise,
through its accuracy and coverage measures, a certain
group of registers of database (DB). The time series
forecasting other common task in Data Mining, has a main
objective to foresee the behavior of a time series in the
instant t+k (k>=1).
The work consisted of 5 main stages: to elaborate a survey
of the main systems and the most common models in Data
Mining applications; to evaluate the performance of the
original NFHB system in Data Mining applicatons; to
develop an extension of the NFHB model dedicated to the
classification of registers in a DB; to develop a new
Neuro-Fuzzy Genetic hybrid model for the automatic
adjustment of the parameters of the system for time series
forecasting applicatons; and the case estudies.
The study of the area resulted in a survey of the main
Data Mining models. The most common methods used in Data
Mining application are presented such as: neural nets,
crisp and fuzzy decision trees, genetic algorithms,
statistics and neuro-fuzzy systems.
In the stage of evaluation of the original NFHB model, it
verified that besides the traditional learning of the
parameters, common to the neural nets and the neuro-fuzzy
systems, the model possesses the following
characteristics: learning of the structure; recursive
partitioning; larger number of inputs than usually found
on the neuro-fuzzy systems; rule with hierarchy; which are
characteristics adapted for Data Mining applications.
However the rule extraction process and attributes
selection are not appropriate for this type of
applications, as well as the excessive complexity of the
tuning of the model for time series forecasting
applicatons.
An extension of the original NFHB model was then proposed
for applicatons of classification of registers in the Data
Mining context, where the main objective in the extraction
of information in form of interpratable rules. It was
necessary to modify the attributes selection and the
original rule extraction process. The Takagi-Sugeno fuzzy
system of the original NFHB model supplies inadequate
rules, from the Data Mining point of view. The new NFHB
models, endowed with necessary modifications, showed good
performance in extracting valid fuzzy rules that describe
the information contained in the database. The evaluation
metrics, usually used to analyse crips rules (If x1 is
<14.3 and), as coverage and accuracy, were modified to be
applied to the evaluation of the fuzzy rules (If x1 is Low
and) extracted from the NFHB system after the learning
process. The amount and quality of the extracted rules are
important points of the systems dedicated for Data Mining
applicatons, where the target is to obtain the smallest
number of rules and of the best quality. In that sense,
the input selection strategies were implemented (Static
and Adaptive), using different evaluation measures as
Entropy and the jang algorithm.
A new genetic neuro-fuzzy hybrid model for time series
forecasting was created to solve the problem of the
excessive complexity of the model tuning, which comprises
more than 15 parameters. A new model wes proposed, a
genetic neuro-fuzzy hybrid, model capable to develop and
to obtain an appropriate set of parameters for the
forecasting of time series. The new hybrid, model capable
to develop and to obtain an appropriate set of parameters
for the forecasting of time series. The new hybrid model
presented good results with different types of series.
A tool based on the NFHB model was developed for
classification and forecasting applications. Th
|
19 |
[en] A METHOD FOR INTERPRETING CONCEPT DRIFTS IN A STREAMING ENVIRONMENT / [pt] UM MÉTODO PARA INTERPRETAÇÃO DE MUDANÇAS DE REGIME EM UM AMBIENTE DE STREAMINGJOAO GUILHERME MATTOS DE O SANTOS 10 August 2021 (has links)
[pt] Em ambientes dinâmicos, os modelos de dados tendem a ter desempenho
insatisfatório uma vez que a distribuição subjacente dos dados muda. Este
fenômeno é conhecido como Concept Drift. Em relação a este tema, muito
esforço tem sido direcionado ao desenvolvimento de métodos capazes de
detectar tais fenômenos com antecedência suficiente para que os modelos
possam se adaptar. No entanto, explicar o que levou ao drift e entender
suas consequências ao modelo têm sido pouco explorado pela academia.
Tais informações podem mudar completamente a forma como adaptamos os
modelos. Esta dissertação apresenta uma nova abordagem, chamada Detector
de Drift Interpretável, que vai além da identificação de desvios nos dados. Ele
aproveita a estrutura das árvores de decisão para prover um entendimento
completo de um drift, ou seja, suas principais causas, as regiões afetadas do
modelo e sua severidade. / [en] In a dynamic environment, models tend to perform poorly once the
underlying distribution shifts. This phenomenon is known as Concept Drift.
In the last decade, considerable research effort has been directed towards
developing methods capable of detecting such phenomena early enough so
that models can adapt. However, not so much consideration is given to
explain the drift, and such information can completely change the handling
and understanding of the underlying cause. This dissertation presents a novel
approach, called Interpretable Drift Detector, that goes beyond identifying
drifts in data. It harnesses decision trees’ structure to provide a thorough
understanding of a drift, i.e., its principal causes, the affected regions of a tree model, and its severity. Moreover, besides all information it provides, our
method also outperforms benchmark drift detection methods in terms of falsepositive rates and true-positive rates across several different datasets available in the literature.
|
20 |
[en] INTELLIGENT ASSISTANCE FOR KDD-PROCESS ORIENTATION / [pt] ASSISTÊNCIA INTELIGENTE À ORIENTAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASES DE DADOSRONALDO RIBEIRO GOLDSCHMIDT 15 December 2003 (has links)
[pt] A notória complexidade inerente ao processo de KDD -
Descoberta de Conhecimento em Bases de Dados - decorre
essencialmente de aspectos relacionados ao controle e à
condução deste processo (Fayyad et al., 1996b; Hellerstein
et al., 1999). De uma maneira geral, estes aspectos envolvem
dificuldades em perceber inúmeros fatos cuja origem e os
níveis de detalhe são os mais diversos e difusos, em
interpretar adequadamente estes fatos, em conjugar
dinamicamente tais interpretações e em decidir que ações
devem ser realizadas de forma a procurar obter bons
resultados. Como identificar precisamente os objetivos do
processo, como escolher dentre os inúmeros algoritmos de
mineração e de pré-processamento de dados existentes e,
sobretudo, como utilizar adequadamente os algoritmos
escolhidos em cada situação são alguns exemplos
das complexas e recorrentes questões na condução de
processos de KDD. Cabe ao analista humano a árdua tarefa de
orientar a execução de processos de KDD. Para tanto, diante
de cada cenário, o homem utiliza sua experiência anterior,
seus conhecimentos e sua intuição para interpretar e
combinar os fatos de forma a decidir qual a estratégia a
ser adotada (Fayyad et al., 1996a, b; Wirth et al., 1998).
Embora reconhecidamente úteis e desejáveis, são poucas as
alternativas computacionais existentes voltadas a auxiliar
o homem na condução do processo de KDD (Engels, 1996; Amant
e Cohen, 1997; Livingston, 2001; Bernstein et al., 2002;
Brazdil et al., 2003). Aliado ao exposto acima, a demanda
por aplicações de KDD em diversas áreas vem crescendo de
forma muito acentuada nos últimos anos (Buchanan, 2000). É
muito comum não existirem profissionais com experiência em
KDD disponíveis para atender a esta crescente demanda
(Piatetsky-Shapiro, 1999). Neste contexto, a criação de
ferramentas inteligentes que auxiliem o homem no controle
do processo de KDD se mostra ainda mais oportuna (Brachman
e Anand, 1996; Mitchell, 1997). Assim sendo, esta tese teve
como objetivos pesquisar, propor, desenvolver e avaliar uma
Máquina de Assistência Inteligente à Orientação do Processo
de KDD que possa ser utilizada, fundamentalmente, como
instrumento didático voltado à formação de profissionais
especializados na área da Descoberta de Conhecimento em
Bases de Dados. A máquina proposta foi formalizada com base
na Teoria do Planejamento para Resolução de Problemas
(Russell e Norvig, 1995) da Inteligência Artificial
e implementada a partir da integração de funções de
assistência utilizadas em diferentes níveis de controle do
processo de KDD: Definição de Objetivos, Planejamento de
Ações de KDD, Execução dos Planos de Ações de KDD e
Aquisição e Formalização do Conhecimento. A Assistência à
Definição de Objetivos tem como meta auxiliar o homem
na identificação de tarefas de KDD cuja execução seja
potencialmente viável em aplicações de KDD. Esta
assistência foi inspirada na percepção de um certo tipo
de semelhança no nível intensional apresentado entre
determinados bancos de dados. Tal percepção auxilia na
prospecção do tipo de conhecimento a ser procurado, uma vez
que conjuntos de dados com estruturas similares tendem a
despertar interesses similares mesmo em aplicações de KDD
distintas. Conceitos da Teoria da Equivalência entre
Atributos de Bancos de Dados (Larson et al., 1989)
viabilizam a utilização de uma estrutura comum na qual
qualquer base de dados pode ser representada. Desta forma,
bases de dados, ao serem representadas na nova estrutura,
podem ser mapeadas em tarefas de KDD, compatíveis com tal
estrutura. Conceitos de Espaços Topológicos (Lipschutz,
1979) e recursos de Redes Neurais Artificiais (Haykin,
1999) são utilizados para viabilizar os mapeamentos entre
padrões heterogêneos. Uma vez definidos os objetivos em uma
aplicação de KDD, decisões sobre como tais objetivos podem
ser alcançados se tornam necessárias. O primeiro
passo envolve a escolha de qual algoritmo de mineração de dados é o mais
apropriado para o problema em questão. A Assistência ao Planejamento de Ações
de KDD auxilia o homem nesta escolha. Utiliza, para tanto, uma metodologia de
ordenação dos algoritmos de mineração baseada no desempenho prévio destes
algoritmos em problemas similares (Soares et al., 2001; Brazdil et al., 2003).
Critérios de ordenação de algoritmos baseados em similaridade entre bases de
dados nos níveis intensional e extensional foram propostos, descritos e avaliados.
A partir da escolha de um ou mais algoritmos de mineração de dados, o passo
seguinte requer a escolha de como deverá ser realizado o pré-processamento dos
dados. Devido à diversidade de algoritmos de pré-processamento, são muitas as
alternativas de combinação entre eles (Bernstein et al., 2002). A Assistência ao
Planejamento de Ações de KDD também auxilia o homem na formulação e na
escolha do plano ou dos planos de ações de KDD a serem adotados. Utiliza, para
tanto, conceitos da Teoria do Planejamento para Resolução de Problemas.
Uma vez escolhido um plano de ações de KDD, surge a necessidade de
executá-lo. A execução de um plano de ações de KDD compreende a execução, de
forma ordenada, dos algoritmos de KDD previstos no plano. A execução de um
algoritmo de KDD requer conhecimento sobre ele. A Assistência à Execução dos
Planos de Ações de KDD provê orientações específicas sobre algoritmos de KDD.
Adicionalmente, esta assistência dispõe de mecanismos que auxiliam, de forma
especializada, no processo de execução de algoritmos de KDD e na análise dos
resultados obtidos. Alguns destes mecanismos foram descritos e avaliados.
A execução da Assistência à Aquisição e Formalização do Conhecimento
constitui-se em um requisito operacional ao funcionamento da máquina proposta.
Tal assistência tem por objetivo adquirir e disponibilizar os conhecimentos sobre
KDD em uma representação e uma organização que viabilizem o processamento
das funções de assistência mencionadas anteriormente. Diversos recursos e
técnicas de aquisição de conhecimento foram utilizados na concepção desta
assistência. / [en] Generally speaking, such aspects involve difficulties in
perceiving innumerable facts whose origin and levels of
detail are highly diverse and diffused, in adequately
interpreting these facts, in dynamically conjugating such
interpretations, and in deciding which actions must be
performed in order to obtain good results. How are the
objectives of the process to be identified in a precise
manner? How is one among the countless existing data mining
and preprocessing algorithms to be selected? And most
importantly, how can the selected algorithms be put to
suitable use in each different situation? These are but
a few examples of the complex and recurrent questions that
are posed when KDD processes are performed. Human analysts
must cope with the arduous task of orienting the execution
of KDD processes. To this end, in face of each different
scenario, humans resort to their previous experiences,
their knowledge, and their intuition in order to interpret
and combine the facts and therefore be able to decide on
the strategy to be adopted (Fayyad et al., 1996a, b; Wirth
et al., 1998). Although the existing computational
alternatives have proved to be useful and desirable, few of
them are designed to help humans to perform KDD processes
(Engels, 1996; Amant and Cohen, 1997; Livingston, 2001;
Bernstein et al., 2002; Brazdil et al., 2003). In
association with the above-mentioned fact, the demand for
KDD applications in several different areas has increased
dramatically in the past few years (Buchanan, 2000). Quite
commonly, the number of available practitioners with
experience in KDD is not sufficient to satisfy this growing
demand (Piatetsky-Shapiro, 1999). Within such a context,
the creation of intelligent tools that aim to assist humans
in controlling KDD processes proves to be even more
opportune (Brachman and Anand, 1996; Mitchell, 1997).
Such being the case, the objectives of this thesis were to
investigate, propose, develop, and evaluate an Intelligent
Machine for KDD-Process Orientation that is basically
intended to serve as a teaching tool to be used in
professional specialization courses in the area of
Knowledge Discovery in Databases. The basis for
formalization of the proposed machine was the Planning
Theory for Problem-Solving (Russell and Norvig, 1995) in
Artificial Intelligence. Its implementation was based on
the integration of assistance functions that are used at
different KDD process control levels: Goal Definition, KDD
Action-Planning, KDD Action Plan Execution, and Knowledge
Acquisition and Formalization. The Goal Definition
Assistant aims to assist humans in identifying KDD
tasks that are potentially executable in KDD applications.
This assistant was inspired by the detection of a certain
type of similarity between the intensional levels presented
by certain databases. The observation of this fact helps
humans to mine the type of knowledge that must be
discovered since data sets with similar structures tend to
arouse similar interests even in distinct KDD applications.
Concepts from the Theory of Attribute Equivalence in
Databases (Larson et al., 1989) make it possible to use a
common structure in which any database may be represented.
In this manner, when databases are represented in the new
structure, it is possible to map them into KDD tasks that
are compatible with such a structure. Topological space
concepts and ANN resources as described in Topological
Spaces (Lipschutz, 1979) and Artificial Neural Nets
(Haykin, 1999) have been employed so as to allow mapping
between heterogeneous patterns. After the goals have been
defined in a KDD application, it is necessary to decide how
such goals are to be achieved. The first step involves
selecting the most appropriate data mining algorithm for
the problem at hand. The KDD Action-Planning Assistant
helps humans to make this choice. To this end, it makes
use of a methodology for ordering the mining algorithms
that is based on the previous experiences, their knowledge, and their intuition in order to
interpret and combine the facts and therefore be able to decide on the strategy to
be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing
computational alternatives have proved to be useful and desirable, few of them are
designed to help humans to perform KDD processes (Engels, 1996; Amant &
Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In
association with the above-mentioned fact, the demand for KDD applications in
several different areas has increased dramatically in the past few years (Buchanan,
2000). Quite commonly, the number of available practitioners with experience in
KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999).
Within such a context, the creation of intelligent tools that aim to assist humans in
controlling KDD processes proves to be even more opportune (Brachman &
Anand, 1996; Mitchell, 1997).
Such being the case, the objectives of this thesis were to investigate,
propose, develop, and evaluate an Intelligent Machine for KDD-Process
Orientation that is basically intended to serve as a teaching tool to be used in
professional specialization courses in the area of Knowledge Discovery in
Databases.
The basis for formalization of the proposed machine was the Planning
Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence.
Its implementation was based on the integration of assistance functions that are
used at different KDD process control levels: Goal Definition, KDD Action-
Planning, KDD Action Plan Execution, and Knowledge Acquisition and
Formalization.
The Goal Definition Assistant aims to assist humans in identifying KDD
tasks that are potentially executable in KDD applications. This assistant was
inspired by the detection of a certain type of similarity between the intensional
levels presented by certain databases. The observation of this fact helps humans to
mine the type of knowledge that must be discovered since data sets with similar
structures tend to arouse similar interests even in distinct KDD applications.
Concepts from the Theory of Attribute Equivalence in Databases (Larson et al.,
1989) make it possible to use a common structure in which any database may be
represented. In this manner, when databases are represented in the new structure,
it is possible to map them into KDD tasks that are compatible with such a
structure. Topological space concepts and ANN resources as described in
Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999)
have been employed so as to allow mapping between heterogeneous patterns.
After the goals have been defined in a KDD application, it is necessary to
decide how such goals are to be achieved. The first step involves selecting the
most appropriate data mining algorithm for the problem at hand. The KDD
Action-Planning Assistant helps humans to make this choice. To this end, it makes
use of a methodology for ordering the mining algorithms that is based on the
previous performance of these algorithms in similar problems (Soares et al., 2001;
Brazdil et al., 2003). Algorithm ordering criteria based on database similarity at
the intensional and extensional levels were proposed, described and evaluated.
The data mining algorithm or algorithms having been selected, the next step
involves selecting the way in which data preprocessing is to be performed. Since
there is a large variety of preprocessing algorithms, many are the alternatives for
combining them (Bernstein et al., 2002). The KDD Action-Planning Assistant also
helps humans to formulate and to select the KDD action plan or plans to be
adopted. To this end, it makes use of concepts contained in the Planning Theory
for Problem-Solving.
Once a KDD action plan has been chosen, it is necessary to execute it.
Executing a KDD action plan involves the ordered execution of the KDD
algorithms that have been anticipated in the plan. Executing a KDD algorithm
requires knowledge about it. The KDD Action Plan Execution Assistant provides
specific guidance on KDD algorithms. In addition, this assistant is equipped with
mechanisms that provide specialized assistance for performing the KDD
algorithm execution process and for analyzing the results obtained. Some of these
mechanisms have been described and evaluated.
The execution of the Knowledge Acquisition and Formalization Assistant
is an operational requirement for running the proposed machine. The objective of
this assistant is to acquire knowledge about KDD and to make such knowledge
available by representing and organizing it a way that makes it possible to process
the above-mentioned assistance functions. A variety of knowledge acquisition
resources and techniques were employed in the conception of this assistant.
|
Page generated in 0.0337 seconds