21 |
[en] EXPLORING RDF KNOWLEDGE BASES THROUGH SERENDIPITY PATTERNS / [pt] EXPLORANDO BASES DE CONHECIMENTO EM RDF ATRAVÉS DE PADRÕES DE FORTUIDADEJERONIMO SIROTHEAU DE ALMEIDA EICHLER 15 January 2019 (has links)
[pt] Fortuidade pode ser definida como a descoberta de algo que não está sendo buscado. Em outras palavras, fortuidade trata da descoberta de informação que provê valiosas intuições ao desvendar conhecimento inesperado. O tópico vem recebendo bastante atenção na literatura, uma vez que precisão pode ser justificadamente relaxada com o objetivo de aumentar a satisfação do usuário. Uma área que pode se beneficiar com fortuidade é a área de dados interligados, um gigantesco espaço de dados no qual dados são disponibilizados publicamente. Buscar e extrair informação relevante se torna uma tarefa desafiadora à medida que cada vez mais dados se tornam disponíveis nesse ambiente. Esta tese contribui para enfrentar este desafio de duas maneiras. Primeiro, apresenta um processo de orquestração de consulta que introduz três estratégias para injetar padrões de fortuidade no processo de consulta. Os padrões de fortuidade são inspirados em características básicas de eventos fortuitos, como analogia e perturbação, e podem ser usados para estender os resultados com informações adicionais, sugerindo consultas alternativas ou reordenando os resultados. Em segundo lugar, introduz uma base de dados que pode ser utilizada para comparar diferentes abordagens de obtenção de conteúdo fortuito. A estratégia adotada para construção dessa base de dados consiste em dividir o universo de dados em partições com base em um atributo global e conectar entidades de diferentes partições de acordo com o número de caminhos compartilhados. / [en] Serendipity is defined as the discovery of a thing when one is not searching for it. In other words, serendipity means the discovery of information that provides valuable insights by unveiling unanticipated knowledge. The topic is receiving increased attention in the literature, since the precision requirement may be justifiably relaxed in order to improve user satisfaction. A field that can benefit from serendipity is the Web of Data, an immense global data space where data is publicly available. As more and more data become available in this data space, searching and extracting relevant information becomes a challenging task. This thesis contributes to addressing this challenge in two ways. First, it presents a query orchestration process that introduces three strategies to inject serendipity patterns in the query process. The serendipity patterns are inspired by basic characteristics of serendipitous events, such as, analogy and disturbance, and can be used for augmenting the results with additional information, suggesting
alternative queries or rebalancing the results. Second, it introduces a benchmark dataset that can be used to compare different approaches for locating serendipitous content. The strategy adopted for constructing the dataset consists of dividing the dataset into partitions based on a global feature and linking entities from different partitions according to the number of paths they share.
|
22 |
[en] APPLYING PROCESS MINING TO THE ACADEMIC ADMINISTRATION DOMAIN / [pt] APLICAÇÃO DE MINERAÇÃO DE PROCESSOS AO DOMÍNIO ACADÊMICO ADMINISTRATIVOHAYDÉE GUILLOT JIMÉNEZ 12 December 2017 (has links)
[pt] As instituições de ensino superior mantêm uma quantidade considerável de dados que incluem tanto os registros dos alunos como a estrutura dos currículos dos cursos de graduação. Este trabalho, adotando uma abordagem de mineração de processos, centra-se no problema de identificar quão próximo os alunos seguem a ordem recomendada das disciplinas em um currículo de graduação, e até que ponto o desempenho de cada aluno é afetado pela ordem que eles realmente adotam. O problema é abordado aplicando-se duas técnicas já existentes aos registros dos alunos: descoberta de processos e verificação de conformidade; e frequência de conjuntos de itens. Finalmente, a dissertação cobre experimentos realizados aplicando-se essas técnicas a um estudo de caso com mais de 60.000 registros de alunos da PUC-Rio. Os experimentos indicam que a técnica de frequência de conjuntos de itens produz melhores resultados do que as técnicas de descoberta de processos e verificação de conformidade. E confirmam igualmente a relevância de análises baseadas na abordagem de mineração de processos para ajudar coordenadores acadêmicos na busca de melhores currículos universitários. / [en] Higher Education Institutions keep a sizable amount of data, including student records and the structure of degree curricula. This work, adopting a process mining approach, focuses on the problem of identifying how closely students follow the recommended order of the courses in a degree curriculum, and to what extent their performance is affected by the order they actually adopt. It addresses this problem by applying to student records two already existing techniques: process discovery and conformance checking, and frequent itemsets. Finally, the dissertation covers experiments performed by applying these techniques to a case study involving over 60,000 student records from PUC-Rio. The experiments show that the frequent itemsets technique performs better than the process discovery and conformance checking techniques. They equally confirm the relevance of analyses based on the process mining approach to help academic coordinators in their quest for better degree curricula.
|
23 |
[en] A MULTI-AGENT APPROACH TO DATA MINING PROCESSES: APPLICATIONS TO HEALTH CARE / [pt] UMA ABORDAGEM MULTIAGENTE PARA PROCESSOS DE MINERAÇÃO DE DADOS: APLICAÇÕES NA ÁREA DA SAÚDEREINIER MOREJON NOVALES 02 August 2018 (has links)
[pt] A mineração de dados é um tema em alta que atrai pesquisadores de diferentes áreas, como bancos de dados, aprendizado de máquina e sistemas multiagentes. Como consequência do crescimento do volume de dados, há uma necessidade crescente de obter conhecimento desses grandes conjuntos de dados que são muito difíceis de manipular e processar com os métodos tradicionais. Os agentes de software podem desempenhar um papel significativo ao executar processos de mineração de dados de maneira mais eficiente. Por exemplo, eles podem trabalhar para realizar seleção, extração, pré-processamento e integração de dados, bem como mineração paralela, distribuída ou de múltiplas fontes. Este trabalho propõe uma abordagem (na forma de um framework) que usa agentes de software para gerenciar processos de mineração de dados. Para testar sua aplicabilidade, utilizamos vários conjuntos de dados relacionados ao domínio de saúde, representando alguns cenários de uso (hipotireoidismo, diabetes e arritmia). / [en] Data mining is a hot topic that attracts researchers from different areas, such as databases, machine learning, and multi-agent systems. As a consequence of the growth of data volume, there is a growing need to obtain knowledge from these large data sets that are very difficult to handle and process with traditional methods. Software agents can play a significant role performing data mining processes in ways that are more efficient. For instance, they can work to perform selection, extraction, preprocessing and integration of data as well as parallel, distributed, or multisource mining. This work proposes an approach (in the form of a framework) that uses software agents to manage data mining processes. In order to test its applicability, we use several data sets related to health care domain representing some usage scenarios (hypothyroidism, diabetes and arrhythmia).
|
24 |
[en] DEVELOPMENT OF LEARNING OBJECTS DIGITAL LIBRARIES USING DATA WAREHOUSING AND DATA MINING TECHNIQUES / [pt] DESENVOLVIMENTO DE BIBLIOTECAS DIGITAIS DE LEARNING OBJECTS UTILIZANDO TÉCNICAS DE DATA WAREHOUSING E DATA MININGCASSIA BLONDET BARUQUE 01 February 2006 (has links)
[pt] Este trabalho objetiva o desenvolvimento de Bibliotecas
Digitais de
Learning Objects (LO-DLs), usando técnicas de Data
Warehousing (DWing) e
Data Mining (DMing).
Através da abordagem de Data Warehousing pode-se
correlacionar os
passos principais desta técnica, que são Extração,
Transformação, Carga e
OLAP, com os principais serviços de Bibliotecas
Tradicionais, que são Aquisição,
Classificação por Assunto, Catalogação e Consulta/Análise,
de forma que eles
sejam processados automaticamente. Técnicas de Data Mining
são
incorporadas a alguns desses processos automatizando o
desenvolvimento da
biblioteca.
Além de integrar múltiplas fontes de LOs, que estão
armazenadas em
diferentes SGBDs (Sistemas de Gerência de Banco de Dados)
e catalogadas
através de diferentes padrões de metadados, esta abordagem
contribui para
prover o usuário de uma maneira mais sofisticada de
consulta ao acervo, mais
abrangente que as usuais opções por título, autor e
assunto, já que OLAP
propicia acesso multidiimensional. Além disso, também
contribui para melhorar
a qualidade da biblioteca, uma vez que as técnicas OLAP e
de Data Mining são
usadas para analisar os LOs e os acessos aos mesmos.
Uma atualização automática da biblioteca acontece quando
há mudança
no perfil do usuário. / [en] This work aims at the development of Learning Objects
Digital Libraries
(LO-DLs), using Data Warehousing (DWing) and Data Mining
(DMining)
techniques.
By using the Data Warehousing approach, we will be able to
correlate the
main steps of this technique, which area Extraction,
Transformation, Loading and
OLAP, with the main services of a Traditional Library
which are Acquisition,
Subject Classification, Cataloging, and Searching, so that
they will work in an
automatic way. Data Mining techniques are incorporated in
some of these
processes automating the process of the development of the
library.
Besides integrating multiple LOs sources, which are stored
in diverse
DBMSs (Data Base Management Systems) and catalogued in
different metadata
languages, this approach contributes to providing the user
with a sophisticated
query to the library that is more comprehensive than the
usual author, subject
or title options, since OLAP allows multidimensional
access. Furthermore it
also contributes to the improvement of the library, since
OLAP and data mining
techniques are used to analyze LOs data and the access to
them.
An automatic refresh of the library is made when users´
profile changes.
|
25 |
[en] CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS / [pt] CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOSCARLOS HENRIQUE PEREIRA LOPES 19 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de Algoritmos
Genéticos (AG) no processo de descoberta de conhecimento
implícito em Banco de Dados (KDD - Knowledge Discovery
Database). O objetivo do trabalho foi avaliar o desempenho
de Algoritmos Genéticos no processo de classificação de
registros em Bancos de Dados (BD). O processo de
classificação no contexto de Algoritmos Genéticos consiste
na evolução de regras de associação que melhor
caracterizem, através de sua acurácia e abrangência, um
determinado grupo de registros do BD. O trabalho consistiu
de 4 etapas principais: um estudo sobre a área de
Knowledge Discovery Database (KDD); a definição de um
modelo de AG aplicado à Mineração de Dados (Data Mining);
a implementação de uma ferramenta (Rule-Evolver) de
Mineração de Dados; e o estudo de casos.
O estudo sobre a área de KDD envolveu todo o processo de
descoberta de conhecimento útil em banco de dados:
definição do problema; seleção dos dados; limpeza dos
dados; pré-processamento dos dados; codificação dos dados;
enriquecimento dos dados; mineração dos dados e a
interpretação dos resultados. Em particular, o estudo
destacou a fase de Mineração de Dados e os algoritmos e
técnicas empregadas (Redes Neurais, Indução de regras,
Modelos Estatísticos e Algoritmos Genéticos). Deste estudo
resultou um survey sobre os principais projetos de
pesquisa na área.
A modelagem do Algoritmo Genético consistiu
fundamentalmente na definição de uma representação dos
cromossomas, da função de avaliação e dos operadores
genéticos. Em mineração de dados por regras de associação
é necessário considerar-se atributos quantitativos e
categóricos. Atributos quantitativos representam variáveis
contínuas (faixa de valores) e atributos categóricos
variáveis discretas. Na representação definida, cada
cromossoma representa uma regra e cada gene corresponde a
um atributo do BD, que pode ser quantitativo ou categórico
conforme a aplicação. A função de avaliação associa um
valor numérico à regra encontrada, refletindo assim uma
medida da qualidade desta solução. A Mineração de Dados
por AG é um problema de otimização onde a função de
avaliação deve apontar para as melhores regras de
associação. A acurácia e a abrangência são medidas de
desempenho e, em alguns casos, se mantém nulas durante
parte da evolução. Assim, a função de avaliação deve ser
uma medida que destaca cromossomas contendo regras
promissoras em apresentar acurácia e abrangência
diferentes de zero. Foram implementadas 10 funções de
avaliação. Os operadores genéticos utilizados (crossover e
mutação) buscam recombinar as cláusulas das regras, de
modo a procurar obter novas regras com maior acurácia e
abrangência dentre as já encontradas. Foram implementados
e testados 4 operadores de cruzamento e 2 de mutação.
A implementação de uma ferramenta de modelagem de AG
aplicada à Mineração de Dados, denominada Rule-Evolver,
avaliou o modelo proposto para o problema de classificação
de registros. O Rule-Evolver analisa um Banco de Dados e
extrai as regras de associação que melhor diferenciem um
grupo de registros em relação a todos os registros do
Banco de Dados. Suas características principais são:
seleção de atributos do BD; informações estatísticas dos
atributos; escolha de uma função de avaliação entre as 10
implementadas; escolha dos operadores genéticos;
visualização gráfica de desempenho do sistema; e
interpretação de regras. Um operador genético é escolhido
a cada reprodução em função de uma taxa preestabelecida
pelo usuário. Esta taxa pode permanecer fixa ou variar
durante o processo evolutivo. As funções de avaliação
também podem ser alteradas (acrescidas de uma recompensa)
em função da abrangência e da acurácia da regra. O Rule-
Evolver possui uma interface entre o BD e o AG, necessária
para tor / [en] This dissertation investigates the application of Genetic
Algorithms (GAs) to the process of implicit knowledge
discovery over databases (KDD - Knowledge Discovery
Database). The objective of the work has been the
assessment of the Genetic Algorithms (GA) performance in
the classification process of database registers. In the
context of Genetic Algorithms, this classification process
consists in the evolution of association rules that
characterise, through its accuracy and range, a particular
group of database registers. This work has encompassed
four main steps: a study over the area of Knowledge
Discovery Databases; the GA model definition applied to
Data Mining; the implementation of the Data Mining Rule
Evolver; and the case studies.
The study over the KDD area included the overall process
of useful knowledge discovery; the problem definition;
data organisation; data pre-processing; data encoding;
data improvement; data mining; and results´
interpretation. Particularly, the investigation emphasied
the data mining procedure, techniques and algorithms
(neural Networks, rule Induction, Statistics Models and
Genetic Algorithms). A survey over the mais research
projects in this area was developed from this work.
The Genetic Algorithm modelling encompassed fundamentally,
the definition of the chromosome representation, the
fitness evaluation function and the genetic operators.
Quantitative and categorical attributes must be taken into
account within data mining through association rules.
Quantitative attribites represent continuous variables
(range of values), whereas categorical attributes are
discrete variable. In the representation employed in this
work, each chromosome represents a rule and each gene
corresponds to a database attribute, which can be
quantitative or categorical, depending on the application.
The evaluation function associates a numerical value to
the discovered rule, reflecting, therefore, the fitness
evaluation function should drive the process towards the
best association rules. The accuracy and range are
performance statistics and, in some cases, their values
stay nil during part of the evolutionary process.
Therefore, the fitness evaluation function should reward
chromosomes containing promising rules, which present
accuracy and range different of zero. Ten fitness
evaluation functions have been implemented. The genetic
operators used in this work, crossover and mutation, seek
to recombine rules´clauses in such a way to achieve rules
of more accuracy and broader range when comparing the ones
already sampled. Four splicing operators and two mutation
operators have been experimented.
The GA modeling tool implementation applied to Data Mining
called Rule Evolever, evaluated the proposed model to the
problem of register classification. The Rule Evolver
analyses the database and extracts association rules that
can better differentiate a group of registers comparing to
the overall database registers. Its main features are:
database attributes selection; attributes statistical
information; evaluation function selection among ten
implemented ones; genetic operators selection; graphical
visualization of the system performance; and rules
interpretation. A particular genetic operator is selected
at each reproduction step, according to a previously
defined rate set by the user. This rate may be kept fix or
may very along the evolutionary process. The evolutionary
process. The evaluation functions may also be changed (a
rewarding may be included) according to the rule´s range
and accuracy. The Rule Evolver implements as interface
between the database and the GA, endowing the KDD process
and the Data Mining phase with flexibility. In order to
optimise the rules´ search process and to achieve better
quality rules, some evolutionary techniques have been
implemented (linear rank and elitism), and different
random initialisation methods have been used as well;
global averag
|
26 |
[en] A GRAPH-MINING BASED METHOD FOR SEGMENTATION AND COUNTING OF LOCAL MAXIMUM CLUSTERS IN DIGITAL IMAGES / [pt] UM MÉTODO BASEADO EM MINERAÇÃO DE GRAFOS PARA SEGMENTAÇÃO E CONTAGEM DE CLUSTERS DE MÁXIMOS LOCAIS EM IMAGENS DIGITAISGEISA MARTINS FAUSTINO 19 August 2011 (has links)
[pt] Uma imagem monocromática pode ser interpretada como uma superfície topológica e desta forma objetos de interesse podem aparecer como picos (sharp mountains), domos (smooth hills) ou vales (V- or U-shaped). Um domo geralmente contém vários pontos de máximo locais em seu topo. Logo, fica bem caracterizado por um cluster de máximos locais. Segmentar individualmente objetos em imagens onde estes aparecem parcialmente sobrepostos ou fortemente agrupados é um problema que métodos clássicos de segmentação podem não solucionar adequadamente. Outro problema é contar objetos idênticos em imagens perviamente segmentada. Esta tarefa, quando executada manualmente, devido ao cansaço visual exige um grande esforço humano. É tediosa, demorada, além de gerar resultados subjetivos. O presente trabalho propõe um novo método para segmentação e contagem de clusters de máximos locais em uma imagem digital através uma abordagem baseada em grafos. Utilizando a informação de luminância, a imagem é representada por um grafo de adjacências e um algoritmo de mineração é utilizado para segmentar os clusters. Por fim, de acordo com características da imagem, um algoritmo de clusterização pode ser incorporado ao processo para melhorar o resultado final. A contagem dos objetos é um resultado direto do algoritmo de mineração e de clusterização, quando este último é aplicado. O método proposto é tolerante a variações no tamanho e forma dos objetos e é facilmente parametrizado para lidar com diferentes grupos de imagens provenientes de objetos distintos. Testes executados em uma base de dados com 262 imagens, composta de imagens de objetos reais (grupo 1) e de células tronco embrionárias em imagens de microscopia fluorescente (grupo 2), atestam a eficiência e qualidade do método desenvolvido no que diz respeito a segmentação e a contagem. Os resultados gerados para as imagens do grupo 1 foram validados pela autora e os do grupo 2 pelos biólogos do Instituto de Ciências Biomédicas da Universidade Federal do Rio de Janeiro. Para estas imagens foram obtidas uma F-measuare média de 85,33% e 90,88%, respectivamente. Por fim, um estudo comparativo com o algoritmo clássico de watershed foi realizado. Este alcançou uma F-measuare média de 74.02% e 78,28% para os grupos 1 e 2, respectivamente, contra 85,33% e 91,60% obtido pelo método proposto. / [en] A grayscale image can be viewed as a topological surface and this way, objects
of interests may appear as peaks (sharp mountains), domes (smooth hills) or
valleys (V- or U-shaped). Generally, the dome top presents more than one local
maximum. Thus, it can be characterized by a local maximum cluster. Segmenting
objects individually in images where they appear partially or totally fused is
a problem which frequently may not be solved by a watershed segmentation
or a basic morphological processing of images. Other issue is counting similar
objects in images segmented beforehand. Counting them manually is a tedious
and time-consuming task, and its subjective nature can lead to a wide variation
in the results. This work presents a new method for segmenting and counting
of local maximum clusters in digital images through a graph-based approach.
Using the luminance information, the image is represented by a region adjacency
graph and a graph-mining algorithm is applied to segment the clusters. Finally,
according to image characteristics, a graph-clustering algorithm can be added
to the process to improve the final result. The object counting step is a direct
result from the mining algorithm and the clustering algorithm, when the latter
is applied. The proposed method is tolerant to variations in object size and
shape and can easily be parameterized to handle different image groups resulting
from distinct objects. Tests made on a database with 262 images, composed of
photographs of objects (group 1) and embryonic stem cells under fluorescence
microscopy images (group 2), attest the effectiveness and quality of the proposed
method as for segmentation and counting purpose. The images form group 1
processed by our method were checked by the author and those ones from group
2 by the specialists from the Institute of Biomedical Sciences at UFRJ. For these
images we obtained an average F-measure of 85.33% and 90.88%, respectively.
Finally, a comparative study with the widely used watershed algorithm was done.
The watershed achieved an average F-measure of 74.02% e 78.28% for groups 1
and 2, respectively, against 85.33% e 91.60% obtained by our method.
|
27 |
[en] HIBRID NEURO-FUZZY-GENETIC SYSTEM FOR AUTOMATIC DATA MINING / [pt] SISTEMA HÍBRIDO NEURO-FUZZY-GENÉTICO PARA MINERAÇÃO AUTOMÁTICA DE DADOSMANOEL ROBERTO AGUIRRE DE ALMEIDA 20 August 2004 (has links)
[pt] Esta dissertação apresenta a proposta e o desenvolvimento
de um sistema
de mineração de dados inteiramente automático. O objetivo
principal é criar um
sistema que seja capaz de realizar a extração de
informações obscuras a partir
de bases de dados complexas, sem exigir a presença de um
especialista técnico
para configurá-lo. O sistema híbrido neuro-fuzzy
hierárquico com
particionamento binário (NFHB) vem apresentando excelentes
resultados em
tarefas de classificação de padrões e previsão, além de
possuir importantes
características não encontradas em outros sistemas
similares, entre elas:
aprendizado automático de sua estrutura; capacidade de
receber um número
maior de entradas abrangendo um maior número de aplicações;
e geração de
regras lingüísticas como produto de seu treinamento.
Entretanto, este modelo
ainda necessita de uma complexa parametrização inicial
antes de seu
treinamento, impedindo que o processo seja automático em
sua totalidade. O
novo modelo proposto busca otimizar a parametrização do
sistema NFHB
utilizando a técnica de coevolução genética, criando assim
um novo sistema de
mineração de dados completamente automático. O trabalho foi
realizado em
quatro partes principais: avaliação de sistemas existentes
utilizados na
mineração de dados; estudo do sistema NFHB e a determinação
de seus
principais parâmetros; desenvolvimento do sistema híbrido
neuro-fuzzy-genético
automático para mineração de dados; e o estudo de casos.
No estudo dos sistemas existentes para mineração de dados
buscou-se
encontrar algum modelo que apresentasse bons resultados e
ainda fosse
passível de automatização. Várias técnicas foram estudadas,
entre elas:
Métodos Estatísticos, Árvores de Decisão, Associação de
Regras, Algoritmos
Genéticos, Redes Neurais Artificiais, Sistemas Fuzzy e
Sistemas Neuro-Fuzzy.
O sistema NFHB foi escolhido como sistema de inferência e
extração de regras
para a realização da mineração de dados. Deste modo, este
modelo foi estudado
e seus parâmetros mais importantes foram determinados. Além
disso, técnicas
de seleção de variáveis de entradas foram investigadas para
servirem como
opções para o modelo. Ao final, foi obtido um conjunto de
parâmetros que deve
ser automaticamente determinado para a completa
configuração deste sistema. Um modelo coevolutivo genético
hierárquico foi criado para realizar com
excelência a tarefa de otimização do sistema NFHB. Desta
forma, foi modelada
uma arquitetura hierárquica de Algoritmos Genéticos (AG s),
onde os mesmos
realizam tarefas de otimização complementares. Nesta etapa,
também foram
determinados os melhores operadores genéticos, a
parametrização dos AG s, a
melhor representação dos cromossomas e as funções de
avaliação. O melhor
conjunto de parâmetros encontrado é utilizado na
configuração do NFHB,
tornando o processo inteiramente automático.
No estudo de casos, vários testes foram realizados em bases
de dados
reais e do tipo benchmark. Para problemas de previsão,
foram utilizadas séries
de carga de energia elétrica de seis empresas: Cerj, Copel,
Eletropaulo, Cemig,
Furnas e Light. Na área de classificação de padrões, foram
utilizadas bases
conhecidas de vários artigos da área como Glass Data, Wine
Data, Bupa Liver
Disorders e Pima Indian Diabetes. Após a realização dos
testes, foi feita uma
comparação com os resultados obtidos por vários algoritmos
e pelo NFHB
original, porém com parâmetros determinados por um
especialista.
Os testes mostraram que o modelo criado obteve resultados
bastante
satisfatórios, pois foi possível, com um processo
completamente automático,
obter taxas de erro semelhantes às obtidas por um
especialista, e em alguns
casos taxas menores. Desta forma, um usuário do sistema,
sem qualquer
conhecimento técnico sobre os modelos utilizados, pode
utilizá-lo para realizar mineração de banco de dados, extraindo informações e até mesmo conhecimento que podem auxiliá-lo em processos de tomada de decisão, o qual é o objetivo final de um processo de Knowledge Data Discovery. / [en] This dissertation presents the proposal and the development
of a totally
automatic data mining system. The main objective is to
create a system that is
capable of extracting obscure information from complex
databases, without
demanding the presence of a technical specialist to
configure it. The Hierarchical
Neuro-Fuzzy Binary Space Partitioning model (NFHB) has
produced excellent
results in pattern classification and time series
forecasting tasks. Additionally, it
provides important features that are not present in other
similar systems, such
as: automatic learning of its structure; ability to deal
with a larger number of input
variables, thus increasing the range of possible
applications; and generation of
linguistic rules as a result of its training process.
However, this model depends on
a complex configuration process before the training is
performed, hindering to
achieve a totally automatic system. The model proposed in
this Dissertation tries
to optimize the NFHB system parameters by using the genetic
coevolution
technique, thus creating a new automatic data mining
system. This work
consisted of four main parts: evaluation of existing
systems used in data mining;
study of the NFHB system and definition of its main
parameters; development of
the automatic hybrid neuro-fuzzy-genetic system for data
mining; and case
studies.
In the study of existing data mining systems, the aim was
to find a suitable
model that could yield good results and still be automated.
Several techniques
have been studied, among them: Statistical methods,
Decision Trees, Rules
Association, Genetic Algorithms, Artificial Neural
Networks, Fuzzy and Neuro-
Fuzzy Systems. The NFHB System was chosen for inference and
rule extraction
in the data mining process. In this way, this model was
carefully studied and its
most important parameters were determined. Moreover, input
variable selection
techniques were investigated, to be used with the proposed
model. Finally, a set
of parameters was defined, which must be determined
automatically for the
complete system configuration.
A hierarchical coevolutive genetic model was created to
execute the
system optimization task with efficiency. Therefore, a
hierarchical architecture of genetic algorithms (GAs) was
created, where the GAs execute complementary
optimization tasks. In this stage, the best genetic
operators, the GAs
configuration, the chromossomes representation, and
evaluation functions were
also determined. The best set of parameters found was used
in the NFHB
configuration, making the process entirely automatic.
In the case studies, various tests were performed with
benchmark
databases. For forecasting problems, six electric load
series were used: Cerj,
Copel, Eletropaulo, Cemig, Furnas and Light. In the pattern
classification area,
some well known databases were used, namely Glass Data,
Wine Data, Bupa
Liver Disorders and Pima Indian Diabetes. After the tests
were carried out, a
comparison was made with known models and with the original
NFHB System,
configured by a specialist.
The tests have demonstrated that the proposed model
generates
satisfactory results, producing, with an automatic process,
similar errors to the
ones obtained with a specialist configuration, and, in some
cases, even better
results can be obtained. Therefore, a user without any
technical knowledge of the
system, can use it to perform data mining, extracting
information and knowledge
that can help him/her in decision taking processes, which
is the final objective of
a Knowledge Data Discovery process.
|
28 |
[en] TEXT MINING VISUALIZATION FOR REQUIREMENTS EXTRACTION / [pt] VISUALIZAÇÃO DE TEXTO MINERADO PARA EXTRAÇÃO DE REQUISITOSADILARAIMA MARTINEZ BARRIO 19 August 2020 (has links)
[pt] Com os avanços de novas tecnologias de desenvolvimento de software, a mineração de texto tem ganho protagonismo na área de Engenharia de Requisitos (ER), já que a rede (Web) possibilita o acesso a grandes quantidades de informação. A utilização de técnicas de visualização ganha importância nesse sentido, porque permite agilizar a descoberta de conhecimento com visualizações adequadas. Neste trabalho disponibiliza-se uma estratégia para que o engenheiro de requisitos consiga acessar às visualizações desenvolvidas por pesquisas no uso de mineração para elicitação de requisitos. Uma revisão da literatura possibilitou a proposta de classificação de tarefas de mineração e visualizações associadas, especialmente na ER. Esta classificação constitui a base de conhecimento de um software (Biblioteca Digital) que organiza e filtra informações de acordo com a inter-relação entre tarefas e categorias, mostrando as pesquisas que sustentam cada relação. Para a avaliação da estratégia, com foco no software, foi executado uma avaliação que mostra o potencial da abordagem para agilizar a obtenção de conhecimentos por parte do engenheiro de requisitos. / [en] With advances in new technologies available for software development, text mining has grown in importance in the area of Requirements Engineering (ER) due to the availability of large amounts of information on the Web. The use of visualization techniques gains importance in this regard, since it allows the speedup of knowledge discovery with appropriate visualizations. This work provides a strategy for the requirements engineer to gain access, in an organized manner, to results of research in text mining with visualization in ER. For implementation, the classification of mining tasks and the visualizations categories in ER were summarized from the literature. This classification forms the knowledge base of a software (Digital Library) that organizes and filters information according to the interrelation between tasks and categories, showing the research that supports each relationship. For the evaluation of the strategy, with a focus on software, an evaluation was carried out that shows the potential of the approach to expedite the knowledge engineer s requirements.
|
29 |
[en] BINARY MATRIX FACTORIZATION POST-PROCESSING AND APPLICATIONS / [pt] PÓS-PROCESSAMENTO DE FATORAÇÃO BINÁRIA DE MATRIZES E APLICAÇÕESGEORGES MIRANDA SPYRIDES 06 February 2024 (has links)
[pt] Novos métodos de fatoração de matrizes introduzem restrições às matrizes decompostas, permitindo tipos únicos de análise. Uma modificação significativa é a fatoração de matrizes binárias para matrizes binárias. Esta técnica pode revelar subconjuntos comuns e mistura de subconjuntos, tornando-a útil em uma variedade de aplicações, como análise de cesta de mercado, modelagem de tópicos e sistemas de recomendação. Apesar das vantagens, as abordagens atuais enfrentam um trade-off entre precisão, escalabilidade e explicabilidade. Enquanto os métodos baseados em gradiente descendente são escaláveis, eles geram altos erros de reconstrução quando limitados para matrizes binárias. Por outro lado, os métodos heurísticos não são escaláveis. Para superar isso, essa tese propõe um procedimento de pós-processamento para discretizar matrizes obtidas por gradiente descendente. Esta nova abordagem recupera o erro de reconstrução após a limitação e processa com sucesso matrizes maiores dentro de um prazo razoável. Testamos esta técnica a muitas aplicações, incluindo um novo pipeline para descobrir e visualizar padrões em processos petroquímicos em batelada. / [en] Novel methods for matrix factorization introduce constraints to the
decomposed matrices, allowing for unique kinds of analysis. One significant
modification is the binary matrix factorization for binary matrices. This
technique can reveal common subsets and mixing of subsets, making it useful
in a variety of applications, such as market basket analysis, topic modeling,
and recommendation systems. Despite the advantages, current approaches face
a trade-off between accuracy, scalability, and explainability. While gradient
descent-based methods are scalable, they yield high reconstruction errors
when thresholded for binary matrices. Conversely, heuristic methods are not
scalable. To overcome this, this thesis propose a post-processing procedure
for discretizing matrices obtained by gradient descent. This novel approach
recovers the reconstruction error post-thresholding and successfully processes
larger matrices within a reasonable timeframe. We apply this technique to
many applications including a novel pipeline for discovering and visualizing
patterns in petrochemical batch processes.
|
30 |
[en] ANALYSIS OF INVESTIMENTO IN BITCOIN MINING UNDER UNCERTAIN / [pt] ANÁLISE DE INVESTIMENTO DE MINERAÇÃO DE BITCOIN SOB CONDIÇÕES DE INCERTEZAHUGO DE CARLO ROCHA FILHO 12 February 2020 (has links)
[pt] O presente trabalho se propôs a efetuar uma investigação resumida do mercado de mineração de criptomoedas no Brasil e analisar a viabilidade econômica da implantação de uma fazenda de mineração de Bitcoins em território brasileiro. O estudo foi realizado em três etapas, onde foram abordadas análises
determinísticas baseadas em possíveis cenários, observação da sensibilidade do investimento em relação as principais variáveis do problema e por último a utilização de métodos estocásticos visando estimar o risco do investimento, em razão do ambiente de incerteza. Os resultados demonstram que este é um
investimento de altíssimo risco e que não existe viabilidade econômica em minerar Bitcoin no Brasil, com cotação do abaixo de US$ 10.065. O estudo aponta o custo da energia elétrica como o mais expressivo, seguido do investimento nos equipamentos de mineração e sugere que a operação seja estabelecida em países com menor custo de eletricidade, clima mais baixo e menores taxas de importação e de imposto de renda. / [en] This work carries out a brief investigation of cryptocurrencies mining market in Brazil and to analyze the economic viability of the investment in a Bitcoin mining farm in Brazil. The study was carried out in three stages, where deterministic analyzes were based on possible scenarios, observation of the sensitivity of the investment relative to the main variables of the problem and finally the use of stochastic methods to estimate the investment risk under uncertainty. The study points to the cost of electricity as the most significant,
followed by investment in mining equipment and suggests that the operation be established in countries with lower electricity costs, lower climate and lower import and income tax rates.
|
Page generated in 0.0573 seconds