• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 39
  • 19
  • Tagged with
  • 58
  • 58
  • 57
  • 30
  • 30
  • 10
  • 9
  • 9
  • 8
  • 8
  • 7
  • 7
  • 7
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

[en] EXPLORING RDF KNOWLEDGE BASES THROUGH SERENDIPITY PATTERNS / [pt] EXPLORANDO BASES DE CONHECIMENTO EM RDF ATRAVÉS DE PADRÕES DE FORTUIDADE

JERONIMO SIROTHEAU DE ALMEIDA EICHLER 15 January 2019 (has links)
[pt] Fortuidade pode ser definida como a descoberta de algo que não está sendo buscado. Em outras palavras, fortuidade trata da descoberta de informação que provê valiosas intuições ao desvendar conhecimento inesperado. O tópico vem recebendo bastante atenção na literatura, uma vez que precisão pode ser justificadamente relaxada com o objetivo de aumentar a satisfação do usuário. Uma área que pode se beneficiar com fortuidade é a área de dados interligados, um gigantesco espaço de dados no qual dados são disponibilizados publicamente. Buscar e extrair informação relevante se torna uma tarefa desafiadora à medida que cada vez mais dados se tornam disponíveis nesse ambiente. Esta tese contribui para enfrentar este desafio de duas maneiras. Primeiro, apresenta um processo de orquestração de consulta que introduz três estratégias para injetar padrões de fortuidade no processo de consulta. Os padrões de fortuidade são inspirados em características básicas de eventos fortuitos, como analogia e perturbação, e podem ser usados para estender os resultados com informações adicionais, sugerindo consultas alternativas ou reordenando os resultados. Em segundo lugar, introduz uma base de dados que pode ser utilizada para comparar diferentes abordagens de obtenção de conteúdo fortuito. A estratégia adotada para construção dessa base de dados consiste em dividir o universo de dados em partições com base em um atributo global e conectar entidades de diferentes partições de acordo com o número de caminhos compartilhados. / [en] Serendipity is defined as the discovery of a thing when one is not searching for it. In other words, serendipity means the discovery of information that provides valuable insights by unveiling unanticipated knowledge. The topic is receiving increased attention in the literature, since the precision requirement may be justifiably relaxed in order to improve user satisfaction. A field that can benefit from serendipity is the Web of Data, an immense global data space where data is publicly available. As more and more data become available in this data space, searching and extracting relevant information becomes a challenging task. This thesis contributes to addressing this challenge in two ways. First, it presents a query orchestration process that introduces three strategies to inject serendipity patterns in the query process. The serendipity patterns are inspired by basic characteristics of serendipitous events, such as, analogy and disturbance, and can be used for augmenting the results with additional information, suggesting alternative queries or rebalancing the results. Second, it introduces a benchmark dataset that can be used to compare different approaches for locating serendipitous content. The strategy adopted for constructing the dataset consists of dividing the dataset into partitions based on a global feature and linking entities from different partitions according to the number of paths they share.
22

[en] APPLYING PROCESS MINING TO THE ACADEMIC ADMINISTRATION DOMAIN / [pt] APLICAÇÃO DE MINERAÇÃO DE PROCESSOS AO DOMÍNIO ACADÊMICO ADMINISTRATIVO

HAYDÉE GUILLOT JIMÉNEZ 12 December 2017 (has links)
[pt] As instituições de ensino superior mantêm uma quantidade considerável de dados que incluem tanto os registros dos alunos como a estrutura dos currículos dos cursos de graduação. Este trabalho, adotando uma abordagem de mineração de processos, centra-se no problema de identificar quão próximo os alunos seguem a ordem recomendada das disciplinas em um currículo de graduação, e até que ponto o desempenho de cada aluno é afetado pela ordem que eles realmente adotam. O problema é abordado aplicando-se duas técnicas já existentes aos registros dos alunos: descoberta de processos e verificação de conformidade; e frequência de conjuntos de itens. Finalmente, a dissertação cobre experimentos realizados aplicando-se essas técnicas a um estudo de caso com mais de 60.000 registros de alunos da PUC-Rio. Os experimentos indicam que a técnica de frequência de conjuntos de itens produz melhores resultados do que as técnicas de descoberta de processos e verificação de conformidade. E confirmam igualmente a relevância de análises baseadas na abordagem de mineração de processos para ajudar coordenadores acadêmicos na busca de melhores currículos universitários. / [en] Higher Education Institutions keep a sizable amount of data, including student records and the structure of degree curricula. This work, adopting a process mining approach, focuses on the problem of identifying how closely students follow the recommended order of the courses in a degree curriculum, and to what extent their performance is affected by the order they actually adopt. It addresses this problem by applying to student records two already existing techniques: process discovery and conformance checking, and frequent itemsets. Finally, the dissertation covers experiments performed by applying these techniques to a case study involving over 60,000 student records from PUC-Rio. The experiments show that the frequent itemsets technique performs better than the process discovery and conformance checking techniques. They equally confirm the relevance of analyses based on the process mining approach to help academic coordinators in their quest for better degree curricula.
23

[en] A MULTI-AGENT APPROACH TO DATA MINING PROCESSES: APPLICATIONS TO HEALTH CARE / [pt] UMA ABORDAGEM MULTIAGENTE PARA PROCESSOS DE MINERAÇÃO DE DADOS: APLICAÇÕES NA ÁREA DA SAÚDE

REINIER MOREJON NOVALES 02 August 2018 (has links)
[pt] A mineração de dados é um tema em alta que atrai pesquisadores de diferentes áreas, como bancos de dados, aprendizado de máquina e sistemas multiagentes. Como consequência do crescimento do volume de dados, há uma necessidade crescente de obter conhecimento desses grandes conjuntos de dados que são muito difíceis de manipular e processar com os métodos tradicionais. Os agentes de software podem desempenhar um papel significativo ao executar processos de mineração de dados de maneira mais eficiente. Por exemplo, eles podem trabalhar para realizar seleção, extração, pré-processamento e integração de dados, bem como mineração paralela, distribuída ou de múltiplas fontes. Este trabalho propõe uma abordagem (na forma de um framework) que usa agentes de software para gerenciar processos de mineração de dados. Para testar sua aplicabilidade, utilizamos vários conjuntos de dados relacionados ao domínio de saúde, representando alguns cenários de uso (hipotireoidismo, diabetes e arritmia). / [en] Data mining is a hot topic that attracts researchers from different areas, such as databases, machine learning, and multi-agent systems. As a consequence of the growth of data volume, there is a growing need to obtain knowledge from these large data sets that are very difficult to handle and process with traditional methods. Software agents can play a significant role performing data mining processes in ways that are more efficient. For instance, they can work to perform selection, extraction, preprocessing and integration of data as well as parallel, distributed, or multisource mining. This work proposes an approach (in the form of a framework) that uses software agents to manage data mining processes. In order to test its applicability, we use several data sets related to health care domain representing some usage scenarios (hypothyroidism, diabetes and arrhythmia).
24

[en] DEVELOPMENT OF LEARNING OBJECTS DIGITAL LIBRARIES USING DATA WAREHOUSING AND DATA MINING TECHNIQUES / [pt] DESENVOLVIMENTO DE BIBLIOTECAS DIGITAIS DE LEARNING OBJECTS UTILIZANDO TÉCNICAS DE DATA WAREHOUSING E DATA MINING

CASSIA BLONDET BARUQUE 01 February 2006 (has links)
[pt] Este trabalho objetiva o desenvolvimento de Bibliotecas Digitais de Learning Objects (LO-DLs), usando técnicas de Data Warehousing (DWing) e Data Mining (DMing). Através da abordagem de Data Warehousing pode-se correlacionar os passos principais desta técnica, que são Extração, Transformação, Carga e OLAP, com os principais serviços de Bibliotecas Tradicionais, que são Aquisição, Classificação por Assunto, Catalogação e Consulta/Análise, de forma que eles sejam processados automaticamente. Técnicas de Data Mining são incorporadas a alguns desses processos automatizando o desenvolvimento da biblioteca. Além de integrar múltiplas fontes de LOs, que estão armazenadas em diferentes SGBDs (Sistemas de Gerência de Banco de Dados) e catalogadas através de diferentes padrões de metadados, esta abordagem contribui para prover o usuário de uma maneira mais sofisticada de consulta ao acervo, mais abrangente que as usuais opções por título, autor e assunto, já que OLAP propicia acesso multidiimensional. Além disso, também contribui para melhorar a qualidade da biblioteca, uma vez que as técnicas OLAP e de Data Mining são usadas para analisar os LOs e os acessos aos mesmos. Uma atualização automática da biblioteca acontece quando há mudança no perfil do usuário. / [en] This work aims at the development of Learning Objects Digital Libraries (LO-DLs), using Data Warehousing (DWing) and Data Mining (DMining) techniques. By using the Data Warehousing approach, we will be able to correlate the main steps of this technique, which area Extraction, Transformation, Loading and OLAP, with the main services of a Traditional Library which are Acquisition, Subject Classification, Cataloging, and Searching, so that they will work in an automatic way. Data Mining techniques are incorporated in some of these processes automating the process of the development of the library. Besides integrating multiple LOs sources, which are stored in diverse DBMSs (Data Base Management Systems) and catalogued in different metadata languages, this approach contributes to providing the user with a sophisticated query to the library that is more comprehensive than the usual author, subject or title options, since OLAP allows multidimensional access. Furthermore it also contributes to the improvement of the library, since OLAP and data mining techniques are used to analyze LOs data and the access to them. An automatic refresh of the library is made when users´ profile changes.
25

[en] CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS / [pt] CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOS

CARLOS HENRIQUE PEREIRA LOPES 19 October 2005 (has links)
[pt] Esta dissertação investiga a utilização de Algoritmos Genéticos (AG) no processo de descoberta de conhecimento implícito em Banco de Dados (KDD - Knowledge Discovery Database). O objetivo do trabalho foi avaliar o desempenho de Algoritmos Genéticos no processo de classificação de registros em Bancos de Dados (BD). O processo de classificação no contexto de Algoritmos Genéticos consiste na evolução de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros do BD. O trabalho consistiu de 4 etapas principais: um estudo sobre a área de Knowledge Discovery Database (KDD); a definição de um modelo de AG aplicado à Mineração de Dados (Data Mining); a implementação de uma ferramenta (Rule-Evolver) de Mineração de Dados; e o estudo de casos. O estudo sobre a área de KDD envolveu todo o processo de descoberta de conhecimento útil em banco de dados: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados e a interpretação dos resultados. Em particular, o estudo destacou a fase de Mineração de Dados e os algoritmos e técnicas empregadas (Redes Neurais, Indução de regras, Modelos Estatísticos e Algoritmos Genéticos). Deste estudo resultou um survey sobre os principais projetos de pesquisa na área. A modelagem do Algoritmo Genético consistiu fundamentalmente na definição de uma representação dos cromossomas, da função de avaliação e dos operadores genéticos. Em mineração de dados por regras de associação é necessário considerar-se atributos quantitativos e categóricos. Atributos quantitativos representam variáveis contínuas (faixa de valores) e atributos categóricos variáveis discretas. Na representação definida, cada cromossoma representa uma regra e cada gene corresponde a um atributo do BD, que pode ser quantitativo ou categórico conforme a aplicação. A função de avaliação associa um valor numérico à regra encontrada, refletindo assim uma medida da qualidade desta solução. A Mineração de Dados por AG é um problema de otimização onde a função de avaliação deve apontar para as melhores regras de associação. A acurácia e a abrangência são medidas de desempenho e, em alguns casos, se mantém nulas durante parte da evolução. Assim, a função de avaliação deve ser uma medida que destaca cromossomas contendo regras promissoras em apresentar acurácia e abrangência diferentes de zero. Foram implementadas 10 funções de avaliação. Os operadores genéticos utilizados (crossover e mutação) buscam recombinar as cláusulas das regras, de modo a procurar obter novas regras com maior acurácia e abrangência dentre as já encontradas. Foram implementados e testados 4 operadores de cruzamento e 2 de mutação. A implementação de uma ferramenta de modelagem de AG aplicada à Mineração de Dados, denominada Rule-Evolver, avaliou o modelo proposto para o problema de classificação de registros. O Rule-Evolver analisa um Banco de Dados e extrai as regras de associação que melhor diferenciem um grupo de registros em relação a todos os registros do Banco de Dados. Suas características principais são: seleção de atributos do BD; informações estatísticas dos atributos; escolha de uma função de avaliação entre as 10 implementadas; escolha dos operadores genéticos; visualização gráfica de desempenho do sistema; e interpretação de regras. Um operador genético é escolhido a cada reprodução em função de uma taxa preestabelecida pelo usuário. Esta taxa pode permanecer fixa ou variar durante o processo evolutivo. As funções de avaliação também podem ser alteradas (acrescidas de uma recompensa) em função da abrangência e da acurácia da regra. O Rule- Evolver possui uma interface entre o BD e o AG, necessária para tor / [en] This dissertation investigates the application of Genetic Algorithms (GAs) to the process of implicit knowledge discovery over databases (KDD - Knowledge Discovery Database). The objective of the work has been the assessment of the Genetic Algorithms (GA) performance in the classification process of database registers. In the context of Genetic Algorithms, this classification process consists in the evolution of association rules that characterise, through its accuracy and range, a particular group of database registers. This work has encompassed four main steps: a study over the area of Knowledge Discovery Databases; the GA model definition applied to Data Mining; the implementation of the Data Mining Rule Evolver; and the case studies. The study over the KDD area included the overall process of useful knowledge discovery; the problem definition; data organisation; data pre-processing; data encoding; data improvement; data mining; and results´ interpretation. Particularly, the investigation emphasied the data mining procedure, techniques and algorithms (neural Networks, rule Induction, Statistics Models and Genetic Algorithms). A survey over the mais research projects in this area was developed from this work. The Genetic Algorithm modelling encompassed fundamentally, the definition of the chromosome representation, the fitness evaluation function and the genetic operators. Quantitative and categorical attributes must be taken into account within data mining through association rules. Quantitative attribites represent continuous variables (range of values), whereas categorical attributes are discrete variable. In the representation employed in this work, each chromosome represents a rule and each gene corresponds to a database attribute, which can be quantitative or categorical, depending on the application. The evaluation function associates a numerical value to the discovered rule, reflecting, therefore, the fitness evaluation function should drive the process towards the best association rules. The accuracy and range are performance statistics and, in some cases, their values stay nil during part of the evolutionary process. Therefore, the fitness evaluation function should reward chromosomes containing promising rules, which present accuracy and range different of zero. Ten fitness evaluation functions have been implemented. The genetic operators used in this work, crossover and mutation, seek to recombine rules´clauses in such a way to achieve rules of more accuracy and broader range when comparing the ones already sampled. Four splicing operators and two mutation operators have been experimented. The GA modeling tool implementation applied to Data Mining called Rule Evolever, evaluated the proposed model to the problem of register classification. The Rule Evolver analyses the database and extracts association rules that can better differentiate a group of registers comparing to the overall database registers. Its main features are: database attributes selection; attributes statistical information; evaluation function selection among ten implemented ones; genetic operators selection; graphical visualization of the system performance; and rules interpretation. A particular genetic operator is selected at each reproduction step, according to a previously defined rate set by the user. This rate may be kept fix or may very along the evolutionary process. The evolutionary process. The evaluation functions may also be changed (a rewarding may be included) according to the rule´s range and accuracy. The Rule Evolver implements as interface between the database and the GA, endowing the KDD process and the Data Mining phase with flexibility. In order to optimise the rules´ search process and to achieve better quality rules, some evolutionary techniques have been implemented (linear rank and elitism), and different random initialisation methods have been used as well; global averag
26

[en] A GRAPH-MINING BASED METHOD FOR SEGMENTATION AND COUNTING OF LOCAL MAXIMUM CLUSTERS IN DIGITAL IMAGES / [pt] UM MÉTODO BASEADO EM MINERAÇÃO DE GRAFOS PARA SEGMENTAÇÃO E CONTAGEM DE CLUSTERS DE MÁXIMOS LOCAIS EM IMAGENS DIGITAIS

GEISA MARTINS FAUSTINO 19 August 2011 (has links)
[pt] Uma imagem monocromática pode ser interpretada como uma superfície topológica e desta forma objetos de interesse podem aparecer como picos (sharp mountains), domos (smooth hills) ou vales (V- or U-shaped). Um domo geralmente contém vários pontos de máximo locais em seu topo. Logo, fica bem caracterizado por um cluster de máximos locais. Segmentar individualmente objetos em imagens onde estes aparecem parcialmente sobrepostos ou fortemente agrupados é um problema que métodos clássicos de segmentação podem não solucionar adequadamente. Outro problema é contar objetos idênticos em imagens perviamente segmentada. Esta tarefa, quando executada manualmente, devido ao cansaço visual exige um grande esforço humano. É tediosa, demorada, além de gerar resultados subjetivos. O presente trabalho propõe um novo método para segmentação e contagem de clusters de máximos locais em uma imagem digital através uma abordagem baseada em grafos. Utilizando a informação de luminância, a imagem é representada por um grafo de adjacências e um algoritmo de mineração é utilizado para segmentar os clusters. Por fim, de acordo com características da imagem, um algoritmo de clusterização pode ser incorporado ao processo para melhorar o resultado final. A contagem dos objetos é um resultado direto do algoritmo de mineração e de clusterização, quando este último é aplicado. O método proposto é tolerante a variações no tamanho e forma dos objetos e é facilmente parametrizado para lidar com diferentes grupos de imagens provenientes de objetos distintos. Testes executados em uma base de dados com 262 imagens, composta de imagens de objetos reais (grupo 1) e de células tronco embrionárias em imagens de microscopia fluorescente (grupo 2), atestam a eficiência e qualidade do método desenvolvido no que diz respeito a segmentação e a contagem. Os resultados gerados para as imagens do grupo 1 foram validados pela autora e os do grupo 2 pelos biólogos do Instituto de Ciências Biomédicas da Universidade Federal do Rio de Janeiro. Para estas imagens foram obtidas uma F-measuare média de 85,33% e 90,88%, respectivamente. Por fim, um estudo comparativo com o algoritmo clássico de watershed foi realizado. Este alcançou uma F-measuare média de 74.02% e 78,28% para os grupos 1 e 2, respectivamente, contra 85,33% e 91,60% obtido pelo método proposto. / [en] A grayscale image can be viewed as a topological surface and this way, objects of interests may appear as peaks (sharp mountains), domes (smooth hills) or valleys (V- or U-shaped). Generally, the dome top presents more than one local maximum. Thus, it can be characterized by a local maximum cluster. Segmenting objects individually in images where they appear partially or totally fused is a problem which frequently may not be solved by a watershed segmentation or a basic morphological processing of images. Other issue is counting similar objects in images segmented beforehand. Counting them manually is a tedious and time-consuming task, and its subjective nature can lead to a wide variation in the results. This work presents a new method for segmenting and counting of local maximum clusters in digital images through a graph-based approach. Using the luminance information, the image is represented by a region adjacency graph and a graph-mining algorithm is applied to segment the clusters. Finally, according to image characteristics, a graph-clustering algorithm can be added to the process to improve the final result. The object counting step is a direct result from the mining algorithm and the clustering algorithm, when the latter is applied. The proposed method is tolerant to variations in object size and shape and can easily be parameterized to handle different image groups resulting from distinct objects. Tests made on a database with 262 images, composed of photographs of objects (group 1) and embryonic stem cells under fluorescence microscopy images (group 2), attest the effectiveness and quality of the proposed method as for segmentation and counting purpose. The images form group 1 processed by our method were checked by the author and those ones from group 2 by the specialists from the Institute of Biomedical Sciences at UFRJ. For these images we obtained an average F-measure of 85.33% and 90.88%, respectively. Finally, a comparative study with the widely used watershed algorithm was done. The watershed achieved an average F-measure of 74.02% e 78.28% for groups 1 and 2, respectively, against 85.33% e 91.60% obtained by our method.
27

[en] HIBRID NEURO-FUZZY-GENETIC SYSTEM FOR AUTOMATIC DATA MINING / [pt] SISTEMA HÍBRIDO NEURO-FUZZY-GENÉTICO PARA MINERAÇÃO AUTOMÁTICA DE DADOS

MANOEL ROBERTO AGUIRRE DE ALMEIDA 20 August 2004 (has links)
[pt] Esta dissertação apresenta a proposta e o desenvolvimento de um sistema de mineração de dados inteiramente automático. O objetivo principal é criar um sistema que seja capaz de realizar a extração de informações obscuras a partir de bases de dados complexas, sem exigir a presença de um especialista técnico para configurá-lo. O sistema híbrido neuro-fuzzy hierárquico com particionamento binário (NFHB) vem apresentando excelentes resultados em tarefas de classificação de padrões e previsão, além de possuir importantes características não encontradas em outros sistemas similares, entre elas: aprendizado automático de sua estrutura; capacidade de receber um número maior de entradas abrangendo um maior número de aplicações; e geração de regras lingüísticas como produto de seu treinamento. Entretanto, este modelo ainda necessita de uma complexa parametrização inicial antes de seu treinamento, impedindo que o processo seja automático em sua totalidade. O novo modelo proposto busca otimizar a parametrização do sistema NFHB utilizando a técnica de coevolução genética, criando assim um novo sistema de mineração de dados completamente automático. O trabalho foi realizado em quatro partes principais: avaliação de sistemas existentes utilizados na mineração de dados; estudo do sistema NFHB e a determinação de seus principais parâmetros; desenvolvimento do sistema híbrido neuro-fuzzy-genético automático para mineração de dados; e o estudo de casos. No estudo dos sistemas existentes para mineração de dados buscou-se encontrar algum modelo que apresentasse bons resultados e ainda fosse passível de automatização. Várias técnicas foram estudadas, entre elas: Métodos Estatísticos, Árvores de Decisão, Associação de Regras, Algoritmos Genéticos, Redes Neurais Artificiais, Sistemas Fuzzy e Sistemas Neuro-Fuzzy. O sistema NFHB foi escolhido como sistema de inferência e extração de regras para a realização da mineração de dados. Deste modo, este modelo foi estudado e seus parâmetros mais importantes foram determinados. Além disso, técnicas de seleção de variáveis de entradas foram investigadas para servirem como opções para o modelo. Ao final, foi obtido um conjunto de parâmetros que deve ser automaticamente determinado para a completa configuração deste sistema. Um modelo coevolutivo genético hierárquico foi criado para realizar com excelência a tarefa de otimização do sistema NFHB. Desta forma, foi modelada uma arquitetura hierárquica de Algoritmos Genéticos (AG s), onde os mesmos realizam tarefas de otimização complementares. Nesta etapa, também foram determinados os melhores operadores genéticos, a parametrização dos AG s, a melhor representação dos cromossomas e as funções de avaliação. O melhor conjunto de parâmetros encontrado é utilizado na configuração do NFHB, tornando o processo inteiramente automático. No estudo de casos, vários testes foram realizados em bases de dados reais e do tipo benchmark. Para problemas de previsão, foram utilizadas séries de carga de energia elétrica de seis empresas: Cerj, Copel, Eletropaulo, Cemig, Furnas e Light. Na área de classificação de padrões, foram utilizadas bases conhecidas de vários artigos da área como Glass Data, Wine Data, Bupa Liver Disorders e Pima Indian Diabetes. Após a realização dos testes, foi feita uma comparação com os resultados obtidos por vários algoritmos e pelo NFHB original, porém com parâmetros determinados por um especialista. Os testes mostraram que o modelo criado obteve resultados bastante satisfatórios, pois foi possível, com um processo completamente automático, obter taxas de erro semelhantes às obtidas por um especialista, e em alguns casos taxas menores. Desta forma, um usuário do sistema, sem qualquer conhecimento técnico sobre os modelos utilizados, pode utilizá-lo para realizar mineração de banco de dados, extraindo informações e até mesmo conhecimento que podem auxiliá-lo em processos de tomada de decisão, o qual é o objetivo final de um processo de Knowledge Data Discovery. / [en] This dissertation presents the proposal and the development of a totally automatic data mining system. The main objective is to create a system that is capable of extracting obscure information from complex databases, without demanding the presence of a technical specialist to configure it. The Hierarchical Neuro-Fuzzy Binary Space Partitioning model (NFHB) has produced excellent results in pattern classification and time series forecasting tasks. Additionally, it provides important features that are not present in other similar systems, such as: automatic learning of its structure; ability to deal with a larger number of input variables, thus increasing the range of possible applications; and generation of linguistic rules as a result of its training process. However, this model depends on a complex configuration process before the training is performed, hindering to achieve a totally automatic system. The model proposed in this Dissertation tries to optimize the NFHB system parameters by using the genetic coevolution technique, thus creating a new automatic data mining system. This work consisted of four main parts: evaluation of existing systems used in data mining; study of the NFHB system and definition of its main parameters; development of the automatic hybrid neuro-fuzzy-genetic system for data mining; and case studies. In the study of existing data mining systems, the aim was to find a suitable model that could yield good results and still be automated. Several techniques have been studied, among them: Statistical methods, Decision Trees, Rules Association, Genetic Algorithms, Artificial Neural Networks, Fuzzy and Neuro- Fuzzy Systems. The NFHB System was chosen for inference and rule extraction in the data mining process. In this way, this model was carefully studied and its most important parameters were determined. Moreover, input variable selection techniques were investigated, to be used with the proposed model. Finally, a set of parameters was defined, which must be determined automatically for the complete system configuration. A hierarchical coevolutive genetic model was created to execute the system optimization task with efficiency. Therefore, a hierarchical architecture of genetic algorithms (GAs) was created, where the GAs execute complementary optimization tasks. In this stage, the best genetic operators, the GAs configuration, the chromossomes representation, and evaluation functions were also determined. The best set of parameters found was used in the NFHB configuration, making the process entirely automatic. In the case studies, various tests were performed with benchmark databases. For forecasting problems, six electric load series were used: Cerj, Copel, Eletropaulo, Cemig, Furnas and Light. In the pattern classification area, some well known databases were used, namely Glass Data, Wine Data, Bupa Liver Disorders and Pima Indian Diabetes. After the tests were carried out, a comparison was made with known models and with the original NFHB System, configured by a specialist. The tests have demonstrated that the proposed model generates satisfactory results, producing, with an automatic process, similar errors to the ones obtained with a specialist configuration, and, in some cases, even better results can be obtained. Therefore, a user without any technical knowledge of the system, can use it to perform data mining, extracting information and knowledge that can help him/her in decision taking processes, which is the final objective of a Knowledge Data Discovery process.
28

[en] TEXT MINING VISUALIZATION FOR REQUIREMENTS EXTRACTION / [pt] VISUALIZAÇÃO DE TEXTO MINERADO PARA EXTRAÇÃO DE REQUISITOS

ADILARAIMA MARTINEZ BARRIO 19 August 2020 (has links)
[pt] Com os avanços de novas tecnologias de desenvolvimento de software, a mineração de texto tem ganho protagonismo na área de Engenharia de Requisitos (ER), já que a rede (Web) possibilita o acesso a grandes quantidades de informação. A utilização de técnicas de visualização ganha importância nesse sentido, porque permite agilizar a descoberta de conhecimento com visualizações adequadas. Neste trabalho disponibiliza-se uma estratégia para que o engenheiro de requisitos consiga acessar às visualizações desenvolvidas por pesquisas no uso de mineração para elicitação de requisitos. Uma revisão da literatura possibilitou a proposta de classificação de tarefas de mineração e visualizações associadas, especialmente na ER. Esta classificação constitui a base de conhecimento de um software (Biblioteca Digital) que organiza e filtra informações de acordo com a inter-relação entre tarefas e categorias, mostrando as pesquisas que sustentam cada relação. Para a avaliação da estratégia, com foco no software, foi executado uma avaliação que mostra o potencial da abordagem para agilizar a obtenção de conhecimentos por parte do engenheiro de requisitos. / [en] With advances in new technologies available for software development, text mining has grown in importance in the area of Requirements Engineering (ER) due to the availability of large amounts of information on the Web. The use of visualization techniques gains importance in this regard, since it allows the speedup of knowledge discovery with appropriate visualizations. This work provides a strategy for the requirements engineer to gain access, in an organized manner, to results of research in text mining with visualization in ER. For implementation, the classification of mining tasks and the visualizations categories in ER were summarized from the literature. This classification forms the knowledge base of a software (Digital Library) that organizes and filters information according to the interrelation between tasks and categories, showing the research that supports each relationship. For the evaluation of the strategy, with a focus on software, an evaluation was carried out that shows the potential of the approach to expedite the knowledge engineer s requirements.
29

[en] BINARY MATRIX FACTORIZATION POST-PROCESSING AND APPLICATIONS / [pt] PÓS-PROCESSAMENTO DE FATORAÇÃO BINÁRIA DE MATRIZES E APLICAÇÕES

GEORGES MIRANDA SPYRIDES 06 February 2024 (has links)
[pt] Novos métodos de fatoração de matrizes introduzem restrições às matrizes decompostas, permitindo tipos únicos de análise. Uma modificação significativa é a fatoração de matrizes binárias para matrizes binárias. Esta técnica pode revelar subconjuntos comuns e mistura de subconjuntos, tornando-a útil em uma variedade de aplicações, como análise de cesta de mercado, modelagem de tópicos e sistemas de recomendação. Apesar das vantagens, as abordagens atuais enfrentam um trade-off entre precisão, escalabilidade e explicabilidade. Enquanto os métodos baseados em gradiente descendente são escaláveis, eles geram altos erros de reconstrução quando limitados para matrizes binárias. Por outro lado, os métodos heurísticos não são escaláveis. Para superar isso, essa tese propõe um procedimento de pós-processamento para discretizar matrizes obtidas por gradiente descendente. Esta nova abordagem recupera o erro de reconstrução após a limitação e processa com sucesso matrizes maiores dentro de um prazo razoável. Testamos esta técnica a muitas aplicações, incluindo um novo pipeline para descobrir e visualizar padrões em processos petroquímicos em batelada. / [en] Novel methods for matrix factorization introduce constraints to the decomposed matrices, allowing for unique kinds of analysis. One significant modification is the binary matrix factorization for binary matrices. This technique can reveal common subsets and mixing of subsets, making it useful in a variety of applications, such as market basket analysis, topic modeling, and recommendation systems. Despite the advantages, current approaches face a trade-off between accuracy, scalability, and explainability. While gradient descent-based methods are scalable, they yield high reconstruction errors when thresholded for binary matrices. Conversely, heuristic methods are not scalable. To overcome this, this thesis propose a post-processing procedure for discretizing matrices obtained by gradient descent. This novel approach recovers the reconstruction error post-thresholding and successfully processes larger matrices within a reasonable timeframe. We apply this technique to many applications including a novel pipeline for discovering and visualizing patterns in petrochemical batch processes.
30

[en] ANALYSIS OF INVESTIMENTO IN BITCOIN MINING UNDER UNCERTAIN / [pt] ANÁLISE DE INVESTIMENTO DE MINERAÇÃO DE BITCOIN SOB CONDIÇÕES DE INCERTEZA

HUGO DE CARLO ROCHA FILHO 12 February 2020 (has links)
[pt] O presente trabalho se propôs a efetuar uma investigação resumida do mercado de mineração de criptomoedas no Brasil e analisar a viabilidade econômica da implantação de uma fazenda de mineração de Bitcoins em território brasileiro. O estudo foi realizado em três etapas, onde foram abordadas análises determinísticas baseadas em possíveis cenários, observação da sensibilidade do investimento em relação as principais variáveis do problema e por último a utilização de métodos estocásticos visando estimar o risco do investimento, em razão do ambiente de incerteza. Os resultados demonstram que este é um investimento de altíssimo risco e que não existe viabilidade econômica em minerar Bitcoin no Brasil, com cotação do abaixo de US$ 10.065. O estudo aponta o custo da energia elétrica como o mais expressivo, seguido do investimento nos equipamentos de mineração e sugere que a operação seja estabelecida em países com menor custo de eletricidade, clima mais baixo e menores taxas de importação e de imposto de renda. / [en] This work carries out a brief investigation of cryptocurrencies mining market in Brazil and to analyze the economic viability of the investment in a Bitcoin mining farm in Brazil. The study was carried out in three stages, where deterministic analyzes were based on possible scenarios, observation of the sensitivity of the investment relative to the main variables of the problem and finally the use of stochastic methods to estimate the investment risk under uncertainty. The study points to the cost of electricity as the most significant, followed by investment in mining equipment and suggests that the operation be established in countries with lower electricity costs, lower climate and lower import and income tax rates.

Page generated in 0.0573 seconds