Global ETD Search

1	Descoberta automatizada de associações com o uso de algoritmo Apriori como técnica de mineração de dados / Automatic discovery of associations by Apriori data mining technique ALMEIDA, Derciley Cunha de 25 February 2011 (has links) Made available in DSpace on 2014-07-29T15:08:17Z (GMT). No. of bitstreams: 1 Dissertacao Derciley Cunha de Almeida.pdf: 2389648 bytes, checksum: c4c207dc1855a4a0e99ee3eeed7c28b9 (MD5) Previous issue date: 2011-02-25 / Nowadays, the use of modern information systems allows the storage and management of increasingly large amounts of data. On the other hand, the full analysis and the maximum extraction of useful information from this universe of available data present considerable challenges in view of inherent human limitations. This dissertation deals with the subject of data mining, which is the use of technology resources in order to extract information from databases in an automated way. One of the possibilities offered by data mining technologies is the automated search for possible associations within data. Information about such associations can be useful for understanding cause and effect relationships between the involved variables in data analysis for decision making. There are several data mining techniques and many of them can be used for discovering associations. The main goal of this work is to study a particular method for automated search of associations called Apriori , evaluating its capabilities and outcomes. The study focuses on the problem of improving the Apriori algorithm results, taking into consideration that the results of the data mining process might be improved if the data are prepared specifically for Apriori application. The conclusions are drawn from a case study in which the Apriori algorithm was applied to a database with information on drug distribution at a health institute. The results of two experiments are considered in order to evaluate the influence of data preprocessing on the Apriori algorithm's performance. It was found that the Apriori algorithm yields satisfactory results on the discovery of association in data; however, for best results, it is advisable that the data be prepared in advance, specifically for the Apriori application, otherwise many associations in the database might be left undiscovered. / Atualmente é possível o armazenamento e o gerenciamento de grandes quantidades de dados, através de modernos sistemas informatizados. Por outro lado, a análise completa e a extração do máximo de informações desse universo de dados disponíveis passaram a ser um grande desafio, diante das limitações próprias de um ser humano. Essa dissertação aborda o tema mineração de dados, também muito conhecido pelo termo em inglês data mining. Trata-se da extração de informações de bases de dados de forma automatizada, com o uso de recursos tecnológicos. Uma das possibilidades que as tecnologias de data mining oferecem é a busca automatizada de possíveis associações existentes entre dados. As informações sobre associações entre dados podem ser muito úteis para se compreender possíveis relações de causa e efeito entre muitas variáveis envolvidas em estudos e análises de dados para tomada de decisões. Há várias técnicas de mineração de dados e muitas podem ser utilizadas para descoberta de associações. O principal objetivo deste trabalho é estudar mais especificamente o método de busca automatizada de associações conhecido como Apriori de forma a avaliar sua sistemática, capacidade e resultados. O estudo é direcionado por um problema que está relacionado à busca pelo aprimoramento dos resultados gerados pelo algoritmo Apriori sob a premissa de que uma preparação de dados específica e direcionada para o uso do algoritmo pode aprimorar os resultados do processo de mineração de dados. As conclusões são extraídas de um estudo de caso sobre a aplicação do algoritmo Apriori em uma base de dados com informações sobre fornecimento de medicamentos de uma unidade de saúde. São avaliados e comparados os resultados de três experimentos para se verificar a influência de uma preparação de dados no desempenho do algoritmo. Ficou evidenciado que o algoritmo Apriori alcança resultados satisfatórios na tarefa de busca por associações entre dados, no entanto, é recomendável uma preparação específica desses dados para que a aplicação do algoritmo alcance melhores resultados ou muitas associações existentes podem não ser encontradas. Mineração de dados Descoberta de associações Apriori Banco de dados WEKA Data mining Association discovery Apriori Databases WEKA CNPQ::ENGENHARIAS
2	Structure learning of Bayesian networks via data perturbation / Aprendizagem estrutural de Redes Bayesianas via perturbação de dados Gross, Tadeu Junior 29 November 2018 (has links) Structure learning of Bayesian Networks (BNs) is an NP-hard problem, and the use of sub-optimal strategies is essential in domains involving many variables. One of them is to generate multiple approximate structures and then to reduce the ensemble to a representative structure. It is possible to use the occurrence frequency (on the structures ensemble) as the criteria for accepting a dominant directed edge between two nodes and thus obtaining the single structure. In this doctoral research, it was made an analogy with an adapted one-dimensional random-walk for analytically deducing an appropriate decision threshold to such occurrence frequency. The obtained closed-form expression has been validated across benchmark datasets applying the Matthews Correlation Coefficient as the performance metric. In the experiments using a recent medical dataset, the BN resulting from the analytical cutoff-frequency captured the expected associations among nodes and also achieved better prediction performance than the BNs learned with neighbours thresholds to the computed. In literature, the feature accounted along of the perturbed structures has been the edges and not the directed edges (arcs) as in this thesis. That modified strategy still was applied to an elderly dataset to identify potential relationships between variables of medical interest but using an increased threshold instead of the predict by the proposed formula - such prudence is due to the possible social implications of the finding. The motivation behind such an application is that in spite of the proportion of elderly individuals in the population has increased substantially in the last few decades, the risk factors that should be managed in advance to ensure a natural process of mental decline due to ageing remain unknown. In the learned structural model, it was graphically investigated the probabilistic dependence mechanism between two variables of medical interest: the suspected risk factor known as Metabolic Syndrome and the indicator of mental decline referred to as Cognitive Impairment. In this investigation, the concept known in the context of BNs as D-separation has been employed. Results of the carried out study revealed that the dependence between Metabolic Syndrome and Cognitive Variables indeed exists and depends on both Body Mass Index and age. / O aprendizado da estrutura de uma Rede Bayesiana (BN) é um problema NP-difícil, e o uso de estratégias sub-ótimas é essencial em domínios que envolvem muitas variáveis. Uma delas consiste em gerar várias estruturas aproximadas e depois reduzir o conjunto a uma estrutura representativa. É possível usar a frequência de ocorrência (no conjunto de estruturas) como critério para aceitar um arco dominante entre dois nós e assim obter essa estrutura única. Nesta pesquisa de doutorado, foi feita uma analogia com um passeio aleatório unidimensional adaptado para deduzir analiticamente um limiar de decisão apropriado para essa frequência de ocorrência. A expressão de forma fechada obtida foi validada usando bases de dados de referência e aplicando o Coeficiente de Correlação de Matthews como métrica de desempenho. Nos experimentos utilizando dados médicos recentes, a BN resultante da frequência de corte analítica capturou as associações esperadas entre os nós e também obteve melhor desempenho de predição do que as BNs aprendidas com limiares vizinhos ao calculado. Na literatura, a característica contabilizada ao longo das estruturas perturbadas tem sido as arestas e não as arestas direcionadas (arcos) como nesta tese. Essa estratégia modificada ainda foi aplicada a um conjunto de dados de idosos para identificar potenciais relações entre variáveis de interesse médico, mas usando um limiar aumentado em vez do previsto pela fórmula proposta - essa cautela deve-se às possíveis implicações sociais do achado. A motivação por trás dessa aplicação é que, apesar da proporção de idosos na população ter aumentado substancialmente nas últimas décadas, os fatores de risco que devem ser controlados com antecedência para garantir um processo natural de declínio mental devido ao envelhecimento permanecem desconhecidos. No modelo estrutural aprendido, investigou-se graficamente o mecanismo de dependência probabilística entre duas variáveis de interesse médico: o fator de risco suspeito conhecido como Síndrome Metabólica e o indicador de declínio mental denominado Comprometimento Cognitivo. Nessa investigação, empregou-se o conceito conhecido no contexto de BNs como D-separação. Esse estudo revelou que a dependência entre Síndrome Metabólica e Variáveis Cognitivas de fato existe e depende tanto do Índice de Massa Corporal quanto da idade. Analytical threshold Aprendizado de estruturas robustas Associations discovery Bayesian network Cognitive impairment D-separação D-separation Data perturbation via bootstrap replicas Descoberta de associações Directed acyclic graph Envelhecimento da população Estabilidade de arcos Fatores de risco Grafo acíclico dirigido Learning of robust structures limiar analítico Média de modelos Metabolic syndrome Model averaging Perturbação de dados via bootstrap Population ageing Rede Bayesiana Risk factors Síndrome metabólica Stability of arcs Transtorno cognitivo
3	Structure learning of Bayesian networks via data perturbation / Aprendizagem estrutural de Redes Bayesianas via perturbação de dados Tadeu Junior Gross 29 November 2018 (has links) Structure learning of Bayesian Networks (BNs) is an NP-hard problem, and the use of sub-optimal strategies is essential in domains involving many variables. One of them is to generate multiple approximate structures and then to reduce the ensemble to a representative structure. It is possible to use the occurrence frequency (on the structures ensemble) as the criteria for accepting a dominant directed edge between two nodes and thus obtaining the single structure. In this doctoral research, it was made an analogy with an adapted one-dimensional random-walk for analytically deducing an appropriate decision threshold to such occurrence frequency. The obtained closed-form expression has been validated across benchmark datasets applying the Matthews Correlation Coefficient as the performance metric. In the experiments using a recent medical dataset, the BN resulting from the analytical cutoff-frequency captured the expected associations among nodes and also achieved better prediction performance than the BNs learned with neighbours thresholds to the computed. In literature, the feature accounted along of the perturbed structures has been the edges and not the directed edges (arcs) as in this thesis. That modified strategy still was applied to an elderly dataset to identify potential relationships between variables of medical interest but using an increased threshold instead of the predict by the proposed formula - such prudence is due to the possible social implications of the finding. The motivation behind such an application is that in spite of the proportion of elderly individuals in the population has increased substantially in the last few decades, the risk factors that should be managed in advance to ensure a natural process of mental decline due to ageing remain unknown. In the learned structural model, it was graphically investigated the probabilistic dependence mechanism between two variables of medical interest: the suspected risk factor known as Metabolic Syndrome and the indicator of mental decline referred to as Cognitive Impairment. In this investigation, the concept known in the context of BNs as D-separation has been employed. Results of the carried out study revealed that the dependence between Metabolic Syndrome and Cognitive Variables indeed exists and depends on both Body Mass Index and age. / O aprendizado da estrutura de uma Rede Bayesiana (BN) é um problema NP-difícil, e o uso de estratégias sub-ótimas é essencial em domínios que envolvem muitas variáveis. Uma delas consiste em gerar várias estruturas aproximadas e depois reduzir o conjunto a uma estrutura representativa. É possível usar a frequência de ocorrência (no conjunto de estruturas) como critério para aceitar um arco dominante entre dois nós e assim obter essa estrutura única. Nesta pesquisa de doutorado, foi feita uma analogia com um passeio aleatório unidimensional adaptado para deduzir analiticamente um limiar de decisão apropriado para essa frequência de ocorrência. A expressão de forma fechada obtida foi validada usando bases de dados de referência e aplicando o Coeficiente de Correlação de Matthews como métrica de desempenho. Nos experimentos utilizando dados médicos recentes, a BN resultante da frequência de corte analítica capturou as associações esperadas entre os nós e também obteve melhor desempenho de predição do que as BNs aprendidas com limiares vizinhos ao calculado. Na literatura, a característica contabilizada ao longo das estruturas perturbadas tem sido as arestas e não as arestas direcionadas (arcos) como nesta tese. Essa estratégia modificada ainda foi aplicada a um conjunto de dados de idosos para identificar potenciais relações entre variáveis de interesse médico, mas usando um limiar aumentado em vez do previsto pela fórmula proposta - essa cautela deve-se às possíveis implicações sociais do achado. A motivação por trás dessa aplicação é que, apesar da proporção de idosos na população ter aumentado substancialmente nas últimas décadas, os fatores de risco que devem ser controlados com antecedência para garantir um processo natural de declínio mental devido ao envelhecimento permanecem desconhecidos. No modelo estrutural aprendido, investigou-se graficamente o mecanismo de dependência probabilística entre duas variáveis de interesse médico: o fator de risco suspeito conhecido como Síndrome Metabólica e o indicador de declínio mental denominado Comprometimento Cognitivo. Nessa investigação, empregou-se o conceito conhecido no contexto de BNs como D-separação. Esse estudo revelou que a dependência entre Síndrome Metabólica e Variáveis Cognitivas de fato existe e depende tanto do Índice de Massa Corporal quanto da idade. Aprendizado de estruturas robustas D-separação Descoberta de associações Envelhecimento da população Estabilidade de arcos Fatores de risco Grafo acíclico dirigido limiar analítico Média de modelos Perturbação de dados via bootstrap Rede Bayesiana Síndrome metabólica Transtorno cognitivo Analytical threshold Associations discovery Bayesian network Cognitive impairment D-separation Data perturbation via bootstrap replicas Directed acyclic graph Learning of robust structures Metabolic syndrome Model averaging Population ageing Risk factors Stability of arcs

1

Page generated in 0.234 seconds