• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 591
  • 18
  • 18
  • 13
  • 13
  • 12
  • 12
  • 9
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 629
  • 629
  • 376
  • 373
  • 243
  • 110
  • 104
  • 104
  • 103
  • 102
  • 90
  • 89
  • 87
  • 81
  • 67
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

SKDQL: Uma linguagem declarativa de especificação de consultas e processos para descoberta de conhecimento em bancos de dados e sua implementação

Pereira dos Santos Silva, Marcelino January 2002 (has links)
Made available in DSpace on 2014-06-12T15:59:24Z (GMT). No. of bitstreams: 2 arquivo5095_1.pdf: 666231 bytes, checksum: 6f519135fd58b1147e646d9a791953df (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2002 / As ferramentas e técnicas empregadas para análise automática e inteligente dos imensos repositórios de dados de indústrias, governos, corporações e institutos científicos são os objetos tratados pelo campo emergente da Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases - KDD). No contexto do MATRIKS, um framework para KDD, SKDQL (Structured Knowledge Discovery Query Language) é a proposta de uma linguagem de consulta estruturada para KDD, seguindo os padrões de SQL dentro de uma arquitetura aberta e extensível, suportando a heterogeneidade, iteratividade e interatividade dos processos de KDD, com recursos para acesso, limpeza, transformação, derivação e mineração de dados, bem como manipulação de conhecimento
52

Métodos de visualização de informações na descoberta de conhecimento em bases de dados

Maria Rocha de Holanda Vasconcelos, Denise January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:08Z (GMT). No. of bitstreams: 2 arquivo7170_1.pdf: 2203364 bytes, checksum: a4b1c6049227e992e107cabafa05f77c (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2005 / A descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases KDD) visa a apoiar os processos de tomada de decisão através da extração automática de conhecimento oculto, útil e estratégico, em grandes bases de dados. Este conhecimento precisa ser analisado e facilmente entendido por usuários e gestores para que se torne realmente relevante nas operações cotidianas ou em planejamento de ações no contexto do problema analisado. O conhecimento descoberto pode ser apresentado de diversas formas. Entretanto, estas formas muitas vezes não são compreendidas pelo usuário ou não permitem análises detalhadas e validações de novas hipóteses. Para auxiliar a interpretação de resultados obtidos na mineração de dados, técnicas gráficas de Visualização de Informações têm contribuído significativamente para a representação inteligente de grandes volumes de dados, para a aplicação de técnicas estatísticas na análise de dados e para a manipulação visual dos dados. À aplicação dessas técnicas sobre o processo de KDD dá-se o nome de Visual Data Mining. Os principais objetivos deste trabalho são a investigação de técnicas de Visualização de Informações aplicadas no processo de KDD, o desenvolvimento de uma ferramenta de software que tenha foco principal em Visual Data Mining, com a proposição e implementação de técnicas e métodos que melhor se adaptem à interpretação de resultados minerados, e a realização de um estudo de caso com um problema em larga escala para validação da ferramenta desenvolvida. A ferramenta desenvolvida, denominada VisualDATAMINER , atua sobre a interpretação de regras de indução, permite a integração com ferramentas de mineração de dados, possibilita a visualização dos resultados de mineração de dados em diversas visões e a interação com estas visualizações através de métodos de interação. Desenvolvida na linguagem Java, a VisualDATAMINER apresenta todos os benefícios do paradigma de orientação a objetos como re-usabilidade, manutenibilidade e encapsulamento. A investigação experimental realizada usando uma base de dados com um grande volume de dados, no domínio de análise de crédito ao consumidor, mostrou o refinamento do conhecimento descoberto através da aplicação das técnicas de visualização de informações e dos métodos de interação propostos na ferramenta, atestando a eficácia e a eficiência da ferramenta desenvolvida
53

Técnicas de agrupamento de dados na mineração de dados químicos

de Aguiar Loureiro, Juliana January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:13Z (GMT). No. of bitstreams: 2 arquivo7201_1.pdf: 2018800 bytes, checksum: 53a5a6f555847d7a5b53bef8739ece02 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2005 / O processo de descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases KDD) tem por objetivo extrair informações úteis (conhecimento) a partir de uma extensa quantidade de dados. Este processo, por sua vez, se constitui de várias etapas, entre elas, a atividade de mineração dos dados, representada neste estudo sob forma de an´ alise de agrupamento. Um problema característico dessa etapa é identificar qual ou quais métodos de agrupamento podem realmente apresentar uma classificação útil e válida para o conjunto de dados em estudo. Entre os mecanismos de apoio à triagem e estudo das técnicas de análise de agrupamento está o conhecimento adquirido sobre o conjunto de dados, o conhecimento de técnicas estatísticas para realizar a análise exploratória dos dados e principalmente conhecer bem quais algoritmos são adequados ao problema de interesse. A presente dissertação visa considerar os procedimentos de KDD apropriados para a aplicação das técnicas de análise de agrupamento a um conjunto de dados químicos
54

Modelo preditivo de mineração de dados para sucesso de redução de peso na cirurgia bariátrica

SOUZA, Starch Melo de 04 September 2014 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-05-19T16:39:35Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) _dissertacao_StarchSouza_versaoCorrigida_VF.pdf: 1638087 bytes, checksum: d684b3e778a00ee1b1ceecf59729cc5e (MD5) / Made available in DSpace on 2016-05-19T16:39:35Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) _dissertacao_StarchSouza_versaoCorrigida_VF.pdf: 1638087 bytes, checksum: d684b3e778a00ee1b1ceecf59729cc5e (MD5) Previous issue date: 2014-09-04 / CNPQ / A Cirurgia Bariátrica é um dos recursos de melhor efetividade para redução de peso nos casos de Obesidade, controle e resolução nos casos das comorbidades associadas que encontram-se sem controle terapêutico, como a Diabetes. Para aumentar as chances de sucesso terapêutico deste procedimento de grande porte, pode ser realizada uma avaliação prévia do paciente através de um modelo preditivo utilizando-se de variáveis de controle, clínicas, de comorbidades e laboratoriais. O objetivo geral desta pesquisa foi desenvolver um modelo preditivo de mineração de dados para apoio na tomada de decisão do cirurgião ao submeter pacientes com excesso de peso à cirurgia bariátrica, a partir dos dados históricos visando à sua redução de peso. A pesquisa foi do tipo clínica aplicada, transversal, retrospectiva, de caráter analítico. A amostra do estudo foi de 540 pacientes que realizaram seguimento clínico após 1 ano do procedimento cirúrgico. As cinco primeiras fases da metodologia CRISP-DM foram aplicadas na construção do modelo preditivo, e na modelagem foram aplicadas as técnicas de indução de regras, árvore de decisão e regressão logística. A variável independente (o ALVO) considerada foi o IMC ideal, entre 18,5 e 24,9 Kg/m2. O modelo preditivo de mineração de dados para pacientes submetidos à cirurgia bariátrica e com seguimento clínico de um ano, apontou que os preditores de sucesso para redução de peso foram, ser do sexo feminino, ser mais jovem, e apresentar no pré-operatório menor valor de índice de massa corpórea (IMC). O estudo apresentou regras explicativas e o modelo preditivo como auxílio na tomada de decisão, maximizando os que possuem maior expectativa de redução de peso. / The Bariatric Surgery is one of the most effective tools for weight reduction in cases of obesity, control and resolution in cases of associated comorbidities that are out therapeutic control, such as diabetes. To increase the chances of therapeutic success of this major procedure, a preliminary assessment of the patient can be carried out using a predictive model using control variables, clinics, comorbidities and laboratory variables. The objective of this research was to develop a predictive data-mining model to support the surgeon's decision to submit patients for bariatric surgery, from historical data aimed at their weight reduction. The research study was categorized as applied clinical, cross-sectional, retrospective and analytical. The study sample included 540 patients who underwent a complete year of surgery clinical follow-up. The first five phases of the CRISP-DM methodology were applied in the construction of the predictive model, and in modeling, rule induction, decision tree and logistic regression were the techniques applied. The independent variable (Target) was considered reaching the ideal BMI between 18.5 and 24.9 Kg/m2. The predictive model of data mining for patients undergoing bariatric surgery and follow-up of one year, pointed out that the success predictors for weight reduction were being female, being younger, and preoperative lower body mass index (BMI). The study presented explanatory rules and the predictive model as an aid in decision-making, maximizing those with greater expectation of weight reduction.
55

Uma abordagem preditiva da evasão na educação a distância a partir dos construtos da distância transacional

RAMOS, Jorge Luis Cavalcanti 22 December 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-08-31T12:35:50Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Tese_Jorge_Luis_Cavalcanti_Ramos_Final.pdf: 7170280 bytes, checksum: 89435ef87395ca1ce9cdec68c87e843d (MD5) / Made available in DSpace on 2017-08-31T12:35:50Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Tese_Jorge_Luis_Cavalcanti_Ramos_Final.pdf: 7170280 bytes, checksum: 89435ef87395ca1ce9cdec68c87e843d (MD5) Previous issue date: 2016-12-22 / O crescimento da Educação a Distância (EAD) tem sido apoiado por teorias para auxiliar o planejamento e a execução de cursos de maneira eficaz e eficiente. As pesquisas na área também refletem esse crescimento, à medida que buscam atenuar ou resolver problemas que surgem decorrentes dessa expansão, como por exemplo os altos índices de evasão ainda verificados na modalidade. Para a maioria das instituições que participaram do Censo Anual da EAD no Brasil em 2015, o grande obstáculo enfrentado tem sido a evasão nos cursos, quando para 40% das instituições pesquisadas, a taxa média de evasão foi entre 26% e 50% nos cursos totalmente ofertados a distância por essas instituições. Partindo de uma necessidade de renovação de teorias da EAD, bem como aplicá-las no sentido de auxiliar no enfrentamento nos desafios da modalidade, esta pesquisa enfocou a Teoria da Distância Transacional, proposta por Moore (1972, 1973, 1993, 2013). Foi sugerida uma nova abordagem para determinação dos seus construtos, com o propósito de aplicá-los em um processo de detecção precoce de alunos com tendências a evasão, em cursos superiores ofertados a distância. A utilização de técnicas de análise multivariada para a obtenção dos construtos da distância transacional teve a intenção de buscar uma abordagem distinta das atualmente verificadas na literatura. Essa determinação é feita, na maioria dos casos, utilizando questionários aplicados a alunos e professores. Também, as evidências na literatura apontam o uso de diversas técnicas de mineração de dados e aprendizagem de máquina na definição de modelos preditivos em contextos educacionais, com índices satisfatórios de acertos. A partir da obtenção dos componentes (variáveis) dos construtos da distância transacional, foi também definido e validado um modelo de previsão da evasão de alunos em cursos a distância, a partir desses componentes. Foram usados diversos algoritmos classificadores, sendo o classificador por regressão logística apresentado resultados mais relevantes quando comparados aos registrados pela literatura na área. Foi então desenvolvida uma aplicação com o modelo preditivo implementado, para testes com professores e tutores que atuam na EAD, sendo a mesma bem avaliada por esses usuários. / The growth of Distance Education (DE) has been supported by theories to aid in the planning and execution of courses in an effective and efficient way. Research in this area also reflects this growth, as they seek to mitigate or solve problems arising from this expansion, such as the high rates of dropouts still observed in the modality. For most of the institutions that participated in the DE Annual Census in Brazil in 2015, the greatest obstacle has been the avoidance of courses, when for 40% of the institutions surveyed, the average rate of dropout was between 26% and 50% in courses offered at a distance by these institutions. Based on a need to renew DE theories, as well as applying them to help addressing the challenges of the modality, this research focused on the Transactional Distance Theory proposed by Moore (1972, 1973, 1993, 2013). It was suggested a new approach to determine their constructs, with the purpose of applying them in a process of early detection of students with tendencies to dropout, in higher distance courses. The use of multivariate analysis techniques to obtain the transactional distance constructs, had the intention of looking for a different approach than those currently found in the literature. This determination is made, in most cases, using questionnaires applied to students and teachers. In addition, the literature evidences the use of several techniques of data mining and machine learning in the definition of predictive models in educational contexts, with satisfactory indexes of precision. After obtaining the components (variables) of the constructs, it was also defined and validated a model of prediction of the dropout students in distance courses, from these components. Several classifiers algorithms were used, and the logistic regression classifier presented more relevant results when compared to those recorded in the literature. Since then, an application with the predictive model was implemented for test with users and was been well accepted by teachers and tutors who work with DE.
56

Análise in silico de osmoprotetores no genoma expresso da cana-deaçúcar, eucalipto e feijão-caupi

SANTOS, Petra Barros dos 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T18:02:17Z (GMT). No. of bitstreams: 2 arquivo3640_1.pdf: 2846746 bytes, checksum: 12d8846693ee2e6836aa3225c67d3f81 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Estresses abióticos, como seca e salinidade, limitam severamente o crescimento, desenvolvimento e produtividade das plantas. Uma das estratégias que muitos vegetais utilizam, a fim de minimizar os danos causados por esses estresses aos processos metabólicos e fisiológicos, é a síntese de osmólitos compatíveis. Essas substâncias são trocadas pelo excesso de sais inorgânicos na célula, permitindo o ajustamento tanto da concentração interna de sais quanto do volume celular. Este trabalho objetivou identificar in silico candidatos aos genes que codificam osmoprotetores (trealose, glicina-betaína, mio-inositol, prolina e cisteína) nos transcriptomas de Eucalyptus spp., Saccharum spp. e Vigna spp. As análises revelaram a presença destes genes em todos os transcriptomas estudados; ao todo foram observados 51 ortólogos em eucalipto, 56 em cana e 73 em feijão-caupi. De um modo geral, com relação ao padrão de expressão foi percebido o envolvimento destes genes tanto no estresse biótico, quanto no abiótico, sendo mais abundantes os transcritos identificados nas bibliotecas de caule de mudas submetidas a déficit hídrico e plântulas cultivadas no escuro, no caso do eucalipto e em tecidos de calos (CL) submetidos a um ciclo de luz/escuro e estresse de temperatura no caso da cana-deaçúcar. Adicionalmente, no caupi, a partir da contagem direta dos transcritos, foi identificado que a maioria dos transcritos integrava a biblioteca em raiz de plantas sensíveis à salinidade após 2 horas de exposição ao estresse. Nos alinhamentos múltiplos gerados para a comparação das sequências de cada um desses genes entre diferentes organismos (desde bactérias até animais), percebe-se que a síntese de osmólitos compatíveis é uma característica que foi bastante conservada no curso da evolução. Nos dendrogramas gerados a partir dos dados supracitados, correspondendo ao esperado, observou-se a separação das espécies de acordo com a sua classe. Além disso, no que tange os vegetais, mono e dicotiledôneas foram agrupadas em clados distintos. Considerando que os organismos estudados apresentam grandes diferenças no metabolismo, fisiologia, hábito e ciclo de vida, os resultados sugerem que as mutações acumuladas, principalmente nas diferentes classes, são resultado da adaptação às pressões seletivas ambientais e estão, assim, relacionadas com a funcionalidade destes genes nos diferentes organismos. Assim, os resultados apontam para a conservação das principais vias de síntese de osmólitos compatíveis tanto em eucalipto, quanto em cana e feijão-caupi. Ademais, este estudo pode servir como modelo para a identificação de genes osmoprotetores em espécies relacionadas e apresenta grande potencial de aplicação ao melhoramento genético, com o desenvolvimento de culturas economicamente importantes mais adaptadas aos solos salinos e secos
57

Análise IN SILICO DE EST-SSR em Phaseolus vulgaris E Glycine max E Trasferibilidade de Marcadores para Vigna unguiculata

Ferreira Neto, José Ribamar Costa 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T18:03:18Z (GMT). No. of bitstreams: 2 arquivo3696_1.pdf: 651388 bytes, checksum: 142f3b2132eee234fbd7d5a6590a0ccc (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / Bancos de dados de seqüências expressas representam uma fonte potencialmente valorosa para o desenvolvimento de marcadores moleculares. Neste trabalho, estudos foram realizados para o desenvolvimento de marcadores para aplicação no melhoramento de feijão-caupi, feijão-comum e soja. Foram analisadas 10.880 ESTs de feijão-comum e 116.965 ESTs de soja. Um total de 331 e 4553 SSRs foram identificados nas seqüências de feijão-comum e soja, respectivamente. Trinucleotídeos (45,62 %) foram as mais abundantes em feijãocomum, enquanto que os dinucletídeos (49,67 %), em soja. A densidade média variou de um SSR a cada 22 Kb (feijão-comum) a um SSR a cada 14,68 Kb (soja). Repetições diméricas AG/GA / TC/CT e triméricas AAG/AGA/GAA / TTC/TCT/CTT foram as mais abundantes em ambas espécies. Um total de 153 e 1928 pares de primers EST-SSRs foram propostos para feijão-comum e para soja, respectivamente. Desses, sinteizaram-se 20 para soja, dos quais apenas nove amplificaram (sendo quatro de tamanho esperado e, desses, dois polimórficos) e dois foram transferíveis. Para feijão-comum sintetizaram-se 22, dos quais 15 amplificaram, sendo que 11 apresentaram tamanho esperado e 10 desses foram polimórficos (PIC médio de 0,50); 11 dos funcionais foram transferidos para feijão-caupi, sendo oito de tamanho esperado e cinco desses, polimórficos (PIC médio de 0,36). Análises detalhadas dos amplicons seqüenciados determinaram que as extensões dos motivos de SSRs foram variáveis e que as regiões flanqueadoras dessas repetições foram geralmente bem conservadas, confirmando o sucesso da transferibilidade entre feijão-comum e feijão-caupi
58

Mineração de dados em redes de baixa tensão usando algoritmos genéticos

Anciutti, Isabela January 2005 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação / Made available in DSpace on 2013-07-15T22:58:28Z (GMT). No. of bitstreams: 1 229397.pdf: 2902816 bytes, checksum: 2395a52490b681064ffa164391da96a1 (MD5) / Diversos problemas atingem as redes de distribuição de energia elétrica no
59

Imersão de espaços métricos em espaços multidimensionais para indexação de dados usando detecção de agrupamentos / Embedding of metric spaces in multidimensional spaces for data indexing using cluster detection

Paterlini, Adriano Arantes 28 March 2011 (has links)
O sucesso dos Sistemas de Gerenciamento de Banco de Dados (SGBDs) em aplicações envolvendo dados tradicionais (números e textos curtos) encorajou o seu uso em novos tipos de aplicações, que exigem a manipulação de dados complexos. Séries temporais, dados científicos, dados multimídia e outros são exemplos de Dados Complexos. Inúmeras áreas de aplicação têm demandado soluções para o gerenciamento de dados complexos, dentre as quais a área de informática médica. Dados complexos podem também ser estudos com técnicas de descoberta de conhecimentos, conhecidas como KDD (Knowledge Discovery in Database), usando alguns algoritmos de detecção de agrupamentos apropriados. Entretanto, estes algoritmos possuem custo computacional elevado, o que dificulta a sua utilização em grandes conjuntos de dados. As técnicas já desenvolvidas na Área de Bases de Dados para indexação de espaços métricos usualmente consideram o conjunto de maneira uniforme sem levar em conta a existência de agrupamentos nos dados, por isso as estruturas buscam maximizar a eficiência das consultas para todo o conjunto simultaneamente. No entanto muitas vezes as consultas por similaridade estão limitadas a uma região específica do conjunto de dados. Neste contexto, esta dissertação propõe a criação de um novo método de acesso, que seja capaz de indexar de forma eficiente dados métricos, principalmente para conjuntos que contenham agrupamentos. Para atingir esse objetivo este trabalho também propõe um novo algoritmo para detecção de agrupamentos em dados métricos tornando mais eficiente a escolha do medoide de determinado conjunto de elementos. Os resultados dos experimentos mostram que os algoritmo propostos FAMES e M-FAMES podem ser utilizados para a detecção de agrupamentos em dados complexos e superam os algoritmos PAM, CLARA e CLARANS em eficácia e eficiência. Além disso, as consultas por similaridade realizadas com o método de acesso métrico proposto FAMESMAM mostraram ser especialmente apropriados para conjuntos de dados com agrupamentos / The success of Database Management System (DBMS) for applications with traditional data (numbers and short texts) has encouraged its use in new types of applications that require manipulation of complex data. Time series, scientific data and other multimedia data are examples of complex data. Several application fields, like medical informatics, have demanded solutions for managing complex data. Complex data can also be studied by means of Knowledge Discovery Techniques (KDD) applying appropriate clustering algorithms. However, these algorithms have high computational cost hindering their use in large data sets. The techniques already developed in the Databases research field for indexing metric spaces usually consider the sets have a uniform distribution, without taking into account the existence of clusters in the data, therefore the structures need to generalize the efficiency of queries for the entire set simultaneously. However the similarity searching is often limited to a specific region of the data set. In this context, this dissertation proposes a new access method able to index metric data efficiently, especially for sets containing clusters. It also proposes a new algorithm for clustering metric data so that selection of a medoid from a particular subset of elements becomes more efficient. The experimental results showed that the proposed algorithms FAMES and M-FAMES can be used as a clustering technique for complex data that outperform PAM, CLARA and CLARANS in effectiveness and efficiency. Moreover, the similarity searching performed with the proposed metric access method FAMESMAM proved to be especially appropriate to data sets with clusters
60

Descoberta direta e eficiente de regras de associação ótimas / Discovery direct and efficient of optimal association rules

Assunção, Alinson Sousa de 16 December 2011 (has links)
Um dos principais interesses na descoberta do conhecimento e mineração de dados é a indução de regras de associação. Regras de associação caracterizam as relações entre os dados a partir de um conjunto de dados estruturado com transações, onde cada transação contém um subconjunto de itens. Seja X e Y dois conjuntos de itens disjuntos, então a regra X → Y define um relacionamento, isto é, a dependência ou a co-ocorrência entre os conjuntos X e Y. Um dos algoritmos mais conhecidos para geração de regras de associação é o algoritmo Apriori. Ele explora regras de associação que respeitam o limiar suporte mínimo, ou seja, as regras devem aparecer em uma quantidade mínima de transações. Esse limiar tem a capacidade de controlar a quantidade de regras extraídas durante a mineração. Entretanto, a frequência ou suporte não consegue medir o nível de interesse de uma regra. Para medir a importância ou interesse de uma regra em relação a outras foram desenvolvidas medidas de interesse. Tais medidas são calculadas a partir das frequências dos conjuntos de itens X, Y e do par XY. Apesar das medidas de interesse realizarem uma filtragem das regras desinteressantes, elas não acarretam na diminuição no tempo de execução da mineração. Para vencer essa dificuldade, técnicas que exploram diretamente regras de associação ótimas foram desenvolvidas. Um conjunto de regras de associação ótimas é um conjunto de regras que otimiza uma determinada medida de interesse. Na literatura existem muitos trabalhos que buscam esse tipo de conjunto de regras de forma direta e eficiente. O trabalho corrente segue esta mesma direção e visou a melhoria dessa tarefa por descobrir uma quantidade arbitrária de regras de associação ótimas. As abordagens anteriores apresentam um entrave em especial, que é a utilização do algoritmo Apriori. Tal técnica realiza uma busca em largura sobre os conjuntos de itens. No entanto, as técnicas mais promissoras que descobrem regras ótimas realizam busca em profundidade sobre o espaço de busca de regras. Em virtude dessa característica, neste trabalho foi adotada a técnica FP-growth, que realiza uma busca em profundidade sobre os conjuntos de itens explorados. Além da adoção da técnica FP-growth, foram desenvolvidas novas estratégias de poda e uma nova estratégia de busca na travessia do espaço de regras. Todas essas inovações foram adicionadas aos algoritmos desenvolvidos no corrente trabalho e proporcionaram melhor eficiência (tempo de execução) em relação ao algoritmo baseline em todos os testes. Tais testes foram realizados sobre conjuntos de dados reais e artificiais. / The induction of association rules is one of the main interests in knowledge discovery and data mining. Association rules describe the relationships between data from a transactional dataset, so that each transaction contains a subset of items. Let X and Y be two disjoint itemsets, then any rule X → Y defines a relationship that represents the dependence or co-occurrence between itemsets X and Y. Apriori is the best-known algorithm to generate association rules. It generates association rules that satisfy a user defined minimum support threshold. This means the rules should occur at least in an arbitrary number of transactions from a dataset. This threshold limits the number of association rules generated by Apriori. Yet, it is not possible to measure the interest of a rule through support. For that, interestingness measures were developed to assess the importance or interest of a rule. The values of these interestingness measures are obtained through frequencies of X, Y and XY. However, it is still an expensive task mining all the association rules and then filter them according to an interestingness measure. To overcome this difficulty, techniques to induce optimal association rules have been developed. Optimal association rules are a ruleset that optimize an arbitrary interestingness measure. In the literature, there are many papers which aim at searching for optimal association rules directly and efficiently. The current MSc thesis follows this direction, aiming at improving this objective. Previous approaches share one obstacle in particular: the use of Apriori. This algorithm performs a breadth-first search on the itemsets space. However, the most promising techniques to find optimal rules perform a depth-first search on the space of rules. Hence, in this research we adopted the FP-growth algorithm, which performs a depth-first search on the itemsets space. Besides using this algorithm, new rule pruning techniques and a new search space traversing on the space rules were developed. The algorithms developed in the current research contain all these innovations. In all tests, the proposed algorithms surpassed the baseline algorithms in terms of efficiency. These tests were conducted on real and articial datasets.

Page generated in 0.0984 seconds