Global ETD Search

41	Detecção de fraudes em cartões: um classificador baseado em regras de associação e regressão logística / Card fraud detection: a classifier based on association rules and logistic regression Oliveira, Paulo Henrique Maestrello Assad 11 December 2015 (has links) Os cartões, sejam de crédito ou débito, são meios de pagamento altamente utilizados. Esse fato desperta o interesse de fraudadores. O mercado de cartões enxerga as fraudes como custos operacionais, que são repassados para os consumidores e para a sociedade em geral. Ainda, o alto volume de transações e a necessidade de combater as fraudes abrem espaço para a aplicação de técnicas de Aprendizagem de Máquina; entre elas, os classificadores. Um tipo de classificador largamente utilizado nesse domínio é o classificador baseado em regras. Entretanto, um ponto de atenção dessa categoria de classificadores é que, na prática, eles são altamente dependentes dos especialistas no domínio, ou seja, profissionais que detectam os padrões das transações fraudulentas, os transformam em regras e implementam essas regras nos sistemas de classificação. Ao reconhecer esse cenário, o objetivo desse trabalho é propor a uma arquitetura baseada em regras de associação e regressão logística - técnicas estudadas em Aprendizagem de Máquina - para minerar regras nos dados e produzir, como resultado, conjuntos de regras de detecção de transações fraudulentas e disponibilizá-los para os especialistas no domínio. Com isso, esses profissionais terão o auxílio dos computadores para descobrir e gerar as regras que embasam o classificador, diminuindo, então, a chance de haver padrões fraudulentos ainda não reconhecidos e tornando as atividades de gerar e manter as regras mais eficientes. Com a finalidade de testar a proposta, a parte experimental do trabalho contou com cerca de 7,7 milhões de transações reais de cartões fornecidas por uma empresa participante do mercado de cartões. A partir daí, dado que o classificador pode cometer erros (falso-positivo e falso-negativo), a técnica de análise sensível ao custo foi aplicada para que a maior parte desses erros tenha um menor custo. Além disso, após um longo trabalho de análise do banco de dados, 141 características foram combinadas para, com o uso do algoritmo FP-Growth, gerar 38.003 regras que, após um processo de filtragem e seleção, foram agrupadas em cinco conjuntos de regras, sendo que o maior deles tem 1.285 regras. Cada um desses cinco conjuntos foi submetido a uma modelagem de regressão logística para que suas regras fossem validadas e ponderadas por critérios estatísticos. Ao final do processo, as métricas de ajuste estatístico dos modelos revelaram conjuntos bem ajustados e os indicadores de desempenho dos classificadores também indicaram, num geral, poderes de classificação muito bons (AROC entre 0,788 e 0,820). Como conclusão, a aplicação combinada das técnicas estatísticas - análise sensível ao custo, regras de associação e regressão logística - se mostrou conceitual e teoricamente coesa e coerente. Por fim, o experimento e seus resultados demonstraram a viabilidade técnica e prática da proposta. / Credit and debit cards are two methods of payments highly utilized. This awakens the interest of fraudsters. Businesses see fraudulent transactions as operating costs, which are passed on to consumers. Thus, the high number of transactions and the necessity to combat fraud stimulate the use of machine learning algorithms; among them, rule-based classifiers. However, a weakness of these classifiers is that, in practice, they are highly dependent on professionals who detect patterns of fraudulent transactions, transform them into rules and implement these rules in the classifier. Knowing this scenario, the aim of this thesis is to propose an architecture based on association rules and logistic regression - techniques studied in Machine Learning - for mining rules on data and produce rule sets to detect fraudulent transactions and make them available to experts. As a result, these professionals will have the aid of computers to discover the rules that support the classifier, decreasing the chance of having non-discovered fraudulent patterns and increasing the efficiency of generate and maintain these rules. In order to test the proposal, the experimental part of the thesis has used almost 7.7 million transactions provided by a real company. Moreover, after a long process of analysis of the database, 141 characteristics were combined using the algorithm FP-Growth, generating 38,003 rules. After a process of filtering and selection, they were grouped into five sets of rules which the biggest one has 1,285 rules. Each of the five sets was subjected to logistic regression, so their rules have been validated and weighted by statistical criteria. At the end of the process, the goodness of fit tests were satisfied and the performance indicators have shown very good classification powers (AUC between 0.788 and 0.820). In conclusion, the combined application of statistical techniques - cost sensitive learning, association rules and logistic regression - proved being conceptually and theoretically cohesive and coherent. Finally, the experiment and its results have demonstrated the technical and practical feasibilities of the proposal. Análise sensível ao custo Aprendizagem de máquina Association rule learning Cost sensitive learning Detecção e prevenção de fraudes Fraud detection and prevention Logistic regression Machine learning Mineração de regras de associação Regressão logística
42	Visualização como suporte à extração e exploração de regras de associação / Vusualization as support to the extraction and exploration of association rules Claudio Haruo Yamamoto 17 April 2009 (has links) Desde a definção do problema de obtenção de regras de associação, vários algoritmos eficientes foram introduzidos para tratá-lo. Entretanto, ainda hoje o problema apresenta várias dificuldades práticas para os mineradores, como a determinação de limiares adequados de suporte mínimo e confiança mínima, a manipulação de grandes conjuntos de regras, e a compreensão de regras (especialmente aquelas contendo muitos itens). Para tratar estes problemas, pesquisadores têm investigado a aplicação de técnicas interativas, sumarização (de conjuntos de regras) e representações visuais. Entretanto, nenhuma abordagem na qual os usuários podem entender e controlar o processo por meio da interação com o algoritmo analítico ao longo de sua execução foi introduzida. Neste trabalho, é introduzida uma abordagem interativa para extração e exploração de regras de associação que insere o usuário no processo por meio de: execução interativa do Apriori ; seleção interativa de itemsets freqüentes; extração de regras baseada em itemsets e orientada por agrupamentos de itemsets similares; e exploração de regras aos pares. Para validar a abordagem, foram realizados diversos estudos, apoiados pelo Sistema \'I IND.2\' E, com o objetivo de: comparar a abordagem interativa, sob diversos aspectos, com uma abordagem convencional de obtenção de regras de associação; avaliar o efeito de variar alguns parâmetros do processo nos resultados finais; e mostrar a aplicação dos recursos oferecidos em situações reais e com usuários reais. Os resultados indicam que a abordagem apresentada é adequada, tanto em cenários exploratórios quanto em cenários em que há um direcionamento inicial para o processo, à execução de certas tarefas de extração de regras de associação, pois: provém recursos capazes de evitar execuções inteiras do algoritmo antes que os resultados sejam analisados; gera conjuntos de regras mais compactos; preserva a cobertura de itemsets; favorece a reformulação de tarefas ou a formulação de novas tarefas; e provê meios para comparação visual de regras, aumentando o poder de análise do minerador / Since the definition of the association rule mining problem, many efficient algorithms have been introduced to deal with it. However, the problem still presents many practical difficulties to the miners, such as the determination of suitable minimum support and minimum confidence thresholds, manipulation of large rule sets, and comprehension of rules (specially those containing many items). In order to deal with these problems, researchers have been investigating the application of interactive techniques, sumarization (of rule sets) and visual representations. Nonetheless, no approach in which users can understand and control the process through interaction with the analytical algorithm along its execution has been introduced. We introduce an interactive approach to extract and explore association rules that inserts the user into the process through: interactive execution of the Apriori ; interactive selection of frequent itemsets; itemset-based and cluster-oriented extraction of rules; and pairwise exploration of rules. To validate the approach, several studies have been conducted, supported by the \'I IND.2\' E System, aiming at: comparing the interactive approach, under several aspects, with a conventional approach to obtain association rules; evaluate the effect of different execution parameters in the final results; and illustrate its application in real situations and with real users. Results of these studies indicate that the approach is adequate, both in exploratory scenarios and in scenarios in which there is an initial guidance for the process, to the execution of certain association rule extraction tasks, because: it provides resources to avoid complete algorithm executions before results are analyzed; generates more compact rule sets for exploration; preserves rule diversity; favors the reformulation of tasks; and provides support for rule comparison, enhancing analysis capability for miners Mineração visual de dados Regras de associação Visualização de informação Association rules Information visualization Knowledge discovey in databases Visual data mining
43	Análise de desempenho dos algoritmos Apriori e Fuzzy Apriori na extração de regras de associação aplicados a um Sistema de Detecção de Intrusos. / Performance analysis of algorithms Apriori and Fuzzy Apriori in association rules mining applied to a System for Intrusion Detection. Ricardo Ferreira Vieira de Castro 20 February 2014 (has links) A extração de regras de associação (ARM - Association Rule Mining) de dados quantitativos tem sido pesquisa de grande interesse na área de mineração de dados. Com o crescente aumento das bases de dados, há um grande investimento na área de pesquisa na criação de algoritmos para melhorar o desempenho relacionado a quantidade de regras, sua relevância e a performance computacional. O algoritmo APRIORI, tradicionalmente usado na extração de regras de associação, foi criado originalmente para trabalhar com atributos categóricos. Geralmente, para usá-lo com atributos contínuos, ou quantitativos, é necessário transformar os atributos contínuos, discretizando-os e, portanto, criando categorias a partir dos intervalos discretos. Os métodos mais tradicionais de discretização produzem intervalos com fronteiras sharp, que podem subestimar ou superestimar elementos próximos dos limites das partições, e portanto levar a uma representação imprecisa de semântica. Uma maneira de tratar este problema é criar partições soft, com limites suavizados. Neste trabalho é utilizada uma partição fuzzy das variáveis contínuas, que baseia-se na teoria dos conjuntos fuzzy e transforma os atributos quantitativos em partições de termos linguísticos. Os algoritmos de mineração de regras de associação fuzzy (FARM - Fuzzy Association Rule Mining) trabalham com este princípio e, neste trabalho, o algoritmo FUZZYAPRIORI, que pertence a esta categoria, é utilizado. As regras extraídas são expressas em termos linguísticos, o que é mais natural e interpretável pelo raciocício humano. Os algoritmos APRIORI tradicional e FUZZYAPRIORI são comparado, através de classificadores associativos, baseados em regras extraídas por estes algoritmos. Estes classificadores foram aplicados em uma base de dados relativa a registros de conexões TCP/IP que destina-se à criação de um Sistema de Detecção de Intrusos. / The mining of association rules of quantitative data has been of great research interest in the area of data mining. With the increasing size of databases, there is a large investment in research in creating algorithms to improve performance related to the amount of rules, its relevance and computational performance. The APRIORI algorithm, traditionally used in the extraction of association rules, was originally created to work with categorical attributes. In order to use continuous attributes, it is necessary to transform the continuous attributes, through discretization, into categorical attributes, where each categorie corresponds to a discrete interval. The more traditional discretization methods produce intervals with sharp boundaries, which may underestimate or overestimate elements near the boundaries of the partitions, therefore inducing an inaccurate semantical representation. One way to address this problem is to create soft partitions with smoothed boundaries. In this work, a fuzzy partition of continuous variables, which is based on fuzzy set theory is used. The algorithms for mining fuzzy association rules (FARM - Fuzzy Association Rule Mining) work with this principle, and, in this work, the FUZZYAPRIORI algorithm is used. In this dissertation, we compare the traditional APRIORI and the FUZZYAPRIORI, through classification results of associative classifiers based on rules extracted by these algorithms. These classifiers were applied to a database of records relating to TCP / IP connections that aims to create an Intrusion Detection System. Engenharia Eletrônica Apriori Fuzzy Apriori Extração de regras de associação Regras de classificação associativa Detecção de intrusos Electronic Engineering Apriori Fuzzy Apriori Fuzzy Association Rule Mining Associative classification rule Intruder Detection ENGENHARIAS
44	Algoritmo SSDM para a mineração de dados semanticamente similares. Escovar, Eduardo Luís Garcia 28 May 2004 (has links) Made available in DSpace on 2016-06-02T19:05:56Z (GMT). No. of bitstreams: 1 DissELGE.pdf: 764248 bytes, checksum: 4660cc71261254f054468d04e4659dc6 (MD5) Previous issue date: 2004-05-28 / Financiadora de Estudos e Projetos / The SSDM algorithm, created to allow semantically similar data mining, is presented in this work. Using fuzzy logic concepts, this algorithm analyzes the similarity grade between items, considering it if it is greater than a user-defined parameter. When this occurs, fuzzy associations between items are established, and are expressed in the association rules obtained. Therefore, besides associations discovered by conventional algorithms, SSDM also discovers semantic associations, showing them together with the other rules obtained. To do that, strategies are defined to discover these associations and calculate the support and the confidence of the rules where they appear. / Neste trabalho é apresentado o algoritmo SSDM, criado para permitir a mineração de dados semanticamente similares. Usando conceitos de lógica nebulosa, esse algoritmo analisa o grau de similaridade entre os itens, e o considera caso ele seja maior do que um parâmetro definido pelo usuário. Quando isso ocorre, são estabelecidas associações nebulosas entre os itens, que são expressas nas regras de associação obtidas. Assim, além das associações descobertas por algoritmos convencionais, o SSDM também descobre associações semânticas, e as exibe junto às demais regras obtidas. Para isso, são definidas estratégias para descobrir essas associações e para calcular o suporte e a confiança das regras onde elas aparecem. Banco de dados Data minig (mineração de dados) Lógica nebulosa Regras de associação Similaridade Semântica Fuzzy logic Data mining
45	Mineração de regras de associação sequenciais em séries temporais e visualização: aplicação em dados agrometeorológicos Cano, Marcos Daniel 03 August 2012 (has links) Made available in DSpace on 2016-06-02T19:06:12Z (GMT). No. of bitstreams: 1 5971.pdf: 5628502 bytes, checksum: 38bfe45912e4f91f4ad8c7fb5fb815db (MD5) Previous issue date: 2012-08-03 / Universidade Federal de Minas Gerais / Technological development brought improvements in the technology of climate sensors and Earth's surface image acquisition, gathering increasing amounts of data. Generally, when these data are submitted to mining algorithms, the output is the production of hundreds or even thousands of textual patterns, making the task of data analysis by the domain expert even harder. Hence, it is crucial, to support experts, the development of a tool that helps to identify and display patterns of interest. In this context, this research project at Master Science level aims to develop a technique for mining association rules in time series allowing agrometeorological data analysis over time. / O avanço tecnológico tem propiciado melhorias nos diversos sensores utilizados para medições dos dados climáticos e de imageamento da superfície terrestre, coletando quantidades cada vez maiores de dados. Quando esses dados são submetidos aos algoritmos de mineração para serem explorados ocorre, em geral, a produção de centenas ou ate mesmo milhares de padrões textuais, dificultando ainda mais a tarefa de analise dos dados pelo especialista de domínio. Assim, e crucial, para apoiar os especialistas, o desenvolvimento de um ferramental que auxilia na identificação e visualização dos padrões de interesse. Neste contexto, este projeto de pesquisa em nível de mestrado visa desenvolver uma técnica de mineração de regras de associação em series temporais permitindo a analise de dados agrometeorológicos ao longo do tempo. Ciência da computação Data mining (mineração de dados) Análise de séries temporais Visualização de dados Regras de associação sequenciais Sequential association rules Time series Data visualization
46	Consultas por similaridade e mineração de regras de associação: maximizando o conhecimento extraído de séries temporais Andrade, Claudinei Garcia de 28 August 2014 (has links) Made available in DSpace on 2016-06-02T19:06:18Z (GMT). No. of bitstreams: 1 6337.pdf: 1365151 bytes, checksum: 464969011137271e4d5d5088872c236b (MD5) Previous issue date: 2014-08-28 / A time series analysis presents challenges. There is a difficulty to manipulate the data by requiring a large computational cost, or even, by the difficulty of finding subsequences that have the same characteristics. However, this analysis is important for understanding the evolution of various phenomena such as climate change, changes in financial markets among others. This project proposed the development of a method for performing similarity queries in time series that have better performance and accuracy than the state-of-art and a method of mining association rules in series using similarity. The experiments performed have applied the proposed methods in real data sets, bringing relevant knowledge, indicating that both methods are suitable for analysis by similarity of one-dimensional and multidimensional time series. / A analise de séries temporais apresenta certos desafios. Seja pela dificuldade na manipulação dos dados, por exigir um grande custo computacional, ou mesmo pela dificuldade de se en¬contrar subsequências que apresentam as mesmas características. No entanto, essa analise e importante para o entendimento da evolução de diversos fenômenos como as mudanças climaticas, as variações no mercado financeiro entre outros. Este projeto de mestrado propos o desenvolvimento de um método para a realização de consultas por similaridade em series temporais que apresentam melhor desempenho e acurâcia que o estado-da-arte e um método de mineração de regras de associação em series utilizando similaridade. Os experimentos feitos aplicaram os métodos propostos em conjuntos de dados reais, trazendo conhecimento relevante, indicando que os metodos são adequados para analise por similaridade de series temporais unidimensionais e multidimensionais. Data mining (Mineração de dados) Análise de séries temporais Regras de associação Consultas por similaridade Coulomb, Lei de Data mining Time series Association rules Similarity search
47	Aplicação de técnicas de Data Mining para auxiliar no processo de fiscalização no âmbito do Tribunal de Contas do Estado da Paraíba Grilo Júnior, Tarcísio Ferreira 03 September 2010 (has links) Made available in DSpace on 2015-05-08T14:53:30Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2082485 bytes, checksum: 0c5cd714d0a43bac80888cfc1dd4e7cb (MD5) Previous issue date: 2010-09-03 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This search has as goal to validate the hypothesis of the applicability of data mining techniques in Bidding and Contracts database managed by the Account Court of Paraiba State, enabling the generation of rules and discovery of hidden knowledge or implicit, contributing to the process of decision making, supervision and celerity in this Court of Auditors. To the best comprehension of this work, It was made a literature revision bringing at first place a historic vision about the decision process, as well as this theme evolution studies and the relation between the tender processes sent to Account Court of Paraiba State and the fraud indication discovery process and irregularities through the data mining process using. We will bring to light the concept of Business Intelligence (BI) and for it`s main components, as well as the concepts of knowledge discovery in database, and a comparing between the using of the instruments of data mining. We expect from this implant of the data mining an increase in the productivity and also an increase in speed of lawsuit process from the public accounts analysis and public money fiscal control. / Esta pesquisa tem como objetivo validar a hipótese da aplicabilidade das técnicas de mineração de dados na base de dados de Licitação e Contratos gerenciada pelo Tribunal de Contas do Estado da Paraíba (TCE-PB), possibilitando a geração de regras e descoberta de conhecimento oculto ou implícito, contribuindo desta forma com o processo de tomada de decisão, fiscalização e celeridade processual no âmbito desta Corte de Contas. Para melhor compreensão desse trabalho foi realizada uma revisão de literatura abordando primeiramente um histórico sobre o processo de decisão, bem como a evolução dos estudos deste tema e da relação entre os processos licitatórios enviados ao TCE-PB e o processo de descoberta de indícios de fraudes e irregularidades através do uso de mineração de dados. São abordados os conceitos sobre a tecnologia de Business Intelligence (BI) e dos seus principais componentes, bem como os conceitos de Descoberta de Conhecimentos em Bases de Dados (Knowledge Discorevy in Databases), e uma comparação das funcionalidades presentes nas ferramentas de mineração de dados. Espera-se com a implantação desta ferramenta de mineração de dados, um ganho de produtividade e um aumento na celeridade do tramite processual decorrentes da análise das contas públicas e na fiscalização do erário. Business Intelligence Data mining Regras de Associação Controle externo Business Intelligence Data Mining Association Rules External Control Database Knowledge Discovery
48	Análise de desempenho dos algoritmos Apriori e Fuzzy Apriori na extração de regras de associação aplicados a um Sistema de Detecção de Intrusos. / Performance analysis of algorithms Apriori and Fuzzy Apriori in association rules mining applied to a System for Intrusion Detection. Ricardo Ferreira Vieira de Castro 20 February 2014 (has links) A extração de regras de associação (ARM - Association Rule Mining) de dados quantitativos tem sido pesquisa de grande interesse na área de mineração de dados. Com o crescente aumento das bases de dados, há um grande investimento na área de pesquisa na criação de algoritmos para melhorar o desempenho relacionado a quantidade de regras, sua relevância e a performance computacional. O algoritmo APRIORI, tradicionalmente usado na extração de regras de associação, foi criado originalmente para trabalhar com atributos categóricos. Geralmente, para usá-lo com atributos contínuos, ou quantitativos, é necessário transformar os atributos contínuos, discretizando-os e, portanto, criando categorias a partir dos intervalos discretos. Os métodos mais tradicionais de discretização produzem intervalos com fronteiras sharp, que podem subestimar ou superestimar elementos próximos dos limites das partições, e portanto levar a uma representação imprecisa de semântica. Uma maneira de tratar este problema é criar partições soft, com limites suavizados. Neste trabalho é utilizada uma partição fuzzy das variáveis contínuas, que baseia-se na teoria dos conjuntos fuzzy e transforma os atributos quantitativos em partições de termos linguísticos. Os algoritmos de mineração de regras de associação fuzzy (FARM - Fuzzy Association Rule Mining) trabalham com este princípio e, neste trabalho, o algoritmo FUZZYAPRIORI, que pertence a esta categoria, é utilizado. As regras extraídas são expressas em termos linguísticos, o que é mais natural e interpretável pelo raciocício humano. Os algoritmos APRIORI tradicional e FUZZYAPRIORI são comparado, através de classificadores associativos, baseados em regras extraídas por estes algoritmos. Estes classificadores foram aplicados em uma base de dados relativa a registros de conexões TCP/IP que destina-se à criação de um Sistema de Detecção de Intrusos. / The mining of association rules of quantitative data has been of great research interest in the area of data mining. With the increasing size of databases, there is a large investment in research in creating algorithms to improve performance related to the amount of rules, its relevance and computational performance. The APRIORI algorithm, traditionally used in the extraction of association rules, was originally created to work with categorical attributes. In order to use continuous attributes, it is necessary to transform the continuous attributes, through discretization, into categorical attributes, where each categorie corresponds to a discrete interval. The more traditional discretization methods produce intervals with sharp boundaries, which may underestimate or overestimate elements near the boundaries of the partitions, therefore inducing an inaccurate semantical representation. One way to address this problem is to create soft partitions with smoothed boundaries. In this work, a fuzzy partition of continuous variables, which is based on fuzzy set theory is used. The algorithms for mining fuzzy association rules (FARM - Fuzzy Association Rule Mining) work with this principle, and, in this work, the FUZZYAPRIORI algorithm is used. In this dissertation, we compare the traditional APRIORI and the FUZZYAPRIORI, through classification results of associative classifiers based on rules extracted by these algorithms. These classifiers were applied to a database of records relating to TCP / IP connections that aims to create an Intrusion Detection System. Engenharia Eletrônica Apriori Fuzzy Apriori Extração de regras de associação Regras de classificação associativa Detecção de intrusos Electronic Engineering Apriori Fuzzy Apriori Fuzzy Association Rule Mining Associative classification rule Intruder Detection ENGENHARIAS
49	Projeto e avaliação de algoritmos paralelos para sistemas Multicore e Manycore aplicados no processamento de documentos / Design and evaluation of parallel algorithms for Multicore and Manycore systems applied on document processing Freitas, Mateus Ferreira e 30 August 2017 (has links) Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2017-10-02T15:28:01Z No. of bitstreams: 2 Dissertação - Mateus Ferreira e Freitas - 2017.pdf: 4269845 bytes, checksum: e84e69d8747a21125170793812384a98 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-10-02T15:30:07Z (GMT) No. of bitstreams: 2 Dissertação - Mateus Ferreira e Freitas - 2017.pdf: 4269845 bytes, checksum: e84e69d8747a21125170793812384a98 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-10-02T15:30:07Z (GMT). No. of bitstreams: 2 Dissertação - Mateus Ferreira e Freitas - 2017.pdf: 4269845 bytes, checksum: e84e69d8747a21125170793812384a98 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-08-30 / Several applications process documents in different ways, aiming to filter, organize or learn with them. Nowadays, a great computational power is necessary in order to do that efficiently, due to the large and increasing number of documents. Usually, documents are independent of each other, which facilitates the use of parallelism to speed up this processing. This work explores three problems: active learning, learning to rank (L2R) and top-k search. Using the parallelism on multicore CPUs and manycore GPUs (Graphics Processing Unit), parallel algorithms were proposed and evaluated for each problem, and implemented with the OpenMP and CUDA APIs. For the active learning problem a multicore algorithm was proposed, which obtained 10.8x of speedup in the best case with 12 threads. The proposed manycore version obtained 128x of speedup over the serial version, and a solution with 4 GPUs achieved 3.5x of speedup over 1 GPU. For the L2R problem a manycore algorithm was proposed, which follows a thread-block approach using the concept of Combinadic, and uses a cache with fingerprint to speed up the processing. The best case speedups were 508x over the serial, 9x over a GPU baseline, and 4x over our solution when using 4 GPUs. When comparing with a version without combinadic, the speedup over it was 4.4x with both versions using 1 GPU and 3.9x with 4. These solutions used bitmap structures to speed up the association rules creation. In the top-k search a serial and multicore solutions were implemented from a state of the art manycore algorithm for exact searches. These implementations served as baselines for our extension of this algorithm, which includes the use of multi-GPU, group searches and an intra-block load balancing. The speedups were 2.7x over the original algorithm, 17x over the serial, 4x over the multicore, and 4x over our version when using 4 GPUs. / Diversas aplicações processam documentos de diferentes maneiras, visando filtrá-los, organizá-los ou aprender com eles. Atualmente, é necessário um grande poder computacional para que isso seja feito eficientemente, devido ao número grande e crescente de documentos. Geralmente os documentos são independentes entre si, o que facilita o uso de paralelismo para acelerar esse processamento. Este trabalho explora três problemas: aprendizado ativo, learning to rank (L2R) e busca top-k. Usando o paralelismo em CPUs multicore e GPUs (Graphics Processing Unit) manycore, algoritmos paralelos foram propostos e avaliados para cada problema, e implementados com as APIs OpenMP e CUDA. Para problema de aprendizado ativo foi proposto um algoritmo multicore, que obteve speedup de 10,8x no melhor caso com 12 threads. A versão manycore proposta obteve speedup de 128x em relação ao serial, e uma solução com 4 GPUs atingiu 3,5x de speedup sobre 1 GPU. Para o problema de L2R foi proposto um algoritmo manycore, que segue uma abordagem por bloco de threads} usando o conceito de Combinadic, e usa uma cache} com fingerprint para acelerar o processamento. Os speedups nos melhores casos foram de 508x sobre o serial, 9x sobre uma baseline em GPU, e 4x sobre nossa solução com 1 GPU ao usar 4 GPUs. Ao comparar com uma versão sem o combinadic, o speedup sobre ela foi de 4,4x com ambas versões usando 1 GPU e 3,9x usando 4. Estas soluções usaram estruturas de mapa de bits para acelerar a criação de regras de associação. Na busca top-k foram implementadas uma solução serial e uma multicore de um algoritmo manycore estado da arte para buscas exatas. Estas implementações serviram de baseline para nossa extensão desse algoritmo, que inclui o uso de multi-GPU, buscas em grupos e um balanceamento de carga intra-bloco. Os speedups obtidos foram de 2,7x sobre o algoritmo original, 17x sobre o serial, 4x sobre o multicore, e 4x sobre nossa versão ao usar 4 GPUs. Paralelismo Regras de associação Aprendizado ativo Busca top-K parallelism Learning to rank GPU Association rules Learning to rank Active learning Top-K search
50	Evolução de regras de associação para recomendação de produtos em comércio eletrônico Cunha, Danilo Souza da 23 October 2013 (has links) Made available in DSpace on 2016-03-15T19:37:52Z (GMT). No. of bitstreams: 1 Danilo Souza da Cunha.pdf: 1082171 bytes, checksum: 4d2c64017c5641baf212b0fe377da373 (MD5) Previous issue date: 2013-10-23 / Fundo Mackenzie de Pesquisa / E-commerce has been growing rapidly over the past years. Various products, services, and information are constantly offered to millions of internet users. Defining an adequate strategy to offer a product to a customer is the main goal of a recommender system. To do so, the items to be offered have to take into account the interests of each customer. This association of items is a data mining task, more specifically a task called association rule mining. This dissertation investigated the use of bioinspired algorithms, particularly evolutionary and im-mune algorithms, to build associations among items of a database. Three sets of experiments were performed: an investigation into the influence of different selection and crossover mech-anisms in an evolutionary algorithm for association rule mining; the use of a probabilistic selection in the immune algorithm; and a comparison of the bioinspired algorithms with the standard deterministic algorithm called Apriori. The data bases for comparison were taken from real e-commerce applications. The results allowed the identification of a suitable combi-nation of the selection and crossover mechanisms for the evolutionary algorithm, and to iden-tify the strengths and weaknesses of all approaches when applied to real-world recommender systems. / O comércio eletrônico vem crescendo rapidamente ao longo dos últimos anos. Produtos, serviços e informações dos mais variados tipos são oferecidos todos os dias para milhares de usuários na Internet. Definir uma estratégia adequada para oferecer um produto a clientes é o objetivo dos sistemas de recomendação. Para isso leva em conta itens que podem ser ofertados considerando o interesse de cada cliente. Essa associação entre itens é uma tarefa que recai sobre a competência da mineração de dados, mais especificamente a área chamada de mineração de regras de associação. Esta dissertação investigou o uso de algoritmos bioinspirados, mais especificamente algoritmos evolutivos e imunológicos, a fim de construir associações entre os itens de uma base de dados. Foram feitos três estudos: a influência de diferentes mecanismos de seleseleção e cruzamento no algoritmo evolutivo; o uso de seleção probabilística no algoritmo imunológico; e a comparação dos algoritmos bioinspirados com o algoritmo determinístico clássico aplicado a essa tarefa, chamado de Apriori. As bases de dados para efeitos comparativos foram coletadas em lojas nacionais de comércio eletrônico. Os resulta-dos apresentados permitiram identificar uma combinação adequada dos mecanismos de sele-ção e cruzamento do algoritmo evolutivo, assim como identificar os pontos fortes e fracos dos algoritmos bioinspirados quando comparados ao algoritmo tradicional. sistemas de recomendação algoritmos evolutivos sistemas imunológicos artificiais regras de associação recommender systems evolutionary algorithms artificial immune systems association rules CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA

Search results