Spelling suggestions: "subject:"mineração dde dados"" "subject:"mineração dee dados""
1 |
Extração automática de conhecimento por múltiplos indutores.Baranauskas, José Augusto 09 August 2001 (has links)
Nesta tese são investigados três problemas básicos em aprendizado supervisionado: seleção de atributos, composição de atributos e combinação de classificadores simbólicos. A seleção de atributos é uma atividade de pré-processamento de dados que seleciona um subconjunto de atributos do conjunto original de exemplos. Existem, basicamente, três abordagens que são empregadas para a seleção de atributos: embutida, filtro e wrapper; as duas últimas pesquisadas neste trabalho. Os experimentos realizados, utilizando diversos indutores e conjuntos de exemplos, para avaliar as abordagens filtro e wrapper nos permitem concluir que o uso de filtros deve ser considerado antes de se cogitar a utilização de wrappers, no caso de existirem muitos atributos para descrever os exemplos. Sob a perspectiva de compreensibilidade do conhecimento induzido, a análise sobre o impacto da seleção de atributos em um classificador simbólico mostrou um aumento do número de regras e do número de condições por regra. A composição de atributos, também conhecida como indução construtiva, é outra atividade de pré-processamento de dados. Dentre as várias abordagens de composição de atributos (guiada por dados, por hipótese, por conhecimento e multi-estratégia), nesta tese é proposta uma metodologia para composição de atributos guiada pelo conhecimento. Os resultados dos experimentos realizados utilizando a metodologia proposta mostram que, mesmo com o auxílio do usuário/especialista, é difícil construir atributos derivados que sejam realmente relevantes para aprender o conceito embutido nos conjuntos de exemplos analisados de repositórios (naturais), os quais, muitas vezes, já foram pré-processados. Esse fato foi confirmado, por um trabalho posterior, com dados do mundo real, no qual a metodologia proposta mostrou seu potencial. A combinação de classificadores, simbólicos ou não, é uma atividade de mineração de dados. Na realidade, uma das preocupações do Aprendizado de Máquina simbólico é que os classificadores induzidos devem ser fáceis de serem compreendidos pelos seres humanos. Para isso, deve-se escolher o indutor com bias mais adequado para cada tipo de situação, já que pesquisas mostraram que não existe o 'melhor' indutor para todos os domínios. Aliada a essa escolha, é possível fazer uso de vários classificadores, combinando-os num único classificador final, formando um ensemble. Os ensembles possuem a tendência de melhorar o desempenho na classificação de exemplos não vistos durante o processo de aprendizado. Entretanto, o emprego de ensembles dificulta a compreensão humana sobre o comportamento do classificador final, já que ele deixa de ser simbólico, mesmo assumindo que cada classificador individual que o compõe seja simbólico. Na realidade, a combinação de classificadores simbólicos - provenientes de diferentes indutores - em um classificador final também simbólico é um tópico novo de pesquisa, ainda com poucos resultados divulgados. Com o objetivo de preencher essa lacuna, é proposto e desenvolvido neste trabalho o sistema Xruler. Para isso, inicialmente foi definido o formato padrão de regras PBM, o qual fornece uma perspectiva unificada sob a qual todo classificador simbólico pode ser convertido e analisado. Dentre outros componentes, o sistema Xruler possui um algoritmo de cobertura que pode ser aplicado ao conjunto de regras induzidas por diversos indutores para se obter um classificador simbólico final. Nos experimentos realizados com o sistema Xruler os resultados obtidos mostraram aumento da precisão e redução do número de regras. Sob o aspecto sintático das regras, isso pode ser considerado um avanço no sentido de uma maior compreensibilidade por seres humanos do conjunto final de regras.
|
2 |
Clustering ensembles : a hedonic game theoretical approach / Clustering ensembles: uma abordagem teórica baseada em jogos hedônicos (Português / inglês)Sandes, Nelson Carvalho 14 May 2018 (has links)
Made available in DSpace on 2019-03-30T00:05:56Z (GMT). No. of bitstreams: 0
Previous issue date: 2018-05-14 / Clustering ensembles (CE) is an approach that takes advantage of a set of clusterings,
known as base partitions, to generate a consensus solution. The related literature has
shown that usually the consensus partition has better quality in comparison with the
single base partitions. This work tackles the CE problem from a hedonic game theoretical
perspective. In the formulated cooperative game, the points (instances or objects) are
viewed as players, while clusters are regarded as coalitions. The preferences of each player are stored in an evidence-accumulation matrix, obtained through the base partitions, which has properties that guarantee the existence of at least one Nash stable coalition structure.
That is, a coalition structure where players do not have the incentive to move from their
own coalition to another existent coalition. To achieve this kind of solution, we proposed
the HGCE (Hedonic Game based Clustering Ensemble) algorithm, which is based on the
best dynamics approach. Initially each player is in a singleton coalition, composed by itself.
After that, in each iteration, each player has the option to switch to a new coalition where
it will obtain a better payoff. This process repeats itself until it reaches an equilibrium,
where players do not benefit anymore by changing coalitions. Because different coalition
structures may emerge due to the order of the playes, we also developed a version of HGCE
where the final solution is independent of the players ordering. Empirical experiments
conducted on several data sets have shown that the coalition structure obtained by HGCE
is frequently a better clustering solution in comparison with clusterings generated from
others well known CE algorithms. The experiments also show that HGCE is computational
efficient and resilient to random perturbations on the base partitions used as input of the
algorithm.
Keywords: Clustering, Clustering ensemble, Coalition, Hedonic games, Cooperative game
theory. / Clustering ensembles (CE) é uma abordagem que se aproveita de um conjunto de cluster-
ings, conhecidos como partições-base, para produzir uma partição consenso. A literatura
tem demonstrado que a qualidade das partições obtidas pela abordagem CE é geralmente
superior à qualidade das partições-base, quando consideradas individualmente. Este tra-
balho aborda o problema de CE sob a perspectiva dos jogos hedônicos. No jogo cooperativo
formulado, os pontos (instâncias ou objetos) são vistos como jogadores, enquanto os clus-
ters são encarados como coalizões. As preferências de cada jogador são armazenadas em
uma matriz de similaridade, obtida através das partições-base, que contém propriedades
que garantem a existência de pelo menos uma estrutura de coalizão Nash estável. Ou seja,
uma estrutura de coalizão em que os jogadores não possuem o incentivo de mudar de suas
próprias coalizões para outra coalizão existente. Para alcançar esse tipo de solução, nós
propusemos o algoritmo HGCE (Hedonic Game based Clustering Ensemble) que é baseado
na abordagem de best response dynamics. Inicialmente, cada jogador está em uma coalizão
com um elemento, composta por ele mesmo. Depois disso, em cada iteração, cada jogador
pode se mover para uma nova coalizão, caso ele obtenha um payoff melhor. Este processo
se repete até um equilíbrio ser alcançado, em que nenhum jogador se beneficia em mudar
de coalizão. Pelo fato de diferentes estruturas de coalizão emergirem de acordo com a
ordem dos jogadores, nós também desenvolvemos uma versão do algoritmo HGCE que é
independente da ordem dos jogadores. Experimentos empíricos conduzidos em diversos
conjuntos de dados mostram que a estrutura de coalizão obtida pelo algoritmo HGCE,
em grande parcela dos casos, é uma solução de clustering melhor quando comparada
com soluções obtidas por outros algoritmos que também adotam a abordagem de CE.
Os experimentos mostram que o HGCE é computacionalmente eficiente e se demonstra
resiliente a perturbações nas partições-base utilizadas como entrada do algoritmo.
Palavras-chave: Clustering, Clustering ensembles, Coalizão, Jogos hedônicos, Teoria dos
jogos cooperativos.
|
3 |
Random forests estocásticoGómez, Silvio Normey January 2012 (has links)
Made available in DSpace on 2013-08-07T18:43:07Z (GMT). No. of bitstreams: 1
000449231-Texto+Completo-0.pdf: 1860025 bytes, checksum: 1ace09799e27fa64938e802d2d91d1af (MD5)
Previous issue date: 2012 / In the Data Mining area experiments have been carried out using Ensemble Classifiers. We experimented Random Forests to evaluate the performance when randomness is applied. The results of this experiment showed us that the impact of randomness is much more relevant in Random Forests when compared with other algorithms, e. g., Bagging and Boosting. The main purpose of this work is to decrease the effect of randomness in Random Forests. To achieve the main purpose we implemented an extension of this method named Stochastic Random Forests and specified the strategy to increase the performance and stability combining the results. At the end of this work the improvements achieved are presented. / Na área de Mineração de Dados, experimentos vem sendo realizados utilizando Conjuntos de Classificadores. Estes experimentos são baseados em comparações empíricas que sofrem com a falta de cuidados no que diz respeito à questões de aleatoriedade destes métodos. Experimentamos o Random Forests para avaliar a eficiência do algoritmo quando submetido a estas questões. Estudos sobre os resultados mostram que a sensibilidade do Random Forests é significativamente maior quando comparado com a de outros métodos encontrados na literatura, como Bagging e Boosting. O proposito desta dissertação é diminuir a sensibilidade do Random Forests quando submetido a aleatoriedade. Para alcançar este objetivo, implementamos uma extensão do método, que chamamos de Random Forests Estocástico. Logo especificamos como podem ser alcançadas melhorias no problema encontrado no algoritmo combinando seus resultados. Por último, um estudo é apresentado mostrando as melhorias atingidas no problema de sensibilidade.
|
4 |
Behavior classification and object ranking from movement trajectories in target regionsBarragana, Mateus de Oliveira January 2016 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016. / Made available in DSpace on 2017-02-14T03:06:56Z (GMT). No. of bitstreams: 1
343948.pdf: 14369382 bytes, checksum: e0cac31809638d99cc3af79fe29381bd (MD5)
Previous issue date: 2016 / Vários métodos de mineração de dados têm sido propostos no últimosanos para descobrir diferentes tipos de padrões entre dois ou mais objetosem movimento. Apenas algumas obras identificam anomalias nocomportamento de objetos em torno de determinadas regiões de interesse(ROI), tais como câmeras de vigilância, edifícios comerciais, etc,que podem ser de interesse para diversos domínios de aplicação, principalmentena área de segurança. Neste trabalho são definidos novos tiposde comportamento anômalo de objetos em movimento em relação à regiãode interesse, incluindo surround, escape, return e avoidance. Combase nesses tipos de comportamento anômalo é proposto: (i) um algoritmopara calcular estes comportamentos; (ii) um conjunto de funçõespara pesar o grau de comportamento anômalo de cada objeto em movimento;e (iii) uma classificaçao dos objetos em movimento de acordocom o grau de comportamento anômalo em relação a um conjunto deregiões. O método proposto é avaliado com dados reais de trajetóriase é mostrado que o trabalho relacionado mais próximo não detecta oscomportamentos propostos e classifica os objetos considerando apenasum tipo de movimento anômalo.<br> / Abstract : Several data mining methods have been proposed in the last few yearsfor discovering different types of patterns among two or more movingobjects. Only a few works identify unusual behavior of objects aroundgiven Regions of Interest (ROI), such as surveillance cameras, commercialbuildings, etc, that may be interesting for several applicationdomains, mainly for security. In this thesis we define new types ofunusual behavior of moving objects in relation to ROI, including surround,escape, return, and avoidance. Based on these types of unusualbehavior we (i) present an algorithm to compute these behaviors, (ii)define a set of functions to weight the degree of unusual behavior ofevery moving object in the database, and (iii) rank the moving objectsaccording to the degree of unusual behavior in relation to a set of ROIs.We evaluate the proposed method with real trajectory data and showthat the closest work does not detect the proposed behaviors and ranksobjects considering only one type of unusual movement.
|
5 |
Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incertezaCarvalho, Juliano Varella de January 2015 (has links)
Made available in DSpace on 2015-08-18T02:05:38Z (GMT). No. of bitstreams: 1
000473651-Texto+Completo-0.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5)
Previous issue date: 2015 / Frequent Itemsets Mining (FIM) is a data mining task used to find relations between dataset items. Apriori is the traditional algorithm of the Generate-and-Test class to discover these relations. Recent studies show that this algorithm and others of this task are not adapted to execute in contexts with uncertainty because these algorithms are not prepared to handle with the probabilities associated to items of the dataset. Nowadays, data with uncertainty occur in many applications, for example, data collected from sensors, information about the presence of objects in satellite images and data from application of statistical methods. Due to big datasets with associated uncertainty, new algorithms have been developed to work in this context: UApriori, UF-Growth and UH-Mine. UApriori, specially, is an algorithm based in expected support, often addressed by scientific community. On the one hand, when this algorithm is applied to big datasets, in a context with associated probabilities to dataset items, it does not present good scalability. On the other hand, some works have evolved the Apriori algorithm joining with the model of programming MapReduce, in order to get a better scalability. With this model, it is possible to discover frequent itemsets using parallel and distributed computation. However, these works focus their efforts on discovering frequent itemsets on deterministic datasets. This thesis present the development, implementation and experiments applied to three algorithms: UAprioriMR, UAprioriMRByT and UAprioriMRJoin. The three cited algorithms evolve the traditional algorithm Apriori, integrating the model of programming MapReduce, on contexts with uncertainty. The algorithm UAprioriMRJoin is a hybrid algorithm based on the UAprioriMR and UAprioriMRByT algorithms. The experiments expose the good performance of the UAprioriMRJoin algorithm, when applied on big datasets, with many distinct items and a small average number of items per transaction in a cluster of nodes. / Frequent Itemsets Mining (FIM) é uma tarefa de mineração de dados utilizada para encontrar relações entre os itens de um dataset. O Apriori é um tradicional algoritmo da classe Generateand- Test para descobrir tais relações. Estudos recentes mostram que este e outros algoritmos desta tarefa não estão aptos para executar em contextos onde haja incerteza associada, pois eles não estão preparados para lidar com as probabilidades existentes nos itens do dataset. A incerteza nos dados ocorre em diversas aplicações como, por exemplo, dados coletados de sensores, informações sobre a presença de objetos em imagens de satélite e dados provenientes da aplicação de métodos estatísticos. Dada a grande quantidade de dados com incertezas associadas, novos algoritmos têm sido desenvolvidos para trabalharem neste contexto: UApriori, UF-Growth e UH-Mine. O UApriori, em especial, é um algoritmo baseado em suporte esperado, abordado frequentemente pela comunidade acadêmica. Quando este algoritmo é aplicado sobre grandes datasets, em um contexto com probabilidades associadas aos itens do dataset, ele não apresenta boa escalabilidade. Por outro lado, alguns trabalhos têm adaptado o algoritmo Apriori para trabalhar com o modelo de programação MapReduce, a fim de prover uma melhor escalabilidade. Utilizando este modelo, é possível descobrir itens frequentes de modo paralelo e distribuído. No entanto, tais trabalhos focam seus esforços na descoberta de itens frequentes sobre datasets determinísticos. Esta tese apresenta o desenvolvimento, implementação e os experimentos realizados, a partir da aplicação e discussão de três algoritmos: UAprioriMR, UAprioriMRByT e UAprioriMRJoin. Os três algoritmos citados evoluem o algoritmo tradicional Apriori para que possam executar com o modelo de programação MapReduce sobre contextos com incerteza associada. O algoritmo UAprioriMRJoin é um algoritmo híbrido com base nos algoritmos UAprioriMR e UAprioriMRByT. Os experimentos revelam o bom desempenho do algoritmo UAprioriMRJoin quando aplicado sobre grandes datasets, com muitos atributos e um número médio pequeno de itens por transação, em um cluster de nodos.
|
6 |
Extração automática de conhecimento por múltiplos indutores.José Augusto Baranauskas 09 August 2001 (has links)
Nesta tese são investigados três problemas básicos em aprendizado supervisionado: seleção de atributos, composição de atributos e combinação de classificadores simbólicos. A seleção de atributos é uma atividade de pré-processamento de dados que seleciona um subconjunto de atributos do conjunto original de exemplos. Existem, basicamente, três abordagens que são empregadas para a seleção de atributos: embutida, filtro e wrapper; as duas últimas pesquisadas neste trabalho. Os experimentos realizados, utilizando diversos indutores e conjuntos de exemplos, para avaliar as abordagens filtro e wrapper nos permitem concluir que o uso de filtros deve ser considerado antes de se cogitar a utilização de wrappers, no caso de existirem muitos atributos para descrever os exemplos. Sob a perspectiva de compreensibilidade do conhecimento induzido, a análise sobre o impacto da seleção de atributos em um classificador simbólico mostrou um aumento do número de regras e do número de condições por regra. A composição de atributos, também conhecida como indução construtiva, é outra atividade de pré-processamento de dados. Dentre as várias abordagens de composição de atributos (guiada por dados, por hipótese, por conhecimento e multi-estratégia), nesta tese é proposta uma metodologia para composição de atributos guiada pelo conhecimento. Os resultados dos experimentos realizados utilizando a metodologia proposta mostram que, mesmo com o auxílio do usuário/especialista, é difícil construir atributos derivados que sejam realmente relevantes para aprender o conceito embutido nos conjuntos de exemplos analisados de repositórios (naturais), os quais, muitas vezes, já foram pré-processados. Esse fato foi confirmado, por um trabalho posterior, com dados do mundo real, no qual a metodologia proposta mostrou seu potencial. A combinação de classificadores, simbólicos ou não, é uma atividade de mineração de dados. Na realidade, uma das preocupações do Aprendizado de Máquina simbólico é que os classificadores induzidos devem ser fáceis de serem compreendidos pelos seres humanos. Para isso, deve-se escolher o indutor com bias mais adequado para cada tipo de situação, já que pesquisas mostraram que não existe o 'melhor' indutor para todos os domínios. Aliada a essa escolha, é possível fazer uso de vários classificadores, combinando-os num único classificador final, formando um ensemble. Os ensembles possuem a tendência de melhorar o desempenho na classificação de exemplos não vistos durante o processo de aprendizado. Entretanto, o emprego de ensembles dificulta a compreensão humana sobre o comportamento do classificador final, já que ele deixa de ser simbólico, mesmo assumindo que cada classificador individual que o compõe seja simbólico. Na realidade, a combinação de classificadores simbólicos - provenientes de diferentes indutores - em um classificador final também simbólico é um tópico novo de pesquisa, ainda com poucos resultados divulgados. Com o objetivo de preencher essa lacuna, é proposto e desenvolvido neste trabalho o sistema Xruler. Para isso, inicialmente foi definido o formato padrão de regras PBM, o qual fornece uma perspectiva unificada sob a qual todo classificador simbólico pode ser convertido e analisado. Dentre outros componentes, o sistema Xruler possui um algoritmo de cobertura que pode ser aplicado ao conjunto de regras induzidas por diversos indutores para se obter um classificador simbólico final. Nos experimentos realizados com o sistema Xruler os resultados obtidos mostraram aumento da precisão e redução do número de regras. Sob o aspecto sintático das regras, isso pode ser considerado um avanço no sentido de uma maior compreensibilidade por seres humanos do conjunto final de regras.
|
7 |
Estudo comparativo de algoritmos exaustivos para mineração de padrões discriminativos em bases de dados biomédicasSANTOS, Maurício Aldenor Souza dos 20 June 2017 (has links)
Submitted by Fernanda Rodrigues de Lima (fernanda.rlima@ufpe.br) on 2018-08-17T21:55:27Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Mauricio Aldenor dos Santos.pdf: 3088895 bytes, checksum: 53a5e877c5c57c34635e64d58ff43740 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-08-24T21:07:37Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Mauricio Aldenor dos Santos.pdf: 3088895 bytes, checksum: 53a5e877c5c57c34635e64d58ff43740 (MD5) / Made available in DSpace on 2018-08-24T21:07:37Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Mauricio Aldenor dos Santos.pdf: 3088895 bytes, checksum: 53a5e877c5c57c34635e64d58ff43740 (MD5)
Previous issue date: 2017-06-20 / Um grande desafio do crescimento exponencial dedados no mundo é a extração de conhecimento em bases de alta dimensionalidade. Essa característica é muito comum em bases de domínio biomédico. Uma técnica utilizada para extração do conhecimento é chamada de mineração de Padrões Discriminativos (PDs) que objetiva em contrar informações interessantes que ocorram com frequência desproporcional em uma classe(atributo) em relação as outras. A maioria dos algoritmos exaustivos para mineração de PDstem sidos propostos com o objetivo de solucionar problemas dedados tradicionais de baixa dimensionalidade. Dessa maneira se tornou criticamente necessário investigar se esses algoritmos podem ser aplicados a dados biomédicos de alta dimensionalidade. Esse trabalho tem como objetivo comparar o comportamento das abordagens exaustivas dos PDs em bases reais comum se de alta dimensionalidade. Para isso experimentos foram realizados com os algoritmos APRIORI-SD, SD-Map eRCS, utilizando bases da UCI(Machine Learning Repository) e biomédicas de microarrays. Os experimentos revelaram que os algoritmos não são os mais apropriados as bases biomédicas de alta dimensionalidade, entretanto para um algoritmo houve algum retorno dePD e dois algoritmos tiveram bons desempenho sem bases tradicionais de baixa dimensionalidade. / A major challenge of exponential data growth in the world is the extraction of knowledge in high dimensional databases. This feature is very common on biomedical domain bases. A technique used to extract knowledge is called Discriminative Patterns mining(DPs) that aims to find interesting information that occurs disproportionately in one class (attribute) in relation to the others. Most of the exhaustive algorithms for DPmining have been proposed with the aim of solving traditional low-dimensional data problems. In this way it has become critically necessary to investigate whether these algorithms can be applied to high dimensional biomedical data. The objective of this work is to compare the behavior of the exhaustive approaches of PDs in common and high dimensionality real bases. For this purpose experiments were performed using the APRIORI-SD, SD-Map and RCS algorithms, using the bases of the UCI(Machine Learning Repository) and biomedical microarrays. The experiments revealed that the algorithms are not the most appropriate biomedical bases of high dimensionality, However for an algorithm there was some return of PDs and two algorithms had good performances in traditional bases of low dimensionality.
|
8 |
Uma abordagem multidimensional para OLAM como ferramenta de avaliação de desempenho de modelos de classificação bináriaSANTOS FILHO, Mailson Melo dos 09 September 2015 (has links)
Submitted by Fernanda Rodrigues de Lima (fernanda.rlima@ufpe.br) on 2018-10-08T20:40:03Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Mailson Melo dos Santos Filho.pdf: 1618446 bytes, checksum: 2d7170f25c5f5001042914b1ce30dde9 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-11-22T17:16:18Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Mailson Melo dos Santos Filho.pdf: 1618446 bytes, checksum: 2d7170f25c5f5001042914b1ce30dde9 (MD5) / Made available in DSpace on 2018-11-22T17:16:18Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Mailson Melo dos Santos Filho.pdf: 1618446 bytes, checksum: 2d7170f25c5f5001042914b1ce30dde9 (MD5)
Previous issue date: 2015-09-09 / CNPq / Os sistemas de suporte à decisão são utilizados para auxiliar os gestores na tomada de decisão, inclusive, de alto nível. Eles implementam todas as etapas do processo de extração de conhecimento em banco de dados (KDD - Knowledge-Discovery in Databases) e o ambiente de consultas a dados e conhecimento, incluindo simulação de cenários sobre os indicadores do negócio (KPIs - Key Performance Indicators). As ferramentas OLAP (Online Analytical Processing) oferecem um ambiente para consultas que permite a análise de um grande volume de dados, por meio de cruzamento entre dados, apresentação de perspectiva de processamento multinível (hierarquias) para os dados e funções de perfuração e fatiamento dos conjuntos entre outras. Estas ferramentas têm interface amigável com o decisor humano apresentando gráficos, modelos e sumarizações, mas são limitadas a operações diretas e à validação de conhecimento humano sobre os dados do negócio. No processo de KDD, a mineração de dados usa inteligência artificial e estatística para extração de conhecimento dos dados e para apoiar a decisão humana em atividades de inferência e previsão. OLAM (Online Analytical Mining) é um conceito equivalente ao OLAP para navegação sobre o conhecimento extraído e sobre o efeito da sua aplicação na tomada de decisões sobre o desempenho do negócio tanto nos indicadores técnicos de inteligência artificial quanto nos KPIs. No entanto, não foi encontrado ferramental genérico que permita realizar de forma sistemática o OLAM. A proposta desse trabalho é mostrar que algumas operações fundamentais de OLAM podem ser implementadas por meio de ferramentas OLAP, mediante amostragem de dados com independência estatística submetidos à mineração e a certas transformações de dados. O trabalho é validado por meio de um problema de decisão binária, no qual a resposta do algoritmo de mineração de dados (escore de propensão) sobre a massa de dados estatisticamente independente passa a ser uma medida no data warehouse. O trabalho demonstra que essa abordagem permite a geração de cubos associado à classe-alvo e aos KPIs para avaliação de desempenho, tornando a ferramenta OLAP capaz de realizar OLAM. Ao final, o trabalho analisa as principais limitações das ferramentas OLAP que as impede de implementar OLAM com mais flexibilidade e as implicações conceituais e operacionais para serem superadas. / Decision support systems are used to assist managers inclusive in making high-level decisions. They implement all stages of knowledge extraction process in database (KDD - Knowledge Discovery in Databases) and the environment queries to data and knowledge, including simulation scenarios on the business indicators (KPIs - Key Performance Indicators). The OLAP (Online Analytical Processing) provides an environment for queries that allows analysis of large volumes of data through data merging, multilevel processing perspective presentation (hierarchies) for data and drilling functions and slicing of among other sets of functions. These tools have user-friendly interface with the human decision maker presenting graphics, models and summarization, but are limited to direct operations and human knowledge validation on business data. In the process of KDD, data mining uses artificial intelligence and statistical techniques for knowledge extraction in inference and forecasting activities for supporting human decision. OLAM (Online Analytical Mining) is a concept equivalent to OLAP to navigation on the extracted knowledge and the effect of applying them in making decisions about business performance both in technical indicators artificial intelligence as the KPIs. However, it was not found generic tools that allows perform systematically the OLAM. The purpose of this paper is to show that some fundamental operations of OLAM can be implemented by means of OLAP tools, sampled data with statistical independence subject to certain mining and data transformations. The job is validated by means of a binary decision problem, in which the response data mining algorithm (propensity score) statistically independent data about the mass becomes a measure in the data warehouse. The work demonstrates that this approach allows the generation of cubes associated with class-blalvo and KPIs for performance evaluation, making OLAP tool capable of performing OLAM. Finally, the paper analyzes the main limitations of OLAP tools that prevents them from implementing OLAM with more flexibility and the conceptual and operational implications for trying to overcome.
|
9 |
Comitês de agrupamentos bidimensionais de dados gerados via algorimos bio-inspirados multimodais / Ensembles of biclusters generated by multimodal bio-inspired algorithms (Inglês)Menezes, Lara Carvalho 28 December 2011 (has links)
Made available in DSpace on 2019-03-29T23:32:52Z (GMT). No. of bitstreams: 0
Previous issue date: 2011-12-28 / The goal of Data Mining (DM) as a research area is to provide a set of tasks and algorithms aiming at extracting interesting and useful information from large databases. Among several DM tasks lies that of biclustering, whereby rows and columns of a data matrix are simultaneously grouped based on the similarity of their elements. The main objectives of this work are to provide a thorough comparative assessment on the performance of several multimodal bio-inspired algorithms while coping with biclustering as well as to investigate the potentials of ensemble models induced over biclusters generated by these algorithms, having in mind Bioinformatics problems. After introducing general DM concepts as well as specific concepts related to biclustering, a detailed characterization of the multimodal bio-inspired algorithms and ensemble models investigated here is provided. Experiments have been systematically conducted to evaluate the performance of these algorithms, and the overall results achieved indicate that the ensemble models can usually outperform the multimodal bio-inspired algorithms when applied alone, as evidenced by several efficiency and effectiveness measures and hypothesis tests.
Keywords: Data mining, Machine learning, Biclustering, Committee machines, Metaheuristics, Bio-inspired algorithms, Bioinformatics. / A área de Mineração de Dados (MD) fornece um conjunto de tarefas e algoritmos voltados à extração de informações de grandes bases de dados. Entre essas tarefas, temos o agrupamento bidimensional de dados (biclustering), em que linhas e colunas de uma matriz são agrupadas simultaneamente com base na similaridade dos seus elementos. Os objetivos deste trabalho são realizar um estudo comparativo sistemático entre algoritmos bio-inspirados multimodais aplicados à tarefa de agrupamento bidimensional de dados e investigar o desempenho de comitês de biclusters gerados por esses algoritmos, tomando como base problemas de Bioinformática. Após se introduzir conceitos gerais de MD e específicos da tarefa de biclustering, passa-se a discorrer sobre algoritmos bio-inspirados multimodais e sobre modelos de comitês aplicados a essa tarefa. Experimentos conduzidos de forma sistemática avaliam o desempenho dos algoritmos bio-inspirados e de dois arranjos de comitês de biclusters, sendo que os resultados obtidos indicam que, em geral, os comitês obtiveram um desempenho mais satisfatório que os algoritmos multimodais, de acordo com as métricas de avaliação levantadas e testes estatísticos.
Palavras-Chave: Mineração de dados, Aprendizado de máquina, Agrupamento bidimensional, Comitês de máquinas, Meta-heurísticas, Algoritmos bio-inspirados, Bioinformática
|
10 |
Avaliação de ferramentas de mineração de dados como fonte de dados relevantes para a tomada de decisão : aplicação na rede Unidão de supermercados, São Leopoldo-RSGonçalves, Lóren Pinto Ferreira January 2001 (has links)
Esta pesquisa tem como tema a avaliação de ferramentas de mineração de dados disponíveis no mercado, de acordo com um site de descoberta do conhecimento, chamado Kdnuggets (http://www.kdnuggets.com). A escolha deste tema justifica-se pelo fato de tratar-se de mna nova tecnologia de informação que vem disponibilizando diversas ferramentas com grandes promessas e altos investimentos, mas que, por outro lado, ainda não é amplamente utilizada pelos tomadores de decisão das organizações. Uma das promessas desta tecnologia é vasculhar grandes bases de dados em busca de informações relevantes e desconhecidas e que não poderiam ser obtidas através de sistemas chan1ados convenciOnais. Neste contexto, realizar uma avaliação de algumas destas ferramentas pode auxiliar a estes decisores quanto à veracidade daquilo que é prometido sem ter de investir antes de estar seguro do cumprimento de tais promessas. O foco da pesquisa é avaliar sistemas que permitem a realização da análise de cesta de supermercado (market basket analysis) utilizando bases de dados reais de uma rede de supermercados. Os seus objetivos são: avaliar ferramentas de mineração de dados como fonte de informações relevantes para a tomada de decisão; identificar, através da revisão de literatura, as promessas da tecnologia e verificar se tais promessas são cumpridas pelas ferramentas; identificar e caracterizar ferrmnentas de mineração de dados disponíveis no mercado e comparar os tipos de resultados gerados pelas diferentes ferramentas e relatar problemas encontrados durante a aplicação destas ferramentas. O desenvolvimento do trabalho segue o método estudo de caso múltiplo: os dados foram coletados a partir da aplicação das ferramentas às bases de dados e da entrevista com tomadores de decisão da empresa. Foram seguidos procedimentos já utilizados de avaliação de sistemas para a realização desta pesquisa. A partir da análise dos dados coletados, pôde-se conhecer alguns problemas apresentados pelas ferramentas e concluiu-se que as ferramentas, que foram utilizadas neste trabalho, não estão prontas para serem disponibilizadas no mercado. / This research has as subject the evaluation of data mining tools available in the market, 111 agreement with a knowledge discovery site, called Kdnuggets (http ://www.kdnuggets.com). The choice of this subject is justified by the fact that data mining is a new information teclmology that is releasing severa! tools with great promises and high investments, however that, on the other hand, is not still used thoroughly by the organizations' decision makers. One of the promises of this technology is to search great databases in order to obtain important and unknown information which could not be obtained through conventional systems. In this context, accomplishing an evaluation of some of these tools can aid these people concerning the truthfulness of what is promised without making them invest before being sure about theveracity of such promises. The focus of the research is to evaluate systems that allow the accomplishment of the market basket analysis using real databases of a supermarket chain.Its objectives are: to evaluate data mining tools as source of important information for decision making, to identify, through literature revision, the promises o f the technology and to verify if such promises are achieved by the tools, to identify and characterize data mining tools available in the market and to compare the type o f the results generated by the different tools and to relate some problems found during the tool 's application. The development of the work fo llows the multiple case study method, where the data were collected from the application of the tool upon the databases and from interviews with the organization's decision makers. System evaluation methods that have already been used were applied to accomplish this research. Starting from the analysis o f the collected data, some problems in the tools could be found and the conclusion was that the data mining tools, that were used in this research, are not ready for being in the market.
|
Page generated in 0.0679 seconds