Spelling suggestions: "subject:"mineração dde dados"" "subject:"mineração dde lados""
291 |
Mineração de padrões frequentes em séries temporais para apoio à tomada de decisão em agrometereologia / Mining frequent patterns in time series to support decision-making in agrometeorologyDaniel Yoshinobu Takada Chino 18 March 2014 (has links)
O crescente aumento no volume de dados complexos tem se tornado um desafio para pesquisadores. Séries temporais são um tipo de dados complexos que tem tido um crescimento em sua relevância, devido a sua importância para o monitoramento e acompanhamento de safras agrícolas. Assim, a mineração de informação a partir de grandes volumes de séries temporais para o apoio a tomada de decisões tem se tornado uma atividade valiosa. Uma das atividades importantes na mineração em séries temporais é a descoberta de padrões frequentes. Entretanto, a complexidade dessa atividade requer métodos rápidos e eficientes. Nesse contexto, esta dissertação de mestrado apresenta propostas para novos algoritmos e métodos para minerar e indexar séries temporais. Uma das propostas dessa dissertação é o índice Telesto, que utiliza uma estrutura baseada em árvores de sufixo generalizada para recuperar séries temporais em uma base de dados de séries temporais de modo rápido e eficiente. Outra proposta dessa dissertação é o algoritmo TrieMotif, que se baseia em uma trie para eliminar comparações desnecessárias entre subsequências, agilizando o processo de mineração de padrões frequentes em séries temporais. Os algoritmos propostos foram utilizados para a análise de dados climáticos e agrometeorológicos. Os resultados apresentados nessa dissertação de mestrado mostram que os algoritmos são escaláveis, podendo ser utilizados para grandes volumes de dados / Dealing with large volumes of complex data is a challenging task that has motivated many researchers around the world. Time series is a type of complex data that is growing in importance due to the increasing demand of sensors for surveillance and monitoring. Thus, mining information from large volumes of time series to support decision making is a valuable activity nowadays. This Master dissertation goes in this direction, as it proposes new algorithms and methods to mine and index time series. The novelty of the TrieMotif, a new algorithm to mine frequent patterns (motifs) from time series employing a trie structure that allows clever comparison between the sequences, as well as the Telesto index structure based on suffix trees area presented and discussed in the context of agrometeorological and climatological data, being the two main contributions of this work. The dissertation shows that the proposed algorithms are scalable, being suitable to big data, and when compared to the competitors they always presented the best results
|
292 |
Identificação de regras de associação interessantes por meio de análises com medidas objetivas e subjetivas / Identification of interesting association rules through objective and subjective measures analysisRoberta Akemi Sinoara 30 March 2006 (has links)
A associação é uma tarefa de mineração de dados que tem sido muito utilizada em problemas reais, porém o grande número de regras de associação que podem ser geradas dificulta a identificação de conhecimento interessante aos usuários. Para apoiar a identificação de regras interessantes podem ser utilizadas medidas de avaliação de conhecimento, que normalmente são classificadas como objetivas ou subjetivas. As medidas objetivas são mais gerais, mas podem não ser suficientes por não considerarem aspectos relacionados ao usuário ou ao domínio da aplicação. Por outro lado pode haver dificuldade em se obter a subjetividade do usuário necessária para o cálculo das medidas subjetivas. Diante desse contexto, neste trabalho é proposta uma metodologia para identificação de regras de associação interessantes que combina análises com medidas objetivas e subjetivas, visando aproveitar as vantagens de cada tipo e facilitar a participação do especialista. As medidas objetivas são utilizadas para selecionar algumas regras potencialmente interessantes para serem avaliadas por um especialista. As medidas subjetivas são calculadas utilizando essas regras com as avaliações do especialista. Essas medidas subjetivas então são utilizadas para auxiliar a identificação de regras interessantes de acordo com o conhecimento obtido durante a avaliação. Para viabilizar a aplicação dessa metodologia foi desenvolvido um módulo computacional de exploração de regras de associação com medidas subjetivas, denominado RulEE-SEAR. Utilizando esse módulo e outras ferramentas já existentes foi realizado um estudo de caso com uma base de dados real sobre qualidade de vida urbana. Nesse estudo de caso o processo de identificação de regras de associação interessantes foi realizado com especialista da área e verificou-se a viabilidade da metodologia proposta. / Association is a data mining task which has been applied in several real problems. However, due to the huge number of association rules that can be generated, it is hard for users to identify interesting knowledge. To assist users in finding interesting rules, evaluation measures can be used. Those measures are usually divided into objective and subjective. Objective measures are more general, but they can be insufficient because they do not consider user's and domain's features. On the other hand, getting users's knowledge and interest needed to calculate subjective measures can be a difficult task. In this context, a methodology to identify interesting association rules is proposed in this work. This methodology combines analysis with objective and subjective measures, aiming to use the advantages of each kind of measure and to make user's participation easier. Objective measures are used to select some potentially interesting rules for the user's evaluation. These rules and the evaluation are used to calculate subjective measures. Then, the subjective measures are used to assist the user in identifying interesting rules according to the knowledge obtained during the evaluation. To make the methodology use practicable, a computational module, named RulEE-SEAR, was developed to explore the association rules with subjective measures. Using this module and other existing tools, a case study was done. A urban life quality database was used and a specialist in this area participated in the interesting association rules identification. That case study showed that the methodology proposed is feasible.
|
293 |
Mining User Activity Data in Social Media Services / Mineração de Dados de Atividade de Usuários em Serviços de Mídia SocialAlceu Ferraz Costa 12 May 2017 (has links)
Social media services have a growing impact in our society. Individuals often rely on social media to get their news, decide which products to buy or to communicate with their friends. As consequence of the widespread adoption of social media, a large volume of data on how users behave is created every day and stored into large databases. Learning how to analyze and extract useful knowledge from this data has a number of potential applications. For instance, a deeper understanding on how legitimate users interact with social media services could be explored to design more accurate spam and fraud detection methods. This PhD research is based on the following hypothesis: data generated by social media users present patterns that can be exploited to improve the effectiveness of tasks such as prediction, forecasting and modeling in the domain of social media. To validate our hypothesis, we focus on designing data mining methods tailored to social media data. The main contributions of this PhD can be divided into three parts. First, we propose Act-M, a mathematical model that describes the timing of users actions. We also show that Act-M can be used to automatically detect bots among social media users based only on the timing (i.e. time-stamp) data. Our second contribution is VnC (Vote-and-Comment), a model that explains how the volume of different types of user interactions evolve over time when a piece of content is submitted to a social media service. In addition to accurately matching real data, VnC is useful, as it can be employed to forecast the number of interactions received by social media content. Finally, our third contribution is the MFS-Map method. MFS-Map automatically provides textual annotations to social media images by efficiently combining visual and metadata features. Our contributions were validated using real data from several social media services. Our experiments show that the Act-M and VnC models provided a more accurate fit to the data than existing models for communication dynamics and information diffusion, respectively. MFS-Map obtained both superior precision and faster speed when compared to other widely employed image annotation methods. / O impacto dos serviços de mídia social em nossa sociedade é crescente. Indivíduos frequentemente utilizam mídias sociais para obter notícias, decidir quais os produtos comprar ou para se comunicar com amigos. Como consequência da adoção generalizada de mídias sociais, um grande volume de dados sobre como os usuários se comportam é gerado diariamente e armazenado em grandes bancos de dados. Aprender a analisar e extrair conhecimentos úteis a partir destes dados tem uma série de potenciais aplicações. Por exemplo, um entendimento mais detalhado sobre como usuários legítimos interagem com serviços de mídia social poderia ser explorado para projetar métodos mais precisos de detecção de spam e fraude. Esta pesquisa de doutorado baseia-se na seguinte hipótese: dados gerados por usuários de mídia social apresentam padrões que podem ser explorados para melhorar a eficácia de tarefas como previsão e modelagem no domínio das mídias sociais. Para validar esta hipótese, foram projetados métodos de mineração de dados adaptados aos dados de mídia social. As principais contribuições desta pesquisa de doutorado podem ser divididas em três partes. Primeiro, foi desenvolvido o Act-M, um modelo matemático que descreve o tempo das ações dos usuários. O autor demonstrou que o Act-M pode ser usado para detectar automaticamente bots entre usuários de mídia social com base apenas nos dados de tempo. A segunda contribuição desta tese é o VnC (Vote-and- Comment), um modelo que explica como o volume de diferentes tipos de interações de usuário evolui ao longo do tempo quando um conteúdo é submetido a um serviço de mídia social. Além de descrever precisamente os dados reais, o VnC é útil, pois pode ser empregado para prever o número de interações recebidas por determinado conteúdo de mídia social. Por fim, nossa terceira contribuição é o método MFS-Map. O MFS-Map fornece automaticamente anotações textuais para imagens de mídias sociais, combinando eficientemente características visuais e de metadados das imagens. As contribuições deste doutorado foram validadas utilizando dados reais de diversos serviços de mídia social. Os experimentos mostraram que os modelos Act-M e VnC forneceram um ajuste mais preciso aos dados quando comparados, respectivamente, a modelos existentes para dinâmica de comunicação e difusão de informação. O MFS-Map obteve precisão superior e tempo de execução reduzido quando comparado com outros métodos amplamente utilizados para anotação de imagens.
|
294 |
"Pós-processamento de regras de associação" / Post-processing of association rulesEdson Augusto Melanda 30 November 2004 (has links)
A demanda por métodos de análise e descoberta de conhecimento em grandes bases de dados tem fortalecido a pesquisa em Mineração de Dados. Dentre as tarefas associadas a essa área, tem-se Regras de Associação. Vários algoritmos foram propostos para tratamento de Regras de Associação, que geralmente tem como resultado um elevado número de regras, tornando o Pós-processamento do conhecimento uma etapa bastante complexa e desafiadora. Existem medidas para auxiliar essa etapa de avaliação de regras, porém existem lacunas referentes a inexistência de um método intuitivo para priorizar e selecionar regras. Além disso, não é possível encontrar metodologias específicas para seleção de regras considerando mais de uma medida simultaneamente. Esta tese tem como objetivo a proposição, desenvolvimento e implementação de uma metodologia para o Pós-processamento de Regras de Associação. Na metodologia proposta, pequenos grupos de regras identificados como potencialmente interessantes são apresentados ao usuário especialista para avaliação. Para tanto, foram analisados métodos e técnicas utilizadas em Pós-processamento de conhecimento, medidas objetivas para avaliação de Regras de Associação e algoritmos que geram regras. Dessa perspectiva foram realizados experimentos para identificar o potencial das medidas a serem empregadas como filtros de Regras de Associação. Uma avaliação gráfica apoiou o estudo das medidas e a especificação da metodologia proposta. Aspecto inovador da metodologia proposta é a utilização do método de Pareto e a combinação de medidas para selecionar as Regras de Associação. Por fim foi implementado um ambiente para avaliação de Regras de Associação, denominado ARInE, viabilizando o uso da metodologia proposta. / The large demand of methods for knowledge discovery and analysis in large databases has continously increased the research in data mining area. Among the tasks associated to this area, one can find Association Rules. Several algorithms have been proposed for treating Association Rules. However, these algorithms give as results a huge amount of rules, making the knowledge post-processing phase very complex and challeging. There are several measures that can be used in this evaluation phase, but there are also some limitations regarding to the ausence of an intuitive method to rank and select rules. Moreover, it is not possible to find especific methodologies for selecting rules, considering more than one measure simultaneously. This thesis has as objective the proposal, development and implementation of a postprocessing methodology for Association Rules. In the proposed methodology, small groups of rules, which have been identified as potentialy interesting, are presented to the expert for evaluation. In this sense, methods and techniques for knowledge post-processing, objective measures for rules evaluation, and Association Rules algorithms have been analized. From this point of view, several experiments have been realized for identifying the potential of such measures to be used to filter Association Rules. The study of measures and the specification of the proposed methodology have been supported by a graphical evaluation. The novel aspect of the proposed methodology consists on using the Paretos method and combining measures for selecting Association Rules. Finally, an enviroment for evaluating Association Rules, named as ARInE, has been implemented according to the proposed methodology.
|
295 |
Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos. / An environment to evaluate machine learning algorithms.Gustavo Enrique de Almeida Prado Alves Batista 15 October 1997 (has links)
Um sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas, chamado de aprendizado supervisionado. O maior objetivo de um classificador é ser capaz de predizer com sucesso a respeito de novos casos. A performance de um classificador é medida em termos da taxa de erro. Técnicas experimentais para estimar a taxa de erro verdadeira não somente provêem uma base para comparar objetivamente as performances de diversos algoritmos de aprendizado no mesmo conjunto de exemplos, mas também podem ser uma ferramenta poderosa para projetar um classificador. As técnicas para estimar a taxa de erro são baseadas na teoria estatística de resampling. Um ambiente chamado AMPSAM foi implementado para ajudar na aplicação dos métodos de resampling em conjuntos de exemplos do mundo real. AMPSAM foi projetado como uma coleção de programas independentes, os quais podem interagir entre si através de scripts pré-definidos ou de novos scripts criados pelo usuário. O ambiente utiliza um formato padrão para arquivos de exemplos o qual é independente da sintaxe de qualquer algoritmo. AMPSAM também inclui ferramentas para particionar conjuntos de exemplos em conjuntos de treinamento e teste utilizando diferentes métodos de resampling. Além do método holdout, que é o estimador de taxa de erro mais comum, AMPSAM suporta os métodos n-fold cross-validation --- incluindo o leaning-one-out --- e o método bootstrap. As matrizes de confusão produzidas em cada iteração utilizando conjuntos de treinamento e teste podem ser fornecidas a um outro sistema implementado chamado SMEC. Este sistema calcula e mostra graficamente algumas das medidas descritivas mais importantes relacionadas com tendência central e dispersão dos dados. Este trabalho também relata os resultados experimentais a respeito de medidas do erro de classificação de três classificadores proposicionais e relacionais bem conhecidos, utilizando ambos os sistemas implementados, em diversos conjuntos de exemplos freqüentemente utilizados em pesquisas de Aprendizado de Máquina. / A learning system is a computer program that makes decisions based on the accumulative experience contained in successfully solved cases. The classification rules induced by a learning system are judged by two criteria: their classification error on an independent test set and their complexity. Practical learning systems have been developed using different paradigms including statistics, neural nets, as well as propositional and relational symbolic machine learning. Several learning methods can be applied to the same sample data and some of them may do better than others. Still, for a given application, there is no guarantee that any of these methods will work or that any single method is necessarily the best one. In other words, there is not a mathematical analysis method that can determine whether a learning system algorithm will work well. Hence, experimental studies are required. In this work we confine our attention to the learning task known as classification or prediction, where the problem concerns the construction of a classification procedure from a set of data for which the true classes are known, and is termed supervised learning. The overall objective of a classifier is to be able to predict successfully on new data. Performance is measured in terms of the error rate. Error rate estimation techniques not only provide a basis for objectively comparing the error rate of several classifiers on the same data and then estimating their future performance on new data, but they can also be a powerful tool for designing a classifier. The techniques of error rate estimation are based on statistical resampling theory. In this work, rules induced complexity of propositional and relational learning systems as well as several resampling methods to estimate the true error rate are discussed. An environment called AMPSAM has been implemented to aid in the application of resampling methods to real world data sets. AMPSAM consists of a collection of interdependent programs that can be bound together either by already defined or by new user defined scripts. The environment uses a common file format for data sets which is independent of any specific classifier scheme. It also includes facilities for splitting data sets up into test and training sets using different methods. Besides holdout, which is the most common accuracy estimation method, AMPSAM supports n-fold cross-validation --- including leaving-one-out --- and bootstrap. The confusion matrices produced in each run using those test and training sets can be input to another system called SMEC. This system calculates and graphically displays some of the most important descriptive measures related to central tendency and dispersion of those data. This work also reports the results of experiments measuring the classification error of three well known propositional and relational classifiers, using the implemented systems, on several data sets commonly used in Machine Learning research.
|
296 |
Analysis of microRNA precursors in multiple species by data mining techniques / Análise de precursores de microRNA em múltiplas espécies utilizando técnicas de mineração de dadosIvani de Oliveira Negrão Lopes 18 June 2014 (has links)
RNA Sequencing has recently emerged as a breakthrough technology for microRNA (miRNA) discovery. This technology has allowed the discovery of thousands of miRNAs in a large number of species. However, despite the benefits of this technology, it also carries its own limitations, including the need for sequencing read libraries and of the genome. Differently, ab initio computational methods need only the genome as input to search for genonic locus likely to give rise to novel miRNAs. In the core of most of these methods, there are predictive models induced by using data mining techniques able to distinguish between real (positive) and pseudo (negative) miRNA precursors (pre-miRNA). Nevertheless, the applicability of current literature ab initio methods have been compromised by high false detection rates and/or by other computational difficulties. In this work, we investigated how the main aspects involved in the induction of predictive models for pre-miRNA affect the predictive performance. Particularly, we evaluate the discriminant power of feature sets proposed in the literature, whose computational costs and composition vary widely. The computational experiments were carried out using sequence data from 45 species, which covered species from eight phyla. The predictive performance of the classification models induced using large training set sizes (≥ 1; 608) composed of instances extracted from real and pseudo human pre-miRNA sequences did not differ significantly among the feature sets that lead to the maximal accuracies. Moreover, the differences in the predictive performances obtained by these models, due to the learning algorithms, were neglectable. Inspired by these results, we obtained a feature set which can be computed 34 times faster than the less costly among those feature sets, producing the maximal accuracies, albeit the proposed feature set has achieved accuracy within 0.1% of the maximal accuracies. When classification models using the elements previously discussed were induced using small training sets (120) from 45 species, we showed that the feature sets that produced the highest accuracies in the classification of human sequences were also more likely to produce higher accuracies for other species. Nevertheless, we showed that the learning complexity of pre-miRNAs vary strongly among species, even among those from the same phylum. These results showed that the existence of specie specific features indicated in previous studies may be correlated with the learning complexity. As a consequence, the predictive accuracies of models induced with different species and same features and instances spaces vary largely. In our results, we show that the use of training examples from species phylogenetically more complex may increase the predictive performances for less complex species. Finally, by using ensembles of computationally less costly feature sets, we showed alternative ways to increase the predictive performance for many species while keeping the computational costs of the analysis lower than those using the feature sets from the literature. Since in miRNA discovery the number of putative miRNA loci is in the order of millions, the analysis of putative miRNAs using a computationally expensive feature set and or inaccurate models would be wasteful or even unfeasible for large genomes. In this work, we explore most of the learning aspects implemented in current ab initio pre-miRNA prediction tools, which may lead to the development of new efficient ab initio pre-miRNA discovery tools / O sequenciamento de pequenos RNAs surgiu recentemente como uma tecnologia inovadora na descoberta de microRNAs (miRNA). Essa tecnologia tem facilitado a descoberta de milhares de miRNAs em um grande número de espécies. No entanto, apesar dos benefícios dessa tecnologia, ela apresenta desafios, como a necessidade de construir uma biblioteca de pequenos RNAs, além do genoma. Diferentemente, métodos computacionais ab initio buscam diretamente no genoma regiões prováveis de conter miRNAs. A maioria desses métodos usam modelos preditivos capazes de distinguir entre os verdadeiros (positivos) e pseudo precursores de miRNA - pre-miRNA - (negativos), os quais são induzidos utilizando técnicas de mineração de dados. No entanto, a aplicabilidade de métodos ab initio da literatura atual é limitada pelas altas taxas de falsos positivos e/ou por outras dificuldades computacionais, como o elevado tempo necessário para calcular um conjunto de atributos. Neste trabalho, investigamos como os principais aspectos envolvidos na indução de modelos preditivos de pre-miRNA afetam o desempenho preditivo. Particularmente, avaliamos a capacidade discriminatória de conjuntos de atributos propostos na literatura, cujos custos computacionais e a composição variam amplamente. Os experimentos computacionais foram realizados utilizando dados de sequências positivas e negativas de 45 espécies, cobrindo espécies de oito filos. Os resultados mostraram que o desempenho preditivo de classificadores induzidos utilizando conjuntos de treinamento com 1608 ou mais vetores de atributos calculados de sequências humanas não diferiram significativamente, entre os conjuntos de atributos que produziram as maiores acurácias. Além disso, as diferenças entre os desempenhos preditivos de classificadores induzidos por diferentes algoritmos de aprendizado, utilizando um mesmo conjunto de atributos, foram pequenas ou não significantes. Esses resultados inspiraram a obtenção de um conjunto de atributos menor e que pode ser calculado até 34 vezes mais rapidamente do que o conjunto de atributos menos custoso produzindo máxima acurácia, embora a acurácia produzida pelo conjunto proposto não difere em mais de 0.1% das acurácias máximas. Quando esses experimentos foram executados utilizando vetores de atributos calculados de sequências de outras 44 espécies, os resultados mostraram que os conjuntos de atributos que produziram modelos com as maiores acurácias utilizando vetores calculados de sequências humanas também produziram as maiores acurácias quando pequenos conjuntos de treinamento (120) calculados de exemplos de outras espécies foram utilizadas. No entanto, a análise destes modelos mostrou que a complexidade de aprendizado varia amplamente entre as espécies, mesmo entre aquelas pertencentes a um mesmo filo. Esses resultados mostram que a existência de características espécificas em pre-miRNAs de certas espécies sugerida em estudos anteriores pode estar correlacionada com a complexidade de aprendizado. Consequentemente, a acurácia de modelos induzidos utilizando um mesmo conjunto de atributos e um mesmo algoritmo de aprendizado varia amplamente entre as espécies. i Os resultados também mostraram que o uso de exemplos de espécies filogeneticamente mais complexas pode aumentar o desempenho preditivo de espécies menos complexas. Por último, experimentos computacionais utilizando técnicas de ensemble mostraram estratégias alternativas para o desenvolvimento de novos modelos para predição de pre-miRNA com maior probabilidade de obter maior desempenho preditivo do que estratégias atuais, embora o custo computacional dos atributos seja inferior. Uma vez que a descoberta de miRNAs envolve a análise de milhares de regiões genômicas, a aplicação prática de modelos preditivos de baixa acurácia e/ou que dependem de atributos computacionalmente custosos pode ser inviável em análises de grandes genomas. Neste trabalho, apresentamos e discutimos os resultados de experimentos computacionais investigando o potencial de diversas estratégias utilizadas na indução de modelos preditivos para predição ab initio de pre-miRNAs, que podem levar ao desenvolvimento de ferramentas ab initio de maior aplicabilidade prática
|
297 |
"Seleção de atributos importantes para a extração de conhecimento de bases de dados" / "Selection of important features for knowledge extraction from data bases"Huei Diana Lee 16 December 2005 (has links)
O desenvolvimento da tecnologia e a propagação de sistemas computacionais nos mais variados domínios do conhecimento têm contribuído para a geração e o armazenamento de uma quantidade constantemente crescente de dados, em uma velocidade maior da que somos capazes de processar. De um modo geral, a principal razão para o armazenamento dessa enorme quantidade de dados é a utilização deles em benefício da humanidade. Diversas áreas têm se dedicado à pesquisa e a proposta de métodos e processos para tratar esses dados. Um desses processos é a Descoberta de Conhecimento em Bases de Dados, a qual tem como objetivo extrair conhecimento a partir das informações contidas nesses dados. Para alcançar esse objetivo, usualmente são construídos modelos (hipóteses), os quais podem ser gerados com o apoio de diferentes áreas tal como a de Aprendizado de Máquina. A Seleção de Atributos desempenha uma tarefa essencial dentro desse processo, pois representa um problema de fundamental importância em aprendizado de máquina, sendo freqüentemente realizada como uma etapa de pré-processamento. Seu objetivo é selecionar os atributos mais importantes, pois atributos não relevantes e/ou redundantes podem reduzir a precisão e a compreensibilidade das hipóteses induzidas por algoritmos de aprendizado supervisionado. Vários algoritmos para a seleção de atributos relevantes têm sido propostosna literatura. Entretanto, trabalhos recentes têm mostrado que também deve-se levar em conta a redundância para selecionar os atributos importantes, pois os atributos redundantes também afetam a qualidade das hipóteses induzidas. Para selecionar alguns e descartar outros, é preciso determinar a importância dos atributos segundo algum critério. Entre os vários critérios de importância de atributos propostos, alguns estão baseados em medidas de distância, consistência ou informação, enquanto outros são fundamentados em medidas de dependência. Outra questão essencial são as avaliações experimentais, as quais representam um importante instrumento de estimativa de performance de algoritmos de seleção de atributos, visto que não existe análise matemática que permita predizer que algoritmo de seleção de atributos será melhor que outro. Essas comparações entre performance de algoritmos são geralmente realizadas por meio da análise do erro do modelo construído a partir dos subconjuntos de atributos selecionados por esses algoritmos. Contudo, somente a consideração desse parâmetro não é suficiente; outras questões devem ser consideradas, tal como a percentagem de redução da quantidade de atributos desses subconjuntos de atributos selecionados. Neste trabalho é proposto um algoritmo que separa as análises de relevância e de redundância de atributos e introduz a utilização da Dimensão Fractal para tratar atributos redundantes em aprendizado supervisionado. É também proposto um modelo de avaliação de performance de algoritmos de seleção de atributos baseado no erro da hipótese construída e na percentagem de redução da quantidade de atributos selecionados. Resultados experimentais utilizando vários conjuntos de dados e diversos algoritmos consolidados na literatura, que selecionam atributos importantes, mostram que nossa proposta é competitiva com esses algoritmos. Outra questão importante relacionada à extração de conhecimento a partir de bases de dados é o formato no qual os dados estão representados. Usualmente, é necessário que os exemplos estejam descritos no formato atributo-valor. Neste trabalho também propomos um metodologia para dar suporte, por meio de um processo semi-automático, à construção de conjuntos de dados nesse formato, originados de informações de pacientes contidas em laudos médicos que estão descritos em linguagem natural. Esse processo foi aplicado com sucesso a um caso real. / Progress in computer systems and devices applied to a different number of fields, have made it possible to collect and store an increasing amount of data. Moreover, this technological advance enables the storage of a huge amount of data which is difficult to process unless new approaches are used. The main reason to maintain all these data is to use it in a general way for the benefit of humanity. Many areas are engaged in the research and proposal of methods and processes to deal with this growing data. One such process is Knowledge Discovery from Databases, which aims at finding valuable and interesting knowledge which may be hidden inside the data. In order to extract knowledge from data, models (hypothesis) are usually developed supported by many fields such as Machine Learning. Feature Selection plays an important role in this process since it represents a central problem in machine learning and is frequently applied as a data pre-processing step. Its objective is to choose a subset from the original features that describes a data set, according to some importance criterion, by removing irrelevant and/or redundant features, as they may decrease data quality and reduce comprehensibility of hypotheses induced by supervised learning algorithms. Most of the state-of-art feature selection algorithms mainly focus on finding relevant features. However, it has been shown that relevance alone is not sufficient to select important features. Different approaches have been proposed to select features, among them the filter approach. The idea of this approach is to remove features before the model's induction takes place, based on general characteristics from the data set. For the purpose of selecting features and discarding others, it is necessary to measure the features' goodness, and many importance measures have been proposed. Some of them are based on distance measures, consistency of data and information content, while others are founded on dependence measures. As there is no mathematical analysis capable of predicting whether a feature selection algorithm will produce better feature subsets than others, it is important to empirically evaluate the performance of these algorithms. Comparisons among algorithms' performance is usually carried out through the model's error analysis. Nevertheless, this sole parameter is not complete enough, and other issues, such as percentage of the feature's subset reduction should also be taken into account. In this work we propose a filter that decouples features' relevance and redundancy analysis, and introduces the use of Fractal Dimension to deal with redundant features. We also propose a performance evaluation model based on the constructed hypothesis' error and the percentage of reduction obtained from the selected feature subset. Experimental results obtained using well known feature selection algorithms on several data sets show that our proposal is competitive with them. Another important issue related to knowledge extraction from data is the format the data is represented. Usually, it is necessary to describe examples in the so-called attribute-value format. This work also proposes a methodology to support, through a semi-automatic process, the construction of a database in the attribute-value format from patient information contained in medical findings which are described in natural language. This process was successfully applied to a real case.
|
298 |
O processo de extração de conhecimento de base de dados apoiado por agentes de software. / The process of knowledge discovery in databases supported by software agents.Robson Butaca Taborelli de Oliveira 01 December 2000 (has links)
Os sistemas de aplicações científicas e comerciais geram, cada vez mais, imensas quantidades de dados os quais dificilmente podem ser analisados sem que sejam usados técnicas e ferramentas adequadas de análise. Além disso, muitas destas aplicações são voltadas para Internet, ou seja, possuem seus dados distribuídos, o que dificulta ainda mais a realização de tarefas como a coleta de dados. A área de Extração de Conhecimento de Base de Dados diz respeito às técnicas e ferramentas usadas para descobrir automaticamente conhecimento embutido nos dados. Num ambiente de rede de computadores, é mais complicado realizar algumas das etapas do processo de KDD, como a coleta e processamento de dados. Dessa forma, pode ser feita a utilização de novas tecnologias na tentativa de auxiliar a execução do processo de descoberta de conhecimento. Os agentes de software são programas de computadores com propriedades, como, autonomia, reatividade e mobilidade, que podem ser utilizados para esta finalidade. Neste sentido, o objetivo deste trabalho é apresentar a proposta de um sistema multi-agente, chamado Minador, para auxiliar na execução e gerenciamento do processo de Extração de Conhecimento de Base de Dados. / Nowadays, commercial and scientific application systems generate huge amounts of data that cannot be easily analyzed without the use of appropriate tools and techniques. A great number of these applications are also based on the Internet which makes it even more difficult to collect data, for instance. The field of Computer Science called Knowledge Discovery in Databases deals with issues of the use and creation of the tools and techniques that allow for the automatic discovery of knowledge from data. Applying these techniques in an Internet environment can be particulary difficult. Thus, new techniques need to be used in order to aid the knowledge discovery process. Software agents are computer programs with properties such as autonomy, reactivity and mobility that can be used in this way. In this context, this work has the main goal of presenting the proposal of a multiagent system, called Minador, aimed at supporting the execution and management of the Knowledge Discovery in Databases process.
|
299 |
Predição de tags usando linked data: um estudo de caso no banco de dados Arquigrafia / Tag prediction using linked data: a case study in the Arquigrafia databaseRicardo Augusto Teixeira de Souza 17 December 2013 (has links)
Dada a grande quantidade de conteúdo criado por usuários na Web, uma proposta para ajudar na busca e organização é a criação de sistemas de anotações (tagging systems), normalmente na forma de palavras-chave, extraídas do próprio conteúdo ou sugeridas por visitantes. Esse trabalho aplica um algoritmo de mineração de dados em um banco de dados RDF, contendo instâncias que podem fazer referências à rede Linked Data do DBpedia, para recomendação de tags utilizando as medidas de similaridade taxonômica, relacional e literal de descrições RDF. O banco de dados utilizado é o Arquigrafia, um sistema de banco de dados na Web cujo objetivo é catalogar imagens de projetos arquitetônicos, e que permite que visitantes adicionem tags às imagens. Foram realizados experimentos para a avaliação da qualidade das recomendações de tags realizadas considerando diferentes modelos do Arquigrafia incluindo o modelo estendido do Arquigrafia que faz referências ao DBpedia. Os resultados mostram que a qualidade da recomendação de determinadas tags pode melhorar quando consideramos diferentes modelos (com referências à rede Linked Data do DBpedia) na fase de aprendizado. / Given the huge content created by users in the Web, a way to help in search and organization is the creation of tagging systems, usually in a keyword form (extracted from the Web content or suggested by users). This work applies a data mining algorithm in a RDF database, which contain instances that can reference the DBpedia Linked Data repository, to recommend tags using the taxonomic, relational and literal similarities from RDF descriptions. The database used is the Arquigrafia, a database system available in the Web which goal is to catalog architecture projects, and it allows a user to add tags to images. Experiments were performed to evaluate the quality of the tag recommendations made considering differents models of Arquigrafia\'s database, including an extended model which has references to DBpedia. The results shown that the quality of the recommendations of some tags can be improved when we consider different models (with references to DBpedia Linked Data repository) in the learning phase.
|
300 |
Programação Genética Aplicada no Processo de Descoberta de Conhecimento em Bases de Dados de Redes de Pesquisa. / Genetic Programming Apllied in the Process of Knowledge Discovery in Databases for Research Networks.DUARTE, Kedma Batista 20 December 2010 (has links)
Made available in DSpace on 2014-07-29T15:08:16Z (GMT). No. of bitstreams: 1
Tese de Kedma Batista Duarte.pdf: 2986348 bytes, checksum: b08f936c5937365d2b7493f4db0f0b88 (MD5)
Previous issue date: 2010-12-20 / The Genetic Programming (GP) is a heuristic algorithm for Data Mining (DM), which can be applied to the classification task. This is a method of evolutionary computing inspired in the
mechanisms of natural selection theory of Charles Darwin, declared in 1859 in his book "The Origin of Species." From an initial population, the method search over a number of
generations to find solutions adapted to the environment of problem. The PG method was proposed in 1990 by John Koza, who demonstrated in one of its applications, the induction in
formation of decision trees in the process of data classification. Within this context, the study developed in this work has as main objective the investigation of the concepts of PG and its
application on a database of scientific collaboration networks, helping as a management tool in prospective studies of trends for the establishment of common axes in public policy of
Science, Technology and Innovation (STI), focusing on regional development. The method is applied on a set of attributes, sorting them in order to identify similarity relationships
between groups of researchers that comprise the network. The study involves the concepts of Knowledge Discovery in Databases (KDD) and Data Mining (DM). Networks of Scientific
Collaboration, or Networks Research, are inserted in the context of small groups of social networks, the environment is dynamic due to the easy of information exchange and links between individuals, favoring the formation of new groups, which makes the growth of the network unlimited. "The combination of these groups, generated by the relationships between them, appears as a case of multi-criteria decision, granting the application of some complexity. In this sense, it is intended to apply the method of PG for generation of classification rules that lead to the discovery of groups of researchers with similar traits, which in a planned process could be induced to form groups strengthened and consolidated. The study helps to exploit the potential of genetic programming as a classifier algorithm, as well as use it as a method to build tools to support planning and decision making in STI. / A Programação Genética (PG) é um algoritmo heurístico de Mineração de Dados (MD), quepode ser aplicado na tarefa de classificação. Trata-se de um método da Computação Evolutiva
inspirado nos mecanismos de seleção natural, da teoria de Charles Darwin, declarada em 1859 em seu livro A Origem das Espécies . A partir de uma população inicial, o método busca ao
longo de um conjunto de gerações a descoberta de soluções bem adaptadas ao ambiente do problema. O método de PG foi proposto por John Koza em 1990, que demonstrou em uma de
suas aplicações, a indução na formação de árvores de decisão em processos de classificação de dados. Dentro deste contexto, o estudo desenvolvido neste trabalho tem como objetivo principal a investigação dos conceitos de PG e sua aplicação sobre uma base de dados de Redes de Colaboração Científica, auxiliando como ferramenta de gestão em estudos
prospectivos de tendências para o estabelecimento de eixos comuns em políticas públicas de Ciência, Tecnologia e Inovação (CT&I), com foco em desenvolvimento regional. O método é
aplicado sobre um conjunto de atributos, classificando-os de forma a identificar relações de similaridade entre os grupos de pesquisadores que compõem a rede. O estudo envolve conceitos de Descoberta do Conhecimento em Bases de Dados (DCBD) e Mineração de Dados (MD). As Redes de Colaboração Científica, ou Redes de Pesquisa, estão inseridas no contexto dos pequenos grupos das Redes Sociais, o ambiente é dinâmico devido à facilidade para troca de informações e articulação entre os indivíduos, favorecendo a formação de novos grupos, fato que torna ilimitado o crescimento da Rede. A combinação das características desses grupos, gerada pelos relacionamentos entre eles, configura-se como um caso de decisão multi-critério, dotando a aplicação de certa complexidade. Neste sentido, pretende-se com a aplicação do método da PG a geração de regras de classificação que levem à descoberta de grupos de pesquisadores com características similares, que em um processo planejado poderiam ser induzidos à formação de grupos fortalecidos e consolidados. O estudo contribui no sentido de explorar o potencial da Programação Genética como um algoritmo classificador, bem como, usá-lo como método na construção de ferramentas de apoio ao planejamento e tomada de decisão em CT&I.
|
Page generated in 0.0787 seconds