Global ETD Search

121	Descoberta automatizada de associações com o uso de algoritmo Apriori como técnica de mineração de dados / Automatic discovery of associations by Apriori data mining technique ALMEIDA, Derciley Cunha de 25 February 2011 (has links) Made available in DSpace on 2014-07-29T15:08:17Z (GMT). No. of bitstreams: 1 Dissertacao Derciley Cunha de Almeida.pdf: 2389648 bytes, checksum: c4c207dc1855a4a0e99ee3eeed7c28b9 (MD5) Previous issue date: 2011-02-25 / Nowadays, the use of modern information systems allows the storage and management of increasingly large amounts of data. On the other hand, the full analysis and the maximum extraction of useful information from this universe of available data present considerable challenges in view of inherent human limitations. This dissertation deals with the subject of data mining, which is the use of technology resources in order to extract information from databases in an automated way. One of the possibilities offered by data mining technologies is the automated search for possible associations within data. Information about such associations can be useful for understanding cause and effect relationships between the involved variables in data analysis for decision making. There are several data mining techniques and many of them can be used for discovering associations. The main goal of this work is to study a particular method for automated search of associations called Apriori , evaluating its capabilities and outcomes. The study focuses on the problem of improving the Apriori algorithm results, taking into consideration that the results of the data mining process might be improved if the data are prepared specifically for Apriori application. The conclusions are drawn from a case study in which the Apriori algorithm was applied to a database with information on drug distribution at a health institute. The results of two experiments are considered in order to evaluate the influence of data preprocessing on the Apriori algorithm's performance. It was found that the Apriori algorithm yields satisfactory results on the discovery of association in data; however, for best results, it is advisable that the data be prepared in advance, specifically for the Apriori application, otherwise many associations in the database might be left undiscovered. / Atualmente é possível o armazenamento e o gerenciamento de grandes quantidades de dados, através de modernos sistemas informatizados. Por outro lado, a análise completa e a extração do máximo de informações desse universo de dados disponíveis passaram a ser um grande desafio, diante das limitações próprias de um ser humano. Essa dissertação aborda o tema mineração de dados, também muito conhecido pelo termo em inglês data mining. Trata-se da extração de informações de bases de dados de forma automatizada, com o uso de recursos tecnológicos. Uma das possibilidades que as tecnologias de data mining oferecem é a busca automatizada de possíveis associações existentes entre dados. As informações sobre associações entre dados podem ser muito úteis para se compreender possíveis relações de causa e efeito entre muitas variáveis envolvidas em estudos e análises de dados para tomada de decisões. Há várias técnicas de mineração de dados e muitas podem ser utilizadas para descoberta de associações. O principal objetivo deste trabalho é estudar mais especificamente o método de busca automatizada de associações conhecido como Apriori de forma a avaliar sua sistemática, capacidade e resultados. O estudo é direcionado por um problema que está relacionado à busca pelo aprimoramento dos resultados gerados pelo algoritmo Apriori sob a premissa de que uma preparação de dados específica e direcionada para o uso do algoritmo pode aprimorar os resultados do processo de mineração de dados. As conclusões são extraídas de um estudo de caso sobre a aplicação do algoritmo Apriori em uma base de dados com informações sobre fornecimento de medicamentos de uma unidade de saúde. São avaliados e comparados os resultados de três experimentos para se verificar a influência de uma preparação de dados no desempenho do algoritmo. Ficou evidenciado que o algoritmo Apriori alcança resultados satisfatórios na tarefa de busca por associações entre dados, no entanto, é recomendável uma preparação específica desses dados para que a aplicação do algoritmo alcance melhores resultados ou muitas associações existentes podem não ser encontradas. Mineração de dados Descoberta de associações Apriori Banco de dados WEKA Data mining Association discovery Apriori Databases WEKA CNPQ::ENGENHARIAS
122	Classificação baseada em regras para estudo da produtividade do algodão no estado do Mato Grosso / Classification based on rules for the study of cotton productivity in the Mato Grosso State Silva, Alexandra Virginia Valente da 15 April 2019 (has links) O Brasil tem grande experiência no desenvolvimento de tecnologias para a cadeia produtiva do algodão, sendo um player mundial importante nesse segmento atualmente. O avanço da cotonicultura no Cerrado brasileiro impulsionou e viabilizou uma produção altamente tecnificada, eficiente e lucrativa, elevando o país da condição de importador de fibra de algodão na década de 70 a um dos principais exportadores atualmente. Embora a cadeia do algodão tenha atingido um alto nível tecnológico, há ainda muitos desafios e problemas a serem vencidos, uma vez que nos últimos anos tem-se verificado uma estagnação na produtividade, apesar do aporte cada vez maior de tecnologias como cultivares transgênicas, máquinas, insumos e gestão de dados mais eficientes. Nesse contexto as técnicas de mineração de dados oferecem excelente oportunidade de se avaliar esse problema, uma vez os dados desse setor são bem organizados, como é o caso do Banco de Dados organizado pelo Instituto Matogrossense do Algodão (IMAmt) e que foi disponibilizado para esse estudo. Problema: O problema alvo desse trabalho é entender as causas da estagnação da produtividade do algodoeiro, os seja, dos fatores que estão influenciando negativamente na produção de algodão no cerrado no estado de Mato Grosso. Solução: A solução proposta é se utilizar técnicas de mineração de dados em um BD complexo, contendo informações da produtividade e fatores do sistema de produção que influenciam na produção, para a extração de conhecimento e geração de recomendações para os cotonicultores do Estado. Objetivo: Aplicar técnicas de Mineração de Dados, mais especificamente classificação baseada em regras em um BD de produção de algodão no estado de Mato Grosso para identificar os principais fatores, como as práticas de manejo, as variáveis do solo e a incidência de doenças, que estão afetando a produtividade do algodão e consequentemente limitando o aumento da produtividade. Estado-da-arte e Método proposto: Diferentemente de outros trabalhos baseados em classificação de regras de associação que tem foco no resultado preditivo (acurácia), nesse trabalho a ênfase é da extração de regras de associação que tenham relevância prática e que possam auxiliar o agricultor na tomada de decisão. Na etapa de pré-processamento realizou-se a seleção e transformação de atributos e identificação de outliers. Os atributos numéricos foram discretizados utilizando 4 métodos, sendo 3 automáticos (técnica de Kononenko, Better Encoding e a combinação das duas) e um manual. Na etapa de modelagem de classificação, os algoritmos de regras utilizados foram o PART e o JRip e a conversão binária de atributos foi também avaliada. O desempenho foi avaliado pela precisão, revocação, custo e a combinação delas no índice IFC (100F/Log2 custo). Resultados: A avaliação das métricas indicou o melhor desempenho para o classificador PART, com a discretização pela técnica de Kononenko combinada com Better Encoding, seguida pela conversão binária. A análise das regras, com auxílio de especialistas da área, possibilitou a seleção daquelas mais relevantes e dos atributos que mais impactam na produtividade. Dentre esses atributos, destacam-se: a cultivar de algodão, o tempo da abertura e de início do cultivo de algodão na área, o sistema de plantio e de preparo do solo. Os principais atributos físico-químicos do solo foram os micronutrientes zinco, ferro e boro e os macronutrientes cálcio e magnésio e a resistência do solo à penetração. A ausência do fungo fusarium impactou positivamente na produtividade. Em geral, os atributos relacionados ao Manejo do algodoeiro apresentaram maior relevância na composição das regras de classificação, seguidos dos atributos Químicos e Físicos do Solo e dos atributos relacionados à doenças. / Brazil has great experience in developing technologies for the cotton sector, becoming an important world player presently. The cotton production has spread in the Brazilian cerrado stimulating and making viable a highly technical, efficient and profitable production, and leading the country from a condition of importer to a major exporter, currently. Although the cotton productive chain has reached a high technological level, there are many challenges and problems to be overcome, since the productivity is stagnant despite the use of more efficient transgenic cultivars, machines, agrochemicals and data management. In this context data mining offers excellent opportunities to evaluate this problem, since data in this sector is very well organized, as is the case of the Data Base (DB) of the Mato Grosso Cotton Institute, which is available for this study. Problem: The target problem of this study is to understand the causes of such productivity stagnation, that is, the factors influencing negatively the Mato Grosso cerrado cotton production. Solution: The proposed solution is to apply data mining to a complex DB, having productivity information and the factors that influences production, for extracting knowledge and generate recommendations for the cotton farmers in the State. Purpose: Apply data mining technique, more specifically the classification based on rules, in a DB of cotton production in the State of Mato Grosso to identify the main factors, as management practices, soil variables and diseases that are affecting cotton productivity and limiting the productivity increasing. State-of-Art and Proposed Method: Unlike other works based in classification based on rules with focus in prediction (accuracy) this work has emphasis in association rules with practical relevance to help farmers in decision-making. In the pre-processing step, it was performed selection, transformation and outliers identification. Numerical attributes were discretized using 4 methods, 3 automatic (techniques of Kononenko, Better Encoding and the combination of both) and one manual. In the classification step, the rule algorithms used were PART and JRip and binary split was also evaluated. The performance was evaluated by precision, recall, cost and the combination of them in an index called IFC (100F/Log2 cost). Results: The evaluation of these metrics has indicated the best performance for the classifier PART, with discretization by the technique of Kononenko combined wit Better Encoding, and using binary split. The rules were analyzed with the aid of specialists for the selection of the most relevant ones and select the attributes that mostly impact the productivity. Among these attributes are: the cotton cultivar, time of opening the area and beginning of cotton cultivation, soil and growing system used. The main soil physico-chemical attributes were the micronutrients zinc, iron, bore, the macronutrients calcium and magnesium, and soil penetration resistance. The absence of the fungi fusarium has impacted positively in productivity. In general, attributes related to cotton management were more relevant in the classification rules composition, followed by soil Chemical and Physical attributes and lastly the ones related to diseases. Classificação baseada em regras Classification based on rules Cotton productivity Data mining Mineração de dados Produtividade do algodão
123	Desenvolvimento de tecnologia de hardware e software para o monitoramento de animais / Development of hardware and software technology for animal monitoring Camargo, João Fernando Calcagno 22 March 2019 (has links) Internet das Coisas é um conceito novo que define a forma que os dispositivos se comunicam entre si sem a necessidade de interferência humana, possibilitando tomadas de decisão mais inteligentes, baseadas em dados coletados de sensores, tags e outros dispositivos. O objetivo do trabalho é a criação e validação de um sistema usando elementos de Internet das Coisas com mineração de dados para detectar padrões de comportamentos de animais, possibilitando o proprietário tomar decisões para segurança e saúde dos animais. Para tanto, foi feito um estudo da arte das soluções atuais de monitoramento animal e das tecnologias disponíveis para aplicação no sistema. Dois hardwares foram desenvolvidos para coleta dos dados, e foram integrados a uma ferramenta de mineração chamada Damicore. Apesar de algumas dificuldades envolvendo cobertura com a internet, foram realizados dois experimentos com êxito e seus dados foram processados pela ferramenta de mineração, produzindo clusters hierárquicos que possibilitam destacar determinados comportamentos animais através dos clusters encontrados. Finalmente, foram sugeridos alguns pontos de melhoria do sistema, para aumentar ainda mais a abrangência da solução. / Internet of Things is a new concept that defines the way devices communicate with each other without the need for human interference, enabling smarter decision-making based on data collected from sensors, tags and other devices. The goal of this project is to create and validate a system using Internet of Things features with data mining to detect patterns of animal behavior, enabling the owner to make decisions for animal safety and health. For this purpose, current animal monitoring solutions and technologies were reviewed. Based on that, two hardware devices were developed for data collection and integrated with a data mining tool, called Damicore. Despite some difficulties involving internet coverage, two experiments were successfully carried out and their data were processed by the data mining tool, producing hierarchical clusterings that enable to highlight certain animal behaviors by means of the found clusters. Finally, some factors that can benefit the evolution of the system were suggested to further increase the scope of the solution. Animal monitoring Damicore Damicore Data mining Internet das coisas Internet of things Mineração de dados Monitoramento de animais
124	Análise comparativa do encadeamento de viagens de três áreas urbanas / Comparative analysis of the chained trips of three urban areas Sousa, Pablo Brilhante de 22 March 2004 (has links) O objetivo principal deste trabalho é identificar se e como as áreas urbanas interferem nos padrões de viagens encadeadas dos viajantes urbanos. Para atingir os objetivos, as diferenças e similaridades notadas entre os principais grupos socioeconômicos das áreas urbanas em relação aos padrões de viagens encadeadas serão discutidas. O método para comparação dos comportamentos relacionados às viagens encadeadas baseia-se na compatibilização das variáveis das três áreas e posterior aplicação do minerador de dados denominado Árvore de Decisão e Classificação, disponível no pacote estatístico S-Plus 6.1. As viagens encadeadas foram representadas através da codificação inicialmente proposta por Ichikawa (2002) e ampliada por Pitombo (2003). Foram codificados os motivos, modos e período do dia em que cada viagem foi realizada. A análise foi baseada nas pesquisas origem-destino realizadas na região metropolitana de São Paulo pelo Metrô-SP, em 1997, na região metropolitana de Belém pela JICA/Governo do Estado do Pará, em 2000, e na cidade de Bauru pela EMDURB, em 1997. Concluiu-se que, em geral, o comportamento de viajantes urbanos são influenciados pelas políticas urbanas regionais, características socioeconômicas e espaciais de cada região. / The main aim of this work is to identify whether and how the urban areas interfere in the urban trips makers\'trip chaining pattern. For attaining the aims, the differences and similarities observed among the behaviour of trip makers belonging to the main socioeconomic groups living in the three urban areas will be discussed. The method to compare the behavior related to trip chaining is based on the compatibilization of the variables of three areas and subsequent application of the data miner named Decision and Classification Tree, available in the S-Plus 6.1 statistical package. The chained trips were coded by using the process initially proposed by Ichikawa (2002) and amplified later by Pitombo (2003). The trip purpose, travel mode and period of the day in which each trip occurs were coded. The analysis was based on the origin-destination home-interview surveys carried out in São Paulo Metropolitan Area by Metrô-SP, in 1997, Belém Metropolitan Area by JICA/Pará State Government, in 2000, and Bauru city by EMDURB, in 1997. The main finding is that urban trip makers\'behaviour are affected by regional urban policy, socioeconomic features and geographical characteristics of each area. Análise de demanda Data-mining Demand analysis Mineração de dados Padrões de viagens Travel patterns Trip-chaining Viagens encadeadas
125	"Desenvolvimento de um Framework para Análise Visual de Informações Suportando Data Mining" / "Development of a Framework for Visual Analysis of Information with Data Mining suport" Rodrigues Junior, Jose Fernando 22 July 2003 (has links) No presente documento são reunidas as colaborações de inúmeros trabalhos das áreas de Bancos de Dados, Descoberta de Conhecimento em Bases de Dados, Mineração de Dados, e Visualização de Informações Auxiliada por Computador que, juntos, estruturam o tema de pesquisa e trabalho da dissertação de Mestrado: a Visualização de Informações. A teoria relevante é revista e relacionada para dar suporte às atividades conclusivas teóricas e práticas relatadas no trabalho. O referido trabalho, embasado pela substância teórica pesquisada, faz diversas contribuições à ciência em voga, a Visualização de Informações, apresentando-as através de propostas formalizadas no decorrer deste texto e através de resultados práticos na forma de softwares habilitados à exploração visual de informações. As idéias apresentadas se baseiam na exibição visual de análises numéricas estatísticas básicas, frequenciais (Frequency Plot), e de relevância (Relevance Plot). São relatadas também as contribuições à ferramenta FastMapDB do Grupo de Bases de Dados e Imagens do ICMC-USP em conjunto com os resultados de sua utilização. Ainda, é apresentado o Arcabouço, previsto no projeto original, para construção de ferramentas visuais de análise, sua arquitetura, características e utilização. Por fim, é descrito o Pipeline de visualização decorrente da junção entre o Arcabouço de visualização e a ferramenta FastMapDB. O trabalho se encerra com uma breve análise da ciência de Visualização de Informações com base na literatura estudada, sendo traçado um cenário do estado da arte desta disciplina com sugestões de futuros trabalhos. / In the present document are joined the collaborations of many works from the fields of Databases, Knowledge Discovery in Databases, Data Mining, and Computer-based Information Visualization, collaborations that, together, define the structure of the research theme and the work of the Masters Dissertation presented herein. This research topic is the Information Visualization discipline, and its relevant theory is reviewed and related to support the concluding activities, both theoretical and practical, reported in this work. The referred work, anchored by the theoretical substance that was studied, makes several contributions to the science in investigation, the Information Visualization, presenting them through formalized proposals described across this text, and through practical results in the form of software enabled to the visual exploration of information. The presented ideas are based on the visual exhibition of numeric analysis, named basic statistics, frequency analysis (Frequency Plot), and according to a relevance analysis (Relevance Plot). There are also reported the contributions to the FastMapDB tool, a visual exploration tool built by the Grupo de Bases de Dados e Imagens do ICMC-USP, the performed enhancements are listed as achieved results in the text. Also, it is presented the Framework, as previewed in this work's original proposal, projected to allow the construction of visual analysis tools; besides its description are listed its architecture, characteristics and utilization. At last, it is described the visualization Pipeline that emerges from the joining of the visualization Framework and the FastMapDB tool. The work ends with a brief analysis of the Information Visualization science based on the studied literature, it is delineated a scenario of the state of the art of this discipline along with suggestions for future work. Data Mining Information Visualization Knowledge Discovery in Databases Mineração de Dados Visualização de Informações
126	"Seleção de atributos importantes para a extração de conhecimento de bases de dados" / "Selection of important features for knowledge extraction from data bases" Lee, Huei Diana 16 December 2005 (has links) O desenvolvimento da tecnologia e a propagação de sistemas computacionais nos mais variados domínios do conhecimento têm contribuído para a geração e o armazenamento de uma quantidade constantemente crescente de dados, em uma velocidade maior da que somos capazes de processar. De um modo geral, a principal razão para o armazenamento dessa enorme quantidade de dados é a utilização deles em benefício da humanidade. Diversas áreas têm se dedicado à pesquisa e a proposta de métodos e processos para tratar esses dados. Um desses processos é a Descoberta de Conhecimento em Bases de Dados, a qual tem como objetivo extrair conhecimento a partir das informações contidas nesses dados. Para alcançar esse objetivo, usualmente são construídos modelos (hipóteses), os quais podem ser gerados com o apoio de diferentes áreas tal como a de Aprendizado de Máquina. A Seleção de Atributos desempenha uma tarefa essencial dentro desse processo, pois representa um problema de fundamental importância em aprendizado de máquina, sendo freqüentemente realizada como uma etapa de pré-processamento. Seu objetivo é selecionar os atributos mais importantes, pois atributos não relevantes e/ou redundantes podem reduzir a precisão e a compreensibilidade das hipóteses induzidas por algoritmos de aprendizado supervisionado. Vários algoritmos para a seleção de atributos relevantes têm sido propostosna literatura. Entretanto, trabalhos recentes têm mostrado que também deve-se levar em conta a redundância para selecionar os atributos importantes, pois os atributos redundantes também afetam a qualidade das hipóteses induzidas. Para selecionar alguns e descartar outros, é preciso determinar a importância dos atributos segundo algum critério. Entre os vários critérios de importância de atributos propostos, alguns estão baseados em medidas de distância, consistência ou informação, enquanto outros são fundamentados em medidas de dependência. Outra questão essencial são as avaliações experimentais, as quais representam um importante instrumento de estimativa de performance de algoritmos de seleção de atributos, visto que não existe análise matemática que permita predizer que algoritmo de seleção de atributos será melhor que outro. Essas comparações entre performance de algoritmos são geralmente realizadas por meio da análise do erro do modelo construído a partir dos subconjuntos de atributos selecionados por esses algoritmos. Contudo, somente a consideração desse parâmetro não é suficiente; outras questões devem ser consideradas, tal como a percentagem de redução da quantidade de atributos desses subconjuntos de atributos selecionados. Neste trabalho é proposto um algoritmo que separa as análises de relevância e de redundância de atributos e introduz a utilização da Dimensão Fractal para tratar atributos redundantes em aprendizado supervisionado. É também proposto um modelo de avaliação de performance de algoritmos de seleção de atributos baseado no erro da hipótese construída e na percentagem de redução da quantidade de atributos selecionados. Resultados experimentais utilizando vários conjuntos de dados e diversos algoritmos consolidados na literatura, que selecionam atributos importantes, mostram que nossa proposta é competitiva com esses algoritmos. Outra questão importante relacionada à extração de conhecimento a partir de bases de dados é o formato no qual os dados estão representados. Usualmente, é necessário que os exemplos estejam descritos no formato atributo-valor. Neste trabalho também propomos um metodologia para dar suporte, por meio de um processo semi-automático, à construção de conjuntos de dados nesse formato, originados de informações de pacientes contidas em laudos médicos que estão descritos em linguagem natural. Esse processo foi aplicado com sucesso a um caso real. / Progress in computer systems and devices applied to a different number of fields, have made it possible to collect and store an increasing amount of data. Moreover, this technological advance enables the storage of a huge amount of data which is difficult to process unless new approaches are used. The main reason to maintain all these data is to use it in a general way for the benefit of humanity. Many areas are engaged in the research and proposal of methods and processes to deal with this growing data. One such process is Knowledge Discovery from Databases, which aims at finding valuable and interesting knowledge which may be hidden inside the data. In order to extract knowledge from data, models (hypothesis) are usually developed supported by many fields such as Machine Learning. Feature Selection plays an important role in this process since it represents a central problem in machine learning and is frequently applied as a data pre-processing step. Its objective is to choose a subset from the original features that describes a data set, according to some importance criterion, by removing irrelevant and/or redundant features, as they may decrease data quality and reduce comprehensibility of hypotheses induced by supervised learning algorithms. Most of the state-of-art feature selection algorithms mainly focus on finding relevant features. However, it has been shown that relevance alone is not sufficient to select important features. Different approaches have been proposed to select features, among them the filter approach. The idea of this approach is to remove features before the model's induction takes place, based on general characteristics from the data set. For the purpose of selecting features and discarding others, it is necessary to measure the features' goodness, and many importance measures have been proposed. Some of them are based on distance measures, consistency of data and information content, while others are founded on dependence measures. As there is no mathematical analysis capable of predicting whether a feature selection algorithm will produce better feature subsets than others, it is important to empirically evaluate the performance of these algorithms. Comparisons among algorithms' performance is usually carried out through the model's error analysis. Nevertheless, this sole parameter is not complete enough, and other issues, such as percentage of the feature's subset reduction should also be taken into account. In this work we propose a filter that decouples features' relevance and redundancy analysis, and introduces the use of Fractal Dimension to deal with redundant features. We also propose a performance evaluation model based on the constructed hypothesis' error and the percentage of reduction obtained from the selected feature subset. Experimental results obtained using well known feature selection algorithms on several data sets show that our proposal is competitive with them. Another important issue related to knowledge extraction from data is the format the data is represented. Usually, it is necessary to describe examples in the so-called attribute-value format. This work also proposes a methodology to support, through a semi-automatic process, the construction of a database in the attribute-value format from patient information contained in medical findings which are described in natural language. This process was successfully applied to a real case. Aprendizado de Máquina Data Mining Dimensão Fractal Fractal Dimension Machine Learning Mineração de Dados Pré-processamento Pre-processing
127	Mineração de regras de associação em dados georreferenciados / Mining of association rules in geographic data Pivato, Marina Abichabki 21 March 2006 (has links) Sistemas de informações geográficas permitem armazenar, manipular e armazenar, manipular e analisar dados espaciais e aspectos descritivos desses dados. A análise de dados espaciais pode ser realizada por meio de técnicas de extração de regras de associação, ou seja, regras que descrevem relacionamentos entre os dados. Porém, a mineração de regras de associação não considera as relações topológicas existentes entre dados georreferenciados. Para solucionar esse problema, Koperski and Han (1995) e Malerba et al. (2001) propuseram um processo de extração de regras integrado ao algoritmo de mineração e utilizavam predicados lógicos para representar as regras. Como alternativa a essa solução, este trabalho propõe pré-processar os dados referenciados para encontrar relações topológicas em separado e aplicar um algoritmo de mineração de regras de associação disponí?vel pela comunidade acadêmica. As regras geradas devem apresentar características descritivas dos dados e relações topológicas. Para atingir esse objetivo foi especificado um processo de extração de regras em dados georreferenciados e implementado um módulo de pré-processamento que extrai relações topológicas. O módulo foi avaliado por meio de um estudo de caso utilizando o sistema de informação geográfica da cidade de Jaboticabal, no contexto de planejamento urbano. As regras encontradas foram analisadas por um especialista utilizando as medidas de suporte e confiança. Além disso, uma análise sobre o tempo de processamento e consumo de memória para encontrar as relações topológicas foi realizada, mostrando que é possível extrair padrões utilizando o processo e o módulo proposto neste trabalho. / Geographic information systems are used to store, manipulate, and analyze spatial data and its descriptive aspects. Spatial data analysis can be done by searching association rules that describe relationships between the data. However, georeferenced data present topological relations unknown to traditional mining association rule algorithms. To solve this problem, Koperski and Han (1995) and Malerba et al. (2001) proposed a topological relation extraction process integrated to a mining association rule algorithm. This process requires all data to be translated as logical predicates. As an alternative to this solution, this work proposes to break down this process by pre-processing the georeferenced data to find topological relations, then executing traditional mining association rule algorithms. The resulting rules must present descriptive characteristics of the data and topological relations. To reach this objective, a process of rule extraction in georeferenced data was specified, in addition to a pre-processing module implementation. This module was evaluated by using a case study that uses a geographic information system of the city of Jaboticabal, in the context of urban planning. The generated rules were analyzed by a specialist using the measures of support and confidence. In addition, an analysis regarding the processing time and memory consumption was provided to find the topological relations, which shows that it is possible to extract the patterns with the proposed process and module. Association rules Banco de dados espaciais Data mining Geographic data Mineração de dados Regras de associação
128	Detecção de ilhamento de geradores síncronos distribuídos por correlações da mineração complexa de dados / Islanding detection of distributed synchronous generators by complex data-mining correlations Gomes, Eduardo Augusto Pereira 31 August 2016 (has links) Um dos principais problemas que podem ocorrer em sistemas de distribuição ou de subtransmissão de energia elétrica com geração distribuída (GD) é o ilhamento. O ilhamento ocorre quando um ou mais geradores distribuídos alimentam uma porção do sistema que se encontra eletricamente isolada do restante do sistema elétrico. Logo, geradores distribuídos têm de ser equipados com esquema de proteção anti-ilhamento, pois a operação ilhada pode colocar em risco a segurança das pessoas e equipamentos e pode deteriorar a qualidade da energia elétrica suprida aos consumidores locais. Este trabalho está inserido no contexto de proteção de sistemas elétricos de distribuição com GD e propõe uma nova técnica passiva-inteligente de proteção anti-ilhamento para geradores síncronos distribuídos. O método proposto utiliza a mineração de dados do Data Mining of Code Repositories (DAMICORE), o qual possui grandes potencialidades para descobrir correlações em dados complexos. Para realizar essa tarefa, três algoritmos são executados em sequência. São eles: o Normalized Compression Distance (NCD) para calcular a matriz de distância do conjunto de dados; o Neighbor-Joining (NJ) para construir as árvores filogenéticas; e por fim o Fast Newman (FN) para buscar grupos na árvore filogenética nos quais os dados apresentam alto grau de independência. O método de detecção de ilhamento nesta dissertação utiliza 10 características importantes dos sinais de tensão e corrente trifásicas no ponto de acoplamento comum (PAC). Essas 10 características são utilizadas como entrada ao DAMICORE para formular um algoritmo baseado em mineração de dados capaz de detectar ilhamento e de diferenciá-los de outros tipos de distúrbios. Os resultados mostram que o método identifica o ilhamento corretamente, detectando-o rapidamente, especialmente nos casos em que a detecção do ilhamento por relés baseados em medidas de frequência falha ou é lenta. / One of the main issues that can occur into distribution power systems with distributed generation is islanding. Islanding occurs when one or more distributed generators feed a portion of the distribution system that becomes electrically isolated from the rest of the power system. Thus, distributed generators have to be equipped with anti-islanding protection schemes, because the islanded operation may put at risk the safety of people and the equipment. It can also deteriorate the power quality supplied to local consumers. This work is in the context of the protection schemes for distribution power systems with distributed generation and it proposes a new intelligent passive anti-islanding protection scheme for distributed synchronous generators. The scheme is based on the Data Mining of Code Repositories (DAMICORE), which finds the similarity within complex data sets. This task is performed by computing the following algorithms, in sequence: the Normalized Compression Distance (NCD) to calculate a distance matrix among the data sets; the Neighbor-Joining (NJ) to build the phylogenetic trees; and the Fast Newman (FN) to find clusters with high degree of independence by using the phylogenetic trees. The proposed method comprises the extraction of 10 important features of the three-phase voltages and currents measured at the point of common coupling of the distributed generator. These 10 features are then used as input to the DAMICORE in order to formulate a data mining-based algorithm capable of detecting islanding and of distinguishing it from other disturbances. The results show that the method identifies the islanding correctly, detecting it quickly, especially where the detection of islanding by frequency-based relays are slow. Anti-islanding protection DAMICORE DAMICORE Data-mining Distributed generation Geração distribuída Mineração de dados Proteção anti-ilhamento
129	Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos. / An environment to evaluate machine learning algorithms. Batista, Gustavo Enrique de Almeida Prado Alves 15 October 1997 (has links) Um sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas, chamado de aprendizado supervisionado. O maior objetivo de um classificador é ser capaz de predizer com sucesso a respeito de novos casos. A performance de um classificador é medida em termos da taxa de erro. Técnicas experimentais para estimar a taxa de erro verdadeira não somente provêem uma base para comparar objetivamente as performances de diversos algoritmos de aprendizado no mesmo conjunto de exemplos, mas também podem ser uma ferramenta poderosa para projetar um classificador. As técnicas para estimar a taxa de erro são baseadas na teoria estatística de resampling. Um ambiente chamado AMPSAM foi implementado para ajudar na aplicação dos métodos de resampling em conjuntos de exemplos do mundo real. AMPSAM foi projetado como uma coleção de programas independentes, os quais podem interagir entre si através de scripts pré-definidos ou de novos scripts criados pelo usuário. O ambiente utiliza um formato padrão para arquivos de exemplos o qual é independente da sintaxe de qualquer algoritmo. AMPSAM também inclui ferramentas para particionar conjuntos de exemplos em conjuntos de treinamento e teste utilizando diferentes métodos de resampling. Além do método holdout, que é o estimador de taxa de erro mais comum, AMPSAM suporta os métodos n-fold cross-validation --- incluindo o leaning-one-out --- e o método bootstrap. As matrizes de confusão produzidas em cada iteração utilizando conjuntos de treinamento e teste podem ser fornecidas a um outro sistema implementado chamado SMEC. Este sistema calcula e mostra graficamente algumas das medidas descritivas mais importantes relacionadas com tendência central e dispersão dos dados. Este trabalho também relata os resultados experimentais a respeito de medidas do erro de classificação de três classificadores proposicionais e relacionais bem conhecidos, utilizando ambos os sistemas implementados, em diversos conjuntos de exemplos freqüentemente utilizados em pesquisas de Aprendizado de Máquina. / A learning system is a computer program that makes decisions based on the accumulative experience contained in successfully solved cases. The classification rules induced by a learning system are judged by two criteria: their classification error on an independent test set and their complexity. Practical learning systems have been developed using different paradigms including statistics, neural nets, as well as propositional and relational symbolic machine learning. Several learning methods can be applied to the same sample data and some of them may do better than others. Still, for a given application, there is no guarantee that any of these methods will work or that any single method is necessarily the best one. In other words, there is not a mathematical analysis method that can determine whether a learning system algorithm will work well. Hence, experimental studies are required. In this work we confine our attention to the learning task known as classification or prediction, where the problem concerns the construction of a classification procedure from a set of data for which the true classes are known, and is termed supervised learning. The overall objective of a classifier is to be able to predict successfully on new data. Performance is measured in terms of the error rate. Error rate estimation techniques not only provide a basis for objectively comparing the error rate of several classifiers on the same data and then estimating their future performance on new data, but they can also be a powerful tool for designing a classifier. The techniques of error rate estimation are based on statistical resampling theory. In this work, rules induced complexity of propositional and relational learning systems as well as several resampling methods to estimate the true error rate are discussed. An environment called AMPSAM has been implemented to aid in the application of resampling methods to real world data sets. AMPSAM consists of a collection of interdependent programs that can be bound together either by already defined or by new user defined scripts. The environment uses a common file format for data sets which is independent of any specific classifier scheme. It also includes facilities for splitting data sets up into test and training sets using different methods. Besides holdout, which is the most common accuracy estimation method, AMPSAM supports n-fold cross-validation --- including leaving-one-out --- and bootstrap. The confusion matrices produced in each run using those test and training sets can be input to another system called SMEC. This system calculates and graphically displays some of the most important descriptive measures related to central tendency and dispersion of those data. This work also reports the results of experiments measuring the classification error of three well known propositional and relational classifiers, using the implemented systems, on several data sets commonly used in Machine Learning research. aprendizado de máquina artificial intelligence avaliação experimental data mining experimental evaluation inteligência artificial machine learning mineração de dados
130	Analysis of microRNA precursors in multiple species by data mining techniques / Análise de precursores de microRNA em múltiplas espécies utilizando técnicas de mineração de dados Lopes, Ivani de Oliveira Negrão 18 June 2014 (has links) RNA Sequencing has recently emerged as a breakthrough technology for microRNA (miRNA) discovery. This technology has allowed the discovery of thousands of miRNAs in a large number of species. However, despite the benefits of this technology, it also carries its own limitations, including the need for sequencing read libraries and of the genome. Differently, ab initio computational methods need only the genome as input to search for genonic locus likely to give rise to novel miRNAs. In the core of most of these methods, there are predictive models induced by using data mining techniques able to distinguish between real (positive) and pseudo (negative) miRNA precursors (pre-miRNA). Nevertheless, the applicability of current literature ab initio methods have been compromised by high false detection rates and/or by other computational difficulties. In this work, we investigated how the main aspects involved in the induction of predictive models for pre-miRNA affect the predictive performance. Particularly, we evaluate the discriminant power of feature sets proposed in the literature, whose computational costs and composition vary widely. The computational experiments were carried out using sequence data from 45 species, which covered species from eight phyla. The predictive performance of the classification models induced using large training set sizes (≥ 1; 608) composed of instances extracted from real and pseudo human pre-miRNA sequences did not differ significantly among the feature sets that lead to the maximal accuracies. Moreover, the differences in the predictive performances obtained by these models, due to the learning algorithms, were neglectable. Inspired by these results, we obtained a feature set which can be computed 34 times faster than the less costly among those feature sets, producing the maximal accuracies, albeit the proposed feature set has achieved accuracy within 0.1% of the maximal accuracies. When classification models using the elements previously discussed were induced using small training sets (120) from 45 species, we showed that the feature sets that produced the highest accuracies in the classification of human sequences were also more likely to produce higher accuracies for other species. Nevertheless, we showed that the learning complexity of pre-miRNAs vary strongly among species, even among those from the same phylum. These results showed that the existence of specie specific features indicated in previous studies may be correlated with the learning complexity. As a consequence, the predictive accuracies of models induced with different species and same features and instances spaces vary largely. In our results, we show that the use of training examples from species phylogenetically more complex may increase the predictive performances for less complex species. Finally, by using ensembles of computationally less costly feature sets, we showed alternative ways to increase the predictive performance for many species while keeping the computational costs of the analysis lower than those using the feature sets from the literature. Since in miRNA discovery the number of putative miRNA loci is in the order of millions, the analysis of putative miRNAs using a computationally expensive feature set and or inaccurate models would be wasteful or even unfeasible for large genomes. In this work, we explore most of the learning aspects implemented in current ab initio pre-miRNA prediction tools, which may lead to the development of new efficient ab initio pre-miRNA discovery tools / O sequenciamento de pequenos RNAs surgiu recentemente como uma tecnologia inovadora na descoberta de microRNAs (miRNA). Essa tecnologia tem facilitado a descoberta de milhares de miRNAs em um grande número de espécies. No entanto, apesar dos benefícios dessa tecnologia, ela apresenta desafios, como a necessidade de construir uma biblioteca de pequenos RNAs, além do genoma. Diferentemente, métodos computacionais ab initio buscam diretamente no genoma regiões prováveis de conter miRNAs. A maioria desses métodos usam modelos preditivos capazes de distinguir entre os verdadeiros (positivos) e pseudo precursores de miRNA - pre-miRNA - (negativos), os quais são induzidos utilizando técnicas de mineração de dados. No entanto, a aplicabilidade de métodos ab initio da literatura atual é limitada pelas altas taxas de falsos positivos e/ou por outras dificuldades computacionais, como o elevado tempo necessário para calcular um conjunto de atributos. Neste trabalho, investigamos como os principais aspectos envolvidos na indução de modelos preditivos de pre-miRNA afetam o desempenho preditivo. Particularmente, avaliamos a capacidade discriminatória de conjuntos de atributos propostos na literatura, cujos custos computacionais e a composição variam amplamente. Os experimentos computacionais foram realizados utilizando dados de sequências positivas e negativas de 45 espécies, cobrindo espécies de oito filos. Os resultados mostraram que o desempenho preditivo de classificadores induzidos utilizando conjuntos de treinamento com 1608 ou mais vetores de atributos calculados de sequências humanas não diferiram significativamente, entre os conjuntos de atributos que produziram as maiores acurácias. Além disso, as diferenças entre os desempenhos preditivos de classificadores induzidos por diferentes algoritmos de aprendizado, utilizando um mesmo conjunto de atributos, foram pequenas ou não significantes. Esses resultados inspiraram a obtenção de um conjunto de atributos menor e que pode ser calculado até 34 vezes mais rapidamente do que o conjunto de atributos menos custoso produzindo máxima acurácia, embora a acurácia produzida pelo conjunto proposto não difere em mais de 0.1% das acurácias máximas. Quando esses experimentos foram executados utilizando vetores de atributos calculados de sequências de outras 44 espécies, os resultados mostraram que os conjuntos de atributos que produziram modelos com as maiores acurácias utilizando vetores calculados de sequências humanas também produziram as maiores acurácias quando pequenos conjuntos de treinamento (120) calculados de exemplos de outras espécies foram utilizadas. No entanto, a análise destes modelos mostrou que a complexidade de aprendizado varia amplamente entre as espécies, mesmo entre aquelas pertencentes a um mesmo filo. Esses resultados mostram que a existência de características espécificas em pre-miRNAs de certas espécies sugerida em estudos anteriores pode estar correlacionada com a complexidade de aprendizado. Consequentemente, a acurácia de modelos induzidos utilizando um mesmo conjunto de atributos e um mesmo algoritmo de aprendizado varia amplamente entre as espécies. i Os resultados também mostraram que o uso de exemplos de espécies filogeneticamente mais complexas pode aumentar o desempenho preditivo de espécies menos complexas. Por último, experimentos computacionais utilizando técnicas de ensemble mostraram estratégias alternativas para o desenvolvimento de novos modelos para predição de pre-miRNA com maior probabilidade de obter maior desempenho preditivo do que estratégias atuais, embora o custo computacional dos atributos seja inferior. Uma vez que a descoberta de miRNAs envolve a análise de milhares de regiões genômicas, a aplicação prática de modelos preditivos de baixa acurácia e/ou que dependem de atributos computacionalmente custosos pode ser inviável em análises de grandes genomas. Neste trabalho, apresentamos e discutimos os resultados de experimentos computacionais investigando o potencial de diversas estratégias utilizadas na indução de modelos preditivos para predição ab initio de pre-miRNAs, que podem levar ao desenvolvimento de ferramentas ab initio de maior aplicabilidade prática Data mining Ensembles Ensembles Mineração de dados Pre-miRNA prediction Predição de pre-microRNA

Search results