Spelling suggestions: "subject:"seleção dde atributos."" "subject:"seleção dee atributos.""
1 |
Seleção de atributos via agrupamento / Clustering-based feature selectionCovões, Thiago Ferreira 22 February 2010 (has links)
O avanço tecnológico teve como consequência a geração e o armazenamento de quantidades abundantes de dados. Para conseguir extrair o máximo de informação possível dos dados tornou-se necessária a formulação de novas ferramentas de análise de dados. Foi então introduzido o Processo de Descoberta de Conhecimento em Bancos de Dados, que tem como objetivo a identificação de padrôes válidos, novos, potencialmente úteis e compreensíveis em grandes bancos de dados. Nesse processo, a etapa responsável por encontrar padrões nos dados é denominada de Mineração de Dados. A acurácia e eficiência de algoritmos de mineração de dados dependem diretamente da quantidade e da qualidade dos dados que serão analisados. Nesse sentido, atributos redundantes e/ou não-informativos podem tornar o processo de mineração de dados ineficiente. Métodos de Seleção de Atributos podem remover tais atributos. Nesse trabalho é proposto um algoritmo para seleção de atributos e algumas de suas variantes. Tais algoritmos procuram identificar redundância por meio do agrupamento de atributos. A identificação de atributos redundantes pode auxiliar não apenas no processo de identificação de padrões, mas também pode favorecer a compreensibilidade do modelo obtido. O algoritmo proposto e suas variantes são comparados com dois algoritmos do mesmo gênero descritos na literatura. Tais algoritmos foram avaliados em problemas típicos de mineração de dados: classificação e agrupamento de dados. Os resultados das avaliações mostram que o algoritmo proposto, e suas variantes, fornecem bons resultados tanto do ponto de vista de acurácia como de eficiência computacional, sem a necessidade de definição de parâmetros críticos pelo usuário / The technological progress has lead to the generation and storage of abundant amounts of data. The extraction of information from such data has required the formulation of new data analysis tools. In this context, the Knowledge Discovery from Databases process was introduced. It is focused on the identification of valid, new, potentially useful, and comprehensible patterns in large databases. In this process, the task of finding patterns in data is usually called Data Mining. The efficacy and efficiency of data mining algorithms are directly influenced by the amount and quality of the data being analyzed. Redundant and/or uninformative features may make the data mining process inefficient. In this context, feature selection methods that can remove such features are frequently used. This work proposes a feature selection algorithm and some of its variants that are capable of identifying redundant features through clustering. The identification of redundant features can favor not only the pattern recognition process but also the comprehensibility of the obtained model. The proposed method and its variants are compared with two feature selection algorithms based on feature clustering. These algorithms were evaluated in two well known data mining problems: classification and clustering. The results obtained show that the proposed algorithm obtained good accuracy and computational efficiency results, additionally not requiring the definition of critical parameters by the user
|
2 |
Otimização Global em Redes Neurais ArtificiaisZanchettin, Cleber 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T15:48:49Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2008 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Esta tese apresenta um método de otimização global e local, baseado na integração das
heurísticas das técnicas Simulated Annealing, Tabu Search, Algoritmos Genéticos e
Backpropagation.
O desempenho deste método é investigado na otimização simultânea da topologia e dos valores
dos pesos das conexões entre as unidades de processamento de redes neurais artificiais Multi-layer
Perceptron, a fim de gerar topologias com poucas conexões e alto desempenho para qualquer
conjunto de dados. A heurística proposta realiza a busca de forma construtiva e baseada na poda
das conexões entre as unidades de processamento da rede. Assim, são geradas redes com
arquitetura variável e que podem ser ajustadas para cada problema de forma automática.
Experimentos demonstram que o método pode também ser utilizado para a seleção de atributos
relevantes. Durante a otimização da arquitetura da rede, unidades de processamento de entrada
podem ser eliminadas de acordo com sua relevância para o desempenho do modelo. Desta forma, é
obtida uma seleção de atributos inerente ao processo de otimização das redes neurais artificiais.
Os principais parâmetros de configuração do método tiveram sua influência estimada através
da técnica de planejamento fatorial de experimentos. Com base no planejamento fatorial de
experimentos, foi possível verificar a influência, interação e a inter-relação entre os parâmetros de
configuração do modelo. Estas análises são importantes para identificar a influência de cada
parâmetro e possivelmente diminuir a quantidade de parâmetros ajustáveis no projeto deste
método.
Nesta tese são realizados experimentos com cinco diferentes bases de dados de classificação e
duas bases de dados de previsão. A técnica proposta apresentou resultados estatisticamente
relevantes em comparação com outras técnicas de otimização global e local
|
3 |
Seleção de atributos via agrupamento / Clustering-based feature selectionThiago Ferreira Covões 22 February 2010 (has links)
O avanço tecnológico teve como consequência a geração e o armazenamento de quantidades abundantes de dados. Para conseguir extrair o máximo de informação possível dos dados tornou-se necessária a formulação de novas ferramentas de análise de dados. Foi então introduzido o Processo de Descoberta de Conhecimento em Bancos de Dados, que tem como objetivo a identificação de padrôes válidos, novos, potencialmente úteis e compreensíveis em grandes bancos de dados. Nesse processo, a etapa responsável por encontrar padrões nos dados é denominada de Mineração de Dados. A acurácia e eficiência de algoritmos de mineração de dados dependem diretamente da quantidade e da qualidade dos dados que serão analisados. Nesse sentido, atributos redundantes e/ou não-informativos podem tornar o processo de mineração de dados ineficiente. Métodos de Seleção de Atributos podem remover tais atributos. Nesse trabalho é proposto um algoritmo para seleção de atributos e algumas de suas variantes. Tais algoritmos procuram identificar redundância por meio do agrupamento de atributos. A identificação de atributos redundantes pode auxiliar não apenas no processo de identificação de padrões, mas também pode favorecer a compreensibilidade do modelo obtido. O algoritmo proposto e suas variantes são comparados com dois algoritmos do mesmo gênero descritos na literatura. Tais algoritmos foram avaliados em problemas típicos de mineração de dados: classificação e agrupamento de dados. Os resultados das avaliações mostram que o algoritmo proposto, e suas variantes, fornecem bons resultados tanto do ponto de vista de acurácia como de eficiência computacional, sem a necessidade de definição de parâmetros críticos pelo usuário / The technological progress has lead to the generation and storage of abundant amounts of data. The extraction of information from such data has required the formulation of new data analysis tools. In this context, the Knowledge Discovery from Databases process was introduced. It is focused on the identification of valid, new, potentially useful, and comprehensible patterns in large databases. In this process, the task of finding patterns in data is usually called Data Mining. The efficacy and efficiency of data mining algorithms are directly influenced by the amount and quality of the data being analyzed. Redundant and/or uninformative features may make the data mining process inefficient. In this context, feature selection methods that can remove such features are frequently used. This work proposes a feature selection algorithm and some of its variants that are capable of identifying redundant features through clustering. The identification of redundant features can favor not only the pattern recognition process but also the comprehensibility of the obtained model. The proposed method and its variants are compared with two feature selection algorithms based on feature clustering. These algorithms were evaluated in two well known data mining problems: classification and clustering. The results obtained show that the proposed algorithm obtained good accuracy and computational efficiency results, additionally not requiring the definition of critical parameters by the user
|
4 |
Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados / Automatic feature quantification in data clustering tasksAndrade Filho, José Augusto 17 September 2013 (has links)
Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida / Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition
|
5 |
Um filtro iterativo utilizando árvores de decisão / An Iterative Decision Tree Threshold FilterPicchi Netto, Oscar 24 September 2013 (has links)
Usar algoritmos de Aprendizado de Máquina é um dos modos ecientes de extrair as informações de grandes bases biológicas. Sabendo-se que a quantidade de dados que são coletados cresce a cada dia, o uso de alguma técnica de seleção de atributos eficiente é, em alguns casos, essencial não só para otimizar o tempo do algoritmo de Aprendizado da Máquina a ser aplicado posteriormente como também para reduzir os dados, de forma que possa ser possível testá-los, por exemplo, em uma bancada de laboratório em algumas situações específicas. O objetivo deste estudo é propor uma abordagem utilizando árvores de decisão em um filtro iterativo, visando auxiliar na extração de informação de grande bases biológicas. Pois, com uma base de menor dimensionalidade, um especialista humano pode entender melhor ou ainda utilizar um algoritmo de Aprendizado de Máquina de forma mais eficaz. O filtro proposto pode utilizar qualquer classificador com um seletor de atributos embutido e qualquer métrica pode ser utilizada para determinar se o atributo deve ser escolhido. Foi fixado, neste estudo, o algoritmo utilizado como J48 e a área embaixo da curva ROC (AUC) como métrica. Em experimentos utilizando diversas bases de dados biomédicas, o filtro proposto foi analisado e sua capacidade de compressão e desempenho foram avaliados em cinco diferentes paradigmas de aprendizado de máquina, utilizando dois limiares diferentes para a métrica escolhida. O melhor limiar obteve uma capacidade de compressão de cerca de 50% dos dados em geral e 99.4% em bases de baixa densidade, geralmente grandes bases. Os valores AUC obtidos pelo filtro quando comparados com cinco algoritmos de paradigmas de aprendizado diferentes mostraram um desempenho melhor em quatro das cinco situações avaliadas. O filtro proposto foi depois analisado e comparado com outros seletores de atributos da literatura e o indutor sozinho. Quanto ao tempo gasto pelo filtro em relação aos outros ele se apresentou no mesmo patamar de 3 dos 4 seletores testados. Quando comparado em relação ao AUC o filtro proposto se mostrou robusto nos cinco indutores analisados, não apresentando nenhuma diferença significativa em nenhum dos cenários testados. Em relação aos indutores, o filtro apresentou um desempenho melhor, mesmo que não significante, em 4 dos 5 indutores. / Using Machine Learning algorithms is an eficient way to extract information from large biological databases. But, in some cases, the amount of data is huge that using an eficient featured subset selection is, in some cases, essencial not only to optimize the learning time but also to reduce the amount of data, allowing, for example, a test in a laboratory workbench. The objective of this study is to propose an approach using decision trees in a iterative filter. The filter helps information extraction from large biological databases, since in a database with few dimensions a human specialist can understand it better or can use Machine Learning algorithms in a more efective way. The proposed lter can use any classier with embed featured subset selection and can use any performance metric to determine which attribute must be chosen. In this study, we have fixed the algorithm used within the filter as J48 and AUC was used as metric for performance evaluation. In experiments using biomedical databases, the proposed filter was analyzed and its compression capacity and performance were tested. In five diferent Machine Learning paradigms, using two diferent thresholds for the chosen metric. The best threshold was capable of reducing around 50% of the data using all databases and 99.4% on the small density bases, usually high dimensional databases. AUC values for the filter when compared with the five algorithm got a better performance in four of five tested situations. The proposed filter then was tested against others featured subset selectors from the literature, and against the inducer alone. Analyzing time the proposed lter is in the same level as 3 of 4 of the tested selectors. When tested for AUC the proposed selector shows itself robust in the five inducers tested, not showing any signicant diference in all tested scenarios. Against the inducers alone our filter showed a better performance, even not signicant, in 4 of the 5 inducers.
|
6 |
Detecção e Diagnóstico de Falhas com Redes Neurais sem PesosOliveira, José Carlos 20 April 2018 (has links)
Submitted by José Carlos Oliveira (jcarlos.jeq@hotmail.com) on 2018-07-25T17:12:40Z
No. of bitstreams: 1
Tese_Final_José_Carlos_Martins_Oliveira.pdf: 4601437 bytes, checksum: e063bb6da481b557eeb5ce50666f37fe (MD5) / Approved for entry into archive by Vanessa Reis (vanessa.jamile@ufba.br) on 2018-08-03T12:12:58Z (GMT) No. of bitstreams: 1
Tese_Final_José_Carlos_Martins_Oliveira.pdf: 4601437 bytes, checksum: e063bb6da481b557eeb5ce50666f37fe (MD5) / Made available in DSpace on 2018-08-03T12:12:58Z (GMT). No. of bitstreams: 1
Tese_Final_José_Carlos_Martins_Oliveira.pdf: 4601437 bytes, checksum: e063bb6da481b557eeb5ce50666f37fe (MD5) / CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior) e CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico) pelo apoio financeiro. / Sistemas de detecção e diagnóstico de falhas (FDD - Fault Detection and Diagnosis) têm sido largamente utilizados em processos industriais. A necessidade de detecção antecipada e segura de falhas em sistemas dinâmicos e reais provocou uma demanda crescente por processos de supervisão que integram os sistemas FDD. Neste contexto, o objetivo principal desta tese é abordar o problema de detecção e diagnóstico de falhas em problemas dinâmicos univariável e multivariáveis com base nas Redes Neural Sem Pesos (RNSP). As RNSP utilizam neurônios baseados em dispositivos de memórias RAM (Random Access Memories, memórias de acesso randômico ou aleatório) para o aprendizado das características intrínsecas nos dados de treinamento. Essas redes apresentam algoritmos de aprendizagem rápidos e flexíveis, precisão e consistência nos resultados, sem a necessidade de geração de resíduos e retreinamento das redes e um potencial elevado para o reconhecimento e classificação de padrões. Como resultado da pesquisa realizada, são propostos três sistemas de detecção e diagnóstico de falhas baseados no modelo neural sem pesos, conhecido como dispositivo WiSARD (Wilkie, Stonham e Aleksander’s Recognition Device, dispositivo de reconhecimento de Wilkie, Stonham e Aleksander). Os sistemas propostos contam também com as contribuições da seleção de atributos, de modelos estatísticos básicos e da lógica fuzzy para a formação dos padrões comportamentais apresentados às RSNP usadas. Para a validação dos sistemas propostos foram testados três estudos de caso. Um deles se refere a um problema real univariável com dados obtidos pelos sensores de temperatura do compressor de gás para a venda em uma Unidade de Processamento de Gás Natural (UPGN) da Petrobras, localizada no município de Pojuca na Bahia (UPGN-3-Bahia). O segundo simula uma planta industrial considerada como um benchmark na área de detecção e diagnóstico de falhas, e conhecida como Tennessee Eastman Process (TEP). O terceiro e último estudo de caso simula um reator tanque agitado continuamente (CSTR, Continuous Stirred Tank Reactor, reator tanque agitado continuamente). Os resultados apresentados comprovam a boa adaptação das RNSP para o problema de detecção e diagnóstico de falhas, com percentuais de acertos, na classificação, acima de 98%. / Fault Detection and Diagnosis (FDD) systems have been widely used in industrial processes. The need of detection anticipated and secure of failure in dynamic and real systems provoke to a growing demand for supervisory processes that integrate FDD systems. In this context, the main objective of this thesis is to approach the problem of detecting and diagnosing failures in univariate and multivariate dynamic problems based on Weightless Neural Networks (WNN). The RNSP uses neurons based on RAM (Random Access Memories) devices to learn the intrinsic characteristics in the training data. These networks use fast and flexible learning algorithms, which provide accurate and consistent results, without the need for residual generation or network retraining, and therefore they have great potential use for pattern recognition and classification. As result of the research, three systems of fault detection and diagnosis based on the weightless neural model, known as WiSARD device (Wilkie, Stonham e Aleksander’s Recognition Device, dispositivo de reconhecimento de Wilkie, Stonham e Aleksander) are proposed. The proposed systems also count with the contributions of the attribute selection, basic statistical models and fuzzy logic for the formation of behavioral patterns presented to the RSNP used. For the validation of the proposed systems, three case studies were tested. One of them refers to a real univariate problem with data obtained by temperature sensors of the gas of sale compressor of a Petrobras Natural Gas Processing Unit (NGPU) located in the city of Pojuca in Bahia (NGPU-3, Bahia). The second simulates an industrial plant considered as a benchmark in the area of fault detection and diagnosis and known as the Tennessee Eastman Process (TEP). The third and final case study simulates a continuous stirred tank reactor (CSTR, Continuous Stirred Tank Reactor). The results show the good adaptation of the RNSP to the problem of detection and diagnosis of failures with percentage of correctness in the classification above 98%.
|
7 |
Extração de atributos em imagens de sensoriamento remoto utilizando Independent Component Analysis e combinação de métodos lineares.Levada, Alexandre Luís Magalhães 22 February 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:18Z (GMT). No. of bitstreams: 1
DissALML.pdf: 2156518 bytes, checksum: eb0b0619b9319fd2b1128f575f5041ff (MD5)
Previous issue date: 2006-02-22 / Universidade Federal de Sao Carlos / Methods for feature extraction represent an important stage in statistical pattern recognition applications. In this work we present how to improve classification performance creating a feature fusion framework to combine second and higher order statistical methods, avoiding existing limitations of the individual approaches and
problems as ill-conditioned behavior, which may cause unstable results during the estimation of the independent components (whitening process) and eventual noise amplifications. The resulting scheme is used to combine features obtained from a variety of methods into a unique feature vector defining two approaches: Concatenated
and Hierarquical Feature Fusion. The methods are tested on both multispectral and
hyperspectral remote sensing images, which are classified using the maxver (maximum
likelihood) approach. Results indicate that the technique outperforms the usual methods
in some cases, providing a valid useful tool for multivariate data analysis and classification. / Métodos para extração de atributos compõem uma etapa fundamental em aplicações na área de reconhecimentos de padrões. O presente trabalho apresenta uma metodologia para melhorar o desempenho da classificação criando modelos para fusão de atributos que combinam métodos estatísticos de segunda ordem com métodos de ordens superiores, superando limitações existentes nas abordagens tradicionais, como problemas de mal-condicionamento, o que pode provocar instabilidade na estimação dos componentes independentes, além de eventuais amplificações de ruídos. O esquema resultante é utilizado para combinar atributos obtidos através de diversos métodos num único vetor de padrões em duas abordagens: Fusão Concatenada e Fusão Hierárquica. A metodologia proposta é aplicada em diversos estudos de casos, incluindo imagens
multiespectrais e hiperespectrais de sensoriamento remoto, classificadas utilizando-se a abordagem de máxima verossimilhança. Resultados indicam que essa metodologia
supera métodos de segunda ordem tradicionais em alguns casos, constituindo um válido
e interessante ferramental para análise e classificação de dados multivariados.
|
8 |
Sobre o processo de seleção de subconjuntos de atributos - as abordagens filtro e wrapper.Santoro, Daniel Monegatto 28 April 2005 (has links)
Made available in DSpace on 2016-06-02T19:06:20Z (GMT). No. of bitstreams: 1
DissDMS.pdf: 4319162 bytes, checksum: 520f8924dcc0b2471665008a2ea3ec5a (MD5)
Previous issue date: 2005-04-28 / Universidade Federal de Sao Carlos / Inductive machine learning methods learn the expression of the concept from a
training set. Training sets are, generally, composed by instances described by attributevalue
pairs and an associated class. The attribute set used for describing the training
instances has a strong impact on the induced concepts.
In a machine learning environment, attribute subset selection techniques aim at the
identification of the attributes which effectively contribute for establishing the class of
an instance. These techniques can be characterized as wrappers (if they are associated
with a specific machine learning method) or filter and many of them work in
conjunction with a search method (there are also embedded feature selection methods,
not very representative).
This work approaches the attribute subset selection problem by investigating the
performance of two families of wrappers the NN (Nearest Neighbor) and DistAl
families and three filter families Relief, Focus and LVF. The many members of the
NN family (as well as of the DistAl family) differ among themselves with relation to the
search method they use.
The work presents and discusses the experiments conducted in many knowledge
domains and their results allow a comparative evaluation (as far as accuracy and
dimensionality are concerned) among the members of the families. / Métodos indutivos de aprendizado de máquina aprendem a expressão do conceito a
partir de um conjunto de treinamento. Conjuntos de treinamento são, na maioria das
vezes, compostos por instâncias descritas por pares atributo-valor e uma classe
associada. O conjunto de atributos usado para descrever as instâncias de treinamento
tem um forte impacto na expressão induzida do conceito.
As técnicas para a seleção de subconjuntos de atributos no contexto de aprendizado
de máquina objetivam identificar os atributos que efetivamente contribuem para a
caracterização da classe de uma instância. Essas técnicas podem ser caracterizadas
como do tipo wrapper (se estão associadas a um método específico de aprendizado de
máquina) ou filtro e muitas delas funcionam articuladas a um método de busca (há ainda
o tipo integrado, pouco representativo).
Este trabalho aborda o problema de seleção de subconjuntos de atributos por meio
da investigação do desempenho de duas famílias de wrappers a família NN (Neareast
Neighbor) e a DistAl e de três famílias de filtros Relief, Focus e LVF. Os vários
integrantes da família NN (bem como da família DistAl) diferem entre si com relação
ao método de busca utilizado.
O trabalho apresenta e discute os experimentos realizados em vários domínios de
conhecimento e seus resultados permitem uma avaliação comparativa de desempenho
(precisão e dimensionalidade) dos elementos das várias famílias avaliadas.
|
9 |
Um filtro iterativo utilizando árvores de decisão / An Iterative Decision Tree Threshold FilterOscar Picchi Netto 24 September 2013 (has links)
Usar algoritmos de Aprendizado de Máquina é um dos modos ecientes de extrair as informações de grandes bases biológicas. Sabendo-se que a quantidade de dados que são coletados cresce a cada dia, o uso de alguma técnica de seleção de atributos eficiente é, em alguns casos, essencial não só para otimizar o tempo do algoritmo de Aprendizado da Máquina a ser aplicado posteriormente como também para reduzir os dados, de forma que possa ser possível testá-los, por exemplo, em uma bancada de laboratório em algumas situações específicas. O objetivo deste estudo é propor uma abordagem utilizando árvores de decisão em um filtro iterativo, visando auxiliar na extração de informação de grande bases biológicas. Pois, com uma base de menor dimensionalidade, um especialista humano pode entender melhor ou ainda utilizar um algoritmo de Aprendizado de Máquina de forma mais eficaz. O filtro proposto pode utilizar qualquer classificador com um seletor de atributos embutido e qualquer métrica pode ser utilizada para determinar se o atributo deve ser escolhido. Foi fixado, neste estudo, o algoritmo utilizado como J48 e a área embaixo da curva ROC (AUC) como métrica. Em experimentos utilizando diversas bases de dados biomédicas, o filtro proposto foi analisado e sua capacidade de compressão e desempenho foram avaliados em cinco diferentes paradigmas de aprendizado de máquina, utilizando dois limiares diferentes para a métrica escolhida. O melhor limiar obteve uma capacidade de compressão de cerca de 50% dos dados em geral e 99.4% em bases de baixa densidade, geralmente grandes bases. Os valores AUC obtidos pelo filtro quando comparados com cinco algoritmos de paradigmas de aprendizado diferentes mostraram um desempenho melhor em quatro das cinco situações avaliadas. O filtro proposto foi depois analisado e comparado com outros seletores de atributos da literatura e o indutor sozinho. Quanto ao tempo gasto pelo filtro em relação aos outros ele se apresentou no mesmo patamar de 3 dos 4 seletores testados. Quando comparado em relação ao AUC o filtro proposto se mostrou robusto nos cinco indutores analisados, não apresentando nenhuma diferença significativa em nenhum dos cenários testados. Em relação aos indutores, o filtro apresentou um desempenho melhor, mesmo que não significante, em 4 dos 5 indutores. / Using Machine Learning algorithms is an eficient way to extract information from large biological databases. But, in some cases, the amount of data is huge that using an eficient featured subset selection is, in some cases, essencial not only to optimize the learning time but also to reduce the amount of data, allowing, for example, a test in a laboratory workbench. The objective of this study is to propose an approach using decision trees in a iterative filter. The filter helps information extraction from large biological databases, since in a database with few dimensions a human specialist can understand it better or can use Machine Learning algorithms in a more efective way. The proposed lter can use any classier with embed featured subset selection and can use any performance metric to determine which attribute must be chosen. In this study, we have fixed the algorithm used within the filter as J48 and AUC was used as metric for performance evaluation. In experiments using biomedical databases, the proposed filter was analyzed and its compression capacity and performance were tested. In five diferent Machine Learning paradigms, using two diferent thresholds for the chosen metric. The best threshold was capable of reducing around 50% of the data using all databases and 99.4% on the small density bases, usually high dimensional databases. AUC values for the filter when compared with the five algorithm got a better performance in four of five tested situations. The proposed filter then was tested against others featured subset selectors from the literature, and against the inducer alone. Analyzing time the proposed lter is in the same level as 3 of 4 of the tested selectors. When tested for AUC the proposed selector shows itself robust in the five inducers tested, not showing any signicant diference in all tested scenarios. Against the inducers alone our filter showed a better performance, even not signicant, in 4 of the 5 inducers.
|
10 |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCupVIEIRA, Davi Carnaúba de Lima 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:58:23Z (GMT). No. of bitstreams: 2
arquivo4030_1.pdf: 9256625 bytes, checksum: 7f4c7776d120f9fef113904bc5e3e526 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Fundação de Amparo à Ciência e Tecnologia do Estado de Pernambuco / A aprendizagem por reforço é usada em cenários nos quais não se dispõe de um resultado associado a cada estado nem a cada ação tomada por um agente inteligente. Essa forma de aprendizagem; portanto, mantém uma forte dependência da exploração dos espaços de estados e de ações que produz uma explosão de dados cujo armazenamento se torna um problema em muitas situações. Por outro lado, tem-se a mineração de dados como uma área da inteligência artificial que busca extrair informações ou padrões de grandes quantidades de dados, ou armazenados em um banco de dados ou trafegando em um fluxo contínuo de dados.
A principal contribuição deste trabalho é mostrar como as técnicas de mineração de dados podem ser utilizadas para selecionar as variáveis e ações mais relevantes dos ambientes da aprendizagem por reforço. O objetivo desta seleção é reduzir a complexidade do problema e a quantidade de memória usada pelo agente, que podem acelerar a convergência da aprendizagem. A dificuldade em utilizar as técnicas de mineração de dados em ambientes da aprendizagem por reforço deve-se ao não armazenamento dos dados provenientes da exploração dos espaços de estados e de ações em um banco de dados. Este trabalho também contribui propondo um esquema de armazenamento para os estados visitados e as ações executadas pelo agente.
Neste estudo, o método de seleção de atributos e de ações foi validado experimentalmente em um problema no qual a aprendizagem por reforço é a abordagem mais adequada; o drible no futebol de robôs RoboCup-2D. Este problema é composto de 23 variáveis contínuas e 113 ações disponíveis para o agente que consome cerca de 18MB de memória quando utilizado o algoritmo combinado com a técnica de tile-coding. Os resultados dos experimentos mostraram que a quantidade de variáveis do ambiente pode ser reduzida em até 56% e a quantidade de ações em até 85%, com uma redução do uso da memória de 95% e um aumento no desempenho de aproximadamente 10% de acordo com a distribuição da freqüência relativa de sucesso do agente. A abordagem proposta é simples de usar e eficiente
|
Page generated in 0.0513 seconds