Spelling suggestions: "subject:"seleção dde atributos"" "subject:"seleção dde tributos""
31 |
Seleção de atributos para classificação de textos usando técnicas baseadas em agrupamento, PoS tagging e algoritmos evolutivosFerreira, Charles Henrique Porto January 2016 (has links)
Orientadora: Profa. Dra. Debora Maria Rossi de Medeiros / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / Neste trabalho são investigadas técnicas de seleção de atributos para serem
aplicadas à tarefa de classificação de textos. Três técnicas diferentes são propostas
para serem comparadas com as técnicas tradicionais de pré-processamento de textos.
A primeira técnica propõe que nem todas as classes gramaticais de um dado idioma
sejam relevantes em um texto quando este é submetido à tarefa de classificação.
A segunda técnica emprega agrupamento de atributos e algoritmos genéticos para
seleção de grupos. Na terceira técnica são levantadas 2 hipóteses: a primeira supõe
que as palavras que ocorrem com mais frequência em uma base de textos do que no
idioma como um todo, podem ser as palavras mais importantes para comporem os
atributos; a segunda presume que as relações de cada instância de dados com cada
classe pode compor um novo conjunto de atributos.
Os resultados obtidos sugerem que as abordagens propostas são promissoras
e que as hipóteses levantadas podem ser válidas. Os experimentos com a primeira
abordagem mostram que existe um conjunto de classes gramaticais cujas palavras
podem ser desconsideradas do conjunto de atributos em bases de textos diferentes
mantendo ou até melhorando a acurácia de classificação. A segunda abordagem consegue
realizar uma forte redução no número de atributos original e ainda melhorar
a acurácia de classificação. Com a terceira abordagem, foi obtida a redução mais
acentuada do número de atributos pois, pela natureza da proposta, o número final
de atributos é igual ao número de classes da base, e o impacto na acurácia foi nulo
ou até positivo. / This work investigates feature selection techniques to be applied to text
classification task. Three different techniques are proposed to be compared with
the traditional techniques of preprocessing texts. The first technique proposed that
not all grammatical classes of a given language in a text are relevant when it is
subjected to the classification task. The second technique employs clustering features
and genetic algorithms for selecting groups. In the third technique are raised two
hypotheses: the first assumes that the words that occur most often on the dataset
than the language as a whole, may be the most important words to compose the
features; the second assumes that the relationship of each data instance with each
class can compose a new set of attributes.
The results suggest that the proposed approaches are promising and that
the hypotheses may be valid. The experiments show that the first approach is a
set of grammatical word classes which can be disregarded from the set of features
from different datasets maintaining or even improving the accuracy of classification.
The second approach can achieve a significant reduction in the number of unique
features and to improve the accuracy of classification. With the third approach, it
obtained the more pronounced reduction in the number of features because, by the
nature of the proposal, the final number offeatures is equal to the number of classes
of the dataset, and the impact on the accuracy was zero or even positive.
|
32 |
Técnica de aprendizagem automática aplicada a um codificador HEVC em tempo real.OLIVEIRA, Jean Felipe Fonseca de. 07 May 2018 (has links)
Submitted by Emanuel Varela Cardoso (emanuel.varela@ufcg.edu.br) on 2018-05-07T19:44:09Z
No. of bitstreams: 1
JEAN FELIPE FONSECA DE OLIVEIRA – TESE (PPGEE) 2016.pdf: 4299929 bytes, checksum: 553f9084b2022247c3b7599b696859c9 (MD5) / Made available in DSpace on 2018-05-07T19:44:09Z (GMT). No. of bitstreams: 1
JEAN FELIPE FONSECA DE OLIVEIRA – TESE (PPGEE) 2016.pdf: 4299929 bytes, checksum: 553f9084b2022247c3b7599b696859c9 (MD5)
Previous issue date: 2018-05-07 / O padrão HEVC (High Efficiency Video Coding) é o mais recente padrão para codificação de vídeos e tem uma complexidade computacional muito maior do que seu antecessor, o
padrão H.264. A grande eficiência de codificação atingida pelo codificador HEVC é obtida com um custo computacional bastante elevado. Esta tese aborda oportunidades de reduzir essa carga computacional. Dessa forma, um algoritmo de decisão prematura de divisão de uma unidade de codificação é proposto para o codificador HEVC, terminando prematuramente o processo de busca pelo melhor particionamento baseado em um modelo de classificação adaptativo, criado em tempo de execução. Esse modelo é gerado por um processo de aprendizado online baseado no algoritmo Pegasos, que é uma implementação que aplica a resolução do gradiente estocástico ao algoritmo SVM (Support Vector Machine). O método proposto foi implementado e integrado ao codificador de referência HM 16.7. Os resultados experimentais mostraram que o
codificador modificado reduziu o custo computacional do processo de codificação em até 50%, em alguns casos, e aproximadamente 30% em média, com perdas de qualidade desprezíveis para os usuários. De modo geral, esse processo resulta em reduzidas perdas de qualidade, no entanto, alguns resultados mostraram pequenos ganhos em eficiência de compressão quando comparados com os resultados do codificador HM 16.7. / The most recent video coding standard, the High Efficiency Video Coding (HEVC), has
a higher encoding complexity when compared with H.264/AVC, which means a higher computational cost. This thesis presents a review of the recent literature and proposes an algorithm that reduces such complexity. Therefore, a fast CU (Coding Unit) splitting algorithm is proposed for the HEVC encoder, which terminates the CU partitioning process at an early phase, based on an adaptive classification model. This model is generated by an online learning method based on the Primal Estimated sub-GrAdient SOlver for SVM (Pegasos) algorithm. The proposed method is implemented and integrated in the HEVC reference source code on its version 16.7. Experimental results show that the proposed method reduces the computational complexity of the HEVC encoder, up to 50% in some cases, with negligible losses, and shows an average computational reduction of 30%. This process results in reduced coding efficiency losses, however, some results showed a nearby 1% of BD-Rate (Bjontegaard Delta) gains in the Low Delay B configuration, without using an offline training phase.
|
33 |
Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations / Seleção de atributos efetiva e não-supervisionada em grandes bases de dados: aplicando a Teoria de Fractais para remover correlações lineares e não-linearesAntonio Canabrava Fraideinberze 04 September 2017 (has links)
Given a very large dataset of moderate-to-high dimensionality, how to mine useful patterns from it? In such cases, dimensionality reduction is essential to overcome the well-known curse of dimensionality. Although there exist algorithms to reduce the dimensionality of Big Data, unfortunately, they all fail to identify/eliminate non-linear correlations that may occur between the attributes. This MSc work tackles the problem by exploring concepts of the Fractal Theory and massive parallel processing to present Curl-Remover, a novel dimensionality reduction technique for very large datasets. Our contributions are: (a) Curl-Remover eliminates linear and non-linear attribute correlations as well as irrelevant attributes; (b) it is unsupervised and suits for analytical tasks in general not only classification; (c) it presents linear scale-up on both the data size and the number of machines used; (d) it does not require the user to guess the number of attributes to be removed, and; (e) it preserves the attributes semantics by performing feature selection, not feature extraction. We executed experiments on synthetic and real data spanning up to 1.1 billion points, and report that our proposed Curl-Remover outperformed two PCA-based algorithms from the state-of-the-art, being in average up to 8% more accurate. / Dada uma grande base de dados de dimensionalidade moderada a alta, como identificar padrões úteis nos objetos de dados? Nesses casos, a redução de dimensionalidade é essencial para superar um fenômeno conhecido na literatura como a maldição da alta dimensionalidade. Embora existam algoritmos capazes de reduzir a dimensionalidade de conjuntos de dados na escala de Terabytes, infelizmente, todos falham em relação à identificação/eliminação de correlações não lineares entre os atributos. Este trabalho de Mestrado trata o problema explorando conceitos da Teoria de Fractais e processamento paralelo em massa para apresentar Curl-Remover, uma nova técnica de redução de dimensionalidade bem adequada ao pré-processamento de Big Data. Suas principais contribuições são: (a) Curl-Remover elimina correlações lineares e não lineares entre atributos, bem como atributos irrelevantes; (b) não depende de supervisão do usuário e é útil para tarefas analíticas em geral não apenas para a classificação; (c) apresenta escalabilidade linear tanto em relação ao número de objetos de dados quanto ao número de máquinas utilizadas; (d) não requer que o usuário sugira um número de atributos para serem removidos, e; (e) mantêm a semântica dos atributos por ser uma técnica de seleção de atributos, não de extração de atributos. Experimentos foram executados em conjuntos de dados sintéticos e reais contendo até 1,1 bilhões de pontos, e a nova técnica Curl-Remover apresentou desempenho superior comparada a dois algoritmos do estado da arte baseados em PCA, obtendo em média até 8% a mais em acurácia de resultados.
|
34 |
Seleção de atributos para aprendizagem multirrótulo / Feature selection for multi-label learningNewton Spolaôr 24 September 2014 (has links)
A presença de atributos não importantes, i.e., atributos irrelevantes ou redundantes nos dados, pode prejudicar o desempenho de classificadores gerados a partir desses dados por algoritmos de aprendizado de máquina. O objetivo de algoritmos de seleção de atributos consiste em identificar esses atributos não importantes para removê-los dos dados antes da construção de classificadores. A seleção de atributos em dados monorrótulo, nos quais cada exemplo do conjunto de treinamento é associado com somente um rótulo, tem sido amplamente estudada na literatura. Entretanto, esse não é o caso para dados multirrótulo, nos quais cada exemplo é associado com um conjunto de rótulos (multirrótulos). Além disso, como esse tipo de dados usualmente apresenta relações entre os rótulos do multirrótulo, algoritmos de aprendizado de máquina deveriam considerar essas relações. De modo similar, a dependência de rótulos deveria também ser explorada por algoritmos de seleção de atributos multirrótulos. A abordagem filtro é uma das mais utilizadas por algoritmos de seleção de atributos, pois ela apresenta um custo computacional potencialmente menor que outras abordagens e utiliza características gerais dos dados para calcular as medidas de importância de atributos. tais como correlação de atributo-classe, entre outras. A hipótese deste trabalho é trabalho é que algoritmos de seleção de atributos em dados multirrótulo que consideram a dependência de rótulos terão um melhor desempenho que aqueles que ignoram essa informação. Para tanto, é proposto como objetivo deste trabalho o projeto e a implementação de algoritmos filtro de seleção de atributos multirrótulo que consideram relações entre rótulos. Em particular, foram propostos dois métodos que levam em conta essas relações por meio da construção de rótulos e da adaptação inovadora do algoritmo de seleção de atributos monorrótulo ReliefF. Esses métodos foram avaliados experimentalmente e apresentam bom desempenho em termos de redução no número de atributos e qualidade dos classificadores construídos usando os atributos selecionados. / Irrelevant and/or redundant features in data can deteriorate the performance of the classifiers built from this data by machine learning algorithms. The aim of feature selection algorithms consists in identifying these features and removing them from data before constructing classifiers. Feature selection in single-label data, in which each instance in the training set is associated with only one label, has been widely studied in the literature. However, this is not the case for multi-label data, in which each instance is associated with a set of labels. Moreover, as multi-label data usually exhibit relationships among the labels in the set of labels, machine learning algorithms should take thiis relatinship into account. Therefore, label dependence should also be explored by multi-label feature selection algorithms. The filter approach is one of the most usual approaches considered by feature selection algorithms, as it has potentially lower computational cost than approaches and uses general properties from data to calculate feature importance measures, such as the feature-class correlation. The hypothesis of this work is that feature selection algorithms which consider label dependence will perform better than the ones that disregard label dependence. To this end, ths work proposes and develops filter approach multi-label feature selection algorithms which take into account relations among labels. In particular, we proposed two methods that take into account these relations by performing label construction and adapting the single-label feature selection algorith RelieF. These methods were experimentally evaluated showing good performance in terms of feature reduction and predictability of the classifiers built using the selected features.
|
35 |
Contribuições para a construção de taxonomias de tópicos em domínios restritos utilizando aprendizado estatístico / Contributions to topic taxonomy construction in a specific domain using statistical learningMaria Fernanda Moura 26 October 2009 (has links)
A mineração de textos vem de encontro à realidade atual de se compreender e utilizar grandes massas de dados textuais. Uma forma de auxiliar a compreensão dessas coleções de textos é construir taxonomias de tópicos a partir delas. As taxonomias de tópicos devem organizar esses documentos, preferencialmente em hierarquias, identificando os grupos obtidos por meio de descritores. Construir manual, automática ou semi-automaticamente taxonomias de tópicos de qualidade é uma tarefa nada trivial. Assim, o objetivo deste trabalho é construir taxonomias de tópicos em domínios de conhecimento restrito, por meio de mineração de textos, a fim de auxiliar o especialista no domínio a compreender e organizar os textos. O domínio de conhecimento é restrito para que se possa trabalhar apenas com métodos de aprendizado estatístico não supervisionado sobre representações bag of words dos textos. Essas representações independem do contexto das palavras nos textos e, conseqüentemente, nos domínios. Assim, ao se restringir o domínio espera-se diminuir erros de interpretação dos resultados. A metodologia proposta para a construção de taxonomias de tópicos é uma instanciação do processo de mineração de textos. A cada etapa do processo propôem-se soluções adaptadas às necessidades específicas de construçao de taxonomias de tópicos, dentre as quais algumas contribuições inovadoras ao estado da arte. Particularmente, este trabalho contribui em três frentes no estado da arte: seleção de atributos n-gramas em tarefas de mineração de textos, dois modelos para rotulação de agrupamento hierárquico de documentos e modelo de validação do processo de rotulação de agrupamento hierárquico de documentos. Além dessas contribuições, ocorrem outras em adaptações e metodologias de escolha de processos de seleção de atributos, forma de geração de atributos, visualização das taxonomias e redução das taxonomias obtidas. Finalmente, a metodologia desenvolvida foi aplicada a problemas reais, tendo obtido bons resultados. / Text mining provides powerful techniques to help on the current needs of understanding and organizing huge amounts of textual documents. One way to do this is to build topic taxonomies from these documents. Topic taxonomies can be used to organize the documents, preferably in hierarchies, and to identify groups of related documents and their descriptors. Constructing high quality topic taxonomies, either manually, automatically or semi-automatically, is not a trivial task. This work aims to use text mining techniques to build topic taxonomies for well defined knowledge domains, helping the domain expert to understand and organize document collections. By using well defined knowledge domains, only unsupervised statistical methods are used, with a bag of word representation for textual documents. These representations are independent of the context of the words in the documents as well as in the domain. Thus, if the domain is well defined, a decrease of mistakes of the result interpretation is expected. The proposed methodology for topic taxonomy construction is an instantiation of the text mining process. At each step of the process, some solutions are proposed and adapted to the specific needs of topic taxonomy construction. Among these solutions there are some innovative contributions to the state of the art. Particularly, this work contributes to the state of the art in three different ways: the selection of n-grams attributes in text mining tasks, two models for hierarchical document cluster labeling and a validation model of the hierarchical document cluster labeling. Additional contributions include adaptations and methodologies of attribute selection process choices, attribute representation, taxonomy visualization and obtained taxonomy reduction. Finally, the proposed methodology was also validated by successfully applying it to real problems
|
36 |
Genetic generation of fuzzy knowledge bases: new perspectives / Geração genética de bases de conhecimento fuzzy: novas perspectivasMarcos Evandro Cintra 10 April 2012 (has links)
This work focus on the genetic generation of fuzzy systems. One of the main contribution of this work is the proposal of the FCA-BASED method, which generates the genetic search space using the formal concept analysis theory by extracting rules from data. The experimental evaluation results of the FCA-BASED method show its robustness, producing a good trade-off between the accuracy and the interpretability of the generated models. Moreover, the FCA-BASED method presents improvements to the DOC-BASED method, a previously proposed approach, related to the reduction of the computational cost for the generation of the genetic search space. In order to tackle high dimensional datasets, we also propose the FUZZYDT method, a fuzzy version of the classic C4.5 decision tree, a highly scalable method that presents low computational cost and competitive accuracy. Due to these characteristics, FUZZYDT is used in this work as a baseline method for the experimental evaluation and comparisons of other classic and fuzzy classification methods. We also include in this work the use of the FUZZYDT method to a real world problem, the warning of the coffee rust disease in Brazilian crops. Furthermore, this work investigates the task of feature subset selection to address the dimensionality issue of fuzzy systems. To this end, we propose the FUZZYWRAPPER method, a wrapper-based approach that selects features taking the relevant information regarding the fuzzyfication of the attributes into account, in the feature selection process. This work also investigates the automatic design of fuzzy data bases, proposing the FUZZYDBD method, which estimates the number of fuzzy sets defining all the attributes of a dataset and evenly distributing the fuzzy sets in the domains of the attributes. A modified version of the FUZZYDBD method, FUZZYDBD-II, which defines independent numbers of fuzzy sets for each attribute of a dataset, by means of estimation functions, is also proposed in this work / Este trabalho foca na geração genética de sistemas fuzzy. Uma das principais contribuições deste trabalho é a proposta do método FCA-BASED, que gera o espaço de busca genético usando a teoria de análise de conceitos formais por meio da extração de regras dos dados. Os resultados da avaliação experimental do método FCA-BASED demonstram sua robustez. O método FCABASED também produz um bom trade-off entre acurácia e interpretabilidade dos modelos gerados. Além disso, o método FCA-BASED apresenta melhorias em relação ao método DOC-BASED, uma abordagem proposta anteriormente. Essas melhorias estão relacionadas à redução do custo computacional para a geração do espaço de busca genético. Para ser capaz de trabalhar com conjuntos de dados de alta dimensão, foi também proposto o método FUZZYDT, uma versão fuzzy da clássica árvore de decisão C4.5. FUZZYDT é um método altamente escalável que apresenta baixo custo computacional e acurácia competitiva. Devido a essas características, o FUZZYDT é usado nesse trabalho como um método baseline para a avaliação experimental e comparações de outros métodos de classificação, fuzzy e clássicos. Também está incluido nesse trabalho a aplicação do método FUZZYDT em um problema do mundo real, o alerta da doença da ferrugem cafeeira em plantações brasileiras. Além disso, esse trabalho investiga a tarefa de seleção de atributos como forma de atacar o problema da dimensionalidade de sistemas fuzzy. Para esse fim, foi proposto o método FUZZYWRAPPER, uma abordagem baseada em wrapper que seleciona atributos levando em consideração as informações relevantes sobre a fuzificação dos atributos durante o processo de seleção. Esse trabalho também investiga a construção automática de bases de dados fuzzy, incluindo a proposta do método FUZZYDBD, que estima o número de conjuntos fuzzy que define todos os atributos de um conjunto de dados e distribui os conjuntos fuzzy proporcionalmente nos domínios dos atributos. Uma versão modificada do método FUZZYDBD, o método FUZZYDBD-II, também é proposta nesse trabalho. O método FUZZYDBD-II define números independentes de conjuntos fuzzy para cada atributo de um conjunto de dados por meio de funções de estimação
|
37 |
USO DA MINERAÇÃO DE DADOS PARA EXTRAÇÃO DE CONHECIMENTO AGRONÔMICO ENVOLVENDO O USO DE GESSO AGRÍCOLASilva, Karine Sato da 01 March 2013 (has links)
Made available in DSpace on 2017-07-21T14:19:36Z (GMT). No. of bitstreams: 1
Karine Sato da Silva.pdf: 1399940 bytes, checksum: 7e4d6aa73a1bc504cbbbf109e805da76 (MD5)
Previous issue date: 2013-03-01 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The subsoil acidity is harmful towards the growing of plants roots and, consequently, affects the agricultural productivity. In handled areas in the no-till cropping system (SPD), the toxic effects caused by high levels of Al and Mn, due to the soil acidity, are corrected by the superficial liming. This technique improves the acidity of the superficial layers, but it presents no great efficiency in the acidity correction of deeper
layers of the soil. The agricultural gypsum (CaSO4.2H2O) is an input that might help in the improvement of the subsoil’s chemical conditions, because besides of being a Ca and S source, it is also able to transport cationic nutrients to the sub superficial layers and reduce the Al activity. It happens, however, that there are questions about which situations may be expected beneficial effects regarding the agricultural gypsum use, and as for the amount that should be applied to reach such effects. A possible form to assist the comprehension of these questions is with the Data Mining (MD) utilization. However, the agronomic databases usually involve a limited number of registers, which difficult the MD use. As a result, this study addresses, beyond the MD utilization, a new research area involving MD in small databases. Therewith, the goals of this work were:(i) obtaining a better comprehension of the gypsum application effects in the chemical attributes of handled soil in SPD, (ii) identifying the chemical attributes of the soil that present narrower correlations with the estimation of the need of gypsum using selection techniques at the pre-processing stage, and (iii) defining models to the estimation of the
need of agricultural gypsum in soils under SPD. The database used in this study was obtained from three distinct areas of the region of Campos Gerais do Parana, containing chemical attributes of the soil in different epochs coming from SPD experiments, which received increasing doses of agricultural gypsum on their surfaces. It was used Principal Component Analysis techniques based on B2 and B4 criteria, and also the Supervised ACP technique. Still regarding the pre-processing techniques, it was implemented a covariance matrix that assumes the marginal independence between the base attributes in their calculus and utilizes the B2 and B4 criteria for the attributes selection. For the databases expansion, besides the SMOTE technique, it was implemented the megatrend-diffusion (MTD) method. The M5Rules algorithm was utilized to find models of estimation of the need of agricultural gypsum. The results showed that the elapsed time
after the gypsum application (epoch), the saturation through Ca and the saturation through Mg in the capacity of effective cations exchange (CTCe) of soil were the attributes which presented the narrower correlations with the dose estimation of gypsum. The work identified four possible models for the estimation of the need of agricultural gypsum, showing that the M5Rules algorithm was efficient for such prediction. The MTD method presented positive results because increased the
correlation coefficient and reduced the average absolute error. / A acidez do subsolo é prejudicial ao crescimento das raízes das plantas e, consequentemente, afeta a produtividade agrícola. Em áreas manejadas no sistema plantio direto (SPD), os efeitos tóxicos causados pelos teores elevados de Al e Mn,
decorrentes da acidez do solo, são corrigidos pela calagem superficial. Essa prática melhora a acidez das camadas superficiais, mas não apresenta grande eficiência na
correção da acidez em camadas mais profundas do solo. O gesso agrícola (CaSO4.2H2O) é um insumo que pode auxiliar na melhoria das condições químicas do subsolo, pois além de ser fonte de Ca e S, também é capaz de transportar nutrientes catiônicos para as camadas subsuperficiais e reduzir a atividade do Al. Acontece,porém, que ainda existem dúvidas sobre quais as situações em que podem ser esperados
efeitos benéficos do uso de gesso agrícola e também quanto à dose que deve ser aplicada para alcançar tais efeitos. Uma forma possível para auxiliar na compreensão dessas dúvidas é a utilização da Mineração de Dados (MD). Entretanto, as bases de dados agronômicos normalmente envolve um número limitado de registros, o que dificulta o emprego da MD. Em decorrência disso, estudou-se, além da utilização da
MD, uma nova área de pesquisa que envolve a MD em pequenas bases. Com isso, os objetivos do presente trabalho foram: (i) obter melhor compreensão dos efeitos da aplicação do gesso nos atributos químicos de solos manejados no SPD, (ii) identificar os atributos químicos do solo que apresentam correlações mais estreitas com a estimativa da necessidade de gesso usando técnicas de seleção na etapa de pré-processamento, e (iii) definir modelos para estimativa de necessidade de gesso agrícola em solos sob SPD. A base de dados utilizada nesse estudo foi obtida de três áreas distintas da região dos Campos Gerais do Paraná, contendo atributos químicos do solo em diferentes épocas provenientes de experimentos sob SPD que receberam doses crescentes de gesso agrícola na superfície. Utilizaram-se técnicas de Análise de Componentes Principais (ACP) baseada nos critérios B2 e B4 e, ainda, a técnica de ACP Supervisionado. Quanto
às técnicas de pré-processamento, implementou-se também uma matriz de covariância que assume a independência marginal entre os atributos da base no seu cálculo e utiliza
os critérios B2 e B4 para a seleção dos atributos. Para ampliação da base de dados, além da técnica SMOTE, foi empregado o método mega-trend-diffusion (MTD). O algoritmo
M5Rules foi utilizado para encontrar modelos de estimativa da necessidade de gesso agrícola. Os resultados mostraram que o tempo decorrido após a aplicação de gesso (época), a saturação por Ca e a saturação por Mg na capacidade de troca de cátions efetiva (CTCe) do solo foram os atributos que apresentaram as correlações mais estreitas com a estimativa da dose de gesso. O trabalho identificou quatro possíveis modelos para a estimativa da necessidade de gesso, mostrando que o algoritmo M5Rules foi eficiente para tal predição. O emprego do método MTD apresentou resultados positivos porque aumentou o coeficiente de correlação e diminuiu o erro médio absoluto.
|
38 |
Stochastic density ratio estimation and its application to feature selection / Estimação estocástica da razão de densidades e sua aplicação em seleção de atributosBraga, Ígor Assis 23 October 2014 (has links)
The estimation of the ratio of two probability densities is an important statistical tool in supervised machine learning. In this work, we introduce new methods of density ratio estimation based on the solution of a multidimensional integral equation involving cumulative distribution functions. The resulting methods use the novel V -matrix, a concept that does not appear in previous density ratio estimation methods. Experiments demonstrate the good potential of this new approach against previous methods. Mutual Information - MI - estimation is a key component in feature selection and essentially depends on density ratio estimation. Using one of the methods of density ratio estimation proposed in this work, we derive a new estimator - VMI - and compare it experimentally to previously proposed MI estimators. Experiments conducted solely on mutual information estimation show that VMI compares favorably to previous estimators. Experiments applying MI estimation to feature selection in classification tasks evidence that better MI estimation leads to better feature selection performance. Parameter selection greatly impacts the classification accuracy of the kernel-based Support Vector Machines - SVM. However, this step is often overlooked in experimental comparisons, for it is time consuming and requires familiarity with the inner workings of SVM. In this work, we propose procedures for SVM parameter selection which are economic in their running time. In addition, we propose the use of a non-linear kernel function - the min kernel - that can be applied to both low- and high-dimensional cases without adding another parameter to the selection process. The combination of the proposed parameter selection procedures and the min kernel yields a convenient way of economically extracting good classification performance from SVM. The Regularized Least Squares - RLS - regression method is another kernel method that depends on proper selection of its parameters. When training data is scarce, traditional parameter selection often leads to poor regression estimation. In order to mitigate this issue, we explore a kernel that is less susceptible to overfitting - the additive INK-splines kernel. Then, we consider alternative parameter selection methods to cross-validation that have been shown to perform well for other regression methods. Experiments conducted on real-world datasets show that the additive INK-splines kernel outperforms both the RBF and the previously proposed multiplicative INK-splines kernel. They also show that the alternative parameter selection procedures fail to consistently improve performance. Still, we find that the Finite Prediction Error method with the additive INK-splines kernel performs comparably to cross-validation. / A estimação da razão entre duas densidades de probabilidade é uma importante ferramenta no aprendizado de máquina supervisionado. Neste trabalho, novos métodos de estimação da razão de densidades são propostos baseados na solução de uma equação integral multidimensional. Os métodos resultantes usam o conceito de matriz-V , o qual não aparece em métodos anteriores de estimação da razão de densidades. Experimentos demonstram o bom potencial da nova abordagem com relação a métodos anteriores. A estimação da Informação Mútua - IM - é um componente importante em seleção de atributos e depende essencialmente da estimação da razão de densidades. Usando o método de estimação da razão de densidades proposto neste trabalho, um novo estimador - VMI - é proposto e comparado experimentalmente a estimadores de IM anteriores. Experimentos conduzidos na estimação de IM mostram que VMI atinge melhor desempenho na estimação do que métodos anteriores. Experimentos que aplicam estimação de IM em seleção de atributos para classificação evidenciam que uma melhor estimação de IM leva as melhorias na seleção de atributos. A tarefa de seleção de parâmetros impacta fortemente o classificador baseado em kernel Support Vector Machines - SVM. Contudo, esse passo é frequentemente deixado de lado em avaliações experimentais, pois costuma consumir tempo computacional e requerer familiaridade com as engrenagens de SVM. Neste trabalho, procedimentos de seleção de parâmetros para SVM são propostos de tal forma a serem econômicos em gasto de tempo computacional. Além disso, o uso de um kernel não linear - o chamado kernel min - é proposto de tal forma que possa ser aplicado a casos de baixa e alta dimensionalidade e sem adicionar um outro parâmetro a ser selecionado. A combinação dos procedimentos de seleção de parâmetros propostos com o kernel min produz uma maneira conveniente de se extrair economicamente um classificador SVM com boa performance. O método de regressão Regularized Least Squares - RLS - é um outro método baseado em kernel que depende de uma seleção de parâmetros adequada. Quando dados de treinamento são escassos, uma seleção de parâmetros tradicional em RLS frequentemente leva a uma estimação ruim da função de regressão. Para aliviar esse problema, é explorado neste trabalho um kernel menos suscetível a superajuste - o kernel INK-splines aditivo. Após, são explorados métodos de seleção de parâmetros alternativos à validação cruzada e que obtiveram bom desempenho em outros métodos de regressão. Experimentos conduzidos em conjuntos de dados reais mostram que o kernel INK-splines aditivo tem desempenho superior ao kernel RBF e ao kernel INK-splines multiplicativo previamente proposto. Os experimentos também mostram que os procedimentos alternativos de seleção de parâmetros considerados não melhoram consistentemente o desempenho. Ainda assim, o método Finite Prediction Error com o kernel INK-splines aditivo possui desempenho comparável à validação cruzada.
|
39 |
Stochastic density ratio estimation and its application to feature selection / Estimação estocástica da razão de densidades e sua aplicação em seleção de atributosÍgor Assis Braga 23 October 2014 (has links)
The estimation of the ratio of two probability densities is an important statistical tool in supervised machine learning. In this work, we introduce new methods of density ratio estimation based on the solution of a multidimensional integral equation involving cumulative distribution functions. The resulting methods use the novel V -matrix, a concept that does not appear in previous density ratio estimation methods. Experiments demonstrate the good potential of this new approach against previous methods. Mutual Information - MI - estimation is a key component in feature selection and essentially depends on density ratio estimation. Using one of the methods of density ratio estimation proposed in this work, we derive a new estimator - VMI - and compare it experimentally to previously proposed MI estimators. Experiments conducted solely on mutual information estimation show that VMI compares favorably to previous estimators. Experiments applying MI estimation to feature selection in classification tasks evidence that better MI estimation leads to better feature selection performance. Parameter selection greatly impacts the classification accuracy of the kernel-based Support Vector Machines - SVM. However, this step is often overlooked in experimental comparisons, for it is time consuming and requires familiarity with the inner workings of SVM. In this work, we propose procedures for SVM parameter selection which are economic in their running time. In addition, we propose the use of a non-linear kernel function - the min kernel - that can be applied to both low- and high-dimensional cases without adding another parameter to the selection process. The combination of the proposed parameter selection procedures and the min kernel yields a convenient way of economically extracting good classification performance from SVM. The Regularized Least Squares - RLS - regression method is another kernel method that depends on proper selection of its parameters. When training data is scarce, traditional parameter selection often leads to poor regression estimation. In order to mitigate this issue, we explore a kernel that is less susceptible to overfitting - the additive INK-splines kernel. Then, we consider alternative parameter selection methods to cross-validation that have been shown to perform well for other regression methods. Experiments conducted on real-world datasets show that the additive INK-splines kernel outperforms both the RBF and the previously proposed multiplicative INK-splines kernel. They also show that the alternative parameter selection procedures fail to consistently improve performance. Still, we find that the Finite Prediction Error method with the additive INK-splines kernel performs comparably to cross-validation. / A estimação da razão entre duas densidades de probabilidade é uma importante ferramenta no aprendizado de máquina supervisionado. Neste trabalho, novos métodos de estimação da razão de densidades são propostos baseados na solução de uma equação integral multidimensional. Os métodos resultantes usam o conceito de matriz-V , o qual não aparece em métodos anteriores de estimação da razão de densidades. Experimentos demonstram o bom potencial da nova abordagem com relação a métodos anteriores. A estimação da Informação Mútua - IM - é um componente importante em seleção de atributos e depende essencialmente da estimação da razão de densidades. Usando o método de estimação da razão de densidades proposto neste trabalho, um novo estimador - VMI - é proposto e comparado experimentalmente a estimadores de IM anteriores. Experimentos conduzidos na estimação de IM mostram que VMI atinge melhor desempenho na estimação do que métodos anteriores. Experimentos que aplicam estimação de IM em seleção de atributos para classificação evidenciam que uma melhor estimação de IM leva as melhorias na seleção de atributos. A tarefa de seleção de parâmetros impacta fortemente o classificador baseado em kernel Support Vector Machines - SVM. Contudo, esse passo é frequentemente deixado de lado em avaliações experimentais, pois costuma consumir tempo computacional e requerer familiaridade com as engrenagens de SVM. Neste trabalho, procedimentos de seleção de parâmetros para SVM são propostos de tal forma a serem econômicos em gasto de tempo computacional. Além disso, o uso de um kernel não linear - o chamado kernel min - é proposto de tal forma que possa ser aplicado a casos de baixa e alta dimensionalidade e sem adicionar um outro parâmetro a ser selecionado. A combinação dos procedimentos de seleção de parâmetros propostos com o kernel min produz uma maneira conveniente de se extrair economicamente um classificador SVM com boa performance. O método de regressão Regularized Least Squares - RLS - é um outro método baseado em kernel que depende de uma seleção de parâmetros adequada. Quando dados de treinamento são escassos, uma seleção de parâmetros tradicional em RLS frequentemente leva a uma estimação ruim da função de regressão. Para aliviar esse problema, é explorado neste trabalho um kernel menos suscetível a superajuste - o kernel INK-splines aditivo. Após, são explorados métodos de seleção de parâmetros alternativos à validação cruzada e que obtiveram bom desempenho em outros métodos de regressão. Experimentos conduzidos em conjuntos de dados reais mostram que o kernel INK-splines aditivo tem desempenho superior ao kernel RBF e ao kernel INK-splines multiplicativo previamente proposto. Os experimentos também mostram que os procedimentos alternativos de seleção de parâmetros considerados não melhoram consistentemente o desempenho. Ainda assim, o método Finite Prediction Error com o kernel INK-splines aditivo possui desempenho comparável à validação cruzada.
|
Page generated in 0.0487 seconds