1 |
Noise detection in classification problems / Detecção de ruídos em problemas de classificaçãoGarcia, Luís Paulo Faina 22 June 2016 (has links)
In many areas of knowledge, considerable amounts of time have been spent to comprehend and to treat noisy data, one of the most common problems regarding information collection, transmission and storage. These noisy data, when used for training Machine Learning techniques, lead to increased complexity in the induced classification models, higher processing time and reduced predictive power. Treating them in a preprocessing step may improve the data quality and the comprehension of the problem. This Thesis aims to investigate the use of data complexity measures capable to characterize the presence of noise in datasets, to develop new efficient noise ltering techniques in such subsamples of problems of noise identification compared to the state of art and to recommend the most properly suited techniques or ensembles for a specific dataset by meta-learning. Both artificial and real problem datasets were used in the experimental part of this work. They were obtained from public data repositories and a cooperation project. The evaluation was made through the analysis of the effect of artificially generated noise and also by the feedback of a domain expert. The reported experimental results show that the investigated proposals are promising. / Em diversas áreas do conhecimento, um tempo considerável tem sido gasto na compreensão e tratamento de dados ruidosos. Trata-se de uma ocorrência comum quando nos referimos a coleta, a transmissão e ao armazenamento de informações. Esses dados ruidosos, quando utilizados na indução de classificadores por técnicas de Aprendizado de Maquina, aumentam a complexidade da hipótese obtida, bem como o aumento do seu tempo de indução, além de prejudicar sua acurácia preditiva. Trata-los na etapa de pré-processamento pode significar uma melhora da qualidade dos dados e um aumento na compreensão do problema estudado. Esta Tese investiga medidas de complexidade capazes de caracterizar a presença de ruídos em um conjunto de dados, desenvolve novos filtros que sejam mais eficientes em determinados nichos do problema de detecção e remoção de ruídos que as técnicas consideradas estado da arte e recomenda as mais apropriadas técnicas ou comitês de técnicas para um determinado conjunto de dados por meio de meta-aprendizado. As bases de dados utilizadas nos experimentos realizados neste trabalho são tanto artificiais quanto reais, coletadas de repositórios públicos e fornecidas por projetos de cooperação. A avaliação consiste tanto da adição de ruídos artificiais quanto da validação de um especialista. Experimentos realizados mostraram o potencial das propostas investigadas.
|
2 |
Noise detection in classification problems / Detecção de ruídos em problemas de classificaçãoLuís Paulo Faina Garcia 22 June 2016 (has links)
In many areas of knowledge, considerable amounts of time have been spent to comprehend and to treat noisy data, one of the most common problems regarding information collection, transmission and storage. These noisy data, when used for training Machine Learning techniques, lead to increased complexity in the induced classification models, higher processing time and reduced predictive power. Treating them in a preprocessing step may improve the data quality and the comprehension of the problem. This Thesis aims to investigate the use of data complexity measures capable to characterize the presence of noise in datasets, to develop new efficient noise ltering techniques in such subsamples of problems of noise identification compared to the state of art and to recommend the most properly suited techniques or ensembles for a specific dataset by meta-learning. Both artificial and real problem datasets were used in the experimental part of this work. They were obtained from public data repositories and a cooperation project. The evaluation was made through the analysis of the effect of artificially generated noise and also by the feedback of a domain expert. The reported experimental results show that the investigated proposals are promising. / Em diversas áreas do conhecimento, um tempo considerável tem sido gasto na compreensão e tratamento de dados ruidosos. Trata-se de uma ocorrência comum quando nos referimos a coleta, a transmissão e ao armazenamento de informações. Esses dados ruidosos, quando utilizados na indução de classificadores por técnicas de Aprendizado de Maquina, aumentam a complexidade da hipótese obtida, bem como o aumento do seu tempo de indução, além de prejudicar sua acurácia preditiva. Trata-los na etapa de pré-processamento pode significar uma melhora da qualidade dos dados e um aumento na compreensão do problema estudado. Esta Tese investiga medidas de complexidade capazes de caracterizar a presença de ruídos em um conjunto de dados, desenvolve novos filtros que sejam mais eficientes em determinados nichos do problema de detecção e remoção de ruídos que as técnicas consideradas estado da arte e recomenda as mais apropriadas técnicas ou comitês de técnicas para um determinado conjunto de dados por meio de meta-aprendizado. As bases de dados utilizadas nos experimentos realizados neste trabalho são tanto artificiais quanto reais, coletadas de repositórios públicos e fornecidas por projetos de cooperação. A avaliação consiste tanto da adição de ruídos artificiais quanto da validação de um especialista. Experimentos realizados mostraram o potencial das propostas investigadas.
|
3 |
Common Features in lncRNA Annotation and Classification: A SurveyKlapproth, Christopher, Sen, Rituparno, Stadler, Peter F., Findeiß, Sven, Fallmann, Jörg 05 May 2023 (has links)
Long non-coding RNAs (lncRNAs) are widely recognized as important regulators of gene expression. Their molecular functions range from miRNA sponging to chromatin-associated mechanisms, leading to effects in disease progression and establishing them as diagnostic and therapeutic targets. Still, only a few representatives of this diverse class of RNAs are well studied, while the vast majority is poorly described beyond the existence of their transcripts. In this review we survey common in silico approaches for lncRNA annotation. We focus on the well-established sets of features used for classification and discuss their specific advantages and weaknesses. While the available tools perform very well for the task of distinguishing coding sequence from other RNAs, we find that current methods are not well suited to distinguish lncRNAs or parts thereof from other non-protein-coding input sequences. We conclude that the distinction of lncRNAs from intronic sequences and untranslated regions of coding mRNAs remains a pressing research gap.
|
4 |
MUTUAL LEARNING ALGORITHMS IN MACHINE LEARNINGSabrina Tarin Chowdhury (14846524) 18 May 2023 (has links)
<p> </p>
<p>Mutual learning algorithm is a machine learning algorithm where multiple machine learning algorithms learns from different sources and then share their knowledge among themselves so that all the agents can improve their classification and prediction accuracies simultaneously. Mutual learning algorithm can be an efficient mechanism for improving the machine learning and neural network efficiency in a multi-agent system. Usually, in knowledge distillation algorithms, a big network plays the role of a static teacher and passes the data to smaller networks, known as student networks, to improve the efficiency of the latter. In this thesis, it is showed that two small networks can dynamically and interchangeably play the changing roles of teacher and student to share their knowledge and hence, the efficiency of both the networks improve simultaneously. This type of dynamic learning mechanism can be very useful in mobile environment where there is resource constraint for training with big dataset. Data exchange in multi agent, teacher-student network system can lead to efficient learning. </p>
|
5 |
Dynamics of Two Neuron Cellular Neural NetworksViñoles Serra, Mireia 18 January 2011 (has links)
Les xarxes neuronals cel·lulars altrament anomenades CNNs, són un tipus de sistema dinàmic que relaciona diferents elements que s'anomenen neurones via unes plantilles de paràmetres. Aquest sistema queda completament determinat coneixent quines són les entrades a la xarxa, les sortides i els paràmetres o pesos. En aquest treball fem un estudi exhaustiu sobre aquest tipus de xarxa en el cas més senzill on només hi intervenen dues neurones. Tot i la simplicitat del sistema, veurem que pot tenir una dinàmica molt rica. Primer de tot, revisem l'estabilitat d'aquest sistema des de dos punts de vista diferents. Usant la teoria de Lyapunov, trobem el rang de paràmetres en el que hem de treballar per aconseguir la convergència de la xarxa cap a un punt fix. Aquest mètode ens obre les portes per abordar els diferents tipus de problemes que es poden resoldre usant una xarxa neuronal cel·lular de dues neurones. D'altra banda, el comportament dinàmic de la CNN està determinat per la funció lineal a trossos que defineix les sortides del sistema. Això ens permet estudiar els diferents sistemes que apareixen en cada una de les regions on el sistema és lineal, aconseguint un estudi complet de l'estabilitat de la xarxa en funció de les posicions locals dels diferents punts d'equilibri del sistema. D'aquí obtenim bàsicament dos tipus de convergència, cap a un punt fix o bé cap a un cicle límit. Aquests resultats ens permeten organitzar aquest estudi bàsicament en aquests dos tipus de convergència. Entendre el sistema d'equacions diferencials que defineixen la CNN en dimensió 1 usant només dues neurones, ens permet trobar les dificultats intrínseques de les xarxes neuronals cel·lulars així com els possibles usos que els hi podem donar. A més, ens donarà les claus per a poder entendre el cas general. Un dels primers problemes que abordem és la dependència de les sortides del sistema respecte les condicions inicials. La funció de Lyapunov que usem en l'estudi de l'estabilitat es pot veure com una quàdrica si la pensem com a funció de les sortides. La posició i la geometria d'aquesta forma quadràtica ens permeten trobar condicions sobre els paràmetres que descriuen el sistema dinàmic. Treballant en aquestes regions aconseguim abolir el problema de la dependència. A partir d'aquí ja comencem a estudiar les diferents aplicacions de les CNN treballant en un rang de paràmetres on el sistema convergeix a un punt fix. Una primera aplicació la trobem usant aquest tipus de xarxa per a reproduir distribucions de probabilitat tipus Bernoulli usant altre cop la funció de Lyapunov emprada en l'estudi de l'estabilitat. Una altra aplicació apareix quan ens centrem a treballar dins del quadrat unitat. En aquest cas, el sistema és capaç de reproduir funcions lineals. L'existència de la funció de Lyapunov permet també de construir unes gràfiques que depenen dels paràmetres de la CNN que ens indiquen la relació que hi ha entre les entrades de la CNN i les sortides. Aquestes gràfiques ens donen un algoritme per a dissenyar plantilles de paràmetres reproduint aquestes relacions. També ens obren la porta a un nou problema: com composar diferents plantilles per aconseguir una determinada relació entrada¬sortida. Tot aquest estudi ens porta a pensar en buscar una relació funcional entre les entrades externes a la xarxa i les sortides. Com que les possibles sortides és un conjunt discret d'elements gràcies a la funció lineal a trossos, la correspondència entrada¬sortida es pot pensar com un problema de classificació on cada una de les classes està definida per les diferent possibles sortides. Pensant¬ho d'aquesta manera, estudiem quins problemes de classificació es poden resoldre usant una CNN de dues neurones i trobem quina relació hi ha entre els paràmetres de la CNN, les entrades i les sortides. Això ens permet trobar un mètode per a dissenyar plantilles per a cada problema concret de classificació. A més, els resultats obtinguts d'aquest estudi ens porten cap al problema de reproduir funcions Booleanes usant CNNs i ens mostren alguns dels límits que tenen les xarxes neuronals cel·lulars tot intentant reproduir el capçal de la màquina universal de Turing descoberta per Marvin Minsky l'any 1962. A partir d'aquí comencem a estudiar la xarxa neuronal cel·lular quan convergeix cap a un cicle límit. Basat en un exemple particular extret del llibre de L.O Chua, estudiem primer com trobar cicles límit en el cas que els paràmetres de la CNN que connecten les diferents neurones siguin antisimètrics. D'aquesta manera trobem en quin rang de paràmetres hem de treballar per assegurar que l'estat final de la xarxa sigui una corba tancada. A més ens dona la base per poder abordar el problema en el cas general. El comportament periòdic d'aquestes corbes ens incita primer a calcular aquest període per cada cicle i després a pensar en possibles aplicacions com ara usar les CNNs per a generar senyals de rellotge. Finalment, un cop estudiats els diferents tipus de comportament dinàmics i les seves possibles aplicacions, fem un estudi comparatiu de la xarxa neuronal cel·lular quan la sortida està definida per la funció lineal a trossos i quan està definida per la tangent hiperbòlica ja que moltes vegades en la literatura s'usa l'una en comptes de l'altra aprofitant la seva diferenciabilitat. Aquest estudi ens indica que no sempre es pot usar la tangent hiperbòlica en comptes de la funció lineal a trossos ja que la convergència del sistema és diferent en un segons com es defineixin les sortides de la CNN. / Les redes neuronales celulares o CNNs, son un tipo de sistema dinámico que relaciona diferentes elementos llamados neuronas a partir de unas plantillas de parámetros. Este sistema queda completamente determinado conociendo las entradas de la red, las salidas y los parámetros o pesos. En este trabajo hacemos un estudio exhaustivo de estos tipos de red en el caso más sencillo donde sólo intervienen dos neuronas. Este es un sistema muy sencillo que puede llegar a tener una dinámica muy rica. Primero, revisamos la estabilidad de este sistema desde dos puntos de vista diferentes. Usando la teoría de Lyapunov, encontramos el rango de parámetros en el que hemos de trabajar para conseguir que la red converja hacia un punto fijo. Este método nos abre las puertas parar poder abordar los diferentes tipos de problemas que se pueden resolver usando una red neuronal celular de dos neuronas. Por otro lado, el comportamiento dinámico de la CNN está determinado por la función lineal a tramos que define las salidas del sistema. Esto nos permite estudiar los diferentes sistemas que aparecen en cada una de las regiones donde el sistema es lineal, consiguiendo un estudio completo de la estabilidad de la red en función de las posiciones locales de los diferentes puntos de equilibrio del sistema. Obtenemos básicamente dos tipos de convergencia, hacia a un punto fijo o hacia un ciclo límite. Estos resultados nos permiten organizar este estudio básicamente en estos dos tipos de convergencia. Entender el sistema de ecuaciones diferenciales que definen la CNN en dimensión 1 usando solamente dos neuronas, nos permite encontrar las dificultades intrínsecas de las redes neuronales celulares así como sus posibles usos. Además, nos va a dar los puntos clave para poder entender el caso general. Uno de los primeros problemas que abordamos es la dependencia de las salidas del sistema respecto de las condiciones iniciales. La función de Lyapunov que usamos en el estudio de la estabilidad es una cuadrica si la pensamos como función de las salidas. La posición y la geometría de esta forma cuadrática nos permiten encontrar condiciones sobre los parámetros que describen el sistema dinámico. Trabajando en estas regiones logramos resolver el problema de la dependencia. A partir de aquí ya podemos empezar a estudiar las diferentes aplicaciones de las CNNs trabajando en un rango de parámetros donde el sistema converge a un punto fijo. Una primera aplicación la encontramos usando este tipo de red para reproducir distribuciones de probabilidad tipo Bernoulli usando otra vez la función de Lyapunov usada en el estudio de la estabilidad. Otra aplicación aparece cuando nos centramos en trabajar dentro del cuadrado unidad. En este caso, el sistema es capaz de reproducir funciones lineales. La existencia de la función de Lyapuno v permite también construir unas graficas que dependen de los parámetros de la CNN que nos indican la relación que hay entre las entradas de la CNN y las salidas. Estas graficas nos dan un algoritmo para diseñar plantillas de parámetros reproduciendo estas relaciones. También nos abren la puerta hacia un nuevo problema: como componer diferentes plantillas para conseguir una determinada relación entrada¬salida. Todo este estudio nos lleva a pensar en buscar una relación funcional entre las entradas externas a la red y las salidas. Teniendo en cuenta que las posibles salidas es un conjunto discreto de elementos gracias a la función lineal a tramos, la correspondencia entrada¬salida se puede pensar como un problema de clasificación donde cada una de las clases está definida por las diferentes posibles salidas. Pensándolo de esta forma, estudiamos qué problemas de clasificación se pueden resolver usando una CNN de dos neuronas y encontramos la relación que hay entre los parámetros de la CNN, las entradas y las salidas. Esto nos permite encontrar un método de diseño de plantillas para cada problema concreto de clasificación. Además, los resultados obtenidos en este estudio nos conducen hacia el problema de reproducir funciones Booleanas usando CNNs y nos muestran algunos de los límites que tienen las redes neuronales celulares al intentar reproducir el cabezal (la cabeza) de la máquina universal de Turing descubierta por Marvin Minsky el año 1962. A partir de aquí empezamos a estudiar la red neuronal celular cuando ésta converge hacia un ciclo límite. Basándonos en un ejemplo particular sacado del libro de L.O Chua, estudiamos primero como encontrar ciclos límite en el caso que los parámetros de la CNN que conectan las diferentes neuronas sean anti¬simétricos. De esta forma encontramos el rango de parámetros en el cuál hemos de trabajar para asegurar que el estado final de la red sea una curva cerrada. Además nos da la base para poder abordar el problema en el caso general. El comportamiento periódico de estas curvas incita primero a calcular su periodo para cada ciclo y luego a pensar en posibles aplicaciones como por ejemplo usar las CNNs para generar señales de reloj. Finalmente, estudiados ya los diferentes tipos de comportamiento dinámico y sus posibles aplicaciones, hacemos un estudio comparativo de la red neuronal celular cuando la salida está definida por la función lineal a trozos y cuando está definida por la tangente hiperbólica ya que muchas veces en la literatura se usa una en vez de la otra intentado aprovechar su diferenciabilidad. Este estudio nos indica que no siempre se puede intercambiar dichas funciones ya que la convergencia del sistema es distinta según como se definan las salidas de la CNN. / In this dissertation we review the two neuron cellular neural network stability using the Lyapunov theory, and using the different local dynamic behavior derived from the piecewise linear function use. We study then a geometrical way to understand the system dynamics. The Lyapunov stability, gives us the key point to tackle the different convergence problems that can be studied when the CNN system converges to a fixed¬point. The geometric stability shed light on the convergence to limit cycles. This work is basically organized based on these two convergence classes. We try to make an exhaustive study about Cellular Neural Networks in order to find the intrinsic difficulties, and the possible uses of a CNN. Understanding the CNN system in a lower dimension, give us some of the main keys in order to understand the general case. That's why we will focus our study in the one dimensional CNN case with only two neurons. From the results obtained using the Lyapunov function, we propose some methods to avoid the dependence on initial conditions problem. Its intrinsic characteristics as a quadratic form of the output values gives us the key points to find parameters where the final outputs do not depend on initial conditions. At this point, we are able to study different CNN applications for parameter range where the system converges to a fixed¬point. We start by using CNNs to reproduce Bernoulli probability distributions, based on the Lyapunov function geometry. Secondly, we reproduce linear functions while working inside the unit square. The existence of the Lyapunov function allows us to construct a map, called convergence map, depending on the CNN parameters, which relates the CNN inputs with the final outputs. This map gives us a recipe to design templates performing some desired input¬output associations. The results obtained drive us into the template composition problem. We study the way different templates can be applied in sequence. From the results obtained in the template design problem, we may think on finding a functional relation between the external inputs and the final outputs. Because the set of final states is discrete, thanks to the piecewise linear function, this correspondence can be thought as a classification problem. Each one of the different classes is defined by the different final states which, will depend on the CNN parameters. Next, we study which classifications problems can be solved by a two neuron CNN, and relate them with weight parameters. In this case, we also find a recipe to design templates performing these classification problems. The results obtained allow us to tackle the problem to realize Boolean functions using CNNs, and show us some CNN limits trying to reproduce the header of a universal Turing machine. Based on a particular limit cycle example extracted from Chua's book, we start this study with anti symmetric connections between cells. The results obtained can be generalized for CNNs with opposite sign parameters. We have seen in the stability study that limit cycles have the possibility to exist for this parameter range. Periodic behavior of these curves is computed in a particular case. The limit cycle period can be expressed as a function of the CNN parameters, and can be used to generate clock signals. Finally, we compare the CNN dynamic behavior using different output functions, hyperbolic tangent and piecewise linear function. Many times in the literature, hyperbolic tangent is used instead of piecewise linear function because of its differentiability along the plane. Nevertheless, in some particular regions in the parameter space, they exhibit a different number of equilibrium points. Then, for theoretical results, hyperbolic tangent should not be used instead of piecewise linear function.
|
6 |
A memetic genetic program for knowledge discoveryNel, Gert M 09 June 2005 (has links)
Local search algorithms have been proved to be effective in refining solutions that have been found by other algorithms. Evolutionary algorithms, in particular global search algorithms, have shown to be successful in producing approximate solutions for optimisation and classification problems in acceptable computation times. A relatively new method, memetic algorithms, uses local search to refine the approximate solutions produced by global search algorithms. This thesis develops such a memetic algorithm. The global search algorithm used as part of the new memetic algorithm is a genetic program that implements the building block hypothesis by building simplistic decision trees representing valid solutions, and gradually increases the complexity of the trees. The specific building block hypothesis implementation is known as the building block approach to genetic programming, BGP. The effectiveness and efficiency of the new memetic algorithm, which combines the BGP algorithm with a local search algorithm, is demonstrated. / Dissertation (MSc)--University of Pretoria, 2006. / Computer Science / unrestricted
|
7 |
Regularised feed forward neural networks for streamed data classification problemsEllis, Mathys January 2020 (has links)
Streamed data classification problems (SDCPs) require classifiers with the ability to learn and to adjust to the underlying relationships in data streams, in real-time. This requirement poses a challenge to classifiers, because the learning task is no longer just to find the optimal decision boundaries, but also to track changes in the decision boundaries as new training data is received. The challenge is due to concept drift, i.e. the changing of decision boundaries over time. Changes include disappearing, appearing, or shifting decision boundaries. This thesis proposes an online learning approach for feed forward neural networks (FFNNs) that meets the requirements of SDCPs. The approach uses regularisation to optimise the architecture via the weights, and quantum particle swarm optimisation (QPSO) to dynamically adjust the weights. The learning approach is applied to a FFNN, which uses rectified linear activation functions, to form a novel SDCP classifier. The classifier is empirically investigated on several SDCPs. Both weight decay (WD) and weight elimination (WE) are investigated as regularisers. Empirical results show that using QPSO with no regularisation, causes the classifier to completely saturate. However, using QPSO with regularisation enables the classifier to dynamically adapt both its implicit architecture and weights as decision boundaries change. Furthermore, the results favour WE over WD as a regulariser for QPSO. / Dissertation (MSc)--University of Pretoria, 2020. / National Research Foundation (NRF) / Computer Science / MSc / Unrestricted
|
8 |
Tratamento de imprecisão na geração de árvores de decisãoLopes, Mariana Vieira Ribeiro 03 March 2016 (has links)
Submitted by Ronildo Prado (ronisp@ufscar.br) on 2017-08-08T20:30:11Z
No. of bitstreams: 1
DissMVRL.pdf: 2179441 bytes, checksum: 3c4089c4b24a3d98521f8561c6f2c515 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-08T20:30:33Z (GMT) No. of bitstreams: 1
DissMVRL.pdf: 2179441 bytes, checksum: 3c4089c4b24a3d98521f8561c6f2c515 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-08T20:30:39Z (GMT) No. of bitstreams: 1
DissMVRL.pdf: 2179441 bytes, checksum: 3c4089c4b24a3d98521f8561c6f2c515 (MD5) / Made available in DSpace on 2017-08-08T20:31:24Z (GMT). No. of bitstreams: 1
DissMVRL.pdf: 2179441 bytes, checksum: 3c4089c4b24a3d98521f8561c6f2c515 (MD5)
Previous issue date: 2016-03-03 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Inductive Decision Trees (DT) are mechanisms based on the symbolic paradigm of machine learning which main characteristics are easy interpretability and low computational cost. Though they are widely used, the DTs can represent problems with just discrete or continuous variables. However, for some problems, the variables are not well represented in this way. In order to improve DTs, the Fuzzy Decision Trees (FDT) were developed, adding the ability to deal with fuzzy variables to the Inductive Decision Trees, making them capable to deal with imprecise knowledge. In this text, it is presented a new algorithm for fuzzy decision trees induction. Its fuzification method is applied during the induction and it is inspired by the C4.5’s partitioning method for continuous attributes. The proposed algorithm was tested with 20 datasets from UCI repository (LICHMAN, 2013). It was compared with other three algorithms that implement different solutions to classification problem: C4.5, which induces an Inductive Decision Tree, FURIA, that induces a Rule-based Fuzzy System and FuzzyDT, which induces a Fuzzy Decision Tree where the fuzification is done before tree’s induction is performed. The results are presented in Chapter 4. / As Árvores de Decisão Indutivas (AD) são um mecanismo baseado no paradigma simbólico do Aprendizado de Máquina que tem como principais características a fácil interpretabilidade e baixo custo computacional. Ainda que sejam amplamente utilizadas, as ADs são limitadas à representação de problemas cujas variáveis são do tipo discreto ou contínuo. No entanto, para alguns tipos de problemas, pode haver variáveis que não são bem representadas por estes formatos. Diante deste contexto, foram criadas as Árvores de Decisão Fuzzy (ADF), que adicionam à interpretabilidade das Árvores de Decisão Indutivas, a capacidade de lidar com variáveis fuzzy, as quais representam adequadamente conhecimentos imprecisos. Neste texto, apresentamos o trabalho desenvolvido durante o mestrado, que tem como principal resultado um novo algoritmo para indução de Árvores de Decisão Fuzzy, cujo método de fuzificação dos atributos contínuos é realizado durante a indução da árvore e foi inspirado no método de particionamento de atributos contínuos adotado pelo C4.5. Para validação do algoritmo, foram realizados testes com 20 conjuntos de dados do repositório UCI (LICHMAN, 2013) e o algoritmo foi comparado com outros três algoritmos que abordam o problema de classificação por meio de técnicas diferentes: o C4.5 que induz uma Árvore de Decisão Indutiva, o FURIA, que induz um Sistema Fuzzy Baseado em Regras, porém não segue a estrutura de árvore e o FuzzyDT que induz uma Árvore de Decisão fuzzy realizando a fuzificação dos atributos contínuos antes da indução da árvore. Os resultados dos experimentos realizados são apresentados e discutidos no Capítulo 4 deste texto.
|
Page generated in 0.1115 seconds