Global ETD Search

1	Metodologia para avaliar técnicas de redução de protótipos: protótipos gerados versus protótipos selecionados Pereira, Luciano de Santana 17 July 2013 (has links) Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-11T18:44:57Z No. of bitstreams: 2 Dissertaçao Luciano Pereira.pdf: 1413296 bytes, checksum: 608b11e654f960ce7a6787138b9b1bd0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:10:24Z (GMT) No. of bitstreams: 2 Dissertaçao Luciano Pereira.pdf: 1413296 bytes, checksum: 608b11e654f960ce7a6787138b9b1bd0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:10:24Z (GMT). No. of bitstreams: 2 Dissertaçao Luciano Pereira.pdf: 1413296 bytes, checksum: 608b11e654f960ce7a6787138b9b1bd0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-07-17 / T´ecnicas de aprendizagem de m´aquina baseadas em instˆancias s˜ao utilizadas em v´arias aplicac¸ ˜oes, como, por exemplo, reconhecimento de faces, voz e digitais, na medicina para auxiliar m´edicos na detecc¸ ˜ao de neoplasias, entre outras. Geralmente, essas t´ecnicas s˜ao submetidas a grandes conjuntos de dados, fazendo com que haja necessidade de grande espac¸o em mem´oria para processamento e armazenamento, al´em do elevado custo computacional para a classificac¸ ˜ao. Com o objetivo de minimizar esses problemas, as t´ecnicas de reduc¸ ˜ao de instˆancias buscam reduzir o tamanho do conjunto de dados, escolhendo ou produzindo elementos que consigam represent´a-lo, reduzindo a necessidade de mem´oria para o armazenamento do conjunto de dados, o custo computacional e minimizando a taxa de erro. Existem, atualmente, dois ramos da pesquisa que buscam a reduc¸ ˜ao de instˆancias: a selec¸ ˜ao de instˆancias, que faz a reduc¸ ˜ao escolhendo algumas instˆancias representantes de todo o conjunto de treinamento e as t´ecnicas de gerac¸ ˜ao de prot´otipos que buscam a reduc¸ ˜ao de instˆancias, produzindo novos prot´otipos, a partir de v´arias heur´ısticas, que ir˜ao representar todo o conjunto de treinamento. Esse processo de gerac¸ ˜ao ´e mais demorado que o processo de selec¸ ˜ao. Por´em, observa-se na literatura que as t´ecnicas de gerac¸ ˜ao apresentam melhores resultados que as t´ecnicas de selec¸ ˜ao. A proposta deste trabalho ´e investigar se as t´ecnicas de selec¸ ˜ao podem obter resultados semelhantes `as t´ecnicas de gerac¸ ˜ao. O resultado obtido neste estudo mostra que as t´ecnicas de selec¸ ˜ao existentes podem obter taxas equivalentes `as t´ecnicas de gerac¸ ˜ao na maioria das bases utilizadas nos experimentos, existindo algumas excec¸ ˜oes em que as t´ecnicas de gerac¸ ˜ao obtiveram melhores resultados. Podemos verificar que, na maioria dos casos (83,3%) das bases testadas, os prot´otipos gerados tinham instˆancias muito pr´oximas, no conjunto de treinamento, que poderiam substitu´ı-los, sem a necessidade de gerac¸ ˜ao de prot´otipos, que ´e um processo mais custoso que a selec¸ ˜ao de prot´otipos. Podemos concluir que ´e poss´ıvel desenvolver t´ecnicas de selec¸ ˜ao, que apresentem taxas de erro estatisticamente iguais `as t´ecnicas de gerac¸ ˜ao. Aprendizagem de maquina Aprendizado supervisionado Seleção de protótipos, Geração de protótipos Redução de instâncias vizinho mais próximo
2	Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas de Santana Pereira, Cristiano 31 January 2008 (has links) Made available in DSpace on 2014-06-12T15:51:05Z (GMT). No. of bitstreams: 1 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / Seleção de protótipos é uma técnica de aprendizagem de máquina cujo objetivo é a escolha ou produção de instâncias de dados que consigam a melhor representação para os dados do problema realçando as fronteiras de decisão e mantendo a separação entre as classes. A idéia é reduzir a quantidade de dados e ainda assim obter um conjunto de protótipos que minimize o erro de classificação. As estratégias baseadas em protótipos têm sido bastante utilizadas em aplicações reais nos mais diversos domínios obtendo bons resultados. A proposta deste trabalho foi investigar técnicas de seleção de protótipos baseadas em auto-geração e mistura de gaussianas comparando com algumas técnicas clássicas. Como resultado deste estudo, um modelo híbrido combinando estas duas estratégias foi proposto. Este modelo híbrido supera algumas dificuldades destas técnicas quando analisadas isoladamente, pois eles combinam a vantagem da ausência de parâmetros da auto-geração com a maior capacidade de ajuste nas fronteiras de decisão da mistura de gaussianas. O novo modelo foi avaliado com diversos problemas considerados benchmarks da área de aprendizagem de máquina apresentando desempenho superior na maioria deles quando comparado com as técnicas de auto-geração e mistura de gaussianas analisadas. A segunda parte deste trabalho apresenta um estudo da aplicação da nova estratégia híbrida ao problema específico de segmentação de caracteres. Curvas ROC foram utilizadas para avaliar o desempenho e mais uma vez o modelo híbrido se mostrou superior Aprendizagem de máquina seleção de protótipos auto-geração de protótipos quantização vetorial mistura de gaussianas
3	Algoritmos de Geração de Protótipos Para Bases Desbalanceadas Oliveira, Dayvid Victor Rodrigues de 25 February 2014 (has links) Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-06T19:37:29Z No. of bitstreams: 2 DISSERTAÇÃO Dayvid Victor Rodrigues de Oliveira.pdf: 798881 bytes, checksum: 3b4ac40fda11573b025340c2b03e8903 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-06T19:37:29Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Dayvid Victor Rodrigues de Oliveira.pdf: 798881 bytes, checksum: 3b4ac40fda11573b025340c2b03e8903 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-02-25 / Técnicas de redução de instâncias são técnicas usadas para reduzir a quantidade de instâncias em um conjunto de dados. Estas técnicas podem atuar removendo dados redundantes ou gerando novos dados. As instâncias resultantes são chamadas de protótipos. Técnicas de seleção de protótipos, são técnicas de redução de instâncias que realizam esta tarefa selecionando um subconjunto do conjunto de dados original. Já as técnicas de geração de protótipos, são técnicas de redução de instâncias que criam instâncias que não necessariamente pertencem ao conjunto de dados original. Algoritmos evolucionários têm sido frequentemente utilizados em seleção de protótipos, tal abordagem é chamada de evolutionary prototype selection. Algumas bases de dados do mundo real possuem muitas instâncias de uma classe, a classe majoritária, e poucas de outra, classe minoritária, estas bases são chamadas de bases desbalanceadas. Em tais bases, muitos algoritmos de redução de instâncias se tornam inviáveis, retornando muitas instâncias da classe majoritária e poucas, ou até nenhuma, da classe minoritária. Este efeito é ainda mais acentuado em técnicas de remoção de ruídos. Neste trabalho, são propostas duas técnicas de geração de protótipos que minimizam o efeito de desbalanceamento entre classes. A primeira proposta é o Creative Steady-State Memetic Algorithm (CSSMA), um algoritmo de geração de protótipos que utiliza um algoritmo evolucionário, incorporando uma busca local, para encontrar o conjunto de protótipos artificiais que maximiza a função de aptidão. Esta técnica é inspirada no Steady-State Memetic Algorithm, uma das melhores técnicas de seleção de protótipos na literatura, tanto em redução quanto em classificação. A segunda proposta é o Adaptive Self- Generating Prototypes (ASGP), esta técnica gera instâncias levando em consideração o tamanho do maior agrupamento de cada classe. O ASGP é uma derivação do Self-Generating Prototypes (SGP), considerada uma das técnicas de geração de protótipos de maior poder de generalização, sendo, porém, ineficiente em bases desbalanceadas. As bases de dados usadas nos experimentos são do módulo imbalanced datasets do KEEL software, dicotômicas, e com diferentes níveis de desbalanceamento. Cada base é dividida em 5 partições para aplicação do k-fold cross validation (k=5). As métricas usadas para avaliar a performance dos algoritmos foram a area under the ROC curve (AUC) e a taxa de redução. Para comparar os resultados, foi utilizado o teste estatístico de Wilcoxon. Os resultados mostram que o CSSMA foi superior em taxa de acerto, AUC, a outros algoritmos evolucionários de redução de instâncias recentemente propostos. O ASGP também obteve uma AUC superior ao Self-Generating Prototypes 2, versão mais atual do SGP. Redução de instâncias Bases Desbalanceadas Geração de Protótipos Algoritmos Evolucionários Adaptive Self-Generating Prototypes Creative Steady-State Memetic Algorithm
4	Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo Moreira, Lenadro Juvêncio 14 December 2016 (has links) Submitted by Rosa Assis (rosa_assis@yahoo.com.br) on 2017-03-21T19:40:25Z No. of bitstreams: 2 LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2017-03-22T15:01:23Z (GMT) No. of bitstreams: 2 LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-03-22T15:01:23Z (GMT). No. of bitstreams: 2 LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-12-14 / The data classification is a data mining task with relevant utilization in various areas of application, such as medicine, industry, marketing, financial market, teaching and many others. Although this task is an element search for many autors, there are open issues such as, e.g., in situations where there is so much data, noise data and unbalanced classes. In this way, this work will present a data classifier proposal that combines the SOM (Self-Organizing Map) neural network with INN (Informative Nearest Neighbors). The combination of these two algorithms will be called in this work as SOM-INN. Therefore, the SOM-INN process to classify a new object will be done in a first step with the SOM that has a functionality to map a reduced dataset through an approach that utilizes the prototype generation concept, also called the winning neuron and, in a second step, with the INN algorithm that is used to classify the new object through an approach that finds in the reduced dataset by SOM the most informative object. Were made experiments using 21 public datasets comparing classic data classification algorithms of the literature, from the indicators of reduction training set, accuracy, kappa and time consumed in the classification process. The results obtained show that the proposed SOM-INN algorithm, when compared with the others classifiers of the literature, presents better accuracy in databases where the border region is not well defined. The main differential of the SOM-INN is in the classification time, which is extremely important for real applications. Keywords: data classification; prototype generation; K nearest neighbors; self-organizing / A classificação de dados é uma tarefa da mineração de dados com utilização relevante em diversas áreas de aplicação, tais como, medicina, indústria, marketing, mercado financeiro, ensino e muitas outras. Embora essa tarefa seja elemento de pesquisa de muitos autores, ainda há problemas em aberto como, por exemplo, em situações onde há abundância de dados, dados ruidosos e desbalanceamento de classes. Nesse sentido, este trabalho apresenta uma proposta de classificador de dados em um processo de duas etapas que combina a rede neural SOM (Self-Organizing Maps) com o classificador vizinhos informativos mais próximos ou INN (Informative Nearest Neighbors). A combinação desses dois algoritmos será aqui chamada como SOM-INN. Portanto, o processo de uso do SOM-INN na classificação de um novo objeto será feito em uma primeira etapa com o SOM que tem a funcionalidade de mapear um conjunto reduzido dos dados de treinamento por meio de uma abordagem que utiliza o conceito de geração de protótipo, também denominado de neurônio vencedor e, em uma segunda etapa, com o algoritmo INN que é usado para classificar o novo objeto por meio de uma abordagem que encontra no conjunto de treinamento reduzido pelo SOM os objetos mais informativos. Foram realizados experimentos usando 21 conjuntos de dados públicos, comparando com os algoritmos clássicos da literatura de classificação de dados, a partir dos indicadores de redução do conjunto de treinamento, acurácia, kappa e tempo consumido no processo de classificação. Os resultados obtidos mostram que o algoritmo proposto SOM-INN, quando comparado com outros classificadores da literatura, apresenta acurácia melhor em bases de dados em que a região de fronteira não é bem definida. O principal diferencial do SOM-INN está no tempo de classificação, o que é de suma importância para aplicações reais. classificação de dados geração de protótipos k vizinhos mais próximos (algoritmo) mapas auto-organizáveis

1

Page generated in 0.0769 seconds