Global ETD Search

1	Seleção de características para problemas de classificação de documentos Hugo Wanderley Pinheiro, Roberto 31 January 2011 (has links) Made available in DSpace on 2014-06-12T15:58:24Z (GMT). No. of bitstreams: 2 arquivo4097_1.pdf: 888475 bytes, checksum: 0cb3006c0211d4a3f7598e6efed04914 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2011 / Os sistemas de classificação de documentos servem, de modo geral, para facilitar o acesso do usuário a uma base de documentos. Esses sistemas podem ser utilizados para detectar spams; recomendar notícias de uma revista, artigos científicos ou produtos de uma loja virtual; refinar buscas e direcioná-las por assunto. Uma das maiores dificuldades na classificação de documentos é sua alta dimensionalidade. A abordagem bag of words, utilizada para extrair as características e obter os vetores que representam os documentos, gera dezenas de milhares de características. Vetores dessa dimensão demandam elevado custo computacional, além de possuir informações irrelevantes e redundantes. Técnicas de seleção de características reduzem a dimensionalidade da representação, de modo a acelerar o processamento do sistema e a facilitar a classificação. Entretanto, a seleção de características utilizada em problemas de classificação de documentos requer um parâmetro m que define quantas características serão selecionadas. Encontrar um bom valor para m é um procedimento complicado e custoso. A idéia introduzida neste trabalho visa remover a necessidade do parâmetro m e garantir que as características selecionadas cubram todos os documentos do conjunto de treinamento. Para atingir esse objetivo, o algoritmo proposto itera sobre os documentos do conjunto de treinamento e, para cada documento, escolhe a característica mais relevante. Se a característica escolhida já tiver sido selecionada, ela é ignorada, caso contrário, ela é selecionada. Deste modo, a quantidade de características é conhecida no final da execução do algoritmo, sem a necessidade de declarar um valor prévio para m. Os métodos propostos seguem essa ideia inicial com certas variações: inserção do parâmetro f para selecionar várias características por documento; utilização de informação local das classes; restrição de quais documentos serão usados no processo de seleção. Os novos algoritmos são comparados com um método clássico (Variable Ranking). Nos experimentos, foram usadas três bases de dados e cinco funções de avaliação de característica. Os resultados mostram que os métodos propostos conseguem melhores taxas de acerto Classificação de Documentos Seleção de Características K vizinhos mais próximos Naïve Bayes Recuperação de Informação
2	Utilização de métodos de machine learning para identificação de instrumentos musicais de sopro pelo timbre Veras, Ricardo da Costa January 2018 (has links) Orientador: Prof. Dr. Ricardo Suyama / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2018. / De forma geral a Classificação de Padrões voltada a Processamento de Sinais vem sendo estudada e utilizada para a interpretação de informações diversas, que se manifestam em forma de imagens, áudios, dados geofísicos, impulsos elétricos, entre outros. Neste trabalho são estudadas técnicas de Machine Learning aplicadas ao problema de identificação de instrumentos musicais, buscando obter um sistema automático de reconhecimento de timbres. Essas técnicas foram utilizadas especificamente com cinco instrumentos da categoria de Sopro de Madeira (o Clarinete, o Fagote, a Flauta, o Oboé e o Sax). As técnicas utilizadas foram o kNN (com k = 3) e o SVM (numa configuração não linear), assim como foram estudadas algumas características (features) dos áudios, tais como o MFCC (do inglês Mel-Frequency Cepstral Coefficients), o ZCR (do inglês Zero Crossing Rate), a entropia, entre outros, sendo fonte de dados para os processos de treinamento e de teste. Procurou-se estudar instrumentos nos quais se observa uma aproximação nos timbres, e com isso verificar como é o comportamento de um sistema classificador nessas condições específicas. Observou-se também o comportamento dessas técnicas com áudios desconhecidos do treinamento, assim como com trechos em que há uma mistura de elementos (gerando interferências para cada modelo classificador) que poderiam desviar os resultados, ou com misturas de elementos que fazem parte das classes observadas, e que se somam num mesmo áudio. Os resultados indicam que as características selecionadas possuem informações relevantes a respeito do timbre de cada um dos instrumentos avaliados (como observou-se em relação aos solos), embora a acurácia obtida para alguns dos instrumentos tenha sido abaixo do esperado (como observou-se em relação aos duetos). / In general, Pattern Classification for Signal Processing has been studied and used for the interpretation of several information, which are manifested in many ways, like: images, audios, geophysical data, electrical impulses, among others. In this project we study techniques of Machine Learning applied to the problem of identification of musical instruments, aiming to obtain an automatic system of timbres recognition. These techniques were used specifically with five instruments of Woodwind category (Clarinet, Bassoon, Flute, Oboe and Sax). The techniques used were the kNN (with k = 3) and the SVM (in a non-linear configuration), as well as some audio features, such as MFCC (Mel-Frequency Cepstral Coefficients), ZCR (Zero Crossing Rate), entropy, among others, used as data source for the training and testing processes. We tried to study instruments in which an approximation in the timbres is observed, and to verify in this case how is the behavior of a classifier system in these specific conditions. It was also observed the behavior of these techniques with audios unknown to the training, as well as with sections in which there is a mixture of elements (generating interferences for each classifier model) that could deviate the results, or with mixtures of elements that are part of the observed classes, and added in a same audio. The results indicate that the selected characteristics have relevant information regarding the timbre of each one of evaluated instruments (as observed on the solos results), although the accuracy obtained for some of the instruments was lower than expected (as observed on the duets results). SINAIS TIMBRE CLASSIFICAÇÃO ÁUDIO k-VIZINHOS MAIS PRÓXIMOS MÁQUINA DE VETORES DE SUPORTE SIGNALS CLASSIFICATION k-NEAREST NEIGHBOR SUPPORT VECTOR MACHINES
3	Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo Moreira, Lenadro Juvêncio 14 December 2016 (has links) Submitted by Rosa Assis (rosa_assis@yahoo.com.br) on 2017-03-21T19:40:25Z No. of bitstreams: 2 LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2017-03-22T15:01:23Z (GMT) No. of bitstreams: 2 LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-03-22T15:01:23Z (GMT). No. of bitstreams: 2 LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-12-14 / The data classification is a data mining task with relevant utilization in various areas of application, such as medicine, industry, marketing, financial market, teaching and many others. Although this task is an element search for many autors, there are open issues such as, e.g., in situations where there is so much data, noise data and unbalanced classes. In this way, this work will present a data classifier proposal that combines the SOM (Self-Organizing Map) neural network with INN (Informative Nearest Neighbors). The combination of these two algorithms will be called in this work as SOM-INN. Therefore, the SOM-INN process to classify a new object will be done in a first step with the SOM that has a functionality to map a reduced dataset through an approach that utilizes the prototype generation concept, also called the winning neuron and, in a second step, with the INN algorithm that is used to classify the new object through an approach that finds in the reduced dataset by SOM the most informative object. Were made experiments using 21 public datasets comparing classic data classification algorithms of the literature, from the indicators of reduction training set, accuracy, kappa and time consumed in the classification process. The results obtained show that the proposed SOM-INN algorithm, when compared with the others classifiers of the literature, presents better accuracy in databases where the border region is not well defined. The main differential of the SOM-INN is in the classification time, which is extremely important for real applications. Keywords: data classification; prototype generation; K nearest neighbors; self-organizing / A classificação de dados é uma tarefa da mineração de dados com utilização relevante em diversas áreas de aplicação, tais como, medicina, indústria, marketing, mercado financeiro, ensino e muitas outras. Embora essa tarefa seja elemento de pesquisa de muitos autores, ainda há problemas em aberto como, por exemplo, em situações onde há abundância de dados, dados ruidosos e desbalanceamento de classes. Nesse sentido, este trabalho apresenta uma proposta de classificador de dados em um processo de duas etapas que combina a rede neural SOM (Self-Organizing Maps) com o classificador vizinhos informativos mais próximos ou INN (Informative Nearest Neighbors). A combinação desses dois algoritmos será aqui chamada como SOM-INN. Portanto, o processo de uso do SOM-INN na classificação de um novo objeto será feito em uma primeira etapa com o SOM que tem a funcionalidade de mapear um conjunto reduzido dos dados de treinamento por meio de uma abordagem que utiliza o conceito de geração de protótipo, também denominado de neurônio vencedor e, em uma segunda etapa, com o algoritmo INN que é usado para classificar o novo objeto por meio de uma abordagem que encontra no conjunto de treinamento reduzido pelo SOM os objetos mais informativos. Foram realizados experimentos usando 21 conjuntos de dados públicos, comparando com os algoritmos clássicos da literatura de classificação de dados, a partir dos indicadores de redução do conjunto de treinamento, acurácia, kappa e tempo consumido no processo de classificação. Os resultados obtidos mostram que o algoritmo proposto SOM-INN, quando comparado com outros classificadores da literatura, apresenta acurácia melhor em bases de dados em que a região de fronteira não é bem definida. O principal diferencial do SOM-INN está no tempo de classificação, o que é de suma importância para aplicações reais. classificação de dados geração de protótipos k vizinhos mais próximos (algoritmo) mapas auto-organizáveis
4	Aceleração de uma variação do problema k-nearest neighbors / Acceleration of a variation of the K-nearest neighbors problem Morais Neto, Jorge Peixoto de 29 January 2014 (has links) Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2014-11-25T13:07:50Z No. of bitstreams: 2 Dissertação - Jorge Peixoto de Morais Neto - 2014.pdf: 1582808 bytes, checksum: 3115f942e2c8a9cf83601835af3af1c5 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2014-11-25T14:42:09Z (GMT) No. of bitstreams: 2 Dissertação - Jorge Peixoto de Morais Neto - 2014.pdf: 1582808 bytes, checksum: 3115f942e2c8a9cf83601835af3af1c5 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-11-25T14:42:09Z (GMT). No. of bitstreams: 2 Dissertação - Jorge Peixoto de Morais Neto - 2014.pdf: 1582808 bytes, checksum: 3115f942e2c8a9cf83601835af3af1c5 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2014-01-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Let M be a metric space and let P be a subset of M. The well known k-nearest neighbors problem (KNN) consists in finding, given q 2 M, the k elements of P with are closest to q according to the metric of M. We discuss a variation of KNN for a particular class of pseudo-metric spaces, described as follows. Let m 2 N be a natural number and let d be the Euclidean distance in Rm. Given p 2 Rm: p := (p1; : : : ; pm) let C (p) be the set of the m rotations of p’s coordinates: C (p) := f(p1; : : : ; pm); (p2; : : : ; pm; p1); : : : ; (pm; p1; : : : ; pm􀀀1)g we define the special distance de as: de(p;q) := min p02C (p) d(p0;q): de is a pseudo-metric, and (Rm;de) is a pseudo-metric space. The class of pseudo-metric spaces under discussion is f(Rm;de) j m 2 N:g The brute force approach is too costly for instances of practical size. We present a more efficient solution employing parallelism, the FFT (fast Fourier transform) and the fast elimination of unfavorable training vectors.We describe a program—named CyclicKNN —which implements this solution.We report the speedup of this program over serial brute force search, processing reference datasets. / Seja M um espaço métrico e P um subconjunto de M. O conhecido problema k vizinhos mais próximos (k-neareast neighbors, KNN) consiste em encontrar, dado q 2 M, os k elementos de P mais próximos de q conforme a métrica de M. Abordamos uma variação do problema KNN para uma classe particular de espaços pseudo-métricos, descrita a seguir. Seja m 2 N um natural e seja d a distância euclidiana em Rm. Dado um vetor p 2 Rm: p := (p1; : : : ; pm) seja C (p) o conjunto das m rotações das coordenadas de p: C (p) := f(p1; : : : ; pm); (p2; : : : ; pm; p1); : : : ; (pm; p1; : : : ; pm􀀀1)g definimos a distância especial de como: de(p;q) := min p02C (p) d(p0;q): de é uma pseudo-métrica, e (Rm;de) é um espaço pseudo-métrico. A classe de espaços pseudo-métricos abordada é (Rm;de) j m 2 N: A solução por força bruta é cara demais para instâncias de tamanho prático. Nós apresentamos uma solução mais eficiente empregando paralelismo, a FFT (transformada rápida de Fourier) e a eliminação rápida de vetores de treinamento desfavoráveis. Desenvolvemos um programa—chamado CyclicKNN—que implementa essa solução. Reportamos o speedup desse programa em comparação com a força bruta sequencial, processando bases de dados de referência. Aceleração Análise de dados multidimensionais K-nearest neighbors K vizinhos mais próximos Matriz circulante Processamento de imagem Programação paralela Transformada rápida de Fourier Acceleration K-nearest neighbors Circulant matrix Image processing Fast Fourier transform Multidimensional data analysis Parallel programming

1

Page generated in 0.0635 seconds