Spelling suggestions: "subject:"K vizinhos main próximo""
1 |
Seleção de características para problemas de classificação de documentosHugo Wanderley Pinheiro, Roberto 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T15:58:24Z (GMT). No. of bitstreams: 2
arquivo4097_1.pdf: 888475 bytes, checksum: 0cb3006c0211d4a3f7598e6efed04914 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Os sistemas de classificação de documentos servem, de modo geral, para facilitar o acesso
do usuário a uma base de documentos. Esses sistemas podem ser utilizados para detectar
spams; recomendar notícias de uma revista, artigos científicos ou produtos de uma loja virtual;
refinar buscas e direcioná-las por assunto. Uma das maiores dificuldades na classificação de
documentos é sua alta dimensionalidade. A abordagem bag of words, utilizada para extrair as
características e obter os vetores que representam os documentos, gera dezenas de milhares de
características. Vetores dessa dimensão demandam elevado custo computacional, além de possuir
informações irrelevantes e redundantes. Técnicas de seleção de características reduzem a
dimensionalidade da representação, de modo a acelerar o processamento do sistema e a facilitar
a classificação. Entretanto, a seleção de características utilizada em problemas de classificação
de documentos requer um parâmetro m que define quantas características serão selecionadas.
Encontrar um bom valor para m é um procedimento complicado e custoso. A idéia introduzida
neste trabalho visa remover a necessidade do parâmetro m e garantir que as características
selecionadas cubram todos os documentos do conjunto de treinamento. Para atingir esse objetivo,
o algoritmo proposto itera sobre os documentos do conjunto de treinamento e, para cada
documento, escolhe a característica mais relevante. Se a característica escolhida já tiver sido
selecionada, ela é ignorada, caso contrário, ela é selecionada. Deste modo, a quantidade de
características é conhecida no final da execução do algoritmo, sem a necessidade de declarar
um valor prévio para m. Os métodos propostos seguem essa ideia inicial com certas variações:
inserção do parâmetro f para selecionar várias características por documento; utilização de informação
local das classes; restrição de quais documentos serão usados no processo de seleção.
Os novos algoritmos são comparados com um método clássico (Variable Ranking). Nos experimentos,
foram usadas três bases de dados e cinco funções de avaliação de característica. Os
resultados mostram que os métodos propostos conseguem melhores taxas de acerto
|
2 |
Utilização de métodos de machine learning para identificação de instrumentos musicais de sopro pelo timbreVeras, Ricardo da Costa January 2018 (has links)
Orientador: Prof. Dr. Ricardo Suyama / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2018. / De forma geral a Classificação de Padrões voltada a Processamento de Sinais
vem sendo estudada e utilizada para a interpretação de informações diversas, que se
manifestam em forma de imagens, áudios, dados geofísicos, impulsos elétricos, entre
outros. Neste trabalho são estudadas técnicas de Machine Learning aplicadas ao problema
de identificação de instrumentos musicais, buscando obter um sistema automático de
reconhecimento de timbres. Essas técnicas foram utilizadas especificamente com cinco
instrumentos da categoria de Sopro de Madeira (o Clarinete, o Fagote, a Flauta, o Oboé e
o Sax). As técnicas utilizadas foram o kNN (com k = 3) e o SVM (numa configuração
não linear), assim como foram estudadas algumas características (features) dos áudios,
tais como o MFCC (do inglês Mel-Frequency Cepstral Coefficients), o ZCR (do inglês Zero
Crossing Rate), a entropia, entre outros, sendo fonte de dados para os processos de
treinamento e de teste. Procurou-se estudar instrumentos nos quais se observa uma
aproximação nos timbres, e com isso verificar como é o comportamento de um sistema
classificador nessas condições específicas. Observou-se também o comportamento dessas
técnicas com áudios desconhecidos do treinamento, assim como com trechos em que há
uma mistura de elementos (gerando interferências para cada modelo classificador) que
poderiam desviar os resultados, ou com misturas de elementos que fazem parte das
classes observadas, e que se somam num mesmo áudio. Os resultados indicam que as
características selecionadas possuem informações relevantes a respeito do timbre de
cada um dos instrumentos avaliados (como observou-se em relação aos solos), embora
a acurácia obtida para alguns dos instrumentos tenha sido abaixo do esperado (como
observou-se em relação aos duetos). / In general, Pattern Classification for Signal Processing has been studied and
used for the interpretation of several information, which are manifested in many ways,
like: images, audios, geophysical data, electrical impulses, among others. In this project
we study techniques of Machine Learning applied to the problem of identification
of musical instruments, aiming to obtain an automatic system of timbres recognition.
These techniques were used specifically with five instruments of Woodwind category
(Clarinet, Bassoon, Flute, Oboe and Sax). The techniques used were the kNN (with
k = 3) and the SVM (in a non-linear configuration), as well as some audio features, such
as MFCC (Mel-Frequency Cepstral Coefficients), ZCR (Zero Crossing Rate), entropy,
among others, used as data source for the training and testing processes. We tried to
study instruments in which an approximation in the timbres is observed, and to verify
in this case how is the behavior of a classifier system in these specific conditions. It was
also observed the behavior of these techniques with audios unknown to the training, as
well as with sections in which there is a mixture of elements (generating interferences
for each classifier model) that could deviate the results, or with mixtures of elements
that are part of the observed classes, and added in a same audio. The results indicate
that the selected characteristics have relevant information regarding the timbre of each
one of evaluated instruments (as observed on the solos results), although the accuracy
obtained for some of the instruments was lower than expected (as observed on the duets
results).
|
3 |
Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximoMoreira, Lenadro Juvêncio 14 December 2016 (has links)
Submitted by Rosa Assis (rosa_assis@yahoo.com.br) on 2017-03-21T19:40:25Z
No. of bitstreams: 2
LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2017-03-22T15:01:23Z (GMT) No. of bitstreams: 2
LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-03-22T15:01:23Z (GMT). No. of bitstreams: 2
LEANDRO JUVENCIO MOREIRA.pdf: 1183496 bytes, checksum: b7b7de6c9a5112b9705c906c6cbdaaec (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-12-14 / The data classification is a data mining task with relevant utilization in various areas of application, such as medicine, industry, marketing, financial market, teaching and many others. Although this task is an element search for many autors, there are open issues such as, e.g., in situations where there is so much data, noise data and unbalanced classes. In this way, this work will present a data classifier proposal that combines the SOM (Self-Organizing Map) neural network with INN (Informative Nearest Neighbors). The combination of these two algorithms will be called in this work as SOM-INN. Therefore, the SOM-INN process to classify a new object will be done in a first step with the SOM that has a functionality to map a reduced dataset through an approach that utilizes the prototype generation concept, also called the winning neuron and, in a second step, with the INN algorithm that is used to classify the new object through an approach that finds in the reduced dataset by SOM the most informative object. Were made experiments using 21 public datasets comparing classic data classification algorithms of the literature, from the indicators of reduction training set, accuracy, kappa and time consumed in the classification process. The results obtained show that the proposed SOM-INN algorithm, when compared with the others classifiers of the literature, presents better accuracy in databases where the border region is not well defined. The main differential of the SOM-INN is in the classification time, which is extremely important for real applications.
Keywords: data classification; prototype generation; K nearest neighbors; self-organizing / A classificação de dados é uma tarefa da mineração de dados com utilização relevante em diversas áreas de aplicação, tais como, medicina, indústria, marketing, mercado financeiro, ensino e muitas outras. Embora essa tarefa seja elemento de pesquisa de muitos autores, ainda há problemas em aberto como, por exemplo, em situações onde há abundância de dados, dados ruidosos e desbalanceamento de classes. Nesse sentido, este trabalho apresenta uma proposta de classificador de dados em um processo de duas etapas que combina a rede neural SOM (Self-Organizing Maps) com o classificador vizinhos informativos mais próximos ou INN (Informative Nearest Neighbors). A combinação desses dois algoritmos será aqui chamada como SOM-INN. Portanto, o processo de uso do SOM-INN na classificação de um novo objeto será feito em uma primeira etapa com o SOM que tem a funcionalidade de mapear um conjunto reduzido dos dados de treinamento por meio de uma abordagem que utiliza o conceito de geração de protótipo, também denominado de neurônio vencedor e, em uma segunda etapa, com o algoritmo INN que é usado para classificar o novo objeto por meio de uma abordagem que encontra no conjunto de treinamento reduzido pelo SOM os objetos mais informativos. Foram realizados experimentos usando 21 conjuntos de dados públicos, comparando com os algoritmos clássicos da literatura de classificação de dados, a partir dos indicadores de redução do conjunto de treinamento, acurácia, kappa e tempo consumido no processo de classificação. Os resultados obtidos mostram que o algoritmo proposto SOM-INN, quando comparado com outros classificadores da literatura, apresenta acurácia melhor em bases de dados em que a região de fronteira não é bem definida. O principal diferencial do SOM-INN está no tempo de classificação, o que é de suma importância para aplicações reais.
|
4 |
Aceleração de uma variação do problema k-nearest neighbors / Acceleration of a variation of the K-nearest neighbors problemMorais Neto, Jorge Peixoto de 29 January 2014 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2014-11-25T13:07:50Z
No. of bitstreams: 2
Dissertação - Jorge Peixoto de Morais Neto - 2014.pdf: 1582808 bytes, checksum: 3115f942e2c8a9cf83601835af3af1c5 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2014-11-25T14:42:09Z (GMT) No. of bitstreams: 2
Dissertação - Jorge Peixoto de Morais Neto - 2014.pdf: 1582808 bytes, checksum: 3115f942e2c8a9cf83601835af3af1c5 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-11-25T14:42:09Z (GMT). No. of bitstreams: 2
Dissertação - Jorge Peixoto de Morais Neto - 2014.pdf: 1582808 bytes, checksum: 3115f942e2c8a9cf83601835af3af1c5 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
Previous issue date: 2014-01-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Let M be a metric space and let P be a subset of M. The well known k-nearest neighbors
problem (KNN) consists in finding, given q 2 M, the k elements of P with are closest to
q according to the metric of M. We discuss a variation of KNN for a particular class of
pseudo-metric spaces, described as follows. Let m 2 N be a natural number and let d be
the Euclidean distance in Rm. Given p 2 Rm:
p := (p1; : : : ; pm)
let C (p) be the set of the m rotations of p’s coordinates:
C (p) := f(p1; : : : ; pm); (p2; : : : ; pm; p1); : : : ; (pm; p1; : : : ; pm1)g
we define the special distance de as:
de(p;q) := min
p02C (p)
d(p0;q):
de is a pseudo-metric, and (Rm;de) is a pseudo-metric space. The class of pseudo-metric
spaces under discussion is
f(Rm;de) j m 2 N:g
The brute force approach is too costly for instances of practical size. We present a more
efficient solution employing parallelism, the FFT (fast Fourier transform) and the fast
elimination of unfavorable training vectors.We describe a program—named CyclicKNN
—which implements this solution.We report the speedup of this program over serial brute
force search, processing reference datasets. / Seja M um espaço métrico e P um subconjunto de M. O conhecido problema k vizinhos
mais próximos (k-neareast neighbors, KNN) consiste em encontrar, dado q 2 M, os k
elementos de P mais próximos de q conforme a métrica de M. Abordamos uma variação
do problema KNN para uma classe particular de espaços pseudo-métricos, descrita a
seguir. Seja m 2 N um natural e seja d a distância euclidiana em Rm. Dado um vetor
p 2 Rm:
p := (p1; : : : ; pm)
seja C (p) o conjunto das m rotações das coordenadas de p:
C (p) := f(p1; : : : ; pm); (p2; : : : ; pm; p1); : : : ; (pm; p1; : : : ; pm1)g
definimos a distância especial de como:
de(p;q) := min
p02C (p)
d(p0;q):
de é uma pseudo-métrica, e (Rm;de) é um espaço pseudo-métrico. A classe de espaços
pseudo-métricos abordada é
(Rm;de) j m 2 N:
A solução por força bruta é cara demais para instâncias de tamanho prático. Nós apresentamos
uma solução mais eficiente empregando paralelismo, a FFT (transformada rápida
de Fourier) e a eliminação rápida de vetores de treinamento desfavoráveis. Desenvolvemos
um programa—chamado CyclicKNN—que implementa essa solução. Reportamos
o speedup desse programa em comparação com a força bruta sequencial, processando
bases de dados de referência.
|
Page generated in 0.07 seconds