Made available in DSpace on 2019-03-29T23:15:58Z (GMT). No. of bitstreams: 0
Previous issue date: 2009-08-28 / In this work, it is presented a proposal of a classifier for applications present into the Internet traffic. The purpose of this classifier is to use statistical information collected from the data flow and identify the least amount of statistical discriminators able to distinguish the flow of a determined application class from the others, separating them into groups.
To achieve this classification, the proposed method is based on split an 1 to N classification problem in N problems of classification 1 to 1 (one against all approach). The generation of data clusters is performed by cluster analysis (a method of multivariate statistics) using a non-hierarchical method (K-Means) together with techniques of supervised machine learning.
The methodology presented claims that the best set of variables to classify a given application is not the same to classify N applications. Compared to other methods, this work innovates in providing a reduction in the number of variables (features) to be analyzed by a statistical method computationally simple, which can be used in other data sets (traces). It was observed that for most classes only one variable was sufficient to discriminate the traffic of the application, getting an average of 74,40% of correct classification of flows in the class under analysis.
Keywords: Computer Networks; Statistical Discriminators; Traffic Classification; Multivariate Statistics; Cluster Analysis; Machine Learning. / Neste trabalho, apresenta-se uma proposta de um classificador de aplicações presentes no tráfego Internet. A proposta deste classificador é utilizar informações estatísticas coletadas dos fluxos de dados e identificar a menor quantidade de discriminantes estatísticos capazes de distinguir os fluxos de determinada classe de aplicação dos demais, separando-os em grupos.
Para a realização desta classificação a metodologia apresentada se baseia na divisão de um problema de classificação de 1 para N em N problemas de classificação 1 para 1 (abordagem um contra todos one-against all). A geração dos conglomerados de dados é realizada através da análise de agrupamentos (método de estatística multivariada) utilizando-se de um método não hierárquico (K-Médias K-Means) em conjunto com técnicas de aprendizagem de máquina supervisionada.
A metodologia apresentada parte do princípio que o melhor conjunto de variáveis para classificar uma determinada aplicação não é o mesmo para classificar N aplicações. Comparativamente a outros métodos estudados, este trabalho inovou ao apresentar uma redução do número de variáveis (features) a serem analisadas através de um método estatístico computacionalmente simples, que pode ser utilizado em outros conjuntos de dados (traces). Foi obtida uma média de acerto na classificação dos fluxos das classes sob análise de 74,40% e média de falsos negativos de 5,98%.
Palavras-chave: Redes de Computadores; Discriminantes Estatísticos; Classificação de Tráfego; Estatística Multivariada; Análise de Agrupamentos; Aprendizagem de Máquina.
Identifer | oai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/82551 |
Date | 28 August 2009 |
Creators | Carmo, Marcus Fabio Fontenelle do |
Contributors | Holanda Filho, Raimir, Holanda Filho, Raimir, Coelho, Andre Luis Vasconcelos, Santos, Aldri Luiz dos |
Publisher | Universidade de Fortaleza, Mestrado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR |
Rights | info:eu-repo/semantics/openAccess |
Relation | 5443571202788449035, 500, 500, -7645770940771915222 |
Page generated in 0.0019 seconds