Spelling suggestions: "subject:"multiclasse"" "subject:"multiclasses""
1 |
Segmentação de imagens coloridas baseada na mistura de cores e redes neurais / Segmentation of color images based on color mixture and neural networksDiego Rafael Moraes 26 March 2018 (has links)
O Color Mixture é uma técnica para segmentação de imagens coloridas, que cria uma \"Retina Artificial\" baseada na mistura de cores, e faz a quantização da imagem projetando todas as cores em 256 planos no cubo RGB. Em seguida, atravessa todos esses planos com um classificador Gaussiano, visando à segmentação da imagem. Porém, a abordagem atual possui algumas limitações. O classificador atual resolve exclusivamente problemas binários. Inspirado nesta \"Retina Artificial\" do Color Mixture, esta tese define uma nova \"Retina Artificial\", propondo a substituição do classificador atual por uma rede neural artificial para cada um dos 256 planos, com o objetivo de melhorar o desempenho atual e estender sua aplicação para problemas multiclasse e multiescala. Para esta nova abordagem é dado o nome de Neural Color Mixture. Para a validação da proposta foram realizadas análises estatísticas em duas áreas de aplicação. Primeiramente para a segmentação de pele humana, tendo sido comparado seus resultados com oito métodos conhecidos, utilizando quatro conjuntos de dados de tamanhos diferentes. A acurácia de segmentação da abordagem proposta nesta tese superou a de todos os métodos comparados. A segunda avaliação prática do modelo proposto foi realizada com imagens de satélite devido à vasta aplicabilidade em áreas urbanas e rurais. Para isto, foi criado e disponibilizado um banco de imagens, extraídas do Google Earth, de dez regiões diferentes do planeta, com quatro escalas de zoom (500 m, 1000 m, 1500 m e 2000 m), e que continham pelo menos quatro classes de interesse: árvore, solo, rua e água. Foram executados quatro experimentos, sendo comparados com dois métodos, e novamente a proposta foi superior. Conclui-se que a nova proposta pode ser utilizada para problemas de segmentação de imagens coloridas multiclasse e multiescala. E que possivelmente permite estender o seu uso para qualquer aplicação, pois envolve uma fase de treinamento, em que se adapta ao problema. / The Color Mixture is a technique for color images segmentation, which creates an \"Artificial Retina\" based on the color mixture, and quantizes the image by projecting all the colors in 256 plans into the RGB cube. Then, it traverses all those plans with a Gaussian classifier, aiming to reach the image segmentation. However, the current approach has some limitations. The current classifier solves exclusively binary problems. Inspired by this \"Artificial Retina\" of the Color Mixture, we defined a new \"Artificial Retina\", as well as we proposed the replacement of the current classifier by an artificial neural network for each of the 256 plans, with the goal of improving current performance and extending your application to multiclass and multiscale issues. We called this new approach \"Neural Color Mixture\". To validate the proposal, we analyzed it statistically in two areas of application. Firstly for the human skin segmentation, its results were compared with eight known methods using four datasets of different sizes. The segmentation accuracy of the our proposal in this thesis surpassed all the methods compared. The second practical evaluation of the our proposal was carried out with satellite images due to the wide applicability in urban and rural areas. In order to do this, we created and made available a database of satellite images, extracted from Google Earth, from ten different regions of the planet, with four zoom scales (500 m, 1000 m, 1500 m and 2000 m), which contained at least four classes of interest: tree, soil, street and water. We compared our proposal with a neural network of the multilayer type (ANN-MLP) and an Support Vector Machine (SVM). Four experiments were performed, compared to two methods, and again the proposal was superior. We concluded that our proposal can be used for multiclass and multiscale color image segmentation problems, and that it possibly allows to extend its use to any application, as it involves a training phase, in which our methodology adapts itself to any kind of problem.
|
2 |
Segmentação de imagens coloridas baseada na mistura de cores e redes neurais / Segmentation of color images based on color mixture and neural networksMoraes, Diego Rafael 26 March 2018 (has links)
O Color Mixture é uma técnica para segmentação de imagens coloridas, que cria uma \"Retina Artificial\" baseada na mistura de cores, e faz a quantização da imagem projetando todas as cores em 256 planos no cubo RGB. Em seguida, atravessa todos esses planos com um classificador Gaussiano, visando à segmentação da imagem. Porém, a abordagem atual possui algumas limitações. O classificador atual resolve exclusivamente problemas binários. Inspirado nesta \"Retina Artificial\" do Color Mixture, esta tese define uma nova \"Retina Artificial\", propondo a substituição do classificador atual por uma rede neural artificial para cada um dos 256 planos, com o objetivo de melhorar o desempenho atual e estender sua aplicação para problemas multiclasse e multiescala. Para esta nova abordagem é dado o nome de Neural Color Mixture. Para a validação da proposta foram realizadas análises estatísticas em duas áreas de aplicação. Primeiramente para a segmentação de pele humana, tendo sido comparado seus resultados com oito métodos conhecidos, utilizando quatro conjuntos de dados de tamanhos diferentes. A acurácia de segmentação da abordagem proposta nesta tese superou a de todos os métodos comparados. A segunda avaliação prática do modelo proposto foi realizada com imagens de satélite devido à vasta aplicabilidade em áreas urbanas e rurais. Para isto, foi criado e disponibilizado um banco de imagens, extraídas do Google Earth, de dez regiões diferentes do planeta, com quatro escalas de zoom (500 m, 1000 m, 1500 m e 2000 m), e que continham pelo menos quatro classes de interesse: árvore, solo, rua e água. Foram executados quatro experimentos, sendo comparados com dois métodos, e novamente a proposta foi superior. Conclui-se que a nova proposta pode ser utilizada para problemas de segmentação de imagens coloridas multiclasse e multiescala. E que possivelmente permite estender o seu uso para qualquer aplicação, pois envolve uma fase de treinamento, em que se adapta ao problema. / The Color Mixture is a technique for color images segmentation, which creates an \"Artificial Retina\" based on the color mixture, and quantizes the image by projecting all the colors in 256 plans into the RGB cube. Then, it traverses all those plans with a Gaussian classifier, aiming to reach the image segmentation. However, the current approach has some limitations. The current classifier solves exclusively binary problems. Inspired by this \"Artificial Retina\" of the Color Mixture, we defined a new \"Artificial Retina\", as well as we proposed the replacement of the current classifier by an artificial neural network for each of the 256 plans, with the goal of improving current performance and extending your application to multiclass and multiscale issues. We called this new approach \"Neural Color Mixture\". To validate the proposal, we analyzed it statistically in two areas of application. Firstly for the human skin segmentation, its results were compared with eight known methods using four datasets of different sizes. The segmentation accuracy of the our proposal in this thesis surpassed all the methods compared. The second practical evaluation of the our proposal was carried out with satellite images due to the wide applicability in urban and rural areas. In order to do this, we created and made available a database of satellite images, extracted from Google Earth, from ten different regions of the planet, with four zoom scales (500 m, 1000 m, 1500 m and 2000 m), which contained at least four classes of interest: tree, soil, street and water. We compared our proposal with a neural network of the multilayer type (ANN-MLP) and an Support Vector Machine (SVM). Four experiments were performed, compared to two methods, and again the proposal was superior. We concluded that our proposal can be used for multiclass and multiscale color image segmentation problems, and that it possibly allows to extend its use to any application, as it involves a training phase, in which our methodology adapts itself to any kind of problem.
|
3 |
Boosting hierarchique et construction de filtresLaBarre, Marc-Olivier January 2007 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
4 |
Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia / Representation of documents combining text and image : application to categorization and multimedia information retrievalMoulin, Christophe 22 June 2011 (has links)
L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d’information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente / Exploiting multimedia documents leads to representation problems of the textual and visual information within documents. Our goal is to propose a model to represent these both information and to combine them for two tasks: categorization and information retrieval. This model represents documents as bags of words, which requires to define adapted vocabularies. The textual vocabulary, usually very large, corresponds to the words of documents while the visual one is created by extracting low-level features from images. We study the different steps of its creation and the tf.idf weighting of visual words in images usually used for textual words. In the context of the text categorization, we introduce a criterion to select the most discriminative words for categories in order to reduce the vocabulary size without degrading the results of classification. We also present in the multilabel context, a method that lets us to select the number of categories which must be associated with a document. In multimedia information retrieval, we propose an analytical approach based on machine learning techniques to linearly combine the results from textual and visual information which significantly improves research results. Our model has shown its efficiency on different collections of important size and was evaluated in several international competitions such as XML Mining and ImageCLEF
|
5 |
Geração automática de laudos médicos para o diagnóstico de epilepsia por meio do processamento de eletroencefalogramas utilizando aprendizado de máquina / Automatic Generation of Medical Reports for Epilepsy Diagnosis through Electroencephalogram Processing using Machine LearningOliva, Jefferson Tales 05 December 2018 (has links)
A epilepsia, cujas crises são resultantes de distúrbios elétricos temporários no cérebro, é a quarta enfermidade neurológica mais comum, atingindo aproximadamente 50 milhões de pessoas. Essa enfermidade pode ser diagnosticada por meio de eletroencefalogramas (EEG), que são de elevada importância para o diagnóstico de enfermidades cerebrais. As informações consideradas relevantes desses exames são descritas em laudos médicos, que são armazenados com o objetivo de manter o histórico clínico do paciente e auxiliar os especialistas da área médica na realização de procedimentos futuros, como a identificação de padrões de determinadas enfermidades. Entretanto, o crescente aumento no armazenamento de dados médicos inviabiliza a análise manual dos mesmos. Outra dificuldade para a análise de EEG é a variabilidade de opiniões de especialistas sobre um mesmo padrão observado, podendo aumentar a dificuldade para o diagnóstico de enfermidades cerebrais. Também, os exames de EEG podem conter padrões relevantes difíceis de serem observados, mesmo por profissionais experientes. Da mesma forma, nos laudos podem faltar informações e/ou conter erros de digitação devido aos mesmos serem preenchidos apressadamente por especialistas. Assim, neste trabalho foi desenvolvido o método computacional de geração de laudos médicos (automatic generation of medical report AutoGenMR), que tem o propósito de auxiliar especialistas da área médica no diagnóstico de epilepsia e em tomadas de decisão. Esse processo é aplicado em duas fases: (1) construção de classificadores por meio de métodos de aprendizado de máquina e (2) geração automática de laudos textuais. O AutoGenMR foi avaliado experimentalmente em dois estudos de caso, para os quais, em cada um foi utilizada uma base de EEG disponibilizada publicamente e gratuitamente. Nessas avaliações foram utilizadas as mesmas configurações experimentais para a extração de características e construção de classificadores (desconsiderando que um dos problemas de classificação é multiclasse e o outro, binário). No primeiro estudo de caso, os modelos preditivos geraram, em média, 89% das expressões de laudos. Na segunda avaliação experimental, em média, 76% das sentenças de laudos foram geradas corretamente. Desse modo, os resultados de ambos estudos são considerados promissores, constatando que o AutoGenMR pode auxiliar especialistas na identificação de padrões relacionados a eventos epiléticos, na geração de laudos textuais padronizados e em processos de tomadas de decisão. / Epilepsy, which seizures are due to temporary electrical disturbances in the brain, is the fourth most common neurological disorder, affecting 50 million people, approximately. This disease can be diagnosed by electroencephalograms (EEG), which have great importance for the diagnosis of brain diseases. The information considered relevant in these tests is described in textual reports, which are stored in order to maintain the patients medical history and assist medical experts in performing such other procedures as the standard identification of certain diseases. However, the increasing medical data storage makes it unfeasible for manual analysis. Another challenge for the EEG analysis is the diversity of expert opinions on particular patterns observed and may increase the difficulty in diagnosing diseases of the brain. Moreover, the EEG may contain patterns difficult to be noticed even by experienced professionals. Similarly, the reports may not have information and/or include typographical errors due to its rushed filling by experts. Thereby, in this work, the automatic generation of medical report (AutoGenMR) method was developed in order to assist medical experts in the diagnosis of epilepsy and decision making. This method is applied in two phases: (1) classifier building by machine learning techniques and (2) automatic report generation. The AutoGenMR was computed in two case studies, for which, a public and freely available EEG database was used in each one. In both studies, the same experimental settings for feature extraction and classifier building were used. In the first study case, the classifiers correctly generated, on average, 89% of the report expressions. In the second experiment, on average, 76% of the report sentences were successfully generated. In this sense, the results of both studies are considered promising, noting that the AutoGenMR can assist medical experts in the identification of patterns related to epileptic events, standardized textual report generation, and in decision-making processes.
|
6 |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES / [pt] RDS - RECUPERANDO AMOSTRAS DESCARTADAS COM RÓTULOS RUIDOSOS: TÉCNICAS PARA TREINAMENTO DE MODELOS DE DEEP LEARNING COM AMOSTRAS RUIDOSASVITOR BENTO DE SOUSA 20 May 2024 (has links)
[pt] Modelos de Aprendizado Profundo para classificação de imagens alcançaram o
estado da arte em um vasto campo de aplicações. Entretanto, é frequente deparar-se com amostras ruidosas, isto é, amostras contendo rótulos incorretos, nos
conjuntos de dados provenientes de aplicações do mundo real. Quando modelos
de Aprendizado Profundo são treinados nestes conjuntos de dados, a sua
performance é prejudicada. Modelos do estado da arte, como Co-teaching+ e
Jocor, utilizam a técnica Small Loss Approach (SLA) para lidar com amostras
ruidosas no cenário multiclasse. Nesse trabalho, foi desenvolvido uma nova
técnica para lidar com amostras ruidosas, chamada Recovering Discarded
Samples (RDS), que atua em conjunto com a SLA. Para demostrar a eficácia da
técnica, aplicou-se o RDS nos modelos Co-teaching+ e Jocor resultando em dois
novos modelos RDS-C e RDS-J. Os resultados indicam ganhos de até 6 por cento nas
métricas de teste para ambos os modelos. Um terceiro modelo chamado RDS-Contrastive também foi desenvolvido, este modelo superou o estado da arte em
até 4 por cento na acurácia de teste. Além disso, nesse trabalho, expandiu-se a técnica
SLA para o cenário multilabel, sendo desenvolvido a técnica SLA Multilabel
(SLAM). Com essa técnica foi desenvolvido mais dois modelos para cenário
multilabel com amostras ruidosas. Os modelos desenvolvidos nesse trabalho para
multiclasse foram utilizados em um problema real de cunho ambiental. Os
modelos desenvolvidos para o cenário multilabel foram aplicados como solução
para um problema real na área de óleo e gás. / [en] Deep Learning models designed for image classification have consistently achieved state-of-the-art performance across a plethora of applications. However, the presence of noisy samples, i.e., instances with incorrect labels, is a prevalent challenge in datasets derived from real-world applications. The training of Deep Learning models on such datasets inevitably compromises their performance. State-of-the-art models, such as Co-teaching+ and Jocor, utilize the Small Loss Approach (SLA) technique to handle noisy samples in a multi-class scenario. In this work, a new technique named Recovering Discarded Samples (RDS) was developed to address noisy samples, working with SLA. To demonstrate the effectiveness of the technique, RDS was applied to the Co-teaching+ and Jocor models, resulting in two new models, RDS-C and RDS-J. The results indicate gains of up to 6 percent in test metrics for both models. A third model, named RDS-Contrastive, was also developed, surpassing the state-of-the-art by up to 4 percent in test accuracy. Furthermore, this work extended the SLA technique to the multilabel scenario, leading to the development of the SLA Multilabel (SLAM) technique. With this technique, two additional models for the multilabel scenario with noisy samples were developed. The models proposed in this work for the multiclass scenario were applied in a real-world environmental solution, while the models developed for the multilabel scenario were implemented as a solution for a real problem in the oil and gas industry.
|
7 |
DYNAMIQUE SEDIMENTAIRE MULTICLASSE : DE L'ETUDE DES PROCESSUS A LA MODELISATION EN MANCHEBlanpain, Olivier 06 October 2009 (has links) (PDF)
Ce travail a pour finalité la mise en place d'un modèle numérique de transport sédimentaire en Manche. La conception d'un tel modèle a nécessité l'identification des processus physiques, leur modélisation numérique et leur validation in-situ. Le domaine d'étude implique de modéliser le comportement mécanique d'un mélange hétérométrique de particules et particulièrement celui des grains fins au sein d'une matrice grossière. L'attention a été portée sur la caractérisation de ces processus par l'acquisition de données expérimentales et in-situ. Les données acquises dans des conditions hydro-sédimentaires comparables à celles rencontrées en Manche sont rares. Ainsi, un nouvel instrument et une méthode d'analyse d'images ont été spécifiquement conçus et mis en oeuvre in-situ dans le but d'observer et de quantifier la dynamique d'un mélange particulaire fortement hétérogène à l'échelle du grain et des fluctuations turbulentes. Les données obtenues ont été confrontées avec succès aux formulations existantes. Une d'entre elles a été choisie pour être adaptée. A partir de prélèvements stratigraphiques, la dynamique de transfert des particules fines dans un sédiment grossier et leur profondeur de pénétration ont pu être appréhendées. Le modèle de transport sédimentaire multiclasse multicouche, forcé par les vagues et les courants et prenant en compte le transport par charriage et en suspension a ainsi pu être appliqué à des scénarios réalistes Manche.
|
8 |
Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédiaMoulin, Christophe 22 June 2011 (has links) (PDF)
L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d'information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente
|
9 |
Desenvolvimento de método simples e rápido para determinação multiclasse de resíduos de medicamentos veterinários em rim, fígado e músculo bovino por UHPLC-MS/MS / Development of simple and quick method for determination multiclasse of veterinary drug residues in kidney, liver and bovine muscle by UHPLC-MS/MSRizzetti, Tiele Medianeira 10 March 2017 (has links)
In food security area, the application of good agricultural practices is a growing concern for public health in the Brazilian domestic market and for the competitiveness countries in the external market. To ensure safety of food from animal origin, monitoring is required and Maximum Residue Limits (MRLs) must be evaluated. Therefore, the development of appropriate analytical methods for residues determination is necessary. In this work a simple, fast and efficient multiclass method of sample preparation was developed for the determination of veterinary drugs residues in bovine kidney, liver and muscle. Determination step was performed by ultra-high-performance liquid chromatographic–tandem mass spectrometry (UHPLC-MS/MS). UHPLC-MS/MS and sample preparation conditions were optimized using experimental designs. Extraction and clean up were performed by solid-liquid extraction and dispersive solid-phase extraction (d-SPE). Central composite designs were used in order to optimize the clean up step. The proposed method was validated using acetonitrile as solvent extraction followed by clean up with EMR-Lipid® sorbent and aqueous solution of 5% trichloroacetic acid (m/v). The proposed method was validated according to the criteria of the European Commission Decision 2002/657/EC. Linearity presented r2 ≥ 0.99 for most the evaluated compounds and recoveries values and RSD in the range recommended by EU. Decision limit (CCα) and detection capability (CCβ) presented values around the maximum residue limits (MRL) of each compound. Monensin was the only compound that did not present satisfactory results for bovine kidney and muscle. The developed sample preparation followed by UHPLC-MS/MS analysis was efficient for the determination of veterinary drug residues in bovine liver, kidney and muscle. The proposed methodology has been successfully applied in real samples and also in proficiency test and proved to be a great option for routine analysis. / No âmbito da segurança dos alimentos a aplicação das boas práticas agropecuárias é uma preocupação crescente tanto para a saúde pública no mercado interno brasileiro quanto para à competitividade do país no mercado externo. Para garantir a inocuidade dos alimentos de origem animal são realizados monitoramentos em diferentes tipos de amostras e adotados Limites Máximos de Resíduo (LMR). Diante disso, se faz necessário o desenvolvimento de métodos analíticos adequados para determinação de resíduos. Neste trabalho desenvolveu-se um método multiclasse de preparo de amostras simples, rápido e eficaz para a determinação de resíduos de medicamentos veterinários em rim, fígado e músculo bovino. A etapa de determinação foi realizada por cromatografia líquida de ultra eficiência acoplada à espectrometria de massas em série (UHPLC-MS/MS). O sistema UHPLC-MS/MS e a etapa de preparo de amostra foram otimizados com auxílio de planejamento experimental. As etapas de extração e limpeza do extrato foram realizadas por extração sólido-líquido e extração em fase sólida dispersiva (d-SPE). Planejamentos composto central foram utilizados para otimização da etapa de limpeza do extrato. O procedimento otimizado consistiu de extração por acetonitrila, seguido de limpeza com o sorvente EMR-Lipid® e solução aquosa de 5% (m/v) ácido tricloroacético. O método proposto foi validado de acordo com os critérios de referência da Decisão 2002/657/CE da Comunidade Europeia. A linearidade apresentou r2 ≥ 0,99 para maioria dos compostos avaliados e os valores de recuperação e RSD estão na faixa recomendada pela Comunidade Europeia. O limite de decisão (CCα) e a capacidade de detecção (CCβ) apresentaram valores em torno dos LMR de cada composto. Apenas a monensina não obteve resultados satisfatórios para rim e músculo bovino. O preparo de amostra desenvolvido seguida de análise por UHPLC-MS/MS foi eficiente para a determinação de resíduos de medicamentos veterinários em rim, fígado e músculo bovino. A metodologia proposta foi aplicada com sucesso em amostras reais e também em ensaio de proficiência e provou ser uma ótima opção para análise de rotina.
|
10 |
Classificação de dados estacionários e não estacionários baseada em grafos / Graph-based classification for stationary and non-stationary dataBertini Júnior, João Roberto 24 January 2011 (has links)
Métodos baseados em grafos consistem em uma poderosa forma de representação e abstração de dados que proporcionam, dentre outras vantagens, representar relações topológicas, visualizar estruturas, representar grupos de dados com formatos distintos, bem como, fornecer medidas alternativas para caracterizar os dados. Esse tipo de abordagem tem sido cada vez mais considerada para solucionar problemas de aprendizado de máquina, principalmente no aprendizado não supervisionado, como agrupamento de dados, e mais recentemente, no aprendizado semissupervisionado. No aprendizado supervisionado, por outro lado, o uso de algoritmos baseados em grafos ainda tem sido pouco explorado na literatura. Este trabalho apresenta um algoritmo não paramétrico baseado em grafos para problemas de classificação com distribuição estacionária, bem como sua extensão para problemas que apresentam distribuição não estacionária. O algoritmo desenvolvido baseia-se em dois conceitos, a saber, 1) em uma estrutura chamada grafo K-associado ótimo, que representa o conjunto de treinamento como um grafo esparso e dividido em componentes; e 2) na medida de pureza de cada componente, que utiliza a estrutura do grafo para determinar o nível de mistura local dos dados em relação às suas classes. O trabalho também considera problemas de classificação que apresentam alteração na distribuição de novos dados. Este problema caracteriza a mudança de conceito e degrada o desempenho do classificador. De modo que, para manter bom desempenho, é necessário que o classificador continue aprendendo durante a fase de aplicação, por exemplo, por meio de aprendizado incremental. Resultados experimentais sugerem que ambas as abordagens apresentam vantagens na classificação de dados em relação aos algoritmos testados / Graph-based methods consist in a powerful form for data representation and abstraction which provides, among others advantages, representing topological relations, visualizing structures, representing groups of data with distinct formats, as well as, supplying alternative measures to characterize data. Such approach has been each time more considered to solve machine learning related problems, mainly concerning unsupervised learning, like clustering, and recently, semi-supervised learning. However, graph-based solutions for supervised learning tasks still remain underexplored in literature. This work presents a non-parametric graph-based algorithm suitable for classification problems with stationary distribution, as well as its extension to cope with problems of non-stationary distributed data. The developed algorithm relies on the following concepts, 1) a graph structure called optimal K-associated graph, which represents the training set as a sparse graph separated into components; and 2) the purity measure for each component, which uses the graph structure to determine local data mixture level in relation to their classes. This work also considers classification problems that exhibit modification on distribution of data flow. This problem qualifies concept drift and worsens any static classifier performance. Hence, in order to maintain accuracy performance, it is necessary for the classifier to keep learning during application phase, for example, by implementing incremental learning. Experimental results, concerning both algorithms, suggest that they had presented advantages over the tested algorithms on data classification tasks
|
Page generated in 0.0552 seconds