Global ETD Search

51	[en] IDENTIFICATION AND EPIDEMIOLOGICAL SURVEILLANCE OF BACTERIA: WEB SYSTEM DEVELOPMENT AND EVALUATION OF INTELLIGENT METHODS / [pt] IDENTIFICAÇÃO E RASTREAMENTO EPIDEMIOLÓGICO DE BACTÉRIAS: DESENVOLVIMENTO DE SISTEMA WEB E AVALIAÇÃO DE MÉTODOS INTELIGENTES 05 November 2021 (has links) [pt] A maioria dos laboratórios não conta com um sistema informatizado para gestão dos procedimentos pertinentes a cada caso. A administração e controle das amostras é feito manualmente, através de diversas fichas que são preenchidas desde o colhimento do material biológico, no hospital, até a identificação final da bactéria no laboratório. Dessa forma, a organização das informações fica limitada, uma vez que, estando as informações escritas à mão e guardadas em livros, é quase impossível a extração de conhecimento útil que possa servir não só no apoio à decisão, como também, na formulação de simples estatísticas. Esta dissertação teve dois objetivos principais. O desenvolvimento de um sistema Web, intitulado BCIWeb (Bacterial Classification and Identification for Web), que fosse capaz de auxiliar na identificação bacteriológica e prover a tecnologia necessária para a administração e controle de amostras clínicas oriundas de hospitais. E a descoberta de conhecimento na base de dados do sistema, através da mineração de dados utilizando os métodos de Mapas Auto-Organizáveis (SOM: Self-Organizing Maps) e Redes Multilayer Perceptrons (MLP) para classificação e identificação de bactérias. A partir do desenvolvimento desta ferramenta amigável, no estudo de caso, os dados históricos do LDCIC (Laboratório de Difteria e Corinebactérias de Importância Clínica) do Departamento de Biologia da UERJ foram inseridos no sistema. Os métodos inteligentes propostos para classificação e identificação de bactérias foram analisados e apresentaram resultados promissores na área. / [en] Most laboratories do not have a computerized system for management procedures. The administration and control of the samples are made manualy through many forms of data sheets which are filled from the beginning, when the samples of biological materials are gathered at the hospital, up to the final identification at the laboratory. In this context, the organization of the information become very limited, while the information writting by hands and stored in books, its almost impossible to extract useful knowledge, which could help not only supporting decisions but also in the formulations of simples statistics. This thesis had two objectives. The development of a web system called BCIWeb (Bacterial Classifiation and Identification for Web) that could assist in bacterial identification and provide the technology necessary for the administration and control of clinical specimen coming from the hospitals and the discovery of knowledge in database system, through data mining methods using SOM (Self Organizing Maps) and Multilayer Perceptron Neural Networks (MLP) for classification and identificatin of bactéria. From the development of this friendly tool, in the case study, the historical data from LDCIC (Laboratório de Difteria e Corinebactérias de Importância Clínica) of UERJ Biology Department were entered into the system. The proposed intelligent methods for classification and identification of bacteria were analysed and showed promising results. [pt] BIOINFORMATICA [pt] MAPAS AUTO-ORGANIZAVEIS [pt] CLASSIFICACAO DE BACTERIAS [pt] IDENTIFICACAO DE BACTERIAS [pt] REDES NEURAIS ARTIFICIAIS [en] BIOINFORMATICS [en] SELF-ORGANIZING MAP [en] BACTERIAL CLASSIFICATION [en] IDENTIFICATION OF BACTERIA [en] ARTIFICIAL NEURAL NETWORKS
52	[en] NEURO-FUZZY BSP HIERARCHICAL SYSTEM FOR TIME FORECASTING AND FUZZY RULE EXTRACTION DOR DATA MINING APPLICATONS / [pt] SISTEMA NEURO-FUZZY HIERÁRQUICO BSP PARA PREVISÃO E EXTRAÇÃO DE REGRAS FUZZY EM APLICAÇÕES DE DATA MINING ALBERTO IRIARTE LANAS 11 October 2005 (has links) [pt] Esta dissertação investiga a utilização de um sistema Neuro-Fuzzy Hierárquico para previsão de séries e a extração de regras fuzzy em aplicações de Mineração de Dados. O objetivo do trabalho foi estender o modelo Neuro- Fuzzy Hierárquico BSP para a classificação de registros e a previsão de séries temporais. O processo de classificação de registros no contexto de Mineração de Dados consiste na extração de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros de um banco de dados (BD). A previsão de séries temporais, outra tarefa comum em Mineração de Dados tem como objetivo prever o comportamento de uma série temporal no instante t+k (k ? 1).O trabalho consistiu de 5 etapas principais: elaborar um survey dos principais sistemas e modelos mais utilizados nas aplicações de Mineração de Dados; avaliar o desempenho do sistema NFHB original em aplicações de Mineração de Dados; desenvolver uma extensão do modelo NFHB dedicado à classificação de registros em uma BD; desenvolver um novo modelo híbrido Neuro-Fuzzy Genético para o ajuste automático dos parâmetros do sistema dedicado a previsão de séries temporais; e o estudo dos casos. O estudo da área resultou num survey sobre os principais modelos para Mineração de Dados. São apresentados os modelos mais utilizados em tarefas de classificação e extração de regras tais como: redes neurais, árvores de decisão crisp e fuzzy, algoritmos genéticos, estatística e sistemas neuro-fuzzy. Na etapa de avaliação do modelo NFHB original, foi verificado que além do tradicional aprendizado dos parâmetros, comuns às redes neurais e aos sistemas neuro-fuzzy, o modelo possui as seguintes aracterísticas: aprendizado da estrutura, a partir do uso de particionamentos recursivos; número maior de entradas que o habitualmente encontrado nos sistemas neuro-fuzzy; e regras com hierarquia, características adequadas para as aplicações de Mineração de Dados. Entretanto, o processo de extração de regras e a seleção de atributos não são adequados para este tipo de aplicação, assim como a excessiva complexidade da parametrização do modelo para aplicações de previsão de séries temporais. Uma extensão ao modelo NFHB original foi então proposta para aplicações de classificação de registros no contexto da Mineração de Dados onde se têm como objetivo principal a extração de informação em forma de regras interpretáveis. Foi necessário modificar a seleção de atributos e o processo original de extração de regras. O sistema fuzzy do tipo Takagi-Sugeno do modelo NFHB original fornece regras inadequadas do ponto de vista da Mineração de Dados. O novo modelo NFHB, dotado das modificações necessárias, mostrou um ótimo desempenho na extração de regras fuzzy válidas que descrevem a informação contida no banco de dados. As medidas de avaliação normalmente usadas para analisar regras crisp (Se x1 é <14.3 e...), como abrangência e acurácia, foram modificadas para poderem ser aplicadas ao caso de avaliação das regras fuzzy (Se x1 é Baixo e..) extraídas pelo sistema NFHB após da fase de aprendizado. A quantidade e a qualidade das regras extraídas é um ponto fundamental dos sistemas voltados para aplicações de Mineração de Dados, que buscam sempre obter o menor número de regras e da maior qualidade possível. Nesse sentido, o processo de seleção das características de entrada foi alterado para evitar particionamentos excessivos, ou seja regras desnecessárias. Foram implementadas duas estratégias de seleção (Fixa e Adaptativa) em função de diferentes medidas de avaliação como a Entropia e o método de Jang. Um novo modelo híbrido neuro-fuzzy genético para previsão de séries temporais foi criado para resolver o problema da excessiva complexidade de parametrização do sistema, o qual conta com mais de 15 parâmetros.Foi proposto um novo modelo híbrido neuro-fuzzy genético capaz de evoluir e obter um conjunto de parâmetros adequado par / [en] This dissertation investigates the use of a Neuro-Fuzzy Hierarchical system for time series forecasting and fuzzy rule extraction for Data Mining applications. The objective of this work was to extend the Neuro-Fuzzy BSP Hierarchical model for the classification of registers and time series forecasting. The process of classification of registers in the Data Mining context consists of extracting association rules that best characterise, through its accuracy and coverage measures, a certain group of registers of database (DB). The time series forecasting other common task in Data Mining, has a main objective to foresee the behavior of a time series in the instant t+k (k>=1). The work consisted of 5 main stages: to elaborate a survey of the main systems and the most common models in Data Mining applications; to evaluate the performance of the original NFHB system in Data Mining applicatons; to develop an extension of the NFHB model dedicated to the classification of registers in a DB; to develop a new Neuro-Fuzzy Genetic hybrid model for the automatic adjustment of the parameters of the system for time series forecasting applicatons; and the case estudies. The study of the area resulted in a survey of the main Data Mining models. The most common methods used in Data Mining application are presented such as: neural nets, crisp and fuzzy decision trees, genetic algorithms, statistics and neuro-fuzzy systems. In the stage of evaluation of the original NFHB model, it verified that besides the traditional learning of the parameters, common to the neural nets and the neuro-fuzzy systems, the model possesses the following characteristics: learning of the structure; recursive partitioning; larger number of inputs than usually found on the neuro-fuzzy systems; rule with hierarchy; which are characteristics adapted for Data Mining applications. However the rule extraction process and attributes selection are not appropriate for this type of applications, as well as the excessive complexity of the tuning of the model for time series forecasting applicatons. An extension of the original NFHB model was then proposed for applicatons of classification of registers in the Data Mining context, where the main objective in the extraction of information in form of interpratable rules. It was necessary to modify the attributes selection and the original rule extraction process. The Takagi-Sugeno fuzzy system of the original NFHB model supplies inadequate rules, from the Data Mining point of view. The new NFHB models, endowed with necessary modifications, showed good performance in extracting valid fuzzy rules that describe the information contained in the database. The evaluation metrics, usually used to analyse crips rules (If x1 is <14.3 and), as coverage and accuracy, were modified to be applied to the evaluation of the fuzzy rules (If x1 is Low and) extracted from the NFHB system after the learning process. The amount and quality of the extracted rules are important points of the systems dedicated for Data Mining applicatons, where the target is to obtain the smallest number of rules and of the best quality. In that sense, the input selection strategies were implemented (Static and Adaptive), using different evaluation measures as Entropy and the jang algorithm. A new genetic neuro-fuzzy hybrid model for time series forecasting was created to solve the problem of the excessive complexity of the model tuning, which comprises more than 15 parameters. A new model wes proposed, a genetic neuro-fuzzy hybrid, model capable to develop and to obtain an appropriate set of parameters for the forecasting of time series. The new hybrid, model capable to develop and to obtain an appropriate set of parameters for the forecasting of time series. The new hybrid model presented good results with different types of series. A tool based on the NFHB model was developed for classification and forecasting applications. Th [pt] CLASSIFICACAO [pt] EXTRACAO DE REGRAS [pt] SISTEMAS NEURO-FUZZY [pt] PREVISAO [pt] MINERACAO DE DADOS [en] CLASSIFICATION [en] EXTRACTION OF RULES [en] NEURO-FUZZY SYSTEMS [en] FORECASTING [en] DATA MINING
53	[en] DECISION TREES WITH EXPLAINABLE RULES / [pt] ÁRVORES DE DECISÃO COM REGRAS EXPLICÁVEIS VICTOR FEITOSA DE CARVALHO SOUZA 04 August 2023 (has links) [pt] As árvores de decisão são estruturas comumente utilizadas em cenários nos quais modelos explicáveis de Aprendizado de Máquina são desejados, por serem visualmente intuitivas. Na literatura existente, a busca por explicabilidade em árvores envolve a minimização de métricas como altura e número de nós. Nesse contexto, definimos uma métrica de explicabilidade, chamada de explanation size, que reflete o número de atributos necessários para explicar a classificação dos exemplos. Apresentamos também um algoritmo, intitulado SER-DT, que obtém uma aproximação O(log n) (ótima se P diferente NP) para a minimização da altura no pior caso ou caso médio, assim como do explanation size no pior caso ou caso médio. Em uma série de experimentos, comparamos a implementação de SER-DT com algoritmos conhecidos da área, como CART e EC2, além de testarmos o impacto de parâmetros e estratégias de poda nesses algoritmos. SER-DT mostrou-se competitivo em acurácia com os algoritmos citados, mas gerou árvores muito mais explicáveis. / [en] Decision trees are commonly used structures in scenarios where explainable Machine Learning models are desired, as they are visually intuitive. In the existing literature, the search for explainability in trees involves minimizing metrics such as depth and number of nodes. In this context, we define an explainability metric, called explanation size, which reflects the number of attributes needed to explain the classification of examples. We also present an algorithm, called SER-DT, which obtains an O(log n) approximation (optimal if P different NP) for the minimization of depth in the worst/average case, as well as of explanation size in the worst/average case. In a series of experiments, we compared the SER-DT implementation with well-known algorithms in the field, such as CART and EC2 in addition to testing the impact of parameters and pruning strategies on these algorithms. SER-DT proved to be competitive in terms of accuracy with the aforementioned algorithms, but generated much more explainable trees. [pt] APRENDIZADO DE MAQUINA [pt] MODELO EXPLICAVEL [pt] ARVORES DE DECISAO [pt] ALGORITMOS DE APROXIMACAO [pt] CLASSIFICACAO [en] MACHINE LEARNING [en] EXPLAINABLE MODEL [en] DECISION TREE [en] APPROXIMATION ALGORITHMS [en] CLASSIFICATION
54	[en] CONVOLUTIONAL NETWORKS APPLIED TO SEISMIC NOISE CLASSIFICATION / [pt] REDES CONVOLUCIONAIS APLICADAS À CLASSIFICAÇÃO DE RUÍDO SÍSMICO EDUARDO BETINE BUCKER 24 March 2021 (has links) [pt] Modelos baseados em redes neurais profundas como as Redes Neurais Convolucionais proporcionaram avanços significativos em diversas áreas da computação. No entanto, essa tecnologia é ainda pouco aplicada à predição de qualidade sísmica, que é uma atividade relevante para exploração de hidrocarbonetos. Ser capaz de, rapidamente, classificar o ruído presente em aquisições de dados sísmicos permite aceitar ou rejeitar essas aquisições de forma eficiente, o que além de economizar recursos também melhora a interpretabilidade dos dados. Neste trabalho apresenta-se um dataset criado a partir de 6.918 aquisições manualmente classificadas pela percepção de especialistas e pesquisadores, que serviu de base para o treinamento, validação e testes de um classificador, também proposto neste trabalho, baseado em uma rede neural convolucional. Em resultados empíricos, observou-se-se um F1 Score de 95,58 porcento em uma validação cruzada de 10 folds e 93,56 porcento em um conjunto de holdout de teste. / [en] Deep Learning based models, such as Convolutional Neural Networks (CNNs), have led to significant advances in several areas of computing applications. Nevertheless, this technology is still rarely applied to seismic quality prediction, which is a relevant task in hydrocarbon exploration. Being able to promptly classify noise in common shot gather(CSG) acquisitions of seismic data allows the acceptance or rejection of those aquisitions, not only saving resources but also increasing the interpretability of data. In this work, we introduce a real-world classification dataset based on 6.918 common shot gather, manually labeled by perception of specialists and researches. We use it to train a CNN classification model for seismic shot-gathers quality prediction. In our empirical evaluation, we observed an F1 Score of 95,58 percent in 10 fold cross-validation and 93,56 percent in a Holdout Test. [pt] CLASSIFICACAO DE IMAGENS [pt] APRENDIZADO DE MAQUINAS [pt] REDES NEURAIS CONVOLUCIONAIS [pt] APRENDIZADO PROFUNDO [en] IMAGE CLASSIFICATION [en] MACHINE LEARNING [en] CONVOLUTIONAL NEURAL NETWORKS [en] DEEP LEARNING
55	[en] ASSESSMENT OF THE PROCESSING CAPACITY IN SORTING RAILWAY YARDS THROUGH OPTIMIZATION MODEL / [pt] AVALIAÇÃO DE CAPACIDADE DE PROCESSAMENTO EM PÁTIOS FERROVIÁRIOS PLANOS DE CLASSIFICAÇÃO ATRAVÉS DE MODELO DE OTIMIZAÇÃO RENATA FERREIRA DE SA 08 November 2021 (has links) [pt] Este trabalho trata do problema real de avaliar a capacidade de processamento de pátios ferroviários planos de classificação. Nesses pátios, os vagões são recebidos em trens e movimentam respeitando a disposição dos trilhos e a formação sequencial do trem de saída. Movimentações ineficientes implicam em uma capacidade de processamento inferior à potencial do pátio dado seu layout. O objetivo desta pesquisa é descrever o problema e incitar um método capaz de calcular a capacidade de processamento de pátios ferroviários planos de classificação no horizonte estratégico, indicando se existe ou não a necessidade de um projeto de expansão para garantir atendimento à demanda prevista. O problema foi modelado através de programação linear inteira mista (MILP) baseado na teoria de sequenciamento de produção. O modelo foi aplicado em instâncias de teste, reproduzindo movimentações reais de vagões, e provou avaliar diferentes layouts adequadamente, porém com elevado tempo de execução. A inicialização de algumas variáveis binárias do modelo permitiu um incremento de tamanho nas instâncias, porém ainda inviável para aplicação na prática. / [en] This work deals with the real problem of evaluating the processing capacity of flat rail classification yards. In these yards, the railway cars are received on trains and move respecting the car sequence of the outgoing train. Inefficient movements imply a lower processing capacity than the yard s potential given its layout. The objective of this research is to describe the problem and to incite a method capable of calculating the processing capacity of flat rail classification yards in the strategic horizon, indicating whether or not there is a need for an expansion project to ensure meeting the expected demand. The problem was modeled using mixed integer linear programming (MILP) based on production scheduling theory. The model was applied to test instances, reproducing real railway car movements, and proved to evaluate different layouts properly, but with a high execution time. The initialization of some binary variables of the model allowed an increase in the size of the instances, however it is still unfeasible for practical application. [pt] PATIO FERROVIARIO [pt] SEQUENCIAMENTO DE PRODUCAO [pt] CLASSIFICACAO DE VAGOES [en] RAILWAY YARDS [en] PRODUCTION SCHEDULING RAILROAD [en] MIXED INTEGER LINEAR PROGRAMMING [en] SORTING OF RAILWAY CARS
56	[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENT FREDERICO SHU 06 January 2022 (has links) [pt] A análise de documentos financeiros não estruturados é uma atividade essencial para a supervisão do mercado de capitais realizada pela Comissão de Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço humano despendido no processo de triagem de documentos são vitais para a CVM lidar com a escassez de recursos humanos e a expansão do mercado de valores mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos algoritmos de aprendizado de máquina e técnicas de processamento de texto, a partir de sua aplicação em duas tarefas de processamento de linguagem natural – classificação de documentos e extração de informações – desempenhadas em ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos clássicos proporcionaram melhor desempenho que as redes neurais profundas, o qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A arquitetura BERT foi capaz de extrair informações sobre aumento de capital e incorporação societária de documentos financeiros. Os resultados satisfatórios obtidos em ambas as tarefas motivam a implementação futura em regime de produção dos modelos estudados, sob a forma de um sistema de apoio à decisão. Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o escopo deste trabalho com documentos financeiros entregues por companhias abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital markets supervision performed by Comissão de Valores Mobiliários (Brazilian SEC or CVM). Systems capable of reducing human effort involved in the task of screening documents and outlining relevant information, for further manual review, are important tools for CVM to deal with the shortage of human resources and expansion of the Brazilian securities market. In this regard, this dissertation presents and discusses the application of several machine learning algorithms and text processing techniques to perform two natural language processing tasks— document classification and information extraction—in a real market supervision environment. In the classification exercise, classic algorithms achieved a better performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network architecture was able to extract information from financial documents on capital increase and mergers. The successful results obtained in both tasks encourage future implementation of the studied models in the form of a decision support system. Another contribution of this work is the CVMCorpus, a corpus built to produce datasets for the tasks, with financial documents released between 2009 and 2019 by Brazilian companies, which opens possibilities of future linguistic and finance research. [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] CLASSIFICACAO DE TEXTOS [pt] EXTRACAO DE INFORMACAO [en] MACHINE LEARNING [en] DEEP LEARNING [en] NATURAL LANGUAGE PROCESSING [en] TEXT CLASSIFICATION [en] EXTRATION OF INFORMATION
57	[pt] DETECÇÃO DE CONTEÚDO SENSÍVEL EM VIDEO COM APRENDIZADO PROFUNDO / [en] SENSITIVE CONTENT DETECTION IN VIDEO WITH DEEP LEARNING PEDRO VINICIUS ALMEIDA DE FREITAS 09 June 2022 (has links) [pt] Grandes quantidades de vídeo são carregadas em plataformas de hospedagem de vídeo a cada minuto. Esse volume de dados apresenta um desafio no controle do tipo de conteúdo enviado para esses serviços de hospedagem de vídeo, pois essas plataformas são responsáveis por qualquer mídia sensível enviada por seus usuários. Nesta dissertação, definimos conteúdo sensível como sexo, violencia fisica extrema, gore ou cenas potencialmente pertubadoras ao espectador. Apresentamos um conjunto de dados de vídeo sensível para classificação binária de vídeo (se há conteúdo sensível no vídeo ou não), contendo 127 mil vídeos anotados, cada um com seus embeddings visuais e de áudio extraídos. Também treinamos e avaliamos quatro modelos baseline para a tarefa de detecção de conteúdo sensível em vídeo. O modelo com melhor desempenho obteve 99 por cento de F2-Score ponderado no nosso subconjunto de testes e 88,83 por cento no conjunto de dados Pornography-2k. / [en] Massive amounts of video are uploaded on video-hosting platforms every minute. This volume of data presents a challenge in controlling the type of content uploaded to these video hosting services, for those platforms are responsible for any sensitive media uploaded by their users. There has been an abundance of research on methods for developing automatic detection of sensitive content. In this dissertation, we define sensitive content as sex, extreme physical violence, gore, or any scenes potentially disturbing to the viewer. We present a sensitive video dataset for binary video classification (whether there is sensitive content in the video or not), containing 127 thousand tagged videos, Each with their extracted audio and visual embeddings. We also trained and evaluated four baseline models for the sensitive content detection in video task. The best performing model achieved 99 percent weighed F2-Score on our test subset and 88.83 percent on the Pornography-2k dataset. [pt] DEEP LEARNING [pt] CLASSIFICACAO MULTIMODAL DE VIDEOS [pt] DETECCAO DE CONTEUDO SENSIVEL [pt] CONTEUDO SENSIVEL [en] DEEP LEARNING [en] MULTIMODAL VIDEO CLASSIFICATION [en] SENSITIVE VIDEO DATASET [en] SENSITIVE CONTENT
58	[en] RANDOMFIS: A FUZZY CLASSIFICATION SYSTEM FOR HIGH DIMENSIONAL PROBLEMS / [pt] RANDOMFIS: UM SISTEMA DE CLASSIFICAÇÃO FUZZY PARA PROBLEMAS DE ALTA DIMENSIONALIDADE OSCAR HERNAN SAMUDIO LEGARDA 20 December 2016 (has links) [pt] Hoje em dia, grande parte do conhecimento acumulado está armazenada em forma de dados. Dentre as ferramentas capazes de atuar como modelos representativos de sistemas reais, os Sistemas de Inferência Fuzzy têm se destacado pela capacidade de fornecer modelos precisos e, ao mesmo tempo, interpretáveis. A interpretabilidade é obtida a partir de regras linguísticas, que podem ser extraídas de bases de dados bases históricas e que permitem ao usuário compreender a relação entre as variáveis do problema. Entretanto, tais sistemas sofrem com a maldição da dimensionalidade ao lidar com problemas complexos, isto é, com um grande número de variáveis de entrada ou padrões, gerando problemas de escalabilidade. Esta dissertação apresenta um novo algoritmo de geração automática de regras, denominado RandomFIS, especificamente para problemas de classificação, capaz de lidar com grandes bases de dados tanto em termos de número de variáveis de entrada (atributos) quanto em termos de padrões (instâncias). O modelo RandomFIS utiliza os conceitos de seleção de variáveis (Random Subspace) e Bag of Little Bootstrap (BLB), que é uma versão escalável do Bootstrapping, criando uma estrutura de comitê de classificadores. O RandomFIS é avaliado em várias bases benchmark, demostrando ser um modelo robusto que mantém a interpretabilidade e apresenta boa acurácia mesmo em problemas envolvendo grandes bases de dados. / [en] Nowadays, much of the accumulated knowledge is stored as data. Among the tools capable of acting as representative models of real systems, Fuzzy Inference Systems are recognized by their ability to provide accurate and at the same time interpretable models. Interpretability is obtained from linguistic rules, which can be extracted from historical databases. These rules allow the end user to understand the relationship between variables in a specific problem. However, such systems experience the curse of dimensionality when handling complex problems, i.e. with a large number of input variables or patterns in the dataset, giving origin to scalability issues. This dissertation presents a new algorithm for automatic generation of fuzzy rules, called RandomFIS, specifically for classification problems, which is able to handle large databases both in terms of number of input variables (attributes) and in terms of patterns (instances). The RandomFIS model makes use of feature selection concepts (Random Subspace) and Bag of Little Bootstrap (BLB), which is a scalable version of Bootstrapping, creating a classifier committee structure. RandomFIS is tested in several benchmark datasets and shows to be a robust model that maintains interpretability and good accuracy even in problems involving large databases. [pt] CLASSIFICACAO DE PADRAO [pt] BAG OF LITTLE BOOTSTRAP [pt] RANDOM SUBSPACE [pt] BOOTSTRAPING [pt] SISTEMA DE INFERENCIA FUZZY [en] PATTERN CLASSIFICATION [en] FUZZY INFERENCE SYSTEM
59	[pt] APRIMORAÇÃO DO ALGORITMO Q-NAS PARA CLASSIFICAÇÃO DE IMAGENS / [en] ENHANCED Q-NAS FOR IMAGE CLASSIFICATION JULIA DRUMMOND NOCE 31 October 2022 (has links) [pt] Redes neurais profundas são modelos poderosos e flexíveis que ganharam a atenção da comunidade de aprendizado de máquina na última década. Normalmente, um especialista gasta um tempo significativo projetando a arquitetura neural, com longas sessões de tentativa e erro para alcançar resultados bons e relevantes. Por causa do processo manual, há um maior interesse em abordagens de busca de arquitetura neural, que é um método que visa automatizar a busca de redes neurais. A busca de arquitetura neural(NAS) é uma subárea das técnicas de aprendizagem de máquina automatizadas (AutoML) e uma etapa essencial para automatizar os métodos de aprendizado de máquina. Esta técnica leva em consideração os aspectos do espaço de busca das arquiteturas, estratégia de busca e estratégia de estimativa de desempenho. Algoritmos evolutivos de inspiração quântica apresentam resultados promissores quanto à convergência mais rápida quando comparados a outras soluções com espaço de busca restrito e alto custo computacional. Neste trabalho, foi aprimorado o Q-NAS: um algoritmo de inspiração quântica para pesquisar redes profundas por meio da montagem de subestruturas simples. O Q-NAS também pode evoluir alguns hiperparâmetros numéricos do treinamento, o que é um primeiro passo na direção da automação completa. Foram apresentados resultados aplicando Q-NAS, evoluído, sem transferência de conhecimento, no conjunto de dados CIFAR-100 usando apenas 18 GPU/dias. Nossa contribuição envolve experimentar outros otimizadores no algoritmo e fazer um estudo aprofundado dos parâmetros do Q-NAS. Nesse trabalho, foi possível atingir uma acurácia de 76,40%. Foi apresentado também o Q-NAS aprimorado aplicado a um estudo de caso para classificação COVID-19 x Saudável em um banco de dados de tomografia computadorizada de tórax real. Em 9 GPU/dias, conseguimos atingir uma precisão de 99,44% usando menos de 1000 amostras para dados de treinamento. / [en] Deep neural networks are powerful and flexible models that have gained the attention of the machine learning community over the last decade. Usually, an expert spends significant time designing the neural architecture, with long trial and error sessions to reach good and relevant results. Because of the manual process, there is a greater interest in Neural Architecture Search (NAS), which is an automated method of architectural search in neural networks. NAS is a subarea of Automated Machine Learning (AutoML) and is an essential step towards automating machine learning methods. It is a technique that aims to automate the construction process of a neural network architecture. This technique is defined by the search space aspects of the architectures, search strategy and performance estimation strategy. Quantum-inspired evolutionary algorithms present promising results regarding faster convergence when compared to other solutions with restricted search space and high computational costs. In this work, we enhance Q-NAS: a quantum-inspired algorithm to search for deep networks by assembling simple substructures. Q-NAS can also evolve some numerical hyperparameters, which is a first step in the direction of complete automation. Our contribution involves experimenting other types of optimizers in the algorithm and make an indepth study of the Q-NAS parameters. Additionally, we present Q-NAS results, evolved from scratch, on the CIFAR-100 dataset using only 18 GPU/days. We were able to achieve an accuracy of 76.40% which is a competitive result regarding other works in literature. Finally, we also present the enhanced QNAS applied to a case study for COVID-19 x Healthy classification on a real chest computed tomography database. In 9 GPU/days we were able to achieve an accuracy of 99.44% using less than 1000 samples for training data. This accuracy overcame benchmark networks such as ResNet, GoogleLeNet and VGG. [pt] CLASSIFICACAO DE IMAGENS [pt] BUSCA DE ARQUITETURAS NEURAIS [en] IMAGE CLASSIFICATION [en] NEURAL ARCHITECTURE SEARCH
60	[en] A GENERIC PLUGIN FOR PLAYER CLASSIFICATION IN GAMES / [pt] UM PLUGIN GENÉRICO PARA CLASSIFICAÇÃO DE JOGADOR EM JOGOS LUIS FERNANDO TEIXEIRA BICALHO 22 November 2022 (has links) [pt] Game Analytics é uma área que envolve o processamento de dados de videogames com a finalidade de proporcionar uma melhor experiência de jogo para o usuário. Também ajuda a verificar os padrões de comportamento dos jogadores, facilitando a identificação do público-alvo. A coleta de dados dos jogadores ajuda os desenvolvedores de jogos a identificar problemas mais cedo e saber por que os jogadores deixaram o jogo ou continuaram jogando. O comportamento desses jogadores geralmente segue um padrão, fazendo com que se encaixem em diferentes perfis de jogadores. Especialistas em análise de jogos criam e usam modelos de tipos de jogadores, geralmente variantes do modelo de Bartle, para ajudar a identificar perfis de jogadores. Esses especialistas usam algoritmos de agrupamento para separar os jogadores em grupos diferentes e identificáveis, rotulando cada grupo com o tipo de perfil definido pelo modelo proposto. O objetivo principal deste projeto é criar um plugin Unity genérico para ajudar a identificar perfis de jogadores em jogos. Este plugin usa uma API Python, que lida com os dados do jogo armazenados em um banco de dados MongoDB, para agrupar e rotular cada partida ou nível do jogo escolhido enquanto o jogo está em execução. Neste plugin, os desenvolvedores de jogos podem configurar o número de tipos de jogadores que desejam identificar, os rótulos dos jogadores e até os algoritmos que desejam usar. Essa abordagem de agrupamento online não é usual no desenvolvimento de jogos. Até onde sabemos, não há nenhum componente de software na literatura de análise de jogos com a mesma direção e recursos. / [en] Game Analytics is an area that involves the processing of video game data, in order to make a better game experience for the user. It also helps to check the patterns in players behaviour, making it easier to identify the target audience. Gathering player data helps game developers identify problems earlier and know why players left the game or kept playing. These players behavior usually follows a pattern, making them fit in different player profiles. Game analytics experts create and use models of player types, usually variants of Bartle s model, to help identify player profiles. These experts use clustering algorithms to separate players into different and identifiable groups, labeling each group with the profile type defined by the proposed model. The main goal of this project is to create a generic Unity plugin to help identify Player Profiles in games. This plugin uses a Python API, which deals with the game data stored in a MongoDB database, to cluster and label each match or level of the chosen game while the game is running. In this plugin, game developers can configure the number of player types they want to identify, the player labels, and even the algorithms they wish to use. This online clustering approach is not usual in game development. As far as we are aware, there is no software component in the game analytics literature with the same direction and features. [pt] APRENDIZADO DE MAQUINA [pt] TELEMETRIA [pt] CLASSIFICACAO DE JOGADORES [pt] GAME ANALYTICS [en] MACHINE LEARNING [en] TELEMETRY [en] PLAYER BEHAVIOR MODELS [en] PLAYER CLASSIFICATION [en] GAME ANALYTICS

Search results