• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 69
  • 14
  • Tagged with
  • 83
  • 83
  • 71
  • 28
  • 24
  • 20
  • 17
  • 17
  • 15
  • 15
  • 15
  • 12
  • 11
  • 10
  • 10
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

[en] CONVOLUTIONAL NETWORKS APPLIED TO SEISMIC NOISE CLASSIFICATION / [pt] REDES CONVOLUCIONAIS APLICADAS À CLASSIFICAÇÃO DE RUÍDO SÍSMICO

EDUARDO BETINE BUCKER 24 March 2021 (has links)
[pt] Modelos baseados em redes neurais profundas como as Redes Neurais Convolucionais proporcionaram avanços significativos em diversas áreas da computação. No entanto, essa tecnologia é ainda pouco aplicada à predição de qualidade sísmica, que é uma atividade relevante para exploração de hidrocarbonetos. Ser capaz de, rapidamente, classificar o ruído presente em aquisições de dados sísmicos permite aceitar ou rejeitar essas aquisições de forma eficiente, o que além de economizar recursos também melhora a interpretabilidade dos dados. Neste trabalho apresenta-se um dataset criado a partir de 6.918 aquisições manualmente classificadas pela percepção de especialistas e pesquisadores, que serviu de base para o treinamento, validação e testes de um classificador, também proposto neste trabalho, baseado em uma rede neural convolucional. Em resultados empíricos, observou-se-se um F1 Score de 95,58 porcento em uma validação cruzada de 10 folds e 93,56 porcento em um conjunto de holdout de teste. / [en] Deep Learning based models, such as Convolutional Neural Networks (CNNs), have led to significant advances in several areas of computing applications. Nevertheless, this technology is still rarely applied to seismic quality prediction, which is a relevant task in hydrocarbon exploration. Being able to promptly classify noise in common shot gather(CSG) acquisitions of seismic data allows the acceptance or rejection of those aquisitions, not only saving resources but also increasing the interpretability of data. In this work, we introduce a real-world classification dataset based on 6.918 common shot gather, manually labeled by perception of specialists and researches. We use it to train a CNN classification model for seismic shot-gathers quality prediction. In our empirical evaluation, we observed an F1 Score of 95,58 percent in 10 fold cross-validation and 93,56 percent in a Holdout Test.
62

[pt] DETECÇÃO DE CONTEÚDO SENSÍVEL EM VIDEO COM APRENDIZADO PROFUNDO / [en] SENSITIVE CONTENT DETECTION IN VIDEO WITH DEEP LEARNING

PEDRO VINICIUS ALMEIDA DE FREITAS 09 June 2022 (has links)
[pt] Grandes quantidades de vídeo são carregadas em plataformas de hospedagem de vídeo a cada minuto. Esse volume de dados apresenta um desafio no controle do tipo de conteúdo enviado para esses serviços de hospedagem de vídeo, pois essas plataformas são responsáveis por qualquer mídia sensível enviada por seus usuários. Nesta dissertação, definimos conteúdo sensível como sexo, violencia fisica extrema, gore ou cenas potencialmente pertubadoras ao espectador. Apresentamos um conjunto de dados de vídeo sensível para classificação binária de vídeo (se há conteúdo sensível no vídeo ou não), contendo 127 mil vídeos anotados, cada um com seus embeddings visuais e de áudio extraídos. Também treinamos e avaliamos quatro modelos baseline para a tarefa de detecção de conteúdo sensível em vídeo. O modelo com melhor desempenho obteve 99 por cento de F2-Score ponderado no nosso subconjunto de testes e 88,83 por cento no conjunto de dados Pornography-2k. / [en] Massive amounts of video are uploaded on video-hosting platforms every minute. This volume of data presents a challenge in controlling the type of content uploaded to these video hosting services, for those platforms are responsible for any sensitive media uploaded by their users. There has been an abundance of research on methods for developing automatic detection of sensitive content. In this dissertation, we define sensitive content as sex, extreme physical violence, gore, or any scenes potentially disturbing to the viewer. We present a sensitive video dataset for binary video classification (whether there is sensitive content in the video or not), containing 127 thousand tagged videos, Each with their extracted audio and visual embeddings. We also trained and evaluated four baseline models for the sensitive content detection in video task. The best performing model achieved 99 percent weighed F2-Score on our test subset and 88.83 percent on the Pornography-2k dataset.
63

[en] DECISION TREES WITH EXPLAINABLE RULES / [pt] ÁRVORES DE DECISÃO COM REGRAS EXPLICÁVEIS

VICTOR FEITOSA DE CARVALHO SOUZA 04 August 2023 (has links)
[pt] As árvores de decisão são estruturas comumente utilizadas em cenários nos quais modelos explicáveis de Aprendizado de Máquina são desejados, por serem visualmente intuitivas. Na literatura existente, a busca por explicabilidade em árvores envolve a minimização de métricas como altura e número de nós. Nesse contexto, definimos uma métrica de explicabilidade, chamada de explanation size, que reflete o número de atributos necessários para explicar a classificação dos exemplos. Apresentamos também um algoritmo, intitulado SER-DT, que obtém uma aproximação O(log n) (ótima se P diferente NP) para a minimização da altura no pior caso ou caso médio, assim como do explanation size no pior caso ou caso médio. Em uma série de experimentos, comparamos a implementação de SER-DT com algoritmos conhecidos da área, como CART e EC2, além de testarmos o impacto de parâmetros e estratégias de poda nesses algoritmos. SER-DT mostrou-se competitivo em acurácia com os algoritmos citados, mas gerou árvores muito mais explicáveis. / [en] Decision trees are commonly used structures in scenarios where explainable Machine Learning models are desired, as they are visually intuitive. In the existing literature, the search for explainability in trees involves minimizing metrics such as depth and number of nodes. In this context, we define an explainability metric, called explanation size, which reflects the number of attributes needed to explain the classification of examples. We also present an algorithm, called SER-DT, which obtains an O(log n) approximation (optimal if P different NP) for the minimization of depth in the worst/average case, as well as of explanation size in the worst/average case. In a series of experiments, we compared the SER-DT implementation with well-known algorithms in the field, such as CART and EC2 in addition to testing the impact of parameters and pruning strategies on these algorithms. SER-DT proved to be competitive in terms of accuracy with the aforementioned algorithms, but generated much more explainable trees.
64

[en] CAN MACHINE LEARNING REPLACE A REVIEWER IN THE SELECTION OF STUDIES FOR SYSTEMATIC LITERATURE REVIEW UPDATES? / [pt] MACHINE LEARNING PODE SUBSTITUIR UM REVISOR NA SELEÇÃO DE ESTUDOS DE ATUALIZAÇÕES DE REVISÕES SISTEMÁTICAS DA LITERATURA?

MARCELO COSTALONGA CARDOSO 19 September 2024 (has links)
[pt] [Contexto] A importância das revisões sistemáticas da literatura (RSLs) para encontrar e sintetizar novas evidências para Engenharia de Software (ES) é bem conhecida, mas realizar e manter as RSLs atualizadas ainda é um grande desafio. Uma das atividades mais exaustivas durante uma RSL é a seleção de estudos, devido ao grande número de estudos a serem analisados. Além disso, para evitar viés, a seleção de estudos deve ser conduzida por mais de um revisor. [Objetivo] Esta dissertação tem como objetivo avaliar o uso de modelos de classificação de texto de machine learning (ML) para apoiar a seleção de estudos em atualizações de RSL e verificar se tais modelos podem substituir um revisor adicional. [Método] Reproduzimos a seleção de estudos de uma atualização de RSL realizada por três pesquisadores experientes, aplicando os modelos de ML ao mesmo conjunto de dados que eles utilizaram. Utilizamos dois algoritmos de ML supervisionado com configurações diferentes (Random Forest e Support Vector Machines) para treinar os modelos com base na RSL original. Calculamos a eficácia da seleção de estudos dos modelos de ML em termos de precisão, recall e f-measure. Também comparamos o nível de semelhança e concordância entre os estudos selecionados pelos modelos de ML e os revisores originais, realizando uma análise de Kappa e da Distância Euclidiana. [Resultados] Em nossa investigação, os modelos de ML alcançaram um f-score de 0.33 para a seleção de estudos, o que é insuficiente para conduzir a tarefa de forma automatizada. No entanto, descobrimos que tais modelos poderiam reduzir o esforço de seleção de estudos em 33.9 por cento sem perda de evidências (mantendo um recall de 100 por cento), descartando estudos com baixa probabilidade de inclusão. Além disso, os modelos de ML alcançaram em média um nível de concordância moderado com os revisores, com um valor médio de 0.42 para o coeficiente de Kappa. [Conclusões] Os resultados indicam que o ML não está pronto para substituir a seleção de estudos por revisores humanos e também pode não ser usado para substituir a necessidade de um revisor adicional. No entanto, há potencial para reduzir o esforço de seleção de estudos das atualizações de RSL. / [en] [Context] The importance of systematic literature reviews (SLRs) to find and synthesize new evidence for Software Engineering (SE) is well known, yet performing and keeping SLRs up-to-date is still a big challenge. One of the most exhaustive activities during an SLR is the study selection because of the large number of studies to be analyzed. Furthermore, to avoid bias, study selection should be conducted by more than one reviewer. [Objective] This dissertation aims to evaluate the use of machine learning (ML) text classification models to support the study selection in SLR updates and verify if such models can replace an additional reviewer. [Method] We reproduce the study selection of an SLR update performed by three experienced researchers, applying the ML models to the same dataset they used. We used two supervised ML algorithms with different configurations (Random Forest and Support Vector Machines) to train the models based on the original SLR. We calculated the study selection effectiveness of the ML models in terms of precision, recall, and f-measure. We also compared the level of similarity and agreement between the studies selected by the ML models and the original reviewers by performing a Kappa Analysis and Euclidean Distance Analysis. [Results] In our investigation, the ML models achieved an f-score of 0.33 for study selection, which is insufficient for conducting the task in an automated way. However, we found that such models could reduce the study selection effort by 33.9 percent without loss of evidence (keeping a 100 percent recall), discarding studies with a low probability of being included. In addition, the ML models achieved a moderate average kappa level of agreement of 0.42 with the reviewers. [Conclusion] The results indicate that ML is not ready to replace study selection by human reviewers and may also not be used to replace the need for an additional reviewer. However, there is potential for reducing the study selection effort of SLR updates.
65

[en] HYBRID SYSTEM FOR RULE EXTRACTION APPLIED TO DIAGNOSIS OF POWER TRANSFORMERS / [pt] SISTEMA HÍBRIDO DE EXTRAÇÃO DE REGRAS APLICADO A DIAGNÓSTICO DE TRANSFORMADORES

CINTIA DE FARIA FERREIRA CARRARO 28 November 2012 (has links)
[pt] Este trabalho tem como objetivo construir um classificador baseado em regras de inferência fuzzy, as quais são extraídas a partir de máquinas de vetor suporte (SVMs) e ajustadas com o auxílio de um algoritmo genético. O classificador construído visa a diagnosticar transformadores de potência. As SVMs são sistemas de aprendizado baseados na teoria do aprendizado estatístico e apresentam boa habilidade de generalização em conjuntos de dados reais. SVMs, da mesma forma que redes neurais (RN), geram um modelo caixa preta, isto é, um modelo que não explica o processo pelo qual sua saída é obtida. Entretanto, para alguns problemas, o conhecimento sobre como a classificação foi obtida é tão importante quanto a classificação propriamente dita. Alguns métodos propostos para reduzir ou eliminar essa limitação já foram desenvolvidos, embora sejam restritos à extração de regras simbólicas, isto é, contêm funções ou intervalos nos antecedentes das regras. No entanto, a interpretabilidade de regras simbólicas ainda é reduzida. De forma a aumentar a interpretabilidade das regras, o modelo FREx_SVM foi desenvolvido. Neste modelo as regras fuzzy são extraídas a partir de SVMs treinadas. O modelo FREx_SVM pode ser aplicado a problemas de classificação com n classes, não sendo restrito a classificações binárias. Entretanto, apesar do bom desempenho do modelo FREx_SVM na extração de regras linguísticas, o desempenho de classificação do sistema de inferência fuzzy obtido é ainda inferior ao da SVM, uma vez que as partições (conjuntos fuzzy) das variáveis de entrada são definidas a priori, permanecendo fixas durante o processo de aprendizado das regras. O objetivo desta dissertação é, portanto, estender o modelo FREx_SVM, de forma a permitir o ajuste automático das funções de pertinência das variáveis de entrada através de algoritmos genéticos. Para avaliar o desempenho do modelo estendido, foram realizados estudos de caso em dois bancos de dados: Iris, como uma base benchmark, e a análise de resposta em frequência. A análise de resposta em frequência é uma técnica não invasiva e não destrutiva, pois preserva as características dos equipamentos. No entanto, o diagnóstico é feito de modo visual comparativo e requer o auxílio de um especialista. Muitas vezes, este diagnóstico é subjetivo e inconclusivo. O ajuste automático das funções de pertinência correspondentes aos conjuntos fuzzy associados às variáveis de entrada reduziu o erro de classificação em até 13,38 por cento em relação à configuração sem este ajuste. Em alguns casos, o desempenho da configuração com ajuste das funções de pertinência supera até mesmo aquele obtido pela própria SVM. / [en] This work aims to develop a classifier model based on fuzzy inference rules, which are extracted from support vector machines (SVMs) and optimized by a genetic algorithm. The classifier built aims to diagnose power transformers. The SVMs are learning systems based on statistical learning theory and have provided good generalization performance in real data sets. SVMs, as artificial neural networks (NN), generate a black box model, that is, a model that does not explain the process by which its output is obtained. However, for some applications, the knowledge about how the classification was obtained is as important as the classification itself. Some proposed methods to reduce or eliminate this limitation have already been developed, although they are restricted to the extraction of symbolic rules, i.e. contain functions or ranges in the rules´ antecedents. Nevertheless, the interpretability of symbolic rules is still reduced. In order to increase the interpretability of the rules, the FREx_SVM model was developed. In this model the fuzzy rules are extracted from trained SVMs. The FREx_SVM model can be applied to classification problems with n classes, not being restricted to binary classifications. However, despite the good performance of the FREx_SVM model in extracting linguistic rules, the classification performance of fuzzy classification system obtained is still lower than the SVM, since the partitions (fuzzy sets) of the input variables are predefined at the beginning of the process, and are fixed during the rule extraction process. The goal of this dissertation is, therefore, to extend the FREx_SVM model, so as to enable the automatic adjustment of the membership functions of the input variables through genetic algorithms. To assess the performance of the extended model, case studies were carried out in two databases: iris benchmark and frequency response analysis. The frequency response analysis is a noninvasive and non-destructive technique, because it preserves the characteristics of the equipment. However, the diagnosis is carried out by visual comparison and requires the assistance of an expert. Often, this diagnosis is subjective and inconclusive. The automatic adjustment of the membership functions associated with input variables reduced the error up to 13.38 per cent when compared to the configuration without this optimization. In some cases, the classification performance with membership functions optimization exceeds even those obtained by SVM.
66

[en] MULTIPLE SENSORS MONITORING SYSTEM BY AUTOASSOCIATIVE NEURAL NETWORKS AND FUZZY LOGIC / [pt] SISTEMA DE MONITORAMENTO DE MÚLTIPLOS SENSORES POR REDES NEURAIS AUTO-ASSOCIATIVAS E LÓGICA FUZZY

JAVIER EDUARDO REYES SANCHEZ 27 August 2019 (has links)
[pt] Calibrações manuais periódicas asseguram o funcionamento correto de um instrumento durante certo período de tempo, mas não garantem que sensores defeituosos permaneçam calibrados por outros períodos, além de eventualmente serem desnecessárias. Em plantas industriais, a análise dos sinais fornecidos pelos sensores que monitoram os processos de produção é uma tarefa difícil em virtude da grande dimensão dos dados. Portanto, uma estratégia de monitoramento e correção online para múltiplos sensores se faz necessária. Este trabalho propõe a utilização de dois modelos: um que emprega Redes Neurais Auto-Associativas com Treinamento Robusto Modificado (RNAAM), e outro que emprega o Teste Seqüencial da Razão de Probabilidade (SPRT) e Lógica Fuzzy. Esses modelos são aplicados em um sistema de monitoramento para auto-correção online e auto-validação das medições realizadas por um grande número de sensores. Diferentemente dos modelos existentes, o sistema proposto faz uso de apenas uma RNAAM para reconstruir os sinais dos sensores com falha. Além disso, os estados do sensor e do modelo de auto-correção são validados por meio dos módulos de confiabilidade e de classificação, respectivamente. Para avaliação do modelo, faz-se uso de uma base de dados com medidas de sensores industriais que controlam e realizam o monitoramento de um motor de combustão interna, instalado em um caminhão de mineração. Os resultados obtidos mostram a capacidade do modelo proposto de mapear e corrigir, com um baixo nível de erro, os sinais dos sensores que apresentam falhas, além de fornecer ao especialista uma ferramenta para a realização de cronogramas de revisão de sensores. / [en] Periodical manual calibrations assure the correct operation of an instrument for a certain period of time, but do not guarantee that faulty sensors remain calibrated for other periods, besides being occasionally unnecessary. In industrial plants the analysis of signals from sensors that monitor a plant is a difficult task due to the high-dimensionality of data. Therefore an online strategy for monitoring and correcting multiple sensors is required. This work proposes the use of two models: one that employs Auto Associative Neural Networks with a Modified Robust Training, and another that employs the Sequential Probability Ratio Test (SPRT) and Fuzzy Logic. These models are applied to an online monitoring system for self-correction and selfvalidation of measurements generated by a large number of sensors. Unlike existing models, the proposed system makes use of only one AANN to reconstruct signals from faulty sensors. Moreover, the states of the sensor and of the self correction model are validated through the reliability and classification modules, respectively. The model is evaluated with a database containing measurements of industrial sensors that control and carry out the monitoring of an internal combustion engine installed in a mining truck. Experimental results show the ability of the proposed model to map and correct signals from faulty sensors with a low error, and to provide a tool for sensor review scheduling.
67

[en] CALCULATION OF SECURITY INDEXES IN POWER SYSTEMS BASED ON TIME DOMAIN SIMULATION / [pt] CÁLCULO DE ÍNDICES DE SEGURANÇA EM SISTEMAS DE ENERGIA ELÉTRICA BASEADO EM SIMULAÇÃO NO DOMÍNIO DO TEMPO

JOAO MAGALHAES DAHL 16 October 2006 (has links)
[pt] Os sistemas de energia elétrica estão operando atualmente próximos dos limites de estabilidade, comprometendo a segurança. Este fato tem sido evidenciado por diversos blackouts no mundo inteiro. A avaliação da segurança dinâmica torna-se, então, fundamental. O objetivo é a busca de um método rápido e, sobretudo, confiável, para analisar o comportamento dinâmico de um sistema de energia elétrica. Esta dissertação trata, portanto, do problema da avaliação da segurança dinâmica de sistemas de energia elétrica. A avaliação é realizada através da determinação das margens de estabilidade, utilizando os resultados de simulações no domínio do tempo, que fornece informações qualitativas a respeito da estabilidade na primeira oscilação. O grupo de geradores severamente perturbados é determinado e a margem de estabilidade de cada um deles é calculada. O gerador que apresentar a menor margem determina a margem de estabilidade do sistema. Quando a margem de estabilidade assume valor nulo, o tempo crítico de eliminação da falta é obtido. Estes resultados são comparados com aqueles determinados pelo método de tentativa e erro, utilizando um programa convencional de estabilidade transitória. Desta forma, as contingências são classificadas em função dos tempos críticos de eliminação de falta, de acordo com o nível de severidade. Essa classificação permite reduzir o conjunto de contingências a ser estudado. A contribuição deste trabalho é mostrar que o critério baseado na aceleração imediatamente após a eliminação da falta é mais eficaz que aquele baseado na aceleração imediatamente após a ocorrência da falta para a indicação do grupo de geradores severamente perturbados. / [en] Power systems have been operating nowadays near to the stability limits putting security under risk. This is one of the reasons why the dynamic security assessment is a fundamental tool to avoid the occurrence of blackouts in the whole world. The goal is a reliable and fast way to evaluate the dynamic behavior of a power system. This dissertation deals with the problem of dynamic security assessment of power systems. The evaluation is performed based on stability margins calculated from time domain simulation results, providing qualitative information about the first swing stability. The group of severely disturbed machines is defined and the stability margins are determined. The machine with the lowest margin determines the stability margin of the system. When the system margin approaches the zero value, the critical clearing time is obtained. These outcomes are compared with that ones determined by trial and error method using a conventional transient stability program. Having done that, a contingency ranking is defined according to the critical clearing time. The ranking minimizes the number of contingencies that have to be studied. This dissertation shows that the criterion to define the group of severely disturbed machines based on the machine accelerations at the instant immediately after the fault clearing time is more efficient than that one based on the machine accelerations at the instant immediately after the fault occurrence.
68

[en] A DEPENDENCY TREE ARC FILTER / [pt] UM FILTRO PARA ARCOS EM ÁRVORES DE DEPENDÊNCIA

RENATO SAYAO CRYSTALLINO DA ROCHA 13 December 2018 (has links)
[pt] A tarefa de Processamento de Linguagem Natural consiste em analisar linguagens naturais de forma computacional, facilitando o desenvolvimento de programas capazes de utilizar dados falados ou escritos. Uma das tarefas mais importantes deste campo é a Análise de Dependência. Tal tarefa consiste em analisar a estrutura gramatical de frases visando extrair aprender dados sobre suas relações de dependência. Em uma sentença, essas relações se apresentam em formato de árvore, onde todas as palavras são interdependentes. Devido ao seu uso em uma grande variedade de aplicações como Tradução Automática e Identificação de Papéis Semânticos, diversas pesquisas com diferentes abordagens são feitas nessa área visando melhorar a acurácia das árvores previstas. Uma das abordagens em questão consiste em encarar o problema como uma tarefa de classificação de tokens e dividi-la em três classificadores diferentes, um para cada sub-tarefa, e depois juntar seus resultados de forma incremental. As sub-tarefas consistem em classificar, para cada par de palavras que possuam relação paidependente, a classe gramatical do pai, a posição relativa entre os dois e a distância relativa entre as palavras. Porém, observando pesquisas anteriores nessa abordagem, notamos que o gargalo está na terceira sub-tarefa, a predição da distância entre os tokens. Redes Neurais Recorrentes são modelos que nos permitem trabalhar utilizando sequências de vetores, tornando viáveis problemas de classificação onde tanto a entrada quanto a saída do problema são sequenciais, fazendo delas uma escolha natural para o problema. Esse trabalho utiliza-se de Redes Neurais Recorrentes, em específico Long Short-Term Memory, para realizar a tarefa de predição da distância entre palavras que possuam relações de dependência como um problema de classificação sequence-to-sequence. Para sua avaliação empírica, este trabalho segue a linha de pesquisas anteriores e utiliza os dados do corpus em português disponibilizado pela Conference on Computational Natural Language Learning 2006 Shared Task. O modelo resultante alcança 95.27 por cento de precisão, resultado que é melhor do que o obtido por pesquisas feitas anteriormente para o modelo incremental. / [en] The Natural Language Processing task consists of analyzing the grammatical structure of a sentence written in natural language aiming to learn, identify and extract information related to its dependency structure. This data can be structured like a tree, since every word in a sentence has a head-dependent relation to another word from the same sentence. Since Dependency Parsing is used in many applications like Machine Translation, Semantic Role Labeling and Part-Of-Speech Tagging, researchers aiming to improve the accuracy on their models are approaching this task in many different ways. One of the approaches consists in looking at this task as a token classification problem, using different classifiers for each sub-task and joining them in an incremental way. These sub-tasks consist in classifying, for each head-dependent pair, the Part-Of-Speech tag of the head, the relative position between the two words and the distance between them. However, previous researches using this approach show that the bottleneck lies in the distance classifier. Recurrent Neural Networks are a kind of Neural Network that allows us to work using sequences of vectors, allowing for classification problems where both our input and output are sequences, making them a great choice for the problem at hand. This work studies the use of Recurrent Neural Networks, in specific Long Short-Term Memory networks, for the head-dependent distance classifier sub-task as a sequence-to-sequence classification problem. To evaluate its efficiency, this work follows the line of previous researches and makes use of the Portuguese corpus of the Conference on Computational Natural Language Learning 2006 Shared Task. The resulting model attains 95.27 percent precision, which is better than the previous results obtained using incremental models.
69

[en] NEUROEVOLUTIVE LEARNING AND CONCEPT DRIFT DETECTION IN NON-STATIONARY ENVIRONMENTS / [pt] APRENDIZAGEM NEUROEVOLUTIVA E DETECÇÃO DE CONCEPT DRIFT EM AMBIENTES NÃO ESTACIONÁRIOS

TATIANA ESCOVEDO 04 July 2016 (has links)
[pt] Os conceitos do mundo real muitas vezes não são estáveis: eles mudam com o tempo. Assim como os conceitos, a distribuição de dados também pode se alterar. Este problema de mudança de conceitos ou distribuição de dados é conhecido como concept drift e é um desafio para um modelo na tarefa de aprender a partir de dados. Este trabalho apresenta um novo modelo neuroevolutivo com inspiração quântica, baseado em um comitê de redes neurais do tipo Multi-Layer Perceptron (MLP), para a aprendizagem em ambientes não estacionários, denominado NEVE (Neuro-EVolutionary Ensemble). Também apresenta um novo mecanismo de detecção de concept drift, denominado DetectA (Detect Abrupt) com a capacidade de detectar mudanças tanto de forma proativa quanto de forma reativa. O algoritmo evolutivo com inspiração quântica binário-real AEIQ-BR é utilizado no NEVE para gerar automaticamente novos classificadores para o comitê, determinando a topologia mais adequada para a nova rede, selecionando as variáveis de entrada mais apropriadas e determinando todos os pesos da rede neural MLP. O algoritmo AEIQ-R determina os pesos de votação de cada rede neural membro do comitê, sendo possível utilizar votação por combinação linear, votação majoritária ponderada e simples. São implementadas quatro diferentes abordagens do NEVE, que se diferem uma da outra pela forma de detectar e tratar os drifts ocorridos. O trabalho também apresenta resultados de experimentos realizados com o método DetectA e com o modelo NEVE em bases de dados reais e artificiais. Os resultados mostram que o detector se mostrou robusto e eficiente para bases de dados de alta dimensionalidade, blocos de tamanho intermediário, bases de dados com qualquer proporção de drift e com qualquer balanceamento de classes e que, em geral, os melhores resultados obtidos foram usando algum tipo de detecção. Comparando a acurácia do NEVE com outros modelos consolidados da literatura, verifica-se que o NEVE teve acurácia superior na maioria dos casos. Isto reforça que a abordagem por comitê neuroevolutivo é uma escolha robusta para situações em que as bases de dados estão sujeitas a mudanças repentinas de comportamento. / [en] Real world concepts are often not stable: they change with time. Just as the concepts, data distribution may change as well. This problem of change in concepts or distribution of data is known as concept drift and is a challenge for a model in the task of learning from data. This work presents a new neuroevolutive model with quantum inspiration called NEVE (Neuro- EVolutionary Ensemble), based on an ensemble of Multi-Layer Perceptron (MLP) neural networks for learning in non-stationary environments. It also presents a new concept drift detection mechanism, called DetectA (DETECT Abrupt) with the ability to detect changes both proactively as reactively. The evolutionary algorithm with binary-real quantum inspiration AEIQ-BR is used in NEVE to automatically generate new classifiers for the ensemble, determining the most appropriate topology for the new network and by selecting the most appropriate input variables and determining all the weights of the neural network. The AEIQ-R algorithm determines the voting weight of each neural network ensemble member, and you can use voting by linear combination and voting by weighted or simple majority. Four different approaches of NEVE are implemented and they differ from one another by the way of detecting and treating occurring drifts. The work also presents results of experiments conducted with the DetectA method and with the NEVE model in real and artificial databases. The results show that the detector has proved efficient and suitable for data bases with high-dimensionality, intermediate sized blocks, any proportion of drifts and with any class balancing. Comparing the accuracy of NEVE with other consolidated models in the literature, it appears that NEVE had higher accuracy in most cases. This reinforces that the neuroevolution ensemble approach is a robust choice to situations in which the databases are subject to sudden changes in behavior.
70

[en] POROSITY ESTIMATION FROM SEISMIC ATTRIBUTES WITH SIMULTANEOUS CLASSIFICATION OF SPATIALLY STRUCTURED LATENT FACIES / [pt] PREDIÇÃO DE POROSIDADE A PARTIR DE ATRIBUTOS SÍSMICOS COM CLASSIFICAÇÃO SIMULTÂNEA DE FACIES GEOLÓGICAS LATENTES EM ESTRUTURAS ESPACIAIS

LUIZ ALBERTO BARBOSA DE LIMA 26 April 2018 (has links)
[pt] Predição de porosidade em reservatórios de óleo e gás representa em uma tarefa crucial e desafiadora na indústria de petróleo. Neste trabalho é proposto um novo modelo não-linear para predição de porosidade que trata fácies sedimentares como variáveis ocultas ou latentes. Esse modelo, denominado Transductive Conditional Random Field Regression (TCRFR), combina com sucesso os conceitos de Markov random fields, ridge regression e aprendizado transdutivo. O modelo utiliza volumes de impedância sísmica como informação de entrada condicionada aos valores de porosidade disponíveis nos poços existentes no reservatório e realiza de forma simultânea e automática a classificação das fácies e a estimativa de porosidade em todo o volume. O método é capaz de inferir as fácies latentes através da combinação de amostras precisas de porosidade local presentes nos poços com dados de impedância sísmica ruidosos, porém disponíveis em todo o volume do reservatório. A informação precisa de porosidade é propagada no volume através de modelos probabilísticos baseados em grafos, utilizando conditional random fields. Adicionalmente, duas novas técnicas são introduzidas como etapas de pré-processamento para aplicação do método TCRFR nos casos extremos em que somente um número bastante reduzido de amostras rotuladas de porosidade encontra-se disponível em um pequeno conjunto de poços exploratórios, uma situação típica para geólogos durante a fase exploratória de uma nova área. São realizados experimentos utilizando dados de um reservatório sintético e de um reservatório real. Os resultados comprovam que o método apresenta um desempenho consideravelmente superior a outros métodos automáticos de predição em relação aos dados sintéticos e, em relação aos dados reais, um desempenho comparável ao gerado por técnicas tradicionais de geo estatística que demandam grande esforço manual por parte de especialistas. / [en] Estimating porosity in oil and gas reservoirs is a crucial and challenging task in the oil industry. A novel nonlinear model for porosity estimation is proposed, which handles sedimentary facies as latent variables. It successfully combines the concepts of conditional random fields (CRFs), transductive learning and ridge regression. The proposed Transductive Conditional Random Field Regression (TCRFR) uses seismic impedance volumes as input information, conditioned on the porosity values from the available wells in the reservoir, and simultaneously and automatically provides as output the porosity estimation and facies classification in the whole volume. The method is able to infer the latent facies states by combining the local, labeled and accurate porosity information available at well locations with the plentiful but imprecise impedance information available everywhere in the reservoir volume. That accurate information is propagated in the reservoir based on conditional random field probabilistic graphical models, greatly reducing uncertainty. In addition, two new techniques are introduced as preprocessing steps for the application of TCRFR in the extreme but realistic cases where just a scarce amount of porosity labeled samples are available in a few exploratory wells, a typical situation for geologists during the evaluation of a reservoir in the exploration phase. Both synthetic and real-world data experiments are presented to prove the usefulness of the proposed methodology, which show that it outperforms previous automatic estimation methods on synthetic data and provides a comparable result to the traditional manual labored geostatistics approach on real-world data.

Page generated in 0.0343 seconds