Global ETD Search

71	[pt] CLASSIFICAÇÃO DE RESERVATÓRIO UTILIZANDO DADOS DA DERIVADA DE PRESSÃO DE TESTE DE POÇOS / [en] RESERVOIR CLASSIFICATION USING WELL-TESTING PRESSURE DERIVATIVE DATA ANDRE RICARDO DUCCA FERNANDES 29 June 2021 (has links) [pt] Identificar o modelo de um reservatório é o primeiro passo para interpretar corretamente os dados gerados em um teste de poços e desta forma estimar os parâmetros relacionados a esse modelo. O objetivo deste trabalho é de forma inversa, utilizar as curvas de pressão obtidas em um teste de poços, para identificar o modelo de um reservatório. Como os dados obtidos em um teste de poços podem ser ordenados ao longo do tempo, nossa abordagem será reduzir essa tarefa a um problema de classificação de séries temporais, onde cada modelo de reservatório representa uma classe. Para tanto, foi utilizada uma técnica chamada shapelet, que são subsequências de uma série temporal que representam uma classe. A partir disso, foi construído um novo feature space, onde foi medida a distância entre cada série temporal e as shapelets de cada classe. Então foi criado um comitê de votação utilizando os modelos k-nearest neighbors, decision tree, random forest, support vector machines, perceptron, multi layer perceptron e adaboost. Foram testados os pré-processamentos standard scaler, normalizer, robust scaler, power transformer and quantile transformer. Então a classificação foi feita no novo feature space pré-processado. Geramos 10 modelos de reservatório multiclass analíticos para validação. Os resultados revelam que o uso de modelos clássicos de aprendizado de máquina com shapelets, usando os pré-processamentos normalizer e quantile trasformer alcança resultados sólidos na identificação dos modelos de reservatório. / [en] Identifying a reservoir model is the first step to correctly interpret the data generated in a well-test and hence to estimate the related parameters to this model. The goal of this work is inversely to use the pressure curves, obtained in a well-test, to identify a reservoir model. Since the data obtained in a well-test can be ordered over time, we reduce this task to a problem of time series classification, where every reservoir model represents a class. For that purpose, we used a technique called shapelets, which are times series subsequences that represent a class. From that, a new feature space was built, where we measured the distance between every time series and the shapelets of every class. Then we created an ensemble using the models k-nearest neighbors, decision tree, random forest, support vector machines, perceptron, multi-layer perceptron, and adaboost. The preprocessings standard scaler, normalizer, robust scaler, power transformer, and quantile transformer were tested. Then the classification was performed on the new preprocessed feature space. We generated 10 analytical multiclass reservoir models for validation. The results reveal that the use of classical machine learning models with shapelets, using the normalizer and quantile transformer preprocessing, reaches solid results on the identification of reservoir models. [pt] APRENDIZADO DE MAQUINA [pt] SHAPELETS [pt] DERIVADA DE PRESSAO [pt] TESTE DE POCO [pt] SERIE TEMPORAL [en] MACHINE LEARNING [en] SHAPELETS [en] PRESSURE DERIVATIVE [en] WELLBORE TEST [en] TIME SERIE
72	[pt] ENSAIOS EM PREDIÇÃO DO TEMPO DE PERMANÊNCIA EM UNIDADES DE TERAPIA INTENSIVA / [en] ESSAYS ON LENGTH OF STAY PREDICTION IN INTENSIVE CARE UNITS IGOR TONA PERES 28 June 2021 (has links) [pt] O tempo de permanência (LoS) é uma das métricas mais utilizadas para avaliar o uso de recursos em Unidades de Terapia Intensiva (UTI). Esta tese propõe uma metodologia estruturada baseada em dados para abordar três principais demandas de gestores de UTI. Primeiramente, será proposto um modelo de predição individual do LoS em UTI, que pode ser utilizado para o planejamento dos recursos necessários. Em segundo lugar, tem-se como objetivo desenvolver um modelo para predizer o risco de permanência prolongada, o que auxilia na identificação deste tipo de paciente e assim uma ação mais rápida de intervenção no mesmo. Finalmente, será proposto uma medida de eficiência ajustada por case-mix capaz de realizar análises comparativas de benchmark entre UTIs. Os objetivos específicos são: (i) realizar uma revisão da literatura dos fatores que predizem o LoS em UTI; (ii) propor uma metodologia data-driven para predizer o LoS individual do paciente na UTI e o seu risco de longa permanência; e (iii) aplicar essa metodologia no contexto de um grande conjunto de UTIs de diferentes tipos de hospitais. Os resultados da revisão da literatura apresentaram os principais fatores de risco que devem ser considerados em modelos de predição. Em relação ao modelo preditivo, a metodologia proposta foi aplicada e validada em um conjunto de dados de 109 UTIs de 38 diferentes hospitais brasileiros. Este conjunto continha um total de 99.492 internações de 01 de janeiro a 31 de dezembro de 2019. Os modelos preditivos construídos usando a metodologia proposta apresentaram resultados precisos comparados com a literatura. Estes modelos propostos têm o potencial de melhorar o planejamento de recursos e identificar precocemente pacientes com permanência prolongada para direcionar ações de melhoria. Além disso, foi utilizado o modelo de predição proposto para construir uma medida não tendenciosa para benchmarking de UTIs, que também foi validada no conjunto de dados estudado. Portanto, esta tese propôs um guia estruturado baseado em dados para gerar predições para o tempo de permanência em UTI ajustadas ao contexto em que se deseja avaliar. / [en] The length of stay (LoS) in Intensive Care Units (ICU) is one of the most used metrics for resource use. This thesis proposes a structured datadriven methodology to approach three main demands of ICU managers. First, we propose a model to predict the individual ICU length of stay, which can be used to plan the number of beds and staff required. Second, we develop a model to predict the risk of prolonged stay, which helps identifying prolonged stay patients to drive quality improvement actions. Finally, we build a case-mix-adjusted efficiency measure (SLOSR) capable of performing non-biased benchmarking analyses between ICUs. To achieve these objectives, we divided the thesis into the following specific goals: (i) to perform a literature review and meta-analysis of factors that predict patient s LoS in ICUs; (ii) to propose a data-driven methodology to predict the numeric ICU LoS and the risk of prolonged stay; and (iii) to apply this methodology in the context of a big set of ICUs from mixed-type hospitals. The literature review results presented the main risk factors that should be considered in future prediction models. Regarding the predictive model, we applied and validated our proposed methodology to a dataset of 109 ICUs from 38 different Brazilian hospitals. The included dataset contained a total of 99,492 independent admissions from January 01 to December 31, 2019. The predictive models to numeric ICU LoS and to the risk of prolonged stay built using our data-driven methodology presented accurate results compared to the literature. The proposed models have the potential to improve the planning of resources and early identifying prolonged stay patients to drive quality improvement actions. Moreover, we used our prediction model to build a non-biased measure for ICU benchmarking, which was also validated in our dataset. Therefore, this thesis proposed a structured data-driven guide to generating predictions to ICU LoS adjusted to the specific environment analyzed. [pt] APRENDIZADO DE MAQUINA [pt] UNIDADES DE TERAPIA INTENSIVA [pt] TEMPO DE PERMANENCIA [pt] MODELOS PREDITIVOS [pt] CIENCIA DE DADOS [en] MACHINE LEARNING [en] INTENSIVE CARE UNITS [en] LENGTH OF STAY [en] PREDICTIVE MODELS [en] DATA SCIENCE
73	[pt] MINERANDO O PROCESSO DE UM COQUEAMENTO RETARDADO ATRAVÉS DE AGRUPAMENTO DE ESTADOS / [en] MINING THE PROCESS OF A DELAYED COKER USING CLUSTERED STATES RAFAEL AUGUSTO GASETA FRANCA 25 November 2021 (has links) [pt] Procedimentos e processos são essenciais para garantir a qualidade de qualquer operação. Porém, o processo realizado na prática nem sempre está de acordo com o processo idealizado. Além disso, uma análise mais refinada de gargalos e inconsistências só é possível a partir do registro de eventos do processo (log). Mineração de processos (process mining) é uma área que reúne um conjunto de métodos para reconstruir, monitorar e aprimorar um processo a partir de seu registro de eventos. Mas, ao aplicar as soluções já existentes no log de uma unidade de coqueamento retardado, os resultados foram insatisfatórios. O núcleo do problema está na forma como o log está estruturado, carecendo de uma identificação de casos, essencial para a mineração do processo. Para contornar esse problema, aplicamos agrupamento hierárquico aglomerativo no log, separando as válvulas em grupos que exercem uma função na operação. Desenvolvemos uma ferramenta (PLANTSTATE) para avaliar a qualidade desses grupos no contexto da planta e ajustar conforme a necessidade do domínio. Identificando os momentos de ativação desses grupos no log chegamos a uma estrutura de sequência e paralelismo entre os grupos. Finalmente, propomos um modelo capaz de representar as relações entre os grupos, resultando em um processo que representa a operações em uma unidade de coqueamento retardado. / [en] Procedures and processes are essential to guarantee the quality of any operation. However, processes carried out in the real world are not always in accordance with the imagined process. Furthermore, a more refined analysis of obstacles and inconsistencies is only possible from the process events record (log). Process mining is an area that brings together a set of methods to rebuild, monitor and improve processes from their log. Nevertheless, when applying existing solutions to the log of a delayed coker unit, the results were unsatisfactory. The core of the problem is how the log is structured, lacking a case identification, essential for process mining. To deal with this issue, we apply agglomerative hierarchical clustering in the log, separating the valves into groups that perform a task in an operation. We developed a tool (PLANTSTATE) to assess the quality of these groups in the context of the plant and to adjust in accord to the needs of the domain. By identifying the moments of activation of these groups in the log we arrive at a structure of sequence and parallelism between the groups. Finally, we propose a model capable of representing the relationships between groups, resulting in a process that represents the operations in a delayed coker unit. [pt] APRENDIZADO DE MAQUINA [pt] COQUEAMENTO RETARDADO [pt] MINERACAO DE PROCESSOS [pt] CIENCIA DE DADOS [en] MACHINE LEARNING [en] DELAYED COKE [en] PROCESS MINING [en] DATA SCIENCE
74	[en] PREDICTING DRY GAS SEALS RELIABILITY WITH MACHINE LEARNING TECHNIQUES DEVELOPED FROM SCARCE DATA / [pt] PREVISÃO DE CONFIABILIDADE DE SELOS SECOS A GÁS COM TÉCNICAS DE MACHINE LEARNING DESENVOLVIDO A PARTIR DE DADOS ESCASSOS MATHEUS HOFFMANN BRITO 07 November 2022 (has links) [pt] A correta operação de equipamentos na indústria de Óleo e Gás é fundamental para a reduzir perdas ambientais, humanas e financeiras. Neste cenário, foram estudados selos secos a gás (em inglês,DGS) de compressores cetrífugos, por serem identificados como os mais críticos devido à extensão dos danos potenciais causados em caso de falha. Neste estudo, foram desenvolvidos 31 modelos regressivos disponíveis no Scikit-Learn através de técnicas de aprendizado de máquina (em inglês, ML). Estes foram treinados com um conjunto de dados escassos, criado a partir de uma técnica de planejamento de experimentos, para substituir simulações numéricas na previsão de confiabilidade operacional de DGSs. Primeiramente, foi validado um modelo baseado na simulação da Dinâmica dos Fluidos Computacionais (em inglês, CFD) para representar o escoamento do gás entre as faces de selagem, a fim de possibilitar o cálculo da confiabilidade operacional do equipamento. Neste, foi utilizado o software de CFD de código aberto OpenFOAM em conjunto com o banco de dados de substâncias do software REFPROP, a fim de possibilitar ao usuário definir a mistura gasosa e as condições operacionais avaliadas. Em seguida, foram realizados dois estudos de caso seguindo um fluxograma genérico de projeto proposto. O primeiro consistiu na determinação de um modelo regressivo para estimar a confiabilidade de um DGS cuja composição gasosa (composta por metano, etano e octano) é fixa porém suas condições operacionais podem ser alteradas. Já o segundo consistiu na determinação de um modelo regressivo mais robusto, onde tanto a composição gasosa como as condições operacionais podem ser alteradas. Por fim, foi avaliada a viabilidade de implementação de ambos os modelos em condições reais de operação, baseado na norma infinita obtida para a predição do conjunto de teste. As performances atingidar foram de 1.872 graus Celsius e 6.951 grau Celsius para o primeiro e segundo estudos de caso, respectivamente. / [en] The correct equipment operation in the Oil and Gas industry is essential to reduce environmental, human, and financial losses. In this scenario, dry gas seals (DGS) of centrifugal compressors were studied, as they are identified as the most critical device due to the extent of the potential damage caused by their failure. In this study, 31 regression models available at Scikit-Learn were developed using machine learning (ML) techniques. They were trained with a scarce dataset, created based on a design of experiment technique, to replace numerical simulations in predicting the operational reliability of DGSs. First, a model based on Computational Fluid Dynamics (CFD) simulation was validated to represent the gas flowing between the sealing faces, to enable the calculation of the equipment’s operational reliability. Thus, the open-source CFD software OpenFOAM was used together with the substance database of the software REFPROP, to allow the user to define the gas mixture and the evaluated operational conditions. Then, two case studies were carried out following a proposed generic workflow. The first comprised determining a regression model to estimate the reliability of a DGS whose mixture composition (composed of methane, ethane, and octane) is fixed but its operating conditions can vary. The second consisted of determining a more robust regressive model, where both the mixture composition and the operational conditions can vary. Finally, the feasibility of implementing both models under realistic operating conditions was evaluated, based on the infinity norm obtained for the prediction of the test set. The performances achieved were 1.872 degrees Celsius and 6.951 degrees Celsius for the first and second case studies, respectively. [pt] APRENDIZADO DE MAQUINA [pt] REFPROP [pt] SELO SECO A GAS [pt] OPENFOAM [pt] DINAMICA DOS FLUIDOS COMPUTACIONAL [en] MACHINE LEARNING [en] REFPROP [en] DRY GAS SEALS [en] OPENFOAM [en] COMPUTATIONAL FLUIDS DYNAMICS
75	[en] A GENERIC PLUGIN FOR PLAYER CLASSIFICATION IN GAMES / [pt] UM PLUGIN GENÉRICO PARA CLASSIFICAÇÃO DE JOGADOR EM JOGOS LUIS FERNANDO TEIXEIRA BICALHO 22 November 2022 (has links) [pt] Game Analytics é uma área que envolve o processamento de dados de videogames com a finalidade de proporcionar uma melhor experiência de jogo para o usuário. Também ajuda a verificar os padrões de comportamento dos jogadores, facilitando a identificação do público-alvo. A coleta de dados dos jogadores ajuda os desenvolvedores de jogos a identificar problemas mais cedo e saber por que os jogadores deixaram o jogo ou continuaram jogando. O comportamento desses jogadores geralmente segue um padrão, fazendo com que se encaixem em diferentes perfis de jogadores. Especialistas em análise de jogos criam e usam modelos de tipos de jogadores, geralmente variantes do modelo de Bartle, para ajudar a identificar perfis de jogadores. Esses especialistas usam algoritmos de agrupamento para separar os jogadores em grupos diferentes e identificáveis, rotulando cada grupo com o tipo de perfil definido pelo modelo proposto. O objetivo principal deste projeto é criar um plugin Unity genérico para ajudar a identificar perfis de jogadores em jogos. Este plugin usa uma API Python, que lida com os dados do jogo armazenados em um banco de dados MongoDB, para agrupar e rotular cada partida ou nível do jogo escolhido enquanto o jogo está em execução. Neste plugin, os desenvolvedores de jogos podem configurar o número de tipos de jogadores que desejam identificar, os rótulos dos jogadores e até os algoritmos que desejam usar. Essa abordagem de agrupamento online não é usual no desenvolvimento de jogos. Até onde sabemos, não há nenhum componente de software na literatura de análise de jogos com a mesma direção e recursos. / [en] Game Analytics is an area that involves the processing of video game data, in order to make a better game experience for the user. It also helps to check the patterns in players behaviour, making it easier to identify the target audience. Gathering player data helps game developers identify problems earlier and know why players left the game or kept playing. These players behavior usually follows a pattern, making them fit in different player profiles. Game analytics experts create and use models of player types, usually variants of Bartle s model, to help identify player profiles. These experts use clustering algorithms to separate players into different and identifiable groups, labeling each group with the profile type defined by the proposed model. The main goal of this project is to create a generic Unity plugin to help identify Player Profiles in games. This plugin uses a Python API, which deals with the game data stored in a MongoDB database, to cluster and label each match or level of the chosen game while the game is running. In this plugin, game developers can configure the number of player types they want to identify, the player labels, and even the algorithms they wish to use. This online clustering approach is not usual in game development. As far as we are aware, there is no software component in the game analytics literature with the same direction and features. [pt] APRENDIZADO DE MAQUINA [pt] TELEMETRIA [pt] CLASSIFICACAO DE JOGADORES [pt] GAME ANALYTICS [en] MACHINE LEARNING [en] TELEMETRY [en] PLAYER BEHAVIOR MODELS [en] PLAYER CLASSIFICATION [en] GAME ANALYTICS
76	[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO / [en] DEEP LEARNING APPLIED TO TEXT CHUNKING MIGUEL MENDES DE BRITO 15 May 2019 (has links) [pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. / [en] Natural Language Processing is a research field that explores how computers can understand and manipulate natural language texts. Sequence tagging is amongst the most well-known tasks in NLP. Text Chunking is one of the problems that can be approached as a sequence tagging problem. Thus, we classify which words belong to a chunk, where each chunk represents a disjoint group of syntactically correlated words. This type of chunking has important applications in more complex tasks of natural language processing, such as dependency parsing, machine translation, semantic role labeling, clause identification and much more. The goal of this work is to present a deep neural network archtecture for the Portuguese text chunking problem. The corpus used in the experiments is the Bosque, from the Floresta Sintá(c)tica project. Based on recent work in the field, our approach surpass the state-of-the-art for Portuguese by achieving a F(beta)=1 of 90.51, which corresponds to an increase of 2.56 in comparison with the previous work. In addition, in order to attest the chunker effectiveness we use the tags obtained by our system as feature for the depedency parsing task. These features improved the accuracy of the parser by 0.87. [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] SEGMENTACAO TEXTUAL [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] DEEP LEARNING [en] TEXT CHUNKING [en] NATURAL LANGUAGE PROCESSING
77	[en] REDUCING TEACHER-STUDENT INTERACTIONS BETWEEN TWO NEURAL NETWORKS / [pt] REDUZINDO AS INTERAÇÕES PROFESSOR-ALUNO ENTRE DUAS REDES NEURAIS GUSTAVO MADEIRA KRIEGER 11 October 2019 (has links) [pt] Propagação de conhecimento é um dos pilares da evolução humana. Nossas descobertas são baseadas em conhecimentos já existentes, construídas em cima deles e então se tornam a fundação para a próxima geração de aprendizado. No ramo de Inteligência Artificial, existe o interesse em replicar esse aspecto da natureza humana em máquinas. Criando um primeiro modelo e treinando ele nos dados originais, outro modelo pode ser criado e aprender a partir dele ao invés de ter que começar todo o processo do zero. Se for comprovado que esse método é confiável, ele vai permitir várias mudanças na forma que nós abordamos machine learning, em que cada inteligência não será um microcosmo independente. Essa relação entre modelos é batizada de relação Professor-Aluno. Esse trabalho descreve o desenvolvimento de dois modelos distintos e suas capacidades de aprender usando a informação dada em um ao outro. Os experimentos apresentados aqui mostram os resultados desse treino e as diferentes metodologias usadas em busca do cenário ótimo em que esse processo de aprendizado é viável para replicação futura. / [en] Propagation of knowledge is one of the pillars of human evolution. Our discoveries are all based on preexisting knowledge, built upon them and then become the foundation for the next generation of learning. In the field of artificial intelligence, there s an interest in replicating this aspect of human nature on machines. By creating a first model and training it on the original data, another model can be created and learn from it instead of having to learn everything from scratch. If this method is proven to be reliable, it will allow many changes in the way that we approach machine learning, specially allowing different models to work together. This relation between models is nicknamed the Teacher-Student relation. This work describes the development of two separate models and their ability to learn using incomplete data and each other. The experiments presented here show the results of this training and the different methods used in the pursuit of an optimal scenario where such learning process is viable for future use. [pt] APRENDIZADO DE MAQUINA [pt] DESTILACAO DE CONHECIMENTO [pt] PERCEPTRON MULTICAMADAS [pt] CLASSIFICACAO EM MULTIPLAS CLASSES [en] MACHINE LEARNING [en] KNOWLEDGE DISTILLATION [en] PERCEPTRON MULTILAYERS [en] MULTI-CLASS CLASSIFICATION
78	[pt] MODELOS ESTATÍSTICOS COM PARÂMETROS VARIANDO SEGUNDO UM MECANISMO ADAPTATIVO / [en] STATISTICAL MODELS WITH PARAMETERS CHANGING THROUGH AN ADAPTIVE MECHANISM HENRIQUE HELFER HOELTGEBAUM 23 October 2019 (has links) [pt] Esta tese é composta de três artigos em que a ligação entre eles são modelos estatísticos com parametros variantes no tempo. Todos os artigos adotam um arcabouço que utiliza um mecanismo guiado pelos dados para a atualização dos parâmetros dos modelos. O primeiro explora a aplicação de uma nova classe de modelos de séries temporais não Gaussianas denominada modelos Generalized Autegressive Scores (GAS). Nessa classe de modelos, os parâmetros são atualizados utilizando o score da densidade preditiva. Motivamos o uso de modelos GAS simulando cenários conjuntos de fator de capacidade eólico. Nos últimos dois artigos, o gradiente descentente estocástico (SGD) é adotado para atualizar os parâmetros que variam no tempo. Tal metodologia utiliza a derivada de uma função custo especificada pelo usuário para guiar a otimização. A estrutura desenvolvida foi projetada para ser aplicada em um contexto de fluxo de dados contínuo, portanto, técnicas de filtragem adaptativa são exploradas para levar em consideração o concept-drift. Exploramos esse arcabouço com aplicações em segurança cibernética e infra-estrutura instrumentada. / [en] This thesis is composed of three papers in which the common ground among them is statistical models with time-varying parameters. All of them adopt a framework that uses a data-driven mechanism to update its coefficients. The first paper explores the application of a new class of non-Gaussian time series framework named Generalized Autoregressive Scores (GAS) models. In this class of models the parameters are updated using the score of the predictive density. We motivate the use of GAS models by simulating joint scenarios of wind power generation. In the last two papers, Stochastic Gradient Descent (SGD) is adopted to update time-varying parameters. This methodology uses the derivative of a user specified cost function to drive the optimization. The developed framework is designed to be applied in a streaming data context, therefore adaptive filtering techniques are explored to account for concept-drift.We explore this framework on cyber-security and instrumented infrastructure applications. [pt] APRENDIZADO DE MAQUINA [pt] STREAMING DATA [pt] COPULA DINAMICA [pt] FILTRAGEM ADAPTATIVA [en] MACHINE LEARNING [en] STREAMING DATA [en] DYNAMIC COPULATION [en] ADAPTIVE FILTERING
79	[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊS ROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links) [pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra de uma sentença com sua devida classe morfossintática (verbo, substantivo, adjetivo e etc). POS tagging é considerada uma atividade fundamental no processo de construção de aplicações de processamento de linguagem natural (PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de informação. Nesse trabalho, construímos um POS tagger para o Português Contemporâneo e o Português Histórico, baseado em uma arquitetura de rede neural recorrente. Tradicionalmente a construção dessas ferramentas requer muitas features específicas do domínio da linguagem e dados externos ao conjunto de treino, mas nosso POS tagger não usa esses requisitos. Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que se beneficia das representações de word embeddings e character embeddings das palavras, para atividade de classificação morfossintática. Testamos nosso POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe. Nós obtemos um desempenho ligeiramente melhor que os sistemas estado da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original, 97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para a medida de acurácia fora do vocabulário, uma acurácia especial calculada somente sobre as palavras desconhecidas do conjunto de treino. Realizamos ainda um estudo comparativo para verificar qual dentre os mais populares algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec e Glove), é mais adequado para a atividade POS tagging em Português. O modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word in a sentence with a morphosyntactic class (verb, noun, adjective and etc). POS tagging is a fundamental part of the linguistic pipeline, most natural language processing (NLP) applications demand, at some step, part-of-speech information. In this work, we constructed a POS tagger for Contemporary Portuguese and Historical Portuguese, using a recurrent neural network architecture. Traditionally the development of these tools requires many handcraft features and external data, our POS tagger does not use these elements. We trained a Bidirectional Long short-term memory (BLSTM) network that benefits from the word embeddings and character embeddings representations of the words, for morphosyntactic classification. We tested our POS tagger on three different corpora: the original version of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus, and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus, 97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the Tycho Brahe corpus. We also achieved an improvement in the three corpora in out-of-vocabulary accuracy, that is the accuracy on words not seen in training sentences. We also performed a comparative study to test which different types of word embeddings (Word2Vec, FastText, Wang2Vec, and Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model showed higher performance. [pt] APRENDIZADO DE MAQUINA [pt] INCORPORACAO DE PALAVRAS [pt] APRENDIZAGEM PROFUNDA [pt] ANOTACAO MORFOSSINTATICA [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] WORD EMBEDDING [en] DEEP LEARNING [en] PART-OF-SPEECH TAGGING [en] NATURAL LANGUAGE PROCESSING
80	[en] A STUDY ON NEURAL NETWORKS FOR POKER PLAYING AGENTS / [pt] UM ESTUDO EM REDES NEURAIS PARA AGENTES JOGADORES DE PÔQUER ALEXANDRE MARANGONI COSTA 12 May 2020 (has links) [pt] A ciência de dados precisa de uma grande quantidade de dados para testar e melhorar soluções. Jogos são largamente usados para abstrair situações da vida real. Rodadas de pôquer são um bom exemplo pois, por não saber as cartas dos oponentes, o jogador analisa um cenário de informação incompleta numa competição de agentes que envolve conhecimento probabilístico, análise de risco e brefe. Isso o diferencia de xadrez, damas e jogos de conhecimento perfeito e algoritmos de busca em forca bruta sobre o espaço de soluções. Usar o pôquer como um caso de teste possibilita a análise de diferentes abordagens usadas na vida real, porém num cenário mais controlado. Esta dissertação propõe um arcabouço de funcionalidades para criar e testar diferentes algorítimos de Deep Learning, que podem jogar pôquer entre sí, aprender com o histórico e maximizar suas recompensas. / [en] Data science research needs real examples to test and improve solutions. Games are widely used to mimic those real-world examples. Poker rounds are a good example of imperfect information state with competing agents dealing with probabilistic knowledge, risk assessment, and possible deception, unlike chess, checkers and perfect information brute-force search style of games. By using poker as a test-bed we can analyze different approaches used in real-world examples, in a more controlled environment, which should give great insights on how to tackle those real-world scenarios. We propose a framework to build and test different neural networks that can play against each other, learn from a supervised experience and maximize its rewards. [pt] REDE NEURAL [pt] SIMULACAO MULTIAGENTE [pt] POQUER [pt] DEEP LEARNING [pt] APRENDIZADO DE MAQUINA [en] NEURAL NETWORKS [en] MULTI AGENT SIMULATION [en] POKER [en] DEEP LEARNING [en] MACHINE LEARNING

Search results