Global ETD Search

11	[pt] CLASSIFICAÇÃO DE SENTIMENTO PARA NOTÍCIAS SOBRE A PETROBRAS NO MERCADO FINANCEIRO / [en] SENTIMENT ANALYSIS FOR FINANCIAL NEWS ABOUT PETROBRAS COMPANY PAULA DE CASTRO SONNENFELD VILELA 21 December 2011 (has links) [pt] Hoje em dia, encontramos uma grande quantidade de informações na internet, em particular, notícias sobre o mercado financeiro. Diversas pesquisas mostram que notícias sobre o mercado financeiro possuem uma grande relação com variáveis de mercado como volume de transações, volatilidade e preço das ações. Nesse trabalho, investigamos o problema de Análise de Sentimentos de notícias jornalísticas do mercado financeiro. Nosso objetivo é classificar notícias como favoráveis ou não a Petrobras. Utilizamos técnicas de Processamento de Linguagem Natural para melhorar a acurácia do modelo clássico de saco-de-palavras. Filtramos frases sobre a Petrobras e inserimos novos atributos linguísticos, tanto sintáticos como estilísticos. Para a classifição do sentimento é utilizado o algoritmo de aprendizado Support Vector Machine, sendo aplicados ainda quatro seletores de atributos e um comitê dos melhores modelos. Apresentamos aqui o Petronews, um corpus com notícias em português sobre a Petrobras, anotado manualmente com a informação de sentimento. Esse corpus é composto de mil e cinquenta notícias online de 02/06/2006 a 29/01/2010. Nossos experimentos mostram uma melhora de 5.29 por cento com relação ao modelo saco-de-palavras, atingindo uma acurácia de 87.14 por cento. / [en] A huge amount of information is available online, in particular regarding financial news. Current research indicate that stock news have a strong correlation to market variables such as trade volumes, volatility, stock prices and firm earnings. Here, we investigate a Sentiment Analysis problem for financial news. Our goal is to classify financial news as favorable or unfavorable to Petrobras, an oil and gas company with stocks in the Stock Exchange market. We explore Natural Language Processing techniques in a way to improve the sentiment classification accuracy of a classical bag of words approach. We filter on topic phrases for each Petrobras related news and build syntactic and stylistic input features. For sentiment classification, Support Vector Machines algorithm is used. Moreover we apply four feature selection methods and build a committee of SVM models. Additionally, we introduce Petronews, a Portuguese financial news annotated corpus about Petrobras. It is composed by a collection of one thousand and fifty online financial news from 06/02/2006 to 01/29/2010. Our experiments indicate that our method is 5.29 per cent better than a standard bag-of-words approach, reaching 87.14 per cent accuracy rate for this domain. Read more [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] SELECAO DE ATRIBUTOS [en] FEATURE SELECTION [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION
12	[en] AN AGENT-BASED SOFTWARE FRAMEWORK FOR MACHINE LEARNING TUNING / [pt] UM FRAMEWORK BASEADO EM AGENTES PARA A CALIBRAGEM DE MODELOS DE APRENDIZADO DE MÁQUINA JEFRY SASTRE PEREZ 23 November 2018 (has links) [pt] Hoje em dia, a enorme quantidade de dados disponíveis online apresenta um novo desafio para os processos de descoberta de conhecimento. As abordagens mais utilizadas para enfrentar esse desafio são baseadas em técnicas de aprendizado de máquina. Apesar de serem muito poderosas, essas técnicas exigem que seus parâmetros sejam calibrados para gerar modelos com melhor qualidade. Esses processos de calibração são demorados e dependem das habilidades dos especialistas da área de aprendizado de máquinas. Neste contexto, esta pesquisa apresenta uma estrutura baseada em agentes de software para automatizar a calibração de modelos de aprendizagem de máquinas. Esta abordagem integra conceitos de Engenharia de Software Orientada a Agentes (AOSE) e Aprendizado de Máquinas (ML). Como prova de conceito, foi utilizado o conjunto de dados Iris para mostrar como nossa abordagem melhora a qualidade dos novos modelos gerados por nosso framework. Além disso, o framework foi instanciado para um dataset de imagens médicas e finalmente foi feito um experimento usando o dataset Grid Sector. / [en] Nowadays, the challenge of knowledge discovery is to mine massive amounts of data available online. The most widely used approaches to tackle that challenge are based on machine learning techniques. In spite of being very powerful, those techniques require their parameters to be calibrated in order to generate models with better quality. Such calibration processes are time-consuming and rely on the skills of machine learning experts. Within this context, this research presents a framework based on software agents for automating the calibration of machine learning models. This approach integrates concepts from Agent Oriented Software Engineering (AOSE) and Machine Learning (ML). As a proof of concept, we first train a model for the Iris dataset and then we show how our approach improves the quality of new models generated by our framework. Then, we create instances of the framework to generate models for a medical images dataset and finally we use the Grid Sector dataset for a final experiment. Read more [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] SISTEMAS MULTIAGENTES [en] MULTIAGENT SYSTEMS [pt] CALIBRAGEM DE MODELOS [en] CALIBRATION PROCESS
13	[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES / [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEB THORAN ARAGUEZ RODRIGUES 20 July 2009 (has links) [pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas. / [en] The amount of information on the Internet increases every day. Even though this proliferation increases the chances that the subject being searched for by an user is on the Web, it also makes finding the desired information much harder. The automated classification of pages is, therefore, an important tool for organizing Web content, with specific applications on the improvement of results displayed by search engines. In this dissertation, a comparative study of different attribute sets and classification methods for the functional classification of web pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and News. Throughout the experiments, it became evident the best approach for this task is to employ attributes that come both from the structure and the text of the web pages. We also presented a new strategy for extracting and building text attribute sets, that takes into account the different writing styles for each page class. Read more [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] CLASSIFICACAO [en] CLASSIFICATION [pt] WEB [en] WEB [pt] BLOGS [en] BLOGS
14	[en] EFFICIENT METHODS FOR INFORMATION EXTRACTION IN NEWS WEBPAGES / [pt] MÉTODOS EFICIENTES PARA EXTRAÇÃO DE INFORMAÇÃO EM PÁGINAS DE NOTÍCIAS EDUARDO TEIXEIRA CARDOSO 03 February 2017 (has links) [pt] Nós abordamos a tarefa de segmentação de páginas de notícias; mais especificamente identificação do título, data de publicação e corpo da notícia. Embora existam resultados muito bons na literatura, a maioria deles depende da renderização da página, que é uma tarefa muito demorada. Nós focamos em cenários com um alto volume de documentos, onde desempenho de tempo é uma necessidade. A abordagem escolhida estende nosso trabalho prévio na área, combinando propriedades estruturais com traços de atributos visuais, calculados através de um método mais rápido do que a renderização tradicional, e algoritmos de aprendizado de máquina. Em nossos experimentos, nos atentamos para alguns fatos não comumente abordados na literatura, como tempo de processamento e a generalização dos nossos resultados para domínios desconhecidos. Nossa abordagem se mostrou aproximadamente uma ordem de magnitude mais rápida do que alternativas equivalentes que se apoiam na renderização completa da página e manteve uma boa qualidade de extração. / [en] We tackle the task of news webpage segmentation, specifically identifying the news title, publication date and story body. While there are very good results in the literature, most of them rely on webpage rendering, which is a very time-consuming step. We focus on scenarios with a high volume of documents, where a short execution time is a must. The chosen approach extends our previous work in the area, combining structural properties with hints of visual presentation styles, computed with a faster method than regular rendering, and machine learning algorithms. In our experiments, we took special attention to some aspects that are often overlooked in the literature, such as processing time and the generalization of the extraction results for unseen domains. Our approach has shown to be about an order of magnitude faster than an equivalent full rendering alternative while retaining a good quality of extraction. Read more [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] SEGMENTACAO DE NOTICIAS [pt] RENDERIZACAO DE PAGINAS WEB
15	[pt] NOWCASTING DE PIB COM MODELOS DE MACHINE LEARNING: EVIDÊNCIA DOS EUA / [en] NOWCASTING GDP WITH MACHINE LEARNING MODELS: EVIDENCE FROM THE US LUCAS SEABRA MAYNARD DA SILVA 25 May 2020 (has links) [pt] O presente trabalho investiga o uso de métodos de Machine Learning (ML) para efetuar estimativas para o trimestre corrente (nowcasts) da taxa de crescimento do PIB Real dos EUA. Esses métodos conseguem lidar com um grande volume de dados e séries com calendários de publicação dessincronizados, e os nowcasts são atualizados cada vez que novos dados são publicados ao longo do trimestre. Um exercício pseudo-out-of-sample é proposto para avaliar a performance de previsão e analisar o padrão de seleção de variável desses modelos. O método de ML que merece o maior destaque é o Target Factor, que supera o usualmente adotado DFM para alguns vintages dentro do trimestre. Ademais, as variáveis selecionadas apresentam consistência entre os modelos e com a intuição. / [en] This paper examines the use of Machine Learning (ML) models to compute estimates of current-quarter US Real GDP growth rate (nowcasts). These methods can handle large data sets with unsynchronized release dates, and nowcasts are updated each time new data are released along the quarter. A pseudo-out-of-sample exercise is proposed to assess forecasting performance and to analyze the variable selection pattern of these models. The ML method that deserves more attention is the Target Factor, which overcomes the usually adopted dynamic factor model for some predictions vintages in the quarter. We also analyze the variables selected, which are consistent between models and intuition. Read more [pt] APRENDIZADO DE MAQUINA [pt] AVALIACAO DE PREVISAO [pt] NOWCASTING [en] MACHINE LEARNING [en] FORECAST EVALUATION [en] NOWCASTING
16	[pt] APLICAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA A PREDIÇÃO DE INTERNAÇÕES DE ALTO CUSTO / [en] MACHINE LEARNING TO PREDICT HIGH-COST HOSPITALIZATIONS ADRIAN MANRESA PEREZ 25 August 2020 (has links) [pt] Empresas do ramo da Saúde vêm evoluindo seus modelos de gestão, desenvolvendo programas proativos para melhorar a qualidade e a eficiência dos seus serviços considerando informações históricas. Estratégias proativas buscam prevenir e detectar doenças precocemente e também melhorar os resultados das internações. Nesse sentido, uma tarefa desafiadora é identificar quais pacientes devem ser incluídos em programas proativos de saúde. Para isso, a previsão e a modelagem de variáveis relacionadas aos custos estão entre as abordagens mais amplamente utilizadas, uma vez que essas variáveis sào potenciais indicadores do risco, da gravidade e do consumo de recursos médicos de uma internação. A maioria das pesquisas nesta área têm como foco modelar variáveis de custo em uma perspectiva geral e prever variações de custos para períodos específicos. Por outro lado, este trabalho se concentra na previsão dos custos de um evento específico. Em particular, esta dissertação prescreve uma solução para a predição de internações de alto custo, visando dar apoio a gestores de serviços em saúde em suas ações proativas. Para esse fim, foi seguida a metodologia de pesquisa Design Science Research (DSR), aliada ao ciclo de vida de projeto de Ciência de Dados, sobre um cenário real de uma empresa de consultoria em saúde. Os dados fornecidos descrevem internações de pacientes através de suas características demográficas e do histórico de consumo de recursos médicos. Diferentes técnicas estatísticas e de Aprendizado de Máquina foram aplicadas, como Ridge Regression (RR), Least Absolute Shrinkage and Selection Operator (LASSO), Classification and Regression Trees (CART), Random Forest (RF) e Extreme Gradient Boosting (XGB). Os resultados experimentais evidenciaram que as técnicas RF e XGB apresentaram o melhor desempenho, atingindo AUCPR de 0,732 e 0,644, respectivamente. O modelo de predição da técnica RF foi capaz de detectar até 72 porcento, em média, das internações de alto custo com 33 porcento de precisão, o que representa 78,7 porcento do custo total gerado por tais internações. Além disso, os resultados monstraram que o uso de custo prévio e variáveis agregadas de consumo de recursos aumentaram a capacidade de predição do modelo / [en] Healthcare providers are evolving their management models, developing proactive programs to improve the quality and efficiency of their health services, considering the available historical information. Proactive strategies seek not only to prevent and detect diseases but also to enhance hospitalization outcomes. In this sense, one of the most challenging tasks is to identify which patients should be included in proactive health programs. To this end, forecasting and modeling cost-related variables are among the most widely used approaches for identifying such patients, since these variables are potential indicators of the patients hospitalization risk, their severity, and their medical resources consumption. Most of the existing research works in this area aim to model cost variables from an overall perspective and predict cost variations for specific periods. In contrast, this work focuses on predicting the costs of a particular event. Specifically, this thesis prescribes a solution for identifying high-cost hospitalizations, to support health service managers in their proactive actions. To this end, the Design Science Research (DSR) methodology was combined with the Data Science life cycle in a real scenario of a health consulting company. The data provided describes patients hospitalizations through their demographic characteristics and their medical resource consumption. Different statistical and Machine Learning techniques were used to predict high-cost hospitalizations, such as Ridge Regression (RR), Least Absolute Shrinkage and Selection Operator (LASSO), Classification and Regression Trees (CART), Random Forest (RF), and Extreme Gradient Boosting (XGB). The experimental results showed that RF and XGB presented the best performance, reaching an Area Under the Curve Precision-Recall (AUCPR) of 0.732 and 0.644, respectively. In the case of RF, the model was able to detect, on average, 72 percent of the high-cost hospitalizations with a 33 percent of Precision, which represents 78.7 percent of the total cost generated by the high-cost hospitalizations. Moreover, the obtained results showed that the use of prior cost and aggregated variables of resource consumption increased the model s ability to predict high-cost hospitalizations. Read more [pt] APRENDIZADO DE MAQUINA [pt] CUSTO EM SAUDE [pt] MODELOS PREDITIVOS [en] MACHINE LEARNING [en] HEALTHCARE COST [en] PREDICTIVE MODELS
17	[en] COUPLING MACHINE LEARNING AND MESOSCALE MODELING TO STUDY THE FLOW OF SEMI-DENSE AND DENSE SUSPENSIONS / [pt] INTERLIGANDO APRENDIZADO DE MÁQUINA E SIMULAÇÃO EM MESOESCALA PARA ESTUDAR O ESCOAMENTO EM SUSPENSÕES SEMI-DENSAS E DENSAS ERIKA IMADA BARCELOS 09 May 2022 (has links) [pt] Suspensões correspondem a uma classe de materiais amplamente utilizada em uma grande variedade de aplicações e indústrias. Devido à sua extrema versatilidade, elas têm sido foco de inúmeros estudos nas últimas décadas. Suspensões também são muito flexíveis e podem apresentar diferentes propriedades reológicas e respostas macroscópicas dependendo da escolha dos parâmetros usados como entrada no sistema. Mais especificamente, a resposta reológica de suspensões está intimamente associada ao arranjo microestrutural das partículas que compõem o meio e a fatores externos, como o quão confinadas elas se encontram e a rigidez das partículas. No presente estudo, o efeito da rigidez, confinamento e vazão na microestrutura de suspensões altamente concentradas é avaliado usando Dinâmica Dissipativa de Partículas com Núcleo Modificado. Precedento este estudo principal, foram necessárias outras duas etapas para garantir um sistema de simulação confiável e representativo, que consistiu, essencialmente, na realização de estudos paramétricos para compreender e estimar os valores adequados para os parâmetros de interacção parede-partícula. O presente trabalho aborda estudos paramétricos realizados para auxiliar na escolha dos parâmetros de entrada para evitar a penetração de partículas em um sistema delimitado por paredes. Inicialmente um sistema mais simples, composto por solvente e paredes é construído e os parâmetros de interação e densidades de parede foram ajustados. Em seguida as interações são definidas para suspensões. Neste último caso, vários parâmetros desempenham um papel na penetração e a maneira tradicional de investigar esses efeitos seria exaustiva e demorada. Por isso, optamos por usar uma abordagem de Machine Learning para realizar este estudo. Uma vez ajustados os parâmetros, o estudo de confinamento pôde ser realizado. O objetivo principal deste estudo foi entender como a microestrutura de suspensões concentradas é afetada pela vazão, rigidez das partículas e confinamento. Verificou-se que partículas muito flexíveis sempre formam um aglomerado gigante independente da razão de confinamento; a diferença está em quão compactadas são as partículas. No caso de partículas rígidas, um confinamento mais forte leva à formação de aglomerados maiores. O estudo final aborda um estudo de aprendizado de máquina realizado para prever a reologia de suspensões não confinadas. Com este trabalho foi possível entender e ajustar parâmetros de simulação e desenvolver um domínio computacional que permite estudar sistematicamente efeitos do confinamento em suspensões. / [en] Suspensions correspond to a class of materials vastly used in a large set of applications and industries. Due to its extreme versatility, they have been the focus of numerous studies over the past decades. Suspensions are also very flexible and can display different rheological properties and macroscopic responses depending on the choice of parameters used as input in the system. More specifically, the rheological response of suspensions is intimately associated to the microstructural arrangement of the particles composing the medium and external factors, such as how strongly they are confined and particle rigidity. In the present study, the effect of particle rigidity, confinement and flow rate on the microstructure of highly concentrated suspensions is studied using CoreModified Dissipative Particle Dynamics. Preceding this main study, two other steps were necessary to guarantee a reliable and realistic simulation system, which consisted, essentially, on performing parametric studies to understand and estimate the appropriate values for wall-particle interaction parameters. The present work address parametric studies performed to assist the input parameters choice to prevent particle penetration in a wall-bounded system. Initially a simpler system, composed of solvent and walls, is built and the interaction parameters and wall densities were adjusted. Following, the interactions are set for suspensions. In the latter case multiple parameters play a role in penetration and the traditional way to investigate these effects would be exhaustive and time consuming. Hence, we choose to use a Machine Learning approach to perform this study. Once the parameters were adjusted, the study of confinement could be carried out. The main goal of this study was to understand how the microstructure of concentrated suspensions is affected by flow rate, particle rigidity and confinement. It was found that very soft particles always form a giant cluster regardless the confinement ratio; the difference being on how packed the particles are. In the rigid case, a stronger confinement leads the formation of larger clusters. The final study addresses a machine learning study carried out to predict the rheology of unconfined suspensions. The main contribution of this work is that it was possible to understand and adjust simulation parameters and develop a computational domain that enables to systematically study confinement effects on suspensions. Read more [pt] APRENDIZADO DE MAQUINA [pt] DINAMICA DISSIPATIVA DE PARTICULAS [pt] SUSPENSOES [en] MACHINE LEARNING [en] DISSIPATIVE PARTICLE DYNAMICS [en] SUSPENSIONS
18	[pt] APLICAÇÃO DE SRV E ESN À PREVISÃO DE SÉRIES DO MERCADO DE SEGUROS / [en] APPLYING SVR AND ESN TO FORECAST INSURANCE MARKET SERIES JULIANA CHRISTINA CARVALHO DE ARAÚJO 28 November 2016 (has links) [pt] A previsão de seguros é essencial para a indústria de seguros e resseguros. Ela fornece subsídios para estratégias de negócios de longo-prazo, e pode servir como um primeiro passo para o planejamento de linhas específicas de produtos. No contexto brasileiro, a previsão de seguros é de especial relevância. O Brasil possui o maior mercado segurador da América-Latina e tem potencial para se tornar um dos mais importantes centros seguradores do mundo no médio-longo- prazo. A SUSEP e a CNseg realizam previsões de carteiras do mercado de seguros brasileiro com base em modelos estatísticos. Entretanto, as séries temporais de prêmios utilizadas para essas previsões exibem comportamento não estacionário e não linear. Assim, a utilização de algoritmos de machine learning, na modelagem de séries de seguros, se justifica em função da habilidade desses algoritmos em capturar componentes de natureza não linear e dinâmica que possam estar presentes nessas séries, sem a necessidade de realizar suposições sobre o processo gerador dos dados. Com base no exposto, este trabalho investiga o uso de redes neurais Echo State (ESN) e GA-SVR na previsão de prêmios de seguros do mercado brasileiro. A base de dados utilizada neste trabalho foi disponibilizada pela SUSEP e compreende as carteiras de Automóveis, Vida e Previdência. Foram realizadas previsões univariadas e multivariadas com ESN e GA-SVR para as três carteiras mencionadas. Os resultados demonstram superioridade preditiva da ESN. / [en] Insurance forecasting is essential for the insurance industry. It provides support for long-term business strategies and can serve as a first-step for planning specific lines of products. In the Brazilian context, insurance forecasting is of special relevance. In the Latin American insurance market, Brazil is the leader in premium, and could become one of the most important insurance centers of the world in the medium- or long-term. SUSEP and CNseg forecast insurance products of the Brazilian market with statistical models. Nevertheless, premium time series exhibit nonstationary and nonlinear behavior. Therefore, the use of machine learning algorithms in the modeling of insurance series is justified, due to the ability of these algorithms in capturing nonlinear and dynamic components, which may be present in those series, without making assumptions about the data generating process. Based on this, this work investigates the use of Echo State neural networks (ESN) and GA-SVR in the forecast of insurance premium of the Brazilian market. The database used in this work was provided by SUSEP and consists of the products Automobiles, Life and Providence. Univariate and multivariate forecasts were made with ESN and GA-SVR for the three aforementioned products. The results show predictive superiority of ESN. Read more [pt] APRENDIZADO DE MAQUINA [pt] PREMIO DE SEGURO [pt] PREVISAO [en] MACHINE LEARNING [en] INSURANCE PREMIUM [en] FORECASTING
19	[en] A DECISION TREE LEARNER FOR COST-SENSITIVE BINARY CLASSIFICATION / [pt] UMA ÁRVORE DE DECISÃO PARA CLASSIFICAÇÃO BINÁRIA SENSÍVEL AO CUSTO DANIEL DOS SANTOS MARQUES 30 November 2016 (has links) [pt] Problemas de classificação foram amplamente estudados na literatura de aprendizado de máquina, gerando aplicações em diversas áreas. No entanto, em diversos cenários, custos por erro de classificação podem variar bastante, o que motiva o estudo de técnicas de classificação sensível ao custo. Nesse trabalho, discutimos o uso de árvores de decisão para o problema mais geral de Aprendizado Sensível ao Custo do Exemplo (ASCE), onde os custos dos erros de classificação variam com o exemplo. Uma das grandes vantagens das árvores de decisão é que são fáceis de interpretar, o que é uma propriedade altamente desejável em diversas aplicações. Propomos um novo método de seleção de atributos para construir árvores de decisão para o problema ASCE e discutimos como este pode ser implementado de forma eficiente. Por fim, comparamos o nosso método com dois outros algoritmos de árvore de decisão propostos recentemente na literatura, em 3 bases de dados públicas. / [en] Classification problems have been widely studied in the machine learning literature, generating applications in several areas. However, in a number of scenarios, misclassification costs can vary substantially, which motivates the study of Cost-Sensitive Learning techniques. In the present work, we discuss the use of decision trees on the more general Example-Dependent Cost-Sensitive Problem (EDCSP), where misclassification costs vary with each example. One of the main advantages of decision trees is that they are easy to interpret, which is a highly desirable property in a number of applications. We propose a new attribute selection method for constructing decision trees for the EDCSP and discuss how it can be efficiently implemented. Finally, we compare our new method with two other decision tree algorithms recently proposed in the literature, in 3 publicly available datasets. Read more [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO SENSIVEL AO CUSTO [pt] ARVORE DE DECISAO [en] MACHINE LEARNING [en] DECISION TREE
20	[en] ASSESSING THE BENEFITS OF MLOPS FOR SUPERVISED ONLINE REGRESSION MACHINE LEARNING / [pt] AVALIAÇÃO DOS BENEFÍCIOS DE MLOPS PARA APRENDIZADO DE MÁQUINA SUPERVISIONADA ONLINE DE REGRESSÃO GABRIEL DE ARAUJO CARVALHO 30 October 2023 (has links) [pt] Contexto: As operações de aprendizagem automática (MLOps) surgiram como um conjunto de práticas que combina desenvolvimento, testes e operações para implementar e manter aplicações de aprendizagem automática. Objetivo: Nesta dissertação, iremos avaliar os benefícios e limitações da utilização dos princípios de MLOps no contexto de modelos supervisionados online, que são amplamente utilizados em aplicações como a previsão meteorológica, tendências de mercado e identificação de riscos. Método: Aplicámos dois métodos de investigação para avaliar os benefícios dos MLOps para aplicações de aprendizagem automática online supervisionada: (i) desenvolvimento de um projeto prático de aprendizagem automática supervisionada para aprofundar a compreensão do problema e das possibilidades de utilização dos princípios MLOps; e (ii) duas discussões de grupo de foco sobre os benefícios e limitações da utilização dos princípios MLOps com seis programadores de aprendizagem automática experientes. Resultados: O projeto prático implementou uma aplicação de aprendizagem automática de regressão supervisionada utilizando KNN. A aplicação utiliza informações sobre as rotas das linhas de autocarros públicos do Rio de Janeiro e calcula a duração da viagem de autocarro com base na hora de partida do dia e no sentido da viagem. Devido ao âmbito da primeira versão e ao facto de não ter sido implementada em produção, não sentimos a necessidade de utilizar os princípios MLOps que esperávamos inicialmente. De facto, identificámos a necessidade de apenas um princípio, o princípio do controlo de versões, para alinhar as versões do código e dos dados. O grupo de discussão revelou que os programadores de aprendizagem automática acreditam que os benefícios da utilização dos princípios MLOps são muitos, mas que não se aplicam a todos os projectos em que trabalham. A discussão revelou que a maioria dos benefícios está relacionada com a prevenção de passos manuais propensos a erros, permitindo restaurar a aplicação para um estado anterior e ter um pipeline robusto de implementação automatizada contínua. Conclusões: É importante equilibrar as compensações do investimento de tempo e esforço na implementação dos princípios de MLOps, considerando o âmbito e as necessidades do projeto. De acordo com os especialistas, esse investimento tende a compensar para aplicativos maiores com implantação contínua que exigem processos automatizados bem preparados. Por outro lado, para versões iniciais de aplicações de aprendizagem automática, o esforço despendido na implementação dos princípios pode alargar o âmbito do projeto e aumentar o tempo de execução. / [en] Context: Machine Learning Operations (MLOps) has emerged as a set of practices that combines development, testing, and operations to deploy and maintain machine learning applications. Objective: In this dissertation, we will assess the benefits and limitations of the use of MLOps principles in the context of online supervised models, which are widely used in applications such as weather forecasting, market trends, and risk identification. Method: We applied two research methods to assess the benefits of MLOps for supervised online machine learning applications: (i) developing a practical supervised machine learning project to deepen the understanding of the problem and of the MLOps principles usage possibilities; and (ii) two focus group discussions on the benefits and limitations of using the MLOps principles with six experienced machine learning developers. Results: The practical project implemented a supervised regression machine learning application using KNN. The application uses information on Rio de Janeiro s public bus line routes and calculates the bus trip duration based on the trip departure time of the day and trip direction. Due to the scope of the first version and given that it was not deployed into production, we didn t feel the need to use the MLOps principles we were expecting at first. Indeed, we identified the need for only one principle, the versioning principle, to align versions of the code and the data. The focus group revealed that machine learning developers believe that the benefits of using MLOps principles are many but that they do not apply to all the projects they worked on. The discussion brought up that most of the benefits are related to avoiding error-prone manual steps, enabling it to restore the application to a previous state, and having a robust continuous automated deployment pipeline. Conclusions: It is important to balance the trade-offs of investing time and effort in implementing the MLOps principles considering the scope and needs of the project. According to the experts, this investment tends to pay off for larger applications with continuous deployment that require well-prepared automated processes. On the other hand, for initial versions of machine learning applications, the effort taken into implementing the principles might enlarge the scope of the project and increase the time needed to deploy a first version to production. Read more [pt] APRENDIZADO DE MAQUINA [pt] MLOPS [pt] FOCUS GROUP [pt] OPERACOES [en] MACHINE LEARNING [en] MLOPS [en] FOCUS GROUP [en] OPERATIONS

Search results