Spelling suggestions: "subject:"aprendizagem dde maquinas"" "subject:"aprendizagem dde maquinaria""
11 |
[pt] CLASSIFICAÇÃO DE SENTIMENTO PARA NOTÍCIAS SOBRE A PETROBRAS NO MERCADO FINANCEIRO / [en] SENTIMENT ANALYSIS FOR FINANCIAL NEWS ABOUT PETROBRAS COMPANYPAULA DE CASTRO SONNENFELD VILELA 21 December 2011 (has links)
[pt] Hoje em dia, encontramos uma grande quantidade de informações na internet,
em particular, notícias sobre o mercado financeiro. Diversas pesquisas
mostram que notícias sobre o mercado financeiro possuem uma grande relação com variáveis de mercado como volume de transações, volatilidade e preço
das ações. Nesse trabalho, investigamos o problema de Análise de Sentimentos
de notícias jornalísticas do mercado financeiro. Nosso objetivo é classificar
notícias como favoráveis ou não a Petrobras. Utilizamos técnicas de Processamento
de Linguagem Natural para melhorar a acurácia do modelo clássico de
saco-de-palavras. Filtramos frases sobre a Petrobras e inserimos novos atributos
linguísticos, tanto sintáticos como estilísticos. Para a classifição do sentimento
é utilizado o algoritmo de aprendizado Support Vector Machine, sendo
aplicados ainda quatro seletores de atributos e um comitê dos melhores modelos.
Apresentamos aqui o Petronews, um corpus com notícias em português
sobre a Petrobras, anotado manualmente com a informação de sentimento.
Esse corpus é composto de mil e cinquenta notícias online de 02/06/2006 a
29/01/2010. Nossos experimentos mostram uma melhora de 5.29 por cento
com relação ao modelo saco-de-palavras, atingindo uma acurácia de 87.14 por cento. / [en] A huge amount of information is available online, in particular regarding
financial news. Current research indicate that stock news have a strong
correlation to market variables such as trade volumes, volatility, stock prices
and firm earnings. Here, we investigate a Sentiment Analysis problem for
financial news. Our goal is to classify financial news as favorable or unfavorable
to Petrobras, an oil and gas company with stocks in the Stock Exchange
market. We explore Natural Language Processing techniques in a way to
improve the sentiment classification accuracy of a classical bag of words
approach. We filter on topic phrases for each Petrobras related news and build
syntactic and stylistic input features. For sentiment classification, Support
Vector Machines algorithm is used. Moreover we apply four feature selection
methods and build a committee of SVM models. Additionally, we introduce
Petronews, a Portuguese financial news annotated corpus about Petrobras.
It is composed by a collection of one thousand and fifty online financial news
from 06/02/2006 to 01/29/2010. Our experiments indicate that our method
is 5.29 per cent better than a standard bag-of-words approach, reaching 87.14 per cent
accuracy rate for this domain.
|
12 |
[en] AN AGENT-BASED SOFTWARE FRAMEWORK FOR MACHINE LEARNING TUNING / [pt] UM FRAMEWORK BASEADO EM AGENTES PARA A CALIBRAGEM DE MODELOS DE APRENDIZADO DE MÁQUINAJEFRY SASTRE PEREZ 23 November 2018 (has links)
[pt] Hoje em dia, a enorme quantidade de dados disponíveis online apresenta um novo desafio para os processos de descoberta de conhecimento. As abordagens mais utilizadas para enfrentar esse desafio são baseadas em técnicas de aprendizado de máquina. Apesar de serem muito poderosas, essas técnicas exigem que seus parâmetros sejam calibrados para gerar modelos com melhor qualidade. Esses processos de calibração são demorados e dependem das habilidades dos especialistas da área de aprendizado de máquinas. Neste contexto, esta pesquisa apresenta uma estrutura baseada em agentes de software para automatizar a calibração de modelos de aprendizagem de máquinas. Esta abordagem integra conceitos de Engenharia de Software Orientada a Agentes (AOSE) e Aprendizado de Máquinas (ML). Como prova de conceito, foi utilizado o conjunto de dados Iris para mostrar como nossa abordagem melhora a qualidade dos novos modelos gerados por nosso framework. Além disso, o framework foi instanciado para um dataset de imagens médicas e finalmente foi feito um experimento usando o dataset Grid Sector. / [en] Nowadays, the challenge of knowledge discovery is to mine massive amounts of data available online. The most widely used approaches to tackle that challenge are based on machine learning techniques. In spite of being very powerful, those techniques require their parameters to be calibrated in order to generate models with better quality. Such calibration processes are time-consuming and rely on the skills of machine learning experts. Within this context, this research presents a framework based on software agents for automating the calibration of machine learning models. This approach integrates concepts from Agent Oriented Software Engineering (AOSE) and Machine Learning (ML). As a proof of concept, we first train a model for the Iris dataset and then we show how our approach improves the quality of new models generated by our framework. Then, we create instances of the framework to generate models for a medical images dataset and finally we use the Grid Sector dataset for a final experiment.
|
13 |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES / [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEBTHORAN ARAGUEZ RODRIGUES 20 July 2009 (has links)
[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta
proliferação aumente as chances de que o tema sendo buscado por um usuário
esteja presente na rede, ela também torna encontrar a informação desejada mais
difícil. A classificação automática de páginas é, portanto, uma importante
ferramenta na organização de conteúdo da Web, com aplicações específicas na
melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi
realizado um estudo comparativo de diferentes conjuntos de atributos e métodos
de classificação aplicados ao problema da classificação funcional de páginas web,
com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao
longo dos experimentos, foi possível constatar que a melhor abordagem para esta
tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas.
Foi apresentada também uma estratégia nova de construção de conjuntos de
atributos de texto, que leva em consideração os diferentes estilos de escrita das
classes de páginas. / [en] The amount of information on the Internet increases every day. Even though
this proliferation increases the chances that the subject being searched for by an
user is on the Web, it also makes finding the desired information much harder.
The automated classification of pages is, therefore, an important tool for
organizing Web content, with specific applications on the improvement of results
displayed by search engines. In this dissertation, a comparative study of different
attribute sets and classification methods for the functional classification of web
pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and
News. Throughout the experiments, it became evident the best approach for this
task is to employ attributes that come both from the structure and the text of the
web pages. We also presented a new strategy for extracting and building text
attribute sets, that takes into account the different writing styles for each page
class.
|
14 |
[en] EFFICIENT METHODS FOR INFORMATION EXTRACTION IN NEWS WEBPAGES / [pt] MÉTODOS EFICIENTES PARA EXTRAÇÃO DE INFORMAÇÃO EM PÁGINAS DE NOTÍCIASEDUARDO TEIXEIRA CARDOSO 03 February 2017 (has links)
[pt] Nós abordamos a tarefa de segmentação de páginas de notícias; mais especificamente identificação do título, data de publicação e corpo da notícia. Embora existam resultados muito bons na literatura, a maioria deles depende da renderização da página, que é uma tarefa muito demorada. Nós focamos em cenários com um alto volume de documentos, onde desempenho de tempo é uma necessidade. A abordagem escolhida estende nosso trabalho prévio na área, combinando propriedades estruturais com traços de atributos visuais, calculados através de um método mais rápido do que a renderização tradicional, e algoritmos de aprendizado de máquina. Em nossos experimentos, nos atentamos para alguns fatos não comumente abordados na literatura, como tempo de processamento e a generalização dos nossos resultados para domínios desconhecidos. Nossa abordagem se mostrou aproximadamente uma ordem de magnitude mais rápida do que alternativas equivalentes que se apoiam na renderização completa da página e manteve uma boa qualidade de extração. / [en] We tackle the task of news webpage segmentation, specifically identifying the news title, publication date and story body. While there are very good results in the literature, most of them rely on webpage rendering, which is a very time-consuming step. We focus on scenarios with a high volume of documents, where a short execution time is a must. The chosen approach extends our previous work in the area, combining structural properties with hints of visual presentation styles, computed with a faster method than regular rendering, and machine learning algorithms. In our experiments, we took special attention to some aspects that are often overlooked in the literature, such as processing time and the generalization of the extraction results for unseen domains. Our approach has shown to be about an order of magnitude faster than an equivalent full rendering alternative while retaining a good quality of extraction.
|
15 |
[pt] NOWCASTING DE PIB COM MODELOS DE MACHINE LEARNING: EVIDÊNCIA DOS EUA / [en] NOWCASTING GDP WITH MACHINE LEARNING MODELS: EVIDENCE FROM THE USLUCAS SEABRA MAYNARD DA SILVA 25 May 2020 (has links)
[pt] O presente trabalho investiga o uso de métodos de Machine Learning
(ML) para efetuar estimativas para o trimestre corrente (nowcasts) da taxa
de crescimento do PIB Real dos EUA. Esses métodos conseguem lidar
com um grande volume de dados e séries com calendários de publicação
dessincronizados, e os nowcasts são atualizados cada vez que novos dados
são publicados ao longo do trimestre. Um exercício pseudo-out-of-sample
é proposto para avaliar a performance de previsão e analisar o padrão
de seleção de variável desses modelos. O método de ML que merece o
maior destaque é o Target Factor, que supera o usualmente adotado DFM
para alguns vintages dentro do trimestre. Ademais, as variáveis selecionadas
apresentam consistência entre os modelos e com a intuição. / [en] This paper examines the use of Machine Learning (ML) models to
compute estimates of current-quarter US Real GDP growth rate (nowcasts).
These methods can handle large data sets with unsynchronized release
dates, and nowcasts are updated each time new data are released along the
quarter. A pseudo-out-of-sample exercise is proposed to assess forecasting
performance and to analyze the variable selection pattern of these models.
The ML method that deserves more attention is the Target Factor, which
overcomes the usually adopted dynamic factor model for some predictions
vintages in the quarter. We also analyze the variables selected, which are
consistent between models and intuition.
|
16 |
[pt] APLICAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA A PREDIÇÃO DE INTERNAÇÕES DE ALTO CUSTO / [en] MACHINE LEARNING TO PREDICT HIGH-COST HOSPITALIZATIONSADRIAN MANRESA PEREZ 25 August 2020 (has links)
[pt] Empresas do ramo da Saúde vêm evoluindo seus modelos de gestão, desenvolvendo programas proativos para melhorar a qualidade e a eficiência dos seus serviços considerando informações históricas. Estratégias proativas buscam prevenir e detectar doenças precocemente e também melhorar os resultados das internações. Nesse sentido, uma tarefa desafiadora é identificar quais pacientes devem ser incluídos em programas proativos de saúde. Para isso, a previsão e a modelagem de variáveis relacionadas aos custos estão entre as abordagens mais amplamente utilizadas, uma vez que essas variáveis sào potenciais indicadores do risco, da gravidade e do consumo de recursos médicos de uma internação. A maioria das pesquisas nesta área têm como foco modelar variáveis de custo em uma perspectiva geral e prever variações de custos para períodos específicos. Por outro lado, este trabalho se concentra na previsão dos custos de um evento específico. Em particular, esta dissertação prescreve uma solução para a predição de internações de alto custo, visando dar apoio a gestores de serviços em saúde em suas ações proativas. Para esse fim, foi seguida a metodologia de pesquisa Design Science Research (DSR), aliada ao ciclo de vida de projeto de Ciência de Dados, sobre um cenário real de uma empresa de consultoria em saúde. Os dados fornecidos descrevem internações de pacientes através de suas características demográficas e do histórico de consumo de recursos médicos. Diferentes técnicas estatísticas e de Aprendizado de Máquina foram aplicadas, como Ridge Regression (RR), Least Absolute Shrinkage and Selection Operator (LASSO), Classification and Regression Trees (CART), Random Forest (RF) e Extreme Gradient Boosting (XGB). Os resultados experimentais evidenciaram que as técnicas RF e XGB apresentaram o melhor desempenho, atingindo AUCPR de 0,732 e 0,644, respectivamente. O modelo de predição da técnica RF foi capaz de detectar até 72 porcento, em média, das internações de alto custo com 33 porcento de precisão, o que representa 78,7 porcento do custo total gerado por tais internações. Além disso, os resultados monstraram que o uso de custo prévio e variáveis agregadas de consumo de recursos aumentaram a capacidade de predição do modelo / [en] Healthcare providers are evolving their management models, developing proactive programs to improve the quality and efficiency of their health services, considering the available historical information. Proactive strategies seek not only to prevent and detect diseases but also to enhance hospitalization outcomes. In this sense, one of the most challenging tasks is to identify which patients should be included in proactive health programs. To this end, forecasting and modeling cost-related variables are among the most widely used approaches for identifying such patients, since these variables are potential indicators of the patients hospitalization risk, their severity, and their medical resources consumption. Most of the existing research works in this area aim to model cost variables from an overall perspective and predict cost variations for specific periods. In contrast, this work focuses on predicting the costs of a particular event. Specifically, this thesis prescribes a solution for identifying high-cost hospitalizations, to support health service managers in their proactive actions. To this end, the Design Science Research (DSR) methodology was combined with the Data Science life cycle in a real scenario of a health consulting company. The data provided describes patients hospitalizations through their demographic characteristics and their medical resource consumption. Different statistical and Machine Learning techniques were used to predict high-cost hospitalizations, such as Ridge Regression (RR), Least Absolute Shrinkage and Selection Operator (LASSO), Classification and Regression Trees (CART), Random Forest (RF), and Extreme Gradient Boosting (XGB). The experimental results showed that RF and XGB presented the best performance, reaching an Area Under the Curve Precision-Recall (AUCPR) of 0.732 and 0.644, respectively. In the case of RF, the model was able to detect, on average, 72 percent of the high-cost hospitalizations with a 33 percent of Precision, which represents 78.7 percent of the total cost generated by the high-cost hospitalizations. Moreover, the obtained results showed that the use of prior cost and aggregated variables of resource consumption increased the model s ability to predict high-cost hospitalizations.
|
17 |
[en] COUPLING MACHINE LEARNING AND MESOSCALE MODELING TO STUDY THE FLOW OF SEMI-DENSE AND DENSE SUSPENSIONS / [pt] INTERLIGANDO APRENDIZADO DE MÁQUINA E SIMULAÇÃO EM MESOESCALA PARA ESTUDAR O ESCOAMENTO EM SUSPENSÕES SEMI-DENSAS E DENSASERIKA IMADA BARCELOS 09 May 2022 (has links)
[pt] Suspensões correspondem a uma classe de materiais amplamente utilizada em uma grande variedade de aplicações e indústrias. Devido à sua extrema versatilidade, elas têm sido foco de inúmeros estudos nas últimas décadas. Suspensões também são muito flexíveis e podem apresentar diferentes
propriedades reológicas e respostas macroscópicas dependendo da escolha dos
parâmetros usados como entrada no sistema. Mais especificamente, a resposta
reológica de suspensões está intimamente associada ao arranjo microestrutural
das partículas que compõem o meio e a fatores externos, como o quão confinadas elas se encontram e a rigidez das partículas. No presente estudo, o efeito
da rigidez, confinamento e vazão na microestrutura de suspensões altamente
concentradas é avaliado usando Dinâmica Dissipativa de Partículas com Núcleo Modificado. Precedento este estudo principal, foram necessárias outras
duas etapas para garantir um sistema de simulação confiável e representativo, que consistiu, essencialmente, na realização de estudos paramétricos para
compreender e estimar os valores adequados para os parâmetros de interacção
parede-partícula.
O presente trabalho aborda estudos paramétricos realizados para auxiliar
na escolha dos parâmetros de entrada para evitar a penetração de partículas
em um sistema delimitado por paredes. Inicialmente um sistema mais simples,
composto por solvente e paredes é construído e os parâmetros de interação e
densidades de parede foram ajustados. Em seguida as interações são definidas
para suspensões. Neste último caso, vários parâmetros desempenham um
papel na penetração e a maneira tradicional de investigar esses efeitos seria
exaustiva e demorada. Por isso, optamos por usar uma abordagem de Machine
Learning para realizar este estudo. Uma vez ajustados os parâmetros, o
estudo de confinamento pôde ser realizado. O objetivo principal deste estudo
foi entender como a microestrutura de suspensões concentradas é afetada
pela vazão, rigidez das partículas e confinamento. Verificou-se que partículas
muito flexíveis sempre formam um aglomerado gigante independente da razão
de confinamento; a diferença está em quão compactadas são as partículas.
No caso de partículas rígidas, um confinamento mais forte leva à formação
de aglomerados maiores. O estudo final aborda um estudo de aprendizado
de máquina realizado para prever a reologia de suspensões não confinadas.
Com este trabalho foi possível entender e ajustar parâmetros de simulação e
desenvolver um domínio computacional que permite estudar sistematicamente
efeitos do confinamento em suspensões. / [en] Suspensions correspond to a class of materials vastly used in a large set of
applications and industries. Due to its extreme versatility, they have been the
focus of numerous studies over the past decades. Suspensions are also very flexible and can display different rheological properties and macroscopic responses
depending on the choice of parameters used as input in the system. More
specifically, the rheological response of suspensions is intimately associated to
the microstructural arrangement of the particles composing the medium and
external factors, such as how strongly they are confined and particle rigidity.
In the present study, the effect of particle rigidity, confinement and flow rate on
the microstructure of highly concentrated suspensions is studied using CoreModified Dissipative Particle Dynamics. Preceding this main study, two other
steps were necessary to guarantee a reliable and realistic simulation system,
which consisted, essentially, on performing parametric studies to understand
and estimate the appropriate values for wall-particle interaction parameters.
The present work address parametric studies performed to assist the
input parameters choice to prevent particle penetration in a wall-bounded
system. Initially a simpler system, composed of solvent and walls, is built and
the interaction parameters and wall densities were adjusted. Following, the
interactions are set for suspensions. In the latter case multiple parameters
play a role in penetration and the traditional way to investigate these effects
would be exhaustive and time consuming. Hence, we choose to use a Machine
Learning approach to perform this study. Once the parameters were adjusted,
the study of confinement could be carried out. The main goal of this study
was to understand how the microstructure of concentrated suspensions is
affected by flow rate, particle rigidity and confinement. It was found that
very soft particles always form a giant cluster regardless the confinement
ratio; the difference being on how packed the particles are. In the rigid
case, a stronger confinement leads the formation of larger clusters. The final
study addresses a machine learning study carried out to predict the rheology
of unconfined suspensions. The main contribution of this work is that it
was possible to understand and adjust simulation parameters and develop a
computational domain that enables to systematically study confinement effects
on suspensions.
|
18 |
[pt] APLICAÇÃO DE SRV E ESN À PREVISÃO DE SÉRIES DO MERCADO DE SEGUROS / [en] APPLYING SVR AND ESN TO FORECAST INSURANCE MARKET SERIESJULIANA CHRISTINA CARVALHO DE ARAÚJO 28 November 2016 (has links)
[pt] A previsão de seguros é essencial para a indústria de seguros e resseguros. Ela fornece subsídios para estratégias de negócios de longo-prazo, e pode servir como um primeiro passo para o planejamento de linhas específicas de produtos. No contexto brasileiro, a previsão de seguros é de especial relevância. O Brasil possui o maior mercado segurador da América-Latina e tem potencial para se tornar um dos mais importantes centros seguradores do mundo no médio-longo- prazo. A SUSEP e a CNseg realizam previsões de carteiras do mercado de seguros brasileiro com base em modelos estatísticos. Entretanto, as séries temporais de prêmios utilizadas para essas previsões exibem comportamento não estacionário e não linear. Assim, a utilização de algoritmos de machine learning, na modelagem de séries de seguros, se justifica em função da habilidade desses algoritmos em capturar componentes de natureza não linear e dinâmica que possam estar presentes nessas séries, sem a necessidade de realizar suposições sobre o processo gerador dos dados. Com base no exposto, este trabalho investiga o uso de redes neurais Echo State (ESN) e GA-SVR na previsão de prêmios de seguros do mercado brasileiro. A base de dados utilizada neste trabalho foi disponibilizada pela SUSEP e compreende as carteiras de Automóveis, Vida e Previdência. Foram realizadas previsões univariadas e multivariadas com ESN e GA-SVR para as três carteiras mencionadas. Os resultados demonstram superioridade preditiva da ESN. / [en] Insurance forecasting is essential for the insurance industry. It provides support for long-term business strategies and can serve as a first-step for planning specific lines of products. In the Brazilian context, insurance forecasting is of special relevance. In the Latin American insurance market, Brazil is the leader in premium, and could become one of the most important insurance centers of the world in the medium- or long-term. SUSEP and CNseg forecast insurance products of the Brazilian market with statistical models. Nevertheless, premium time series exhibit nonstationary and nonlinear behavior. Therefore, the use of machine learning algorithms in the modeling of insurance series is justified, due to the ability of these algorithms in capturing nonlinear and dynamic components, which may be present in those series, without making assumptions about the data generating process. Based on this, this work investigates the use of Echo State neural networks (ESN) and GA-SVR in the forecast of insurance premium of the Brazilian market. The database used in this work was provided by SUSEP and consists of the products Automobiles, Life and Providence. Univariate and multivariate forecasts were made with ESN and GA-SVR for the three aforementioned products. The results show predictive superiority of ESN.
|
19 |
[en] A DECISION TREE LEARNER FOR COST-SENSITIVE BINARY CLASSIFICATION / [pt] UMA ÁRVORE DE DECISÃO PARA CLASSIFICAÇÃO BINÁRIA SENSÍVEL AO CUSTODANIEL DOS SANTOS MARQUES 30 November 2016 (has links)
[pt] Problemas de classificação foram amplamente estudados na literatura de aprendizado de máquina, gerando aplicações em diversas áreas. No entanto, em diversos cenários, custos por erro de classificação podem variar bastante, o que motiva o estudo de técnicas de classificação sensível ao custo. Nesse trabalho, discutimos o uso de árvores de decisão para o problema mais geral de Aprendizado Sensível ao Custo do Exemplo (ASCE), onde os custos dos erros de classificação variam com o exemplo. Uma das grandes vantagens das árvores de decisão é que são fáceis de interpretar, o que é uma propriedade altamente desejável em diversas aplicações. Propomos um novo método de seleção de atributos para construir árvores de decisão para o problema ASCE e discutimos como este pode ser implementado de forma eficiente. Por fim, comparamos o nosso método com dois outros algoritmos de árvore de decisão propostos recentemente na literatura, em 3 bases de dados públicas. / [en] Classification problems have been widely studied in the machine learning literature, generating applications in several areas. However, in a number of scenarios, misclassification costs can vary substantially, which motivates the study of Cost-Sensitive Learning techniques. In the present work, we discuss the use of decision trees on the more general Example-Dependent Cost-Sensitive Problem (EDCSP), where misclassification costs vary with each example. One of the main advantages of decision trees is that they are easy to interpret, which is a highly desirable property in a number of applications. We propose a new attribute selection method for constructing decision trees for the EDCSP and discuss how it can be efficiently implemented. Finally, we compare our new method with two other decision tree algorithms recently proposed in the literature, in 3 publicly available datasets.
|
20 |
[en] ASSESSING THE BENEFITS OF MLOPS FOR SUPERVISED ONLINE REGRESSION MACHINE LEARNING / [pt] AVALIAÇÃO DOS BENEFÍCIOS DE MLOPS PARA APRENDIZADO DE MÁQUINA SUPERVISIONADA ONLINE DE REGRESSÃOGABRIEL DE ARAUJO CARVALHO 30 October 2023 (has links)
[pt] Contexto: As operações de aprendizagem automática (MLOps) surgiram como um conjunto de práticas que combina desenvolvimento, testes e
operações para implementar e manter aplicações de aprendizagem automática. Objetivo: Nesta dissertação, iremos avaliar os benefícios e limitações da
utilização dos princípios de MLOps no contexto de modelos supervisionados
online, que são amplamente utilizados em aplicações como a previsão meteorológica, tendências de mercado e identificação de riscos. Método: Aplicámos dois métodos de investigação para avaliar os benefícios dos MLOps para
aplicações de aprendizagem automática online supervisionada: (i) desenvolvimento de um projeto prático de aprendizagem automática supervisionada
para aprofundar a compreensão do problema e das possibilidades de utilização dos princípios MLOps; e (ii) duas discussões de grupo de foco sobre
os benefícios e limitações da utilização dos princípios MLOps com seis programadores de aprendizagem automática experientes. Resultados: O projeto
prático implementou uma aplicação de aprendizagem automática de regressão
supervisionada utilizando KNN. A aplicação utiliza informações sobre as rotas das linhas de autocarros públicos do Rio de Janeiro e calcula a duração
da viagem de autocarro com base na hora de partida do dia e no sentido da
viagem. Devido ao âmbito da primeira versão e ao facto de não ter sido implementada em produção, não sentimos a necessidade de utilizar os princípios
MLOps que esperávamos inicialmente. De facto, identificámos a necessidade
de apenas um princípio, o princípio do controlo de versões, para alinhar as
versões do código e dos dados. O grupo de discussão revelou que os programadores de aprendizagem automática acreditam que os benefícios da utilização
dos princípios MLOps são muitos, mas que não se aplicam a todos os projectos em que trabalham. A discussão revelou que a maioria dos benefícios está
relacionada com a prevenção de passos manuais propensos a erros, permitindo
restaurar a aplicação para um estado anterior e ter um pipeline robusto de
implementação automatizada contínua. Conclusões: É importante equilibrar
as compensações do investimento de tempo e esforço na implementação dos
princípios de MLOps, considerando o âmbito e as necessidades do projeto. De
acordo com os especialistas, esse investimento tende a compensar para aplicativos maiores com implantação contínua que exigem processos automatizados
bem preparados. Por outro lado, para versões iniciais de aplicações de aprendizagem automática, o esforço despendido na implementação dos princípios
pode alargar o âmbito do projeto e aumentar o tempo de execução. / [en] Context: Machine Learning Operations (MLOps) has emerged as a set
of practices that combines development, testing, and operations to deploy and
maintain machine learning applications. Objective: In this dissertation, we
will assess the benefits and limitations of the use of MLOps principles in the
context of online supervised models, which are widely used in applications such
as weather forecasting, market trends, and risk identification. Method: We
applied two research methods to assess the benefits of MLOps for supervised
online machine learning applications: (i) developing a practical supervised
machine learning project to deepen the understanding of the problem and of
the MLOps principles usage possibilities; and (ii) two focus group discussions
on the benefits and limitations of using the MLOps principles with six
experienced machine learning developers. Results: The practical project
implemented a supervised regression machine learning application using KNN.
The application uses information on Rio de Janeiro s public bus line routes and
calculates the bus trip duration based on the trip departure time of the day
and trip direction. Due to the scope of the first version and given that it
was not deployed into production, we didn t feel the need to use the MLOps
principles we were expecting at first. Indeed, we identified the need for only
one principle, the versioning principle, to align versions of the code and the
data. The focus group revealed that machine learning developers believe that
the benefits of using MLOps principles are many but that they do not apply
to all the projects they worked on. The discussion brought up that most of
the benefits are related to avoiding error-prone manual steps, enabling it to
restore the application to a previous state, and having a robust continuous
automated deployment pipeline. Conclusions: It is important to balance the
trade-offs of investing time and effort in implementing the MLOps principles
considering the scope and needs of the project. According to the experts, this
investment tends to pay off for larger applications with continuous deployment
that require well-prepared automated processes. On the other hand, for initial
versions of machine learning applications, the effort taken into implementing
the principles might enlarge the scope of the project and increase the time
needed to deploy a first version to production.
|
Page generated in 0.0893 seconds