[pt] [Contexto] A dívida técnica (DT) em sistemas de aprendizado de máquina (AM), assim como sua contraparte em engenharia de software (ES), tem
o potencial de levar a retrabalhos futuros, representando riscos para produtividade, qualidade e moral da equipe. No entanto, compreender melhor os
problemas relacionados ao código que levam à DT em sistemas de AM ainda
é um campo em aberto. [Objetivo] Este artigo tem como objetivo identificar e
discutir a relevância de problemas que levam a DT no código de AM ao longo
do ciclo de vida do AM. [Método] O estudo compilou inicialmente uma lista
de problemas potenciais que podem levar à DT no código de AM, analisando
as fases do ciclo de vida do AM e suas tarefas típicas. Posteriormente, a lista
de problemas foi refinada através da avaliação da prevalência e relevância dos
problemas que levam à DT no código de AM por meio de feedback coletado
de profissionais da indústria em duas sessões de grupos focais. [Resultados] O
estudo compilou uma lista inicial de 34 problemas que potencialmente contribuem para DT em código-fonte de sistemas de AM. Através de duas sessões
de grupos focais com nove participantes, esta lista foi refinada para 30 problemas que levam à DT relacionada ao código de AM, sendo 24 considerados
altamente relevantes. A fase de pré-processamento de dados foi a mais crítica,
com 14 problemas considerados altamente relevantes em potencialmente levar
a uma DT grave no código de AM. Cinco problemas foram considerados altamente relevantes na fase de criação e treinamento do modelo e quatro na fase
de coleta de dados. A lista final de problemas está disponível para a comunidade. [Conclusão] A lista pode ajudar a aumentar a conscientização sobre os
problemas a serem tratados ao longo do ciclo de vida do AM para minimizar
a acumulação de DT, ajudando a melhorar a manutenibilidade de sistemas de
AM. / [en] [Context] Technical debt (TD) in machine learning (ML) systems, much
like its counterpart in software engineering (SE), holds the potential to lead to
future rework, posing risks to productivity, quality, and team morale. However,
better understanding code-related issues leading to TD in ML systems is still
a green field. [Objective] This dissertation aims to identify and discuss the
relevance of code-related issues leading to TD in ML code throughout the ML
life cycle. [Method] Initially, the study generated a list of potential factors that
may contribute to accruing TD in ML code. This compilation was achieved
by looking at the phases of the ML life cycle along with their usual tasks.
Subsequently, the identified issues were refined by evaluating their prevalence
and relevance in causing TD in ML code. This refinement process involved
soliciting feedback from industry professionals during two focus group sessions.
[Results] The study compiled a list of 34 potential issues contributing to TD
in the source code of ML systems. Through two focus group sessions with nine
participants, this list was refined into 30 issues leading to ML code-related
TD, with 24 considered highly relevant. The data pre-processing phase was the
most critical, with 14 issues considered highly relevant in potentially leading to
severe ML code TD. Five issues were considered highly relevant in the model
creation and training phase and four in the data collection phase. The final list
of issues is available to the community. [Conclusion] The list can help to raise
awareness on issues to be addressed throughout the ML life cycle to minimize
accruing TD, helping to improve the maintainability of ML systems.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:67941 |
Date | 10 September 2024 |
Creators | RODRIGO GALDINO XIMENES |
Contributors | MARCOS KALINOWSKI, MARCOS KALINOWSKI, MARCOS KALINOWSKI |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | English |
Detected Language | English |
Type | TEXTO |
Page generated in 0.0019 seconds