Return to search

[en] CAN MACHINE LEARNING REPLACE A REVIEWER IN THE SELECTION OF STUDIES FOR SYSTEMATIC LITERATURE REVIEW UPDATES? / [pt] MACHINE LEARNING PODE SUBSTITUIR UM REVISOR NA SELEÇÃO DE ESTUDOS DE ATUALIZAÇÕES DE REVISÕES SISTEMÁTICAS DA LITERATURA?

[pt] [Contexto] A importância das revisões sistemáticas da literatura (RSLs)
para encontrar e sintetizar novas evidências para Engenharia de Software (ES)
é bem conhecida, mas realizar e manter as RSLs atualizadas ainda é um grande
desafio. Uma das atividades mais exaustivas durante uma RSL é a seleção
de estudos, devido ao grande número de estudos a serem analisados. Além
disso, para evitar viés, a seleção de estudos deve ser conduzida por mais de um
revisor. [Objetivo] Esta dissertação tem como objetivo avaliar o uso de modelos
de classificação de texto de machine learning (ML) para apoiar a seleção de
estudos em atualizações de RSL e verificar se tais modelos podem substituir
um revisor adicional. [Método] Reproduzimos a seleção de estudos de uma
atualização de RSL realizada por três pesquisadores experientes, aplicando os
modelos de ML ao mesmo conjunto de dados que eles utilizaram. Utilizamos
dois algoritmos de ML supervisionado com configurações diferentes (Random
Forest e Support Vector Machines) para treinar os modelos com base na RSL
original. Calculamos a eficácia da seleção de estudos dos modelos de ML
em termos de precisão, recall e f-measure. Também comparamos o nível de
semelhança e concordância entre os estudos selecionados pelos modelos de
ML e os revisores originais, realizando uma análise de Kappa e da Distância
Euclidiana. [Resultados] Em nossa investigação, os modelos de ML alcançaram
um f-score de 0.33 para a seleção de estudos, o que é insuficiente para conduzir
a tarefa de forma automatizada. No entanto, descobrimos que tais modelos
poderiam reduzir o esforço de seleção de estudos em 33.9 por cento sem perda de
evidências (mantendo um recall de 100 por cento), descartando estudos com baixa
probabilidade de inclusão. Além disso, os modelos de ML alcançaram em
média um nível de concordância moderado com os revisores, com um valor
médio de 0.42 para o coeficiente de Kappa. [Conclusões] Os resultados indicam
que o ML não está pronto para substituir a seleção de estudos por revisores
humanos e também pode não ser usado para substituir a necessidade de um
revisor adicional. No entanto, há potencial para reduzir o esforço de seleção de
estudos das atualizações de RSL. / [en] [Context] The importance of systematic literature reviews (SLRs) to find
and synthesize new evidence for Software Engineering (SE) is well known, yet
performing and keeping SLRs up-to-date is still a big challenge. One of the most
exhaustive activities during an SLR is the study selection because of the large
number of studies to be analyzed. Furthermore, to avoid bias, study selection
should be conducted by more than one reviewer. [Objective] This dissertation
aims to evaluate the use of machine learning (ML) text classification models
to support the study selection in SLR updates and verify if such models can
replace an additional reviewer. [Method] We reproduce the study selection of
an SLR update performed by three experienced researchers, applying the ML
models to the same dataset they used. We used two supervised ML algorithms
with different configurations (Random Forest and Support Vector Machines) to
train the models based on the original SLR. We calculated the study selection
effectiveness of the ML models in terms of precision, recall, and f-measure.
We also compared the level of similarity and agreement between the studies
selected by the ML models and the original reviewers by performing a Kappa
Analysis and Euclidean Distance Analysis. [Results] In our investigation, the
ML models achieved an f-score of 0.33 for study selection, which is insufficient
for conducting the task in an automated way. However, we found that such
models could reduce the study selection effort by 33.9 percent without loss of evidence
(keeping a 100 percent recall), discarding studies with a low probability of being
included. In addition, the ML models achieved a moderate average kappa level
of agreement of 0.42 with the reviewers. [Conclusion] The results indicate that
ML is not ready to replace study selection by human reviewers and may also
not be used to replace the need for an additional reviewer. However, there is
potential for reducing the study selection effort of SLR updates.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:68121
Date19 September 2024
CreatorsMARCELO COSTALONGA CARDOSO
ContributorsMARCOS KALINOWSKI, MARCOS KALINOWSKI, MARCOS KALINOWSKI
PublisherMAXWELL
Source SetsPUC Rio
LanguageEnglish
Detected LanguageEnglish
TypeTEXTO

Page generated in 0.0023 seconds