Submitted by Alice Araujo (alice.caraujo@ufpe.br) on 2017-11-29T17:23:55Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TeseDoutorado_lssf.pdf: 10022088 bytes, checksum: da65676610d3186199f2a0ed06e7f8f1 (MD5) / Made available in DSpace on 2017-11-29T17:23:55Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TeseDoutorado_lssf.pdf: 10022088 bytes, checksum: da65676610d3186199f2a0ed06e7f8f1 (MD5)
Previous issue date: 2016-12-21 / FACEPE / It is common sense in software engineering that well made experimental plans are recipes for successful experiments, and they help experimenters to avoid interferences during experiments. Although a number of tools are available to help researchers with writing experiments reports for scientific publications, few studies focus on how to assess study protocols with respect to completeness and scientific quality. As a result, designing controlled experiments using subjects has been a challenge for many experimenters in software engineering because of a large variety of factors that should be present in it to avoid introducing bias in controlled experiments. The main aim of this thesis is to define an instrument to help experimenters, specially beginners, to review their experimental planning for assessing whether they produced an experimental plan that is complete and includes all possible factors to minimize bias and issues. The instrument is a checklist whose design is based on experimental best practices and experts’ experience in planning and conducting controlled experiments using subjects. To collect the best practices, a systematic mapping study was conducted to identify support mechanisms (processes, tools, guidelines, among others.) used to plan and conduct empirical studies in the empirical software engineering community, and an informal literature review was carried out in order to find which support mechanisms are generally used in other fields. Moreover, we performed a qualitative study for understanding how empirical software engineering experts plan their experiments. The instrument has been evaluated through four empirical studies. Each one was explored from different perspectives by Software Engineering researchers at different levels of experience. The instrument was assessed regarding items that they find useful, inter-rater agreement, inter-rater reliability, and criterion validity using fully crossed design. Two controlled experiments were performed to assess if the usage of the instrument can reduce the chance of forgetting to include something important during the experiment planning phase compared to the usage of ad hoc practices. Additionally, the acceptance of the instrument was assessed by the four studies. In total, we had 35 participants who participated in four different kinds of assesment of the instrument. In the first study, 75.76% of the items were judged useful by two experts. The remaining items were discussed and adjusted. The second study revealed that the usage of the instrument helped beginners to assess experimental plans in the same way as the experts. We found a strong correlation between the overall completeness scores of the experimental plans and the recommendation that the experiment should proceed or not, and whether it is likely to be successful. In Studies 3 and 4, the proportion of the correct items found by participants using the instrument was greater than the results from participants using the ad hoc practices. The instrument has high acceptance from participants. Although the results are positive, performing more assessments including different settings is required to generalize these results. The usage of the instrument by experimenters, specially beginners, helps them to review the key factors included in the experimental plan, thus contributing to reduce potential confounding factors in the experiment. Revising an experimental plan is not a direct evaluation of the quality of the experiment itself but it allows changes to be made to improve the experiment before it is performed. / É comumente aceito pela comunidade de engenharia de software que planos experimentais bem planejados são receitas para experimentos bem sucedidos. Isso se deve ao fato que planos experimentais auxiliam experimentadores a evitarem interferências durante a execução dos experimentos. No entanto, embora existam ferramentas disponíveis para ajudar os investigadores a reportarem seus experimentos para publicações científicas, poucos estudos tem o objetivo de avaliar os protocolos de estudo no que diz respeito à completude e qualidade científica. Desta forma, planejar experimentos controlados utilizando participantes tem sido um desafio para muitos experimentadores em engenharia de software devido a grande variedade de fatores que devem estar presentes em um plano experimental a fim de evitar a introdução de viés nos experimentos controlados. O principal objetivo dessa tese de doutorado é definir um instrumento que auxilie experimentadores, principalmente inexperientes, a revisarem seus planejamentos experimentais a fim de avaliar se eles produziram um plano experimental completo, incluindo todos os possíveis fatores para minimizar viés e problemas. O instrumento é uma lista de verificação baseado nas melhores práticas experimentais e na experiência dos especialistas em engenharia de software experimental no planejamento e condução de experimentos controlados utilizando pessoas. Para coletar as melhores práticas, um mapeamento sistemático foi realizado para identificar os mecanismos de apoio (processos, ferramentas, guias, dentre outros) utilizados para planejar e conduzir estudos empíricos na comunidade de engenharia de software e uma revisão da literatura foi realizada para identificar mecanismos de apoio que são geralmente utilizados em outras áreas. Além disso, foi realizada um estudo qualitativo a fim de entender como os especialistas em engenharia de software experimental planejam seus experimentos. O instrumento foi avaliado por meio de quatro estudos. Cada estudo foi explorado através de diferentes perspectivas por pesquisadores de engenharia de software em diferentes níveis de experiência. O instrumento foi avaliado com relação a utilidade dos itens, a concordância e a confiabilidade entre os avaliadores e validade de critério. Dois experimentos controlados foram realizados para avaliar se o uso do instrumento pode reduzir a chance de esquecer algo importante durante a fase de planejamento do experimento em comparação com as práticas comumente usadas pelos pesquisadores. Além disso, os quatro estudos avaliaram a aceitação do instrumento para revisar planos experimentais de experimentos controlados utilizando participantes. No total, 35 participantes avaliaram o instrumento através de quatro diferentes tipos de objetivos. No primeiro estudo, 75,76% dos itens foram julgados uteis pelos dois especialistas envolvidos no estudo. Os itens restantes foram discutidos e ajustados. O segundo estudo revelou que a utilização do instrumento auxiliou iniciantes a avaliarem planos experimentais da mesma forma dos especialistas. Os resultados mostraram uma forte correlação entre os escores da completude global dos planos experimentais e as recomendações se o experimento deveria prosseguir e a probabilidade do experimento ser bem-sucedido. Nos estudos 3 e 4, a proporção dos itens corretos encontrados pelos participantes utilizando o instrumento foi significantemente maior do que os resultados utilizando as práticas comumente utilizadas pelos participantes. O instrumento teve alta aceitação por parte dos participantes. No entanto, embora os resultados sejam positivos, se faz necessário a realização de mais estudos de avaliação, incluindo outras configurações de ambientes a fim de que o resultado possa ser generalizado. A utilização do instrumento pelos experimentadores, especialmente os iniciantes, auxilia a revisão dos principais fatores que devem estar incluídos no plano experimental, contribuindo assim para reduzir potenciais fatores de confusão no experimento. Revisar um plano experimental não é uma avaliação direta da qualidade do experimento, mas permite que mudanças no experimento sejam realizadas antes que ele seja de fato executado.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/22421 |
Date | 21 December 2016 |
Creators | FONSECA, Liliane Sheyla da Silva |
Contributors | http://lattes.cnpq.br/6456667887502521, SOARES, Sergio Castelo Branco, SEAMAN, Carolyn |
Publisher | Universidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil |
Source Sets | IBICT Brazilian ETDs |
Language | English |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess |
Page generated in 0.0047 seconds