Return to search

Data selection for cross-project defect prediction

Abstract

Context: This study contributes to the understanding of the current state of cross-project defect prediction (CPDP) by investigating the topic in themes, with special focus on data approaches and covering search-based training data selection, by proposing data selection methods and investigating their impact. The empirical evidence for this work is collected through a formal systematic literature review method for the review, and from experiments on open source projects.

Objective: We aim to understand and summarize the manner in which various data manipulation approaches are used in CPDP and their potential impacts on performance. Further, we aim at utilizing search-based methods to produce evolving training data sets to filter irrelevant instances from other projects before training.
Method: Through a series of studies following the literature review of current state of CPDP, we propose a search-based method called genetic instance selection (GIS). We validate our initial findings by conducting the next study on a large set of data sets with multiple feature sets. We refine our design decisions using an exploratory study. Finally, we investigate an existing meta-learning approach, provide insights on its design and propose an alternative iterative data selection method.

Results: The literature review reveals lower performances of CPDP in comparison with within project defect prediction (WPDP) models and provides a set of primary studies to be used as the basis for future research. Our proposed data selection methods make the case for search-based approaches considering their higher effectiveness and performance. We identified potential impacting factors on the effectiveness through the exploratory study and proposed methods to create better CPDP models.

Conclusions: The proposal of numerous approaches in the literature over the last decade has led to progress in the area and the acquired knowledge and tools apply to many similar domains and can act as parts of academic curricula as well. Future directions of study can include searching for better validation data, better feature selection techniques, tuning the parameters of the search-based models, tuning hyper-parameters of learners, investigating the effects of multiple sources of optimization (learner, instances and features) and the impact of the class imbalance problem. / Tiivistelmä

Tausta: Tämä tutkimus edistää projektienvälisten virheiden ennustamisen nykytilan ymmärtämistä (CPDP) tutkimalla aihetta teemoissa, keskittyen erityisesti tiedollisiin lähestymistapoihin ja hakuperusteisen harjoitusdatan valintaan esittelemällä datan valintamenetelmiä ja tutkimalla niiden vaikutuksia. Tämän työn empiirinen todistusaineisto on koottu muodollisella systemaattisella kirjallisuuskatsauksella ja avoimen lähdekoodin projekteissa tehdyillä kokeilla.

Tavoite: Pyrimme ymmärtämään ja tiivistämään tavan, jolla erilaisia datan käsittelyn lähestymistapoja käytetään CPDP:ssa sekä niiden potentiaalisia vaikutuksia suorituskykyyn. Lisäksi, tavoitteenamme on hyödyntää hakuperusteisia menetelmiä muodostamaan kehittyviä harjoitusdata-settejä suodattamaan epäolennaisia esiintymiä muista projekteista ennen koulutusta.

Menetelmä: CPDP:n nykytilan kirjallisuuskatsauksen jälkeen tehtyjen tutkimusten avulla ehdotamme hakuperusteista menetelmää, jota kutsutaan geneettisen esiintymän valinnaksi (GIS). Todistamme alustavat havaintomme suorittamalla seuraavan tutkimuksen suurella joukolla datasettejä, joilla on useita ominaisuuksia. Jalostamme suunnittelupäätöksiämme käyttäen tutkivaa tutkimusta. Lopuksi, tutkimme vallitsevaa meta-oppimisen lähestymistapaa ja tarjoamme näkemyksiä sen suunnitteluun ja ehdotamme vaihtoehtoista, toistuvaa datan valintamenetelmää.

Tulokset: Kirjallisuuskatsaus paljastaa CPDP:n heikomman suorituskyvyn verrattuna projektinsisäisten virheiden ennustamisen (WPDP) malleihin ja tarjoaa joukon primaaritutkimuksia, joita voidaan käyttää perustana myöhemmälle tutkimukselle. Ehdottamamme datan valintamenetelmät puoltavat hakuperusteisten menetelmiä niiden paremman tehokkuuden ja suorituskyvyn vuoksi. Tunnistimme potentiaalisia tehokuuteen vaikuttavia tekijöitä tutkivien tutkimusten avulla ja ehdotimme metodeja parempien CPDP mallien luomiseksi.

Johtopäätökset: Viime vuosikymmenten aikana kirjallisuudessa esitellyt lukuisat menetelmät ovat edistäneet alaa ja hankittu tieto ja työkalut soveltuvat monille samanlaisille alueille ja voivat toimia myös osana akateemisia opetussuunnitelmia. Tutkimuksen tulevat linjaukset voivat sisältää validointiin paremmin soveltuvan datan haun, paremmat ominaisuuksien valintatekniikat, hakuperusteisten mallien parametrien hienosäädön, oppijoiden hyper-parametrien hienosäädön, tutkimuksen useiden optimoinnin lähteiden vaikutuksista (oppija, esiintymät, ominaisuudet) ja luokan epätasapaino-ongelman vaikutuksesta.

Identiferoai:union.ndltd.org:oulo.fi/oai:oulu.fi:isbn978-952-62-2448-0
Date25 November 2019
CreatorsHosseini, S. (Seyedrebvar)
ContributorsTurhan, B. (Burak), Mäntylä, M. (Mika)
PublisherOulun yliopisto
Source SetsUniversity of Oulu
LanguageEnglish
Detected LanguageFinnish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess, © University of Oulu, 2019
Relationinfo:eu-repo/semantics/altIdentifier/pissn/0355-3191, info:eu-repo/semantics/altIdentifier/eissn/1796-220X

Page generated in 0.0025 seconds