• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 23
  • 23
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Data selection for cross-project defect prediction

Hosseini, S. (Seyedrebvar) 25 November 2019 (has links)
Abstract Context: This study contributes to the understanding of the current state of cross-project defect prediction (CPDP) by investigating the topic in themes, with special focus on data approaches and covering search-based training data selection, by proposing data selection methods and investigating their impact. The empirical evidence for this work is collected through a formal systematic literature review method for the review, and from experiments on open source projects. Objective: We aim to understand and summarize the manner in which various data manipulation approaches are used in CPDP and their potential impacts on performance. Further, we aim at utilizing search-based methods to produce evolving training data sets to filter irrelevant instances from other projects before training. Method: Through a series of studies following the literature review of current state of CPDP, we propose a search-based method called genetic instance selection (GIS). We validate our initial findings by conducting the next study on a large set of data sets with multiple feature sets. We refine our design decisions using an exploratory study. Finally, we investigate an existing meta-learning approach, provide insights on its design and propose an alternative iterative data selection method. Results: The literature review reveals lower performances of CPDP in comparison with within project defect prediction (WPDP) models and provides a set of primary studies to be used as the basis for future research. Our proposed data selection methods make the case for search-based approaches considering their higher effectiveness and performance. We identified potential impacting factors on the effectiveness through the exploratory study and proposed methods to create better CPDP models. Conclusions: The proposal of numerous approaches in the literature over the last decade has led to progress in the area and the acquired knowledge and tools apply to many similar domains and can act as parts of academic curricula as well. Future directions of study can include searching for better validation data, better feature selection techniques, tuning the parameters of the search-based models, tuning hyper-parameters of learners, investigating the effects of multiple sources of optimization (learner, instances and features) and the impact of the class imbalance problem. / Tiivistelmä Tausta: Tämä tutkimus edistää projektienvälisten virheiden ennustamisen nykytilan ymmärtämistä (CPDP) tutkimalla aihetta teemoissa, keskittyen erityisesti tiedollisiin lähestymistapoihin ja hakuperusteisen harjoitusdatan valintaan esittelemällä datan valintamenetelmiä ja tutkimalla niiden vaikutuksia. Tämän työn empiirinen todistusaineisto on koottu muodollisella systemaattisella kirjallisuuskatsauksella ja avoimen lähdekoodin projekteissa tehdyillä kokeilla. Tavoite: Pyrimme ymmärtämään ja tiivistämään tavan, jolla erilaisia datan käsittelyn lähestymistapoja käytetään CPDP:ssa sekä niiden potentiaalisia vaikutuksia suorituskykyyn. Lisäksi, tavoitteenamme on hyödyntää hakuperusteisia menetelmiä muodostamaan kehittyviä harjoitusdata-settejä suodattamaan epäolennaisia esiintymiä muista projekteista ennen koulutusta. Menetelmä: CPDP:n nykytilan kirjallisuuskatsauksen jälkeen tehtyjen tutkimusten avulla ehdotamme hakuperusteista menetelmää, jota kutsutaan geneettisen esiintymän valinnaksi (GIS). Todistamme alustavat havaintomme suorittamalla seuraavan tutkimuksen suurella joukolla datasettejä, joilla on useita ominaisuuksia. Jalostamme suunnittelupäätöksiämme käyttäen tutkivaa tutkimusta. Lopuksi, tutkimme vallitsevaa meta-oppimisen lähestymistapaa ja tarjoamme näkemyksiä sen suunnitteluun ja ehdotamme vaihtoehtoista, toistuvaa datan valintamenetelmää. Tulokset: Kirjallisuuskatsaus paljastaa CPDP:n heikomman suorituskyvyn verrattuna projektinsisäisten virheiden ennustamisen (WPDP) malleihin ja tarjoaa joukon primaaritutkimuksia, joita voidaan käyttää perustana myöhemmälle tutkimukselle. Ehdottamamme datan valintamenetelmät puoltavat hakuperusteisten menetelmiä niiden paremman tehokkuuden ja suorituskyvyn vuoksi. Tunnistimme potentiaalisia tehokuuteen vaikuttavia tekijöitä tutkivien tutkimusten avulla ja ehdotimme metodeja parempien CPDP mallien luomiseksi. Johtopäätökset: Viime vuosikymmenten aikana kirjallisuudessa esitellyt lukuisat menetelmät ovat edistäneet alaa ja hankittu tieto ja työkalut soveltuvat monille samanlaisille alueille ja voivat toimia myös osana akateemisia opetussuunnitelmia. Tutkimuksen tulevat linjaukset voivat sisältää validointiin paremmin soveltuvan datan haun, paremmat ominaisuuksien valintatekniikat, hakuperusteisten mallien parametrien hienosäädön, oppijoiden hyper-parametrien hienosäädön, tutkimuksen useiden optimoinnin lähteiden vaikutuksista (oppija, esiintymät, ominaisuudet) ja luokan epätasapaino-ongelman vaikutuksesta.
22

Advanced techniques for domain adaptation in Statistical Machine Translation

Chinea Ríos, Mara 04 March 2019 (has links)
[ES] La Traducción Automática Estadística es un sup-campo de la lingüística computacional que investiga como emplear los ordenadores en el proceso de traducción de un texto de un lenguaje humano a otro. La traducción automática estadística es el enfoque más popular que se emplea para construir estos sistemas de traducción automáticos. La calidad de dichos sistemas depende en gran medida de los ejemplos de traducción que se emplean durante los procesos de entrenamiento y adaptación de los modelos. Los conjuntos de datos empleados son obtenidos a partir de una gran variedad de fuentes y en muchos casos puede que no tengamos a mano los datos más adecuados para un dominio específico. Dado este problema de carencia de datos, la idea principal para solucionarlo es encontrar aquellos conjuntos de datos más adecuados para entrenar o adaptar un sistema de traducción. En este sentido, esta tesis propone un conjunto de técnicas de selección de datos que identifican los datos bilingües más relevantes para una tarea extraídos de un gran conjunto de datos. Como primer paso en esta tesis, las técnicas de selección de datos son aplicadas para mejorar la calidad de la traducción de los sistemas de traducción bajo el paradigma basado en frases. Estas técnicas se basan en el concepto de representación continua de las palabras o las oraciones en un espacio vectorial. Los resultados experimentales demuestran que las técnicas utilizadas son efectivas para diferentes lenguajes y dominios. El paradigma de Traducción Automática Neuronal también fue aplicado en esta tesis. Dentro de este paradigma, investigamos la aplicación que pueden tener las técnicas de selección de datos anteriormente validadas en el paradigma basado en frases. El trabajo realizado se centró en la utilización de dos tareas diferentes de adaptación del sistema. Por un lado, investigamos cómo aumentar la calidad de traducción del sistema, aumentando el tamaño del conjunto de entrenamiento. Por otro lado, el método de selección de datos se empleó para crear un conjunto de datos sintéticos. Los experimentos se realizaron para diferentes dominios y los resultados de traducción obtenidos son convincentes para ambas tareas. Finalmente, cabe señalar que las técnicas desarrolladas y presentadas a lo largo de esta tesis pueden implementarse fácilmente dentro de un escenario de traducción real. / [CAT] La Traducció Automàtica Estadística és un sup-camp de la lingüística computacional que investiga com emprar els ordinadors en el procés de traducció d'un text d'un llenguatge humà a un altre. La traducció automàtica estadística és l'enfocament més popular que s'empra per a construir aquests sistemes de traducció automàtics. La qualitat d'aquests sistemes depèn en gran mesura dels exemples de traducció que s'empren durant els processos d'entrenament i adaptació dels models. Els conjunts de dades emprades són obtinguts a partir d'una gran varietat de fonts i en molts casos pot ser que no tinguem a mà les dades més adequades per a un domini específic. Donat aquest problema de manca de dades, la idea principal per a solucionar-ho és trobar aquells conjunts de dades més adequades per a entrenar o adaptar un sistema de traducció. En aquest sentit, aquesta tesi proposa un conjunt de tècniques de selecció de dades que identifiquen les dades bilingües més rellevants per a una tasca extrets d'un gran conjunt de dades. Com a primer pas en aquesta tesi, les tècniques de selecció de dades són aplicades per a millorar la qualitat de la traducció dels sistemes de traducció sota el paradigma basat en frases. Aquestes tècniques es basen en el concepte de representació contínua de les paraules o les oracions en un espai vectorial. Els resultats experimentals demostren que les tècniques utilitzades són efectives per a diferents llenguatges i dominis. El paradigma de Traducció Automàtica Neuronal també va ser aplicat en aquesta tesi. Dins d'aquest paradigma, investiguem l'aplicació que poden tenir les tècniques de selecció de dades anteriorment validades en el paradigma basat en frases. El treball realitzat es va centrar en la utilització de dues tasques diferents. D'una banda, investiguem com augmentar la qualitat de traducció del sistema, augmentant la grandària del conjunt d'entrenament. D'altra banda, el mètode de selecció de dades es va emprar per a crear un conjunt de dades sintètiques. Els experiments es van realitzar per a diferents dominis i els resultats de traducció obtinguts són convincents per a ambdues tasques. Finalment, cal assenyalar que les tècniques desenvolupades i presentades al llarg d'aquesta tesi poden implementar-se fàcilment dins d'un escenari de traducció real. / [EN] La Traducció Automàtica Estadística és un sup-camp de la lingüística computacional que investiga com emprar els ordinadors en el procés de traducció d'un text d'un llenguatge humà a un altre. La traducció automàtica estadística és l'enfocament més popular que s'empra per a construir aquests sistemes de traducció automàtics. La qualitat d'aquests sistemes depèn en gran mesura dels exemples de traducció que s'empren durant els processos d'entrenament i adaptació dels models. Els conjunts de dades emprades són obtinguts a partir d'una gran varietat de fonts i en molts casos pot ser que no tinguem a mà les dades més adequades per a un domini específic. Donat aquest problema de manca de dades, la idea principal per a solucionar-ho és trobar aquells conjunts de dades més adequades per a entrenar o adaptar un sistema de traducció. En aquest sentit, aquesta tesi proposa un conjunt de tècniques de selecció de dades que identifiquen les dades bilingües més rellevants per a una tasca extrets d'un gran conjunt de dades. Com a primer pas en aquesta tesi, les tècniques de selecció de dades són aplicades per a millorar la qualitat de la traducció dels sistemes de traducció sota el paradigma basat en frases. Aquestes tècniques es basen en el concepte de representació contínua de les paraules o les oracions en un espai vectorial. Els resultats experimentals demostren que les tècniques utilitzades són efectives per a diferents llenguatges i dominis. El paradigma de Traducció Automàtica Neuronal també va ser aplicat en aquesta tesi. Dins d'aquest paradigma, investiguem l'aplicació que poden tenir les tècniques de selecció de dades anteriorment validades en el paradigma basat en frases. El treball realitzat es va centrar en la utilització de dues tasques diferents d'adaptació del sistema. D'una banda, investiguem com augmentar la qualitat de traducció del sistema, augmentant la grandària del conjunt d'entrenament. D'altra banda, el mètode de selecció de dades es va emprar per a crear un conjunt de dades sintètiques. Els experiments es van realitzar per a diferents dominis i els resultats de traducció obtinguts són convincents per a ambdues tasques. Finalment, cal assenyalar que les tècniques desenvolupades i presentades al llarg d'aquesta tesi poden implementar-se fàcilment dins d'un escenari de traducció real. / Chinea Ríos, M. (2019). Advanced techniques for domain adaptation in Statistical Machine Translation [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/117611 / TESIS
23

Dolování z dat v prostředí informačního systému K2 / Data Mining in K2 Information System

Figura, Petr Unknown Date (has links)
This project was originated by K2 atmitec Brno s.r.o. company. The result is data mining module in K2 information system environment. Engineered data module implements association analysis over the data of K2 information system data warehouse. Analyzed data contains information about sales filed in K2 information system. Module is implementing consumer basket analysis.

Page generated in 0.1114 seconds