Global ETD Search

Return to search

預測模型中遺失值之選填順序研究 / Research of acquisition order of missing values in predictive model

預測模型已經被廣泛運用在日常生活中，例如銀行信用評比、消費者行為或是疾病的預測等等。然而不論在建構或使用預測模型的時候，我們都會在訓練資料或是測試資料中遇到遺失值的問題，因而降低預測的表現。面對遺失值有很多種處理方式，刪除、填補、模型建構以及機器學習都是可以使用的方法；除此之外，直接用某個成本去取得遺失值也是一個選擇。
本研究著重的議題是用某成本去取得遺失值，並且利用決策樹(因為其在建構時可以容納遺失值)來當作預測模型，希望可以找到用較低的成本的填值方法達到較高的準確率。我們延續過去Error Sampling中Uncertainty Score的概念與邏輯。提出U-Sampling來判斷不同特徵值的「重要性排序」。相較於過去Error Sampling用「受試者」(row-based)的重要性來排序。U-Sampling是根據「特徵值」(column-based)的重要性來排序。
我們用8組UCI machine Learning Repository的資料進行兩組實驗，分別讓訓練資料以及測試資料含有一定比例的遺失值。再利用U-Sampling、Random Sampling以及過去文獻所提及的Error Sampling作準確率和錯誤減少率的比較。實驗結果顯示在訓練資料有遺失值的情況，U-Sampling在70%以上的檔案表現較佳；而在測試資料有遺失值的情況，U-Sampling則是在87.5%的檔案表現較佳。
另外，我們也研究了對於不同的遺失比例對於上述方法的效果是否有影響，可以用來判斷哪種情況比較適用哪一種選值方法。希望透過U-Sampling，可以先挑選重要的特徵值來填補，用較少的遺失值取得就得到較高的準確率，也因此可以節省處理遺失值的成本。

http://thesis.lib.nccu.edu.tw/cgi-bin/cdrfb3/gsweb.cgi?o=dstdcdr&i=sid=%22G0101355055%22.

missing value acquisition

Identifer	oai:union.ndltd.org:CHENGCHI/G0101355055
Creators	施雲天
Publisher	國立政治大學
Source Sets	National Chengchi University Libraries
Language	中文
Detected Language	Unknown
Type	text
Rights	Copyright © nccu library on behalf of the copyright holders

Page generated in 0.002 seconds

預測模型中遺失值之選填順序研究 / Research of acquisition order of missing values in predictive model

Description

Links & Downloads

Tags

Additional Fields