Global ETD Search

1	預測模型中遺失值之選填順序研究 / Research of acquisition order of missing values in predictive model 施雲天 Unknown Date (has links) 預測模型已經被廣泛運用在日常生活中，例如銀行信用評比、消費者行為或是疾病的預測等等。然而不論在建構或使用預測模型的時候，我們都會在訓練資料或是測試資料中遇到遺失值的問題，因而降低預測的表現。面對遺失值有很多種處理方式，刪除、填補、模型建構以及機器學習都是可以使用的方法；除此之外，直接用某個成本去取得遺失值也是一個選擇。本研究著重的議題是用某成本去取得遺失值，並且利用決策樹(因為其在建構時可以容納遺失值)來當作預測模型，希望可以找到用較低的成本的填值方法達到較高的準確率。我們延續過去Error Sampling中Uncertainty Score的概念與邏輯。提出U-Sampling來判斷不同特徵值的「重要性排序」。相較於過去Error Sampling用「受試者」(row-based)的重要性來排序。U-Sampling是根據「特徵值」(column-based)的重要性來排序。我們用8組UCI machine Learning Repository的資料進行兩組實驗，分別讓訓練資料以及測試資料含有一定比例的遺失值。再利用U-Sampling、Random Sampling以及過去文獻所提及的Error Sampling作準確率和錯誤減少率的比較。實驗結果顯示在訓練資料有遺失值的情況，U-Sampling在70%以上的檔案表現較佳；而在測試資料有遺失值的情況，U-Sampling則是在87.5%的檔案表現較佳。另外，我們也研究了對於不同的遺失比例對於上述方法的效果是否有影響，可以用來判斷哪種情況比較適用哪一種選值方法。希望透過U-Sampling，可以先挑選重要的特徵值來填補，用較少的遺失值取得就得到較高的準確率，也因此可以節省處理遺失值的成本。遺失值決策樹分類 uncertainty score decision tree missing value acquisition

Search results

預測模型中遺失值之選填順序研究 / Research of acquisition order of missing values in predictive model