• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

預測模型中遺失值之選填順序研究 / Research of acquisition order of missing values in predictive model

施雲天 Unknown Date (has links)
預測模型已經被廣泛運用在日常生活中,例如銀行信用評比、消費者行為或是疾病的預測等等。然而不論在建構或使用預測模型的時候,我們都會在訓練資料或是測試資料中遇到遺失值的問題,因而降低預測的表現。面對遺失值有很多種處理方式,刪除、填補、模型建構以及機器學習都是可以使用的方法;除此之外,直接用某個成本去取得遺失值也是一個選擇。 本研究著重的議題是用某成本去取得遺失值,並且利用決策樹(因為其在建構時可以容納遺失值)來當作預測模型,希望可以找到用較低的成本的填值方法達到較高的準確率。我們延續過去Error Sampling中Uncertainty Score的概念與邏輯。提出U-Sampling來判斷不同特徵值的「重要性排序」。相較於過去Error Sampling用「受試者」(row-based)的重要性來排序。U-Sampling是根據「特徵值」(column-based)的重要性來排序。 我們用8組UCI machine Learning Repository的資料進行兩組實驗,分別讓訓練資料以及測試資料含有一定比例的遺失值。再利用U-Sampling、Random Sampling以及過去文獻所提及的Error Sampling作準確率和錯誤減少率的比較。實驗結果顯示在訓練資料有遺失值的情況,U-Sampling在70%以上的檔案表現較佳;而在測試資料有遺失值的情況,U-Sampling則是在87.5%的檔案表現較佳。 另外,我們也研究了對於不同的遺失比例對於上述方法的效果是否有影響,可以用來判斷哪種情況比較適用哪一種選值方法。希望透過U-Sampling,可以先挑選重要的特徵值來填補,用較少的遺失值取得就得到較高的準確率,也因此可以節省處理遺失值的成本。

Page generated in 0.0146 seconds