• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

以資料採礦的方法探索影響台灣地區女性戶長的原因

李孟謙, LEE, MENG CHIEN Unknown Date (has links)
「資料採礦」(Data Mining)為一種結合統計分析、資訊工程和各領域間專業知識的一種新興分析技術,例如:產業界的市場分析,金融界的財務分析,保險業的風險管理,生物科技界的疾病分析以及政府的人口統計,在各行各業使用資料採礦技術的人員日益增加。然而,正因資料採礦屬於新興發展的領域,仍有不少事項尚待開發,例如:不同型態的資料如何處理。本文即探討兩種不同型態的資料:資料量多、變數少以及資料量少、變數多兩種,以監督學習(Supervised Learning)和分類(Classification)的概念,分別對觀察值較多的2000年台灣地區戶口普查資料探討影響女性戶長的因素,而對變數較多的攝謢腺癌資料詮釋血清的病症類型,研究不同的類型資料可能的處理步驟。 本文主要的結論為:1.當資料量多時,引入抽樣的概念,資料採礦可利用抽樣將資料量縮減,減少處理時間,並且抽樣資料和全部資料在分類錯誤率的差異頗為相近,因此抽樣為一種可行的處理方式。以研究女性戶長為例,資料量最少的東部資料為抽樣代表,在不失分類準確性的前提下,抽樣3%資料的分析結果與使用整體資料的結果相差不多,達到合乎經濟效應。2.當資料量少時,引入變數縮減的想法,使用敘述性統計量和不均度的17個指標統計量,能替代全部變數進行分析,運用羅吉斯迴歸方法,分類錯誤率的結果在可接受範圍內,並且解決在傳統分析上自由度不夠的問題。以研究攝護腺癌症為例,在不損失太多分類正確性的原則下,將血清透過質譜儀所反映的強度,透過變數縮減的技巧提高分析效率;另外,縮減變數後自由度充足,傳統的統計方法可運用在攝護腺癌的資料上,使分析的工具有較廣泛的選擇。

Page generated in 0.0241 seconds