1 |
以資料採礦的方法探索影響台灣地區女性戶長的原因李孟謙, LEE, MENG CHIEN Unknown Date (has links)
「資料採礦」(Data Mining)為一種結合統計分析、資訊工程和各領域間專業知識的一種新興分析技術,例如:產業界的市場分析,金融界的財務分析,保險業的風險管理,生物科技界的疾病分析以及政府的人口統計,在各行各業使用資料採礦技術的人員日益增加。然而,正因資料採礦屬於新興發展的領域,仍有不少事項尚待開發,例如:不同型態的資料如何處理。本文即探討兩種不同型態的資料:資料量多、變數少以及資料量少、變數多兩種,以監督學習(Supervised Learning)和分類(Classification)的概念,分別對觀察值較多的2000年台灣地區戶口普查資料探討影響女性戶長的因素,而對變數較多的攝謢腺癌資料詮釋血清的病症類型,研究不同的類型資料可能的處理步驟。
本文主要的結論為:1.當資料量多時,引入抽樣的概念,資料採礦可利用抽樣將資料量縮減,減少處理時間,並且抽樣資料和全部資料在分類錯誤率的差異頗為相近,因此抽樣為一種可行的處理方式。以研究女性戶長為例,資料量最少的東部資料為抽樣代表,在不失分類準確性的前提下,抽樣3%資料的分析結果與使用整體資料的結果相差不多,達到合乎經濟效應。2.當資料量少時,引入變數縮減的想法,使用敘述性統計量和不均度的17個指標統計量,能替代全部變數進行分析,運用羅吉斯迴歸方法,分類錯誤率的結果在可接受範圍內,並且解決在傳統分析上自由度不夠的問題。以研究攝護腺癌症為例,在不損失太多分類正確性的原則下,將血清透過質譜儀所反映的強度,透過變數縮減的技巧提高分析效率;另外,縮減變數後自由度充足,傳統的統計方法可運用在攝護腺癌的資料上,使分析的工具有較廣泛的選擇。
|
Page generated in 0.0255 seconds