Global ETD Search

Return to search

以資料採礦的方法探索影響台灣地區女性戶長的原因

「資料採礦」(Data Mining)為一種結合統計分析、資訊工程和各領域間專業知識的一種新興分析技術，例如：產業界的市場分析，金融界的財務分析，保險業的風險管理，生物科技界的疾病分析以及政府的人口統計，在各行各業使用資料採礦技術的人員日益增加。然而，正因資料採礦屬於新興發展的領域，仍有不少事項尚待開發，例如：不同型態的資料如何處理。本文即探討兩種不同型態的資料：資料量多、變數少以及資料量少、變數多兩種，以監督學習(Supervised Learning)和分類(Classification)的概念，分別對觀察值較多的2000年台灣地區戶口普查資料探討影響女性戶長的因素，而對變數較多的攝謢腺癌資料詮釋血清的病症類型，研究不同的類型資料可能的處理步驟。
本文主要的結論為：1.當資料量多時，引入抽樣的概念，資料採礦可利用抽樣將資料量縮減，減少處理時間，並且抽樣資料和全部資料在分類錯誤率的差異頗為相近，因此抽樣為一種可行的處理方式。以研究女性戶長為例，資料量最少的東部資料為抽樣代表，在不失分類準確性的前提下，抽樣3%資料的分析結果與使用整體資料的結果相差不多，達到合乎經濟效應。2.當資料量少時，引入變數縮減的想法，使用敘述性統計量和不均度的17個指標統計量，能替代全部變數進行分析，運用羅吉斯迴歸方法，分類錯誤率的結果在可接受範圍內，並且解決在傳統分析上自由度不夠的問題。以研究攝護腺癌症為例，在不損失太多分類正確性的原則下，將血清透過質譜儀所反映的強度，透過變數縮減的技巧提高分析效率；另外，縮減變數後自由度充足，傳統的統計方法可運用在攝護腺癌的資料上，使分析的工具有較廣泛的選擇。

http://thesis.lib.nccu.edu.tw/cgi-bin/cdrfb3/gsweb.cgi?o=dstdcdr&i=sid=%22G0090354014%22.

Identifer	oai:union.ndltd.org:CHENGCHI/G0090354014
Creators	李孟謙, LEE, MENG CHIEN
Publisher	國立政治大學
Source Sets	National Chengchi University Libraries
Language	中文
Detected Language	Unknown
Type	text
Rights	Copyright © nccu library on behalf of the copyright holders

Page generated in 0.0018 seconds

以資料採礦的方法探索影響台灣地區女性戶長的原因

Description

Links & Downloads

Tags

Additional Fields