Global ETD Search

Return to search

線性維度縮減應用質譜儀資料之研究

近年來電腦科技進步、資料庫健全發展，使得處理大量資料的需求增加，因而發展出結合生物醫學與資訊統計兩大領域的生物資訊(Bio-informative)。這個新學門的特色在於資料量及資料變數的龐雜，但過多資料經常干擾資訊的篩選，甚至癱瘓資料分析，因此如何適當地縮減資料(Data Reduction)就變得必要。資料縮減常藉由維度縮減(Dimension Reduction)進行，其中常見的線性維度縮減方法首推主成份分析，屬於非監督式學習(Unsupervised Learning)的一種，而線性的監督式學習(Supervised Learning)方法則有SIR(Sliced Inverse Regression)、SAVE(Sliced Average Variance Estimate)及pHd(Principal Hessian Directions)。非監督式學習的主成份分析，主要在找出少數幾個維度而可以解釋代表自變數的變異程度，而監督式學習的SIR、SAVE及pHd則可以在縮減維度時，同時考量自變數跟應變數之間的關係，而找出可以解釋應變數的維度。
本研究為解決蛋白質質譜儀資料高維度的問題，將應用各種線性維度縮減方法，並分別使用CART(Classification and Regression Tree)、KNN(K-Nearest Neighbor)、SVM(Support Vector Machine)、ANN(Artificial Neural Network)四種分類器，比較各維度縮減方法的分錯率高低，以交叉驗證(Cross Validation)比較維度縮減方法的優劣。研究發現在四種維度縮減方法中，PCA及SIR在各種分類器下都有較為穩定的分錯率，表現較為一致，但SAVE及pHd較不理想。我們也發現在不同的分類器下，PCA跟SIR兩者有不同表現，正確率較高的分類器(SVM與ANN)與PCA結合，而正確率較低的分類器(CART與KNN)與SIR結合，會有較佳的結果。另外，我們也嘗試整合分析(Meta Analysis)，綜合幾種線性維度縮減方法，而提出邊際訓練效果法(Marginal Training Effect Method)與加權整合法(Meta Weighted Method)，其中發現邊際訓練效果法若可以挑選出有效的維度，可以在不同分類器下提高整體模型，而加權整合法則確保在不同分類器下，讓其分類模型具有較為穩定的準確率；並提出相關係數重疊法(Overlap Correlation Method)來解決需要決定維度大小的問題。

http://thesis.lib.nccu.edu.tw/cgi-bin/cdrfb3/gsweb.cgi?o=dstdcdr&i=sid=%22G0094354002%22.

Identifer	oai:union.ndltd.org:CHENGCHI/G0094354002
Creators	陳柏宇
Publisher	國立政治大學
Source Sets	National Chengchi University Libraries
Language	中文
Detected Language	English
Type	text
Rights	Copyright © nccu library on behalf of the copyright holders

Page generated in 0.002 seconds

線性維度縮減應用質譜儀資料之研究

Description

Links & Downloads

Tags

Additional Fields