1 |
線性維度縮減應用質譜儀資料之研究陳柏宇 Unknown Date (has links)
近年來電腦科技進步、資料庫健全發展,使得處理大量資料的需求增加,因而發展出結合生物醫學與資訊統計兩大領域的生物資訊(Bio-informative)。這個新學門的特色在於資料量及資料變數的龐雜,但過多資料經常干擾資訊的篩選,甚至癱瘓資料分析,因此如何適當地縮減資料(Data Reduction)就變得必要。資料縮減常藉由維度縮減(Dimension Reduction)進行,其中常見的線性維度縮減方法首推主成份分析,屬於非監督式學習(Unsupervised Learning)的一種,而線性的監督式學習(Supervised Learning)方法則有SIR(Sliced Inverse Regression)、SAVE(Sliced Average Variance Estimate)及pHd(Principal Hessian Directions)。非監督式學習的主成份分析,主要在找出少數幾個維度而可以解釋代表自變數的變異程度,而監督式學習的SIR、SAVE及pHd則可以在縮減維度時,同時考量自變數跟應變數之間的關係,而找出可以解釋應變數的維度。
本研究為解決蛋白質質譜儀資料高維度的問題,將應用各種線性維度縮減方法,並分別使用CART(Classification and Regression Tree)、KNN(K-Nearest Neighbor)、SVM(Support Vector Machine)、ANN(Artificial Neural Network)四種分類器,比較各維度縮減方法的分錯率高低,以交叉驗證(Cross Validation)比較維度縮減方法的優劣。研究發現在四種維度縮減方法中,PCA及SIR在各種分類器下都有較為穩定的分錯率,表現較為一致,但SAVE及pHd較不理想。我們也發現在不同的分類器下,PCA跟SIR兩者有不同表現,正確率較高的分類器(SVM與ANN)與PCA結合,而正確率較低的分類器(CART與KNN)與SIR結合,會有較佳的結果。另外,我們也嘗試整合分析(Meta Analysis),綜合幾種線性維度縮減方法,而提出邊際訓練效果法(Marginal Training Effect Method)與加權整合法(Meta Weighted Method),其中發現邊際訓練效果法若可以挑選出有效的維度,可以在不同分類器下提高整體模型,而加權整合法則確保在不同分類器下,讓其分類模型具有較為穩定的準確率;並提出相關係數重疊法(Overlap Correlation Method)來解決需要決定維度大小的問題。
|
2 |
使用Meta-Learning在蛋白質質譜資料特徵選取之探討 / Feature Selection via Meta-Learning on Proteomic Mass Spectrum Data陳詩佳 Unknown Date (has links)
癌症高居國人十大死因之首,由於癌症初期病患接受適時治療的存活率較高,因此若能「早期發現,早期診斷,早期治療」則可降低死亡率。本研究主要針對「表面強化雷射解析電離飛行質譜技術」(Surface-Enhanced Laser Desorption / Ionization Time-of-Flight Mass Spectrometry,SELDI-TOF-MS)所蒐集而來的攝護腺癌症蛋白質質譜之事前處理資料進行分析。目的是希望藉由Meta-Learning的方式結合分類器,並以逐步特徵選取之,期望以較少且具代表的特徵變數將資料分類,以達到較高的正確率。本文利用正確率決定逐步特徵選取時變數加入的順序,並進一步以Elastic Net與判定係數作為特徵變數排序依據,以改善變數間共線性高的問題。並且考慮投票法(多數表決法與權重投票法)以及串聯法(cascading):多個分類器串聯與單一分類器串聯。研究發現,以判定係數刪選特徵變數加入的先後順序並以支持向量機(Support Vector Machine,SVM)串聯的特徵選取結果在各分類下皆有良好表現,為較佳的特徵選取方式。
關鍵字:特徵選取、串聯法、蛋白質質譜、meta-learning、支持向量機
|
3 |
對於高維度資料進行特徵選取-應用於分類蛋白質質譜儀資料黃仁澤 Unknown Date (has links)
傳統的腫瘤指標篩檢方法,往往靈敏度、普及度及特異性有限,無法得到正確、即時的診斷結果。現今癌症的研究,則透過蛋白質體學經由光譜及影像觀察癌症不同時期的蛋白質表現變化,期望未來得以發展較佳之診斷工具。本研究中主要針對兩組攝護腺癌症病人之蛋白質質譜資料,此資料應用蛋白質晶片與表面強化雷射解吸電離飛行質譜技術(SELDI-TOF-MS)收集而來。我們的研究目的在於從大量的蛋白質特徵中篩選出一群有助於分類的蛋白質特徵變數。我們提出以最小分錯率特徵選取法與最小p值( 檢定、Kruskal-Wallis檢定)特徵選取法進行初步特徵辨識度排序以及選取,並進一步發展出k-mean萃取法、最大相關係數萃取法與判定係數萃取法以改善變數間嚴重的共線性問題。我們利用支援向量機(Support Vector Machine)方法進行分類並評估分類效果,在不同的分類目的下萃取有助於辨識的蛋白質特徵,以決定最佳特徵集合。研究發現運用最小分錯率特徵選取法與最小p值分錯率特徵選取法,輔以判定係數萃取法,在各分類目的下皆有良好表現,為較佳的特徵選取方式。
|
Page generated in 0.0282 seconds