11 |
貝氏決策基礎之研究楊浩二 Unknown Date (has links)
No description available.
|
12 |
von Mises-Fisher分配資料的半母數貝氏分析法 / Semi-parametric Bayesian analysis on von Mises-Fisher distribution data林其緯, Lin,Chi Wei Unknown Date (has links)
在許多科學領域裡所蒐集到的資料是具有方向性且落在單位球上,而在具有方向性且在單位球上的資料分配中,最重要也是最常使用的分配是3維的von Mises-Fisher分配。在過去有許多學者專家曾分析過具有3維von Mises-Fisher分配的資料,其中Nunez-Antonio和Gutierrez-Pena (2005)也曾利用全貝氏法來分析此種資料。本文首次嘗試利用半母數貝氏法來分析具有3維von Mises-Fisher分配的資料。除了介紹如何估計參數以及預測未來資料的機率密度函數外,本文也將檢定兩組分別服從不同3維von Mises-Fisher分配的資料其平均方向是否相同,並且提供選取先驗分配與其參數之建議。
|
13 |
在Spark大數據平台上分析DBpedia開放式資料:以電影票房預測為例 / Analyzing DBpedia Linked Open Data (LOD) on Spark:Movie Box Office Prediction as an Example劉文友, Liu, Wen Yu Unknown Date (has links)
近年來鏈結開放式資料 (Linked Open Data,簡稱LOD) 被認定含有大量潛在價值。如何蒐集與整合多元化的LOD並提供給資料分析人員進行資料的萃取與分析,已成為當前研究的重要挑戰。LOD資料是RDF (Resource Description Framework) 的資料格式。我們可以利用SPARQL來查詢RDF資料,但是目前對於大量RDF的資料除了缺少一個高性能且易擴展的儲存和查詢分析整合性系統之外,對於RDF大數據資料分析流程的研究也不夠完備。本研究以預測電影票房為例,使用DBpedia LOD資料集並連結外部電影資料庫 (例如:IMDb),並在Spark大數據平台上進行巨量圖形的分析。首先利用簡單貝氏分類與貝氏網路兩種演算法進行電影票房預測模型實例的建構,並使用貝氏訊息準則 (Bayesian Information Criterion,簡稱BIC) 找到最佳的貝氏網路結構。接著計算多元分類的ROC曲線與AUC值來評估本案例預測模型的準確率。 / Recent years, Linked Open Data (LOD) has been identified as containing large amount of potential value. How to collect and integrate multiple LOD contents for effective analytics has become a research challenge. LOD is represented as a Resource Description Framework (RDF) format, which can be queried through SPARQL language. But large amount of RDF data is lack of a high performance and scalable storage analysis system. Moreover, big RDF data analytics pipeline is far from perfect. The purpose of this study is to exploit the above research issue. A movie box office sale prediction scenario is demonstrated by using DBpedia with external IMDb movie database. We perform the DBpedia big graph analytics on the Apache Spark platform. The movie box office prediction for optimal model selection is first evaluated by BIC. Then, Naïve Bayes and Bayesian Network optimal model’s ROC and AUC values are obtained to justify our approach.
|
14 |
貝氏A式最佳實驗設計程華懿, CHENG,HUA-YI Unknown Date (has links)
在農業、工業上或生物學、醫學上, 我們經常拿一組控制的試驗組與其他在不同控制
下的試驗組對照比較結果。這方面的問題, 可經由適當的實驗設計(experiment desi
-gn)而得到較佳的結果。假設我們有p+1 個處理(treatments), 其中一個處理為對照
處理(control treatment),設其為0,我們已有先前的資料(prior information),其余
p 個處理為試驗處理(test treatments),設其分別為1、2、…p,無任何資料可利用,
在此情況下將已知的資料加入實驗設計的考量中, 將會增加此設計之效率(efficienc
y)。本文將討論此一對照組與其他P 個不同試驗組同時比較之貝氏A 式最佳設計(Bay
-es A-optimal rowcolumn design)。
假設此模型為沒有交互作用之可加性線性模型(additive linear model without int
-eraction):
Y =α +τ +β +γ +ε
α =處理i 之效果i=0,1,…p
τ =α -α =試驗減對照處理之比較i=1,…p
β =第j 列之效果j=1,…R
γ =第k 行之效果k=1,…C
ε =不相關之隨機變數, 其期望值為0,變異數為σ 我們就以此模型來建立貝氏A
式最佳設計, 所謂貝氏A 式最佳設計即能讓對照- 試驗比較之后續期望平方差(poste
-rior expected square error loss) 最小之設計。
在本篇論文中, 我們將以電腦程式設計(FORTRAN程式語言) 來尋找貝氏A 式最佳設計
, 并歸納出結論以及比較先前變異數(prior variance)對貝氏最佳設計之影響。
|
15 |
台灣機電類產品之出口需求預測-貝氏方法之應用劉雅苓, LIU, YA-LING Unknown Date (has links)
出口為推動台灣經濟之原動力,近來由於保護主義喧囂塵上,分散市場已迫在眉睫。
然欲八散市場,必先針對各市場之需求預先規劃,因此出口需求預測益形重要。綜觀
往昔論及出口之相關文廚皆限於理論上之彈性估計,對於實務之預測則付諸闕如。有
鑑於此,本研究擬建立實務導向之出口需求預測模式,以利出口業者掌握國際市場之
需求。
本研究將運用貝氏動態迴歸分析,建立出口需求預測模型,其模式結構為
出口量=f (相對價格、所得)
其中出口量相對價格之減函數、所得之增函數。利用上述之模式,本研究將先預測相
對價格與所得,之後再經由轉移函數預測出口量。然而,若僅根據上述模式,所得之
樣本預測對於隨機或結構性變化將無法掌握,必須再投入專家之先驗知識予以加權平
均,形成融合模式預測與專家共識之後驗預測,如此方可獲致精確之結果。
在實證方面,本研究將針對機電類產品,如縫紉機、計算機、彩色電視機…等,根據
過去兩年之月資料,預測未來兩年各月份各主要國家(美、日、西德…)之出口需求
量。
本研究所建立之出口需求預測模式乃結合樣本預測專家共識之精確預測模式,不僅著
重屬量性之估計與預測,更融入專家對於未來結構之屬質性探討,將利於政府貿易部
門、學術研號究機構及廠商之策略規劃,以掌握國際市場之需求。
|
16 |
銷售預測系統中外生變數之預測曾薰瑤, ZENG, XUN-YAO Unknown Date (has links)
以往建立銷售預測模式,是以銷售資料本身過去之變化情形為主,即只考慮外生變數
之綜合性影響,往往忽略了外生變數之重要性。然隨著社會結構的日趨複雜,外生變
數對銷售預測常有著牽一髮而動全身之影響力,因此在今日多元化的社會中,欲精準
地達成銷售預測目的。則需依賴外生變數之掌握,所以外生變數預測在銷售預測目外
可或缺的一環。本研究主要發展實務導向之外生變數預測,俾使企業電腦化之實際應
用。
方法上乃運用貝氏時間序列分解成長期趨勢,季節變動,循環變動及不規則變動後,
再融入專家之先驗知識,採用乘法模式進行外生變數預測,其中在估計長期趨勢時,
更運用了BOX-COX 轉換函數,移動平均法及加權最小平方法等;在融入專家之先驗知
識時,運用貝氏理論,計算樣本預測之間之關係篤差異,以求得更精準之預測。
為探討上述方法之可行性,實證方面以一個案公司之實際資料,假定各種特例情況,
逐一測定每一步驟之正確性及穩定性。
此結構乃一實務導向之外生變數預測,企業可將之電腦化,經由先驗訊息的融入,探
討廣告,促銷,相對價格籌之預測與規化;而且,本研究所獲之外生變數預測可輸入
內生變數預測系統,求得精確之銷售預測。
|
17 |
應用線性迴歸模型與貝氏理論在統計預測與決策之研究王棣, WANG, LI Unknown Date (has links)
第一章 緒論
第二章 迴歸模型的意義與貝氏理論
第三章 貝氏分析法在單元常態線性迴歸模型的應用
第四章 貝氏分析法在複迴歸模型的應用及其預測
第五章 貝氏分析法在多變數迴歸模型的應用及其預測
第六章 結論
共分六章十八節,全文約計三萬六千字
內容:統計理論與機率論發展的結果,引起統計學者從事不確定事實之研究,而統計
預測乃是以現在及過去的資料來誘導未來的方向,以提供決策者作決策之參考或及時
修改既定目標與政策。
傳統的統計推論都是由樣本資料導出統計量的分配,以對未知母數作推論,以為決策
者的參考,亦即完全根據由抽樣樣本所提供的資訊來作推論,此即吾人所熟知的抽樣
理論。然而過去資料的趨勢,人類經驗的累積、決策者的判斷、理論上的考慮,即事
前所擁有的資訊是不容忽視,而本文進行統計推論時即結合事前所擁有的資訊與抽樣
資料結合,經由貝氏定理的判定,進行統計推論,即貝氏分析法,並利用常態線性迴
歸模型與貝氏分析法結合,對統計資料進行分析預測,最後並進行實證研究,以為應
用。
|
18 |
逐次估計之研究陳明山, CHEN, MING-SHAN Unknown Date (has links)
本文共一冊,約三萬五千餘字,全文分七章。第一章為緒論,說明研究動機與研究範
圍。第二章討論到底『逐次抽樣』比『固定樣本數抽樣』能獲益多少。第三章討論逐
次抉擇法則。統計學家逐次的抽取樣本,決定什麼時候停止抽樣;若停止抽樣,應採
取那一種終結行動。他的目標是使抽樣的費用加上決策損失的期望為最小。『貝氏』
和『大中取小』逐次抉擇法則是兩個較基本而重要的逐次抉擇法則,將分別在第四章
和第五章討論。第六章將探討逐次機率比檢定問題,它在逐次估計問題上是很基本而
重要的,本文將探討其一些基本而重要的特性。第七章為結論,說出本文研究結果,
並提出一些今後值得進一步研究的問題。
|
19 |
雲端運算服務環境下運用文字探勘於語意註解網頁文件分析之研究 / Extraction of semantic annotation document using text mining techniques in cloud computing environment黃孝文 Unknown Date (has links)
隨著網路的快速成長,資料探勘(Data Mining)及文字探勘(Text Mining)所須分析的資料集越來越龐大,透過單一機器執行資料探勘分析受限於記憶體大小及其計算能力,不僅運算時間大幅增加,分析資料集的檔案大小也因而受到限制;語意註解萃取出文件的重要內容,凸顯主題加強資料探勘及文字探勘的效果,而資料探勘、文字探勘和語意註解背後都牽涉到大規模的資料處理,透過雲端運算的技術使負載平衡,將運算工作分散至運算叢集中的每一台電腦,不僅加快運算和儲存的速度,更可降低整體的風險。
本研究使用Hadoop軟體實作雲端文字探勘平台,用於分散式文字探勘及結果分析,採用涵蓋21578篇新聞文件的路透社資料集(Reuters 21578)進行實證分析,依照Mod Apte切分法分為訓練資料集及測試資料集用以進行文件分類,文件分類的步驟分為數個部分,分別為進行資料格式轉換的資料前置處理、針對文件內容加註更詳盡的連結及描述的語意註解、用以產生分類預測模型的分類器(簡單貝氏分類器、餘集簡單貝氏分類器)與評估文件分類結果的評估器;路透社資料集經過去除停用字、附加語意註解資料及文本詞彙長度統計分類,再進行簡單貝氏分類器及餘集簡單貝氏分類器的訓練,比較測試資料集的分類正確率作為文件分類實證結果。
本研究根據實驗結果發現,探討去除停用字、語意註解、文件分類演算法及文本詞彙長度對於文件分類正確率的影響:(1)去除停用字使出現頻率高的停用字對於分類預測產生負面影響;(2)語意註解作為詮釋資料的取得方式,可增加文件分類的效果;(3)餘集簡單貝氏分類器,可用以減少偏斜資料對於分類預測結果的誤判;(4)文本詞彙長度較長的文章則會某種程度主導分類預測結果,造成誤判的產生,降低分類正確率;透過上述各影響因子的調整使文件分類的結果得到改善,使得文件分類正確率獲得較佳的效果。
本研究提出之系統以雲端運算環境運行文件分類演算法,使得大型資料集得以更為迅速取得分析結果,使用語意註解作為詮釋資料的來源,使得文件分類模型產生過程中有更多資訊可分析,使得機器判斷的正確程度獲得改善,亦可將文件轉換為語意網文件,供語意網搜尋引擎查詢檢索,未來應加入Twitter或Facebook等擁有大量非結構化資料的網站之資料,使本平台得以分析更大規模的資料,並且考慮資料集類別分佈的集中程度對分類正確率的影響程度,同時應實作效果更佳的分類演算法,進而改善系統整體的結果。 / Nowadays, businesses perform data mining and text mining need to handle large scale dataset. The computational resources of servers are often limited and lack of efficient to compute analytical jobs. But if they could run their data mining jobs under cloud computing clusters, they are able to get results very quickly on a large dataset without "out of memory" problems.
In this paper, a series of experiments are conducted to measure and analyze the accuracy of the classification algorithms implemented on Hadoop using Reuters-21578 dataset; the process of text mining consisted of four stages: (1)data preprocessing, (2)semantic annotation, (3)classifier, (4)evaluator. Reuters-21578 had divided into training set and testing set based on Mod Apte Split, processed by stopwords removal, appended semantic annotations as metadata and splitted into several subsets according to different document sizes. Experiments outlined several issues that will need to be considered when conducting text mining.
According to the experiment results, the researcher found that stopwords removal, semantic annotation, different classification algorithms and different document sizes could improve the classification accuracy. First, stopwords removal avoids common words from becoming noises that will do harm to classification result. Second, semantic annotation as the extra information could improve the result. Third, complementary naive bayes algorithm could solve the decision boundary problem which naive bayesian cannot handle. Fourth, long documents could dominate the classification results. Sixth, the class imbalance problem could cause a drop of classification accuracy. Text mining result could be improved by adjusting the parameters found above.
|
20 |
台灣總體經濟變數之因果關係檢定蔡麗茹, CAI, LI-RU Unknown Date (has links)
由於開放總體經濟理論,在在著許多爭論,往往因其所強調重點不同而有不同的結論
。這些爭論最後須藉助實證之證據來支持某種理論,以了解經濟變數間可能的影響途
徑。
然由迴歸所觀察到兩變數間有強烈相關,並不能代表此二變數間存在有因果關係。故
本文乃擬利用Granger 因果關係的概念與時間序列之統計方法,在儘可能避免作太多
先驗理論之限制下,使觀察值之統計資料能充分表現其一般之情況,來探討台灣重要
經濟變數間可能的影響途徑與因果關係。
本文共分五章:
第一章「緒論」:就有關國際金融理論作一概要性探討。
第二章「因果關係檢定」:介紹因果關係之概念、基本假設檢定方法與檢定結果之解
釋。
第三章「模型選擇之方法」:介紹VAR模型的區塊排除性檢定,客觀貝氏VAR模
型,Hsiao 之VAR模型認定,與多元時間序列VARMA模型。
第四章「台灣之實證分析」:乃就第三章所論之模型,以台灣有關重要變數作實證上
之分析。
第五章「結論與建議」:對全文作綜合性總結與建議。
|
Page generated in 0.014 seconds