1 |
利用函數映射進行資料庫增值於資料採礦中林建言 Unknown Date (has links)
人口的增長、現代化的生活環境,讓人們必須去面對隨時不斷產生的巨量資料;不過值得慶幸的是,電腦設備的運算、儲存能力一直在改進,所以人類所能處理的資料量也隨之提升,資料採礦技術的發展便是人類嘗試在大量資料中進行分析,以解決生活中所遇到的難題。
許多實際個案的結果顯示,資料採礦工作確實能替分析者帶來更好的績效,然而仍是有不少的失敗案例。如果深入去分析失敗原因,問題並不是出於資料採礦技術無法使用,而是資料品質不良或是資料內涵資訊不足所導致的。
資料庫中有用的變數不足的問題可以藉由重新收集資料解決,然而這勢必需要花費龐大的經費並且缺乏時效性。如何利用其他的外部資料來提昇資料庫的資訊含量便是本研究的目的。在實證過程中,利用工商業與服務業普查資料庫和技術創新資料庫做為分析所使用的資料庫;並且控制資料庫連結變數個數、建模資料比例和各類模型三個因子,採用函數映設方式,進行資料庫增值的工作。
從研究結果可以發現,確實可以藉由其他資料或是資料庫的內容,來增加資料庫的內含欄位和訊息,希望能夠替資料採礦工作者提供一個節省精力的方向,而且做為未來更多研究的基礎。
關鍵字:資料採礦、函數映射、資料庫加值。
|
2 |
應用資料採礦技術於資料庫加值中的誤差指標及模型準則 / ERROR INDEX AND MODEL CRITERIA FOR VALUE- ADDED DATABASE IN DATA MINING包寶茹 Unknown Date (has links)
運用資料來幫助企業做出正確且適當的政策是一個存在已久的觀念,在傳統統計上我們通常會將拿到的資料庫直接去作分析,然而對資料採礦(Data Mining)來說,常面臨資料不夠的瓶頸,亦導致資料庫的價值往往不夠。若,我們能利用調查的樣本,推估出目標資料庫中所欠缺的欄位在調查樣本中與其它欄位的關係,便可回推至目標資料庫將原本所欠缺的欄位補齊,將資料庫加大,亦即資料加值(value-added),那麼,未來要用到這些欄位來分析資料時只要抽樣進行分析即可,如此,也可有效降低企業的成本支出或浪費。
本研究之目的在於整合過去各學者所提出之統計理論與方法,找出誤差指標及模型準則來說明擴充的欄位是有可信度的。由於在目標資料庫擴充欄位時,會產生誤差值,而誤差值的大小往往會影響我們用來判斷此擴充欄位的可行性及可信度,因此本研究並不考慮使用何種抽樣方法,而是假設在簡單隨機抽樣下來進行探討,判別在資料加值前後所造成預測值與實際值之間的差異情形,進一步來做比較。針對欲擴充目標的欄位型態分為連續型和類別型來尋找適當的指標及準備作為我們選擇判斷的指標。類別型欄位利用相似性觀念建立判斷指標,連續型欄位則利用距離觀念、相關性的架構下來討論,如此,可建立合理的誤差指標及模型準則針對欲擴充目標欄位的型態來判斷其擴充的欄位是否具有可信度,並評估其可用價值的高低。
本研究實證結果發現資料庫加值為一可行的方法,從推估資料帶入模式後所得預測值與原始觀測值間計算其相似度皆在九成以上,說明擴充的欄位是有可信度的。
關鍵詞:資料採礦、資料加值、誤差指標、模型準則、相似性 / In recent years, the application of data mining has received good credits and acceptances from a variety of industries such as the finance industry, the insurance industry, and the electronics industry and so on for its success in extracting valuable information translated to opportunities from the database.
Database value-added is a new idea not yet fully mature. Its applications on the different databases will have different effect, therefore, the goal of this research is to find the valid and accountable model criteria as a mean to determine if the added columns make any improvement to the database, hence the overall results in terms of predictions. After selecting the model based upon its appropriateness to the data type, we applied the error index and model criteria to evaluate for the performance of the model, if the model has accurately predicted the added-value column. The criterion used in this research is RMSE for the continuous data type and F-value for the discrete data type. Our findings in this research support our attempts that the error index and model criteria used in this research do give us an accountability measure in determining the reliability of adding the columns to the database.
Keywords: Data mining, Database value-added, Database, Error index, Model criteria
|
3 |
資料採礦中的資料純化過程之效果評估楊惠如 Unknown Date (has links)
數年來台灣金控公司已如雨後春筍般冒出來,在金控公司底下含有產險公司、銀行、證券以及人壽公司等許多金融相關公司,因此,原本各自擺放於各子公司的資料庫可以通通整合在一起,當高階主管想提出決策時可利用資料庫進行資料採礦,以獲取有用的資訊。然而資料採礦的效果再怎麼神奇,也必須先有一個好的、完整的資料庫供使用,如果資料品質太差或者資料內容與研究目標無關,這是無法達成完美的資料採礦工作。
透過抽樣調查與函數映射的方法使得資料庫得以加值,因此當有目標資料庫與輔助資料庫時,可以利用函數映射方法使資料庫整合為一個大資料庫,再將資料庫中遺失值或稀少值作插補得到增值後的資料庫。在此給予這個整個流程一個名詞 ”Data SPA(Data Systematic Purifying Analysis)”,即「資料純化」。在本研究中,主要就是針對純化完成的資料進行結構的確認,確認經過這些過程之後的資料是效用且正確的。在本研究採用了橫向評估、縱向評估與全面性評估三種方法來檢驗資料。
資料純化後的資料經過三項評估後,可以發現資料以每個變數或者每筆觀察樣本的角度去查驗資料時,資料的表現並不理想,但是,資料的整體性卻是相當不錯。雖然以橫向評估和縱向評估來看,資料純化後的資料無法與原本完整的資料完全一致,但是透過資料純化的過程,資料得以插補且欄位得以擴增,這樣使得資料的資訊量增加,所以,資料純化確實有其效果,因為資訊量的增加對於要進行資料採礦的資料庫是一大助益。 / For the past few years, Taiwan has experienced a tremendous growth in its financial industry namely in banks, life and property insurances, brokerages and security firms. Needless to say the need to store the data produced in this industry has become an important and a primary task to accomplish. Originally, firms store the data in their own database. With the progressive development of data management, the data now can be combined and stored into one large database that allows the users an easy access for data retrieval. However, if the quality of the data is questionable, then the existence of database would not provide much insightful information to the users.
To tackle the fore mentioned problem, this research uses functional mapping combining the goal and auxiliary database and then imputes the missing data or the rare data from the combined database. This whole process is called Data Systematic Purifying Analysis (Data SPA). The purpose of this research is to evaluate whether there is any improvement of the structure of the data when the data has gone through the process of systematic purifying analysis. Generally the resulting data should be within good quality and useful.
After the assessments of the data structure, the behavior of the data with respect to their added variables and observations is unsatisfactory. However the manifestation of the data as a whole has seen an improvement. The modified database through Data SPA has augmented the database making it more efficient to the usage of data mining techniques.
|
Page generated in 0.0145 seconds