在资料库中的资料和物件通常在原始的概念层级(concept level)中包含

发布时间:2023-02-19 12:28:54   来源:文档文库   
字号:
一般而言,資料庫裡存放的資料通常都是在原始概念等級的細部資訊。例如,在一個銷售資料庫中會有產品名稱品牌、類別、供應商、產地及價格等等。若能把其歸納至較高較一般化的層級,這對我們會是很有幫助的。像是,若我們將聖誕節的熱門商品的一般化特徵找出來這對銷售及行銷經理人將會有很大的幫助。要達成這個任務就需要用到資料挖掘裡的一個重要功能——資料歸納。資料歸納主要有兩種方法:(1資料方塊法(datacubeapproach(2歸性導向歸納法(attribute-orientedinductionapproach資料方塊法資料方塊法有許多其他的名稱,例如:多重維度資料庫(MultidimensionalDatabases、具體化景觀(MaterializedViews、線上分析處理(OLAP,On-LineAnalyticalProcessing資料方塊法的一般概念為具體化一些經常被要求的高成本計算,尤其是計數(count、總計(sum、求平均數(average、取最大值(max等的歸納函數,將具體化後的具體化景觀儲存在一個多重維度資料庫(資料方塊,可供決策支援、知識發現及其他應用做參考。以資料方塊為基礎的歸納法方最早在[CCS93]中被提出,且這個方法被許多OLAP的資料倉儲系統採用。而[GCB97]提出在資料方塊中的運算子(operator以供聚集(aggregation運算使用。而在[CD97]裡則對各項議題有一般性的介紹。資料方塊的操作是總計函數的N維度歸納,0維度資料方塊是一個點;1資料方塊是一條線及一個點;2維資料方塊是一個交叉表格、一個平面、兩條線及一個點;3維方塊是一個有三個交叉的2維交叉表格的方塊。如下圖所示:AggregateGroupbyRedRedWhiteSumWhiteBlueBlue0(BymakerSum1(點、線Byyear&makerFord1998Chevy1999ByyearRedWhiteBlueBycolor&yearBycolorChevyFordBycolorSum2(點、線、面BymakerBymaker&color3(資料方塊Sum
藉由資料方塊的方法,我們針對不同維度做計算,例如用製造商和年份這兩個維度便可以求出90年代Ford汽車的年平均銷售量。對於許多應用而言,資料方塊是一項有趣的技術。索引多重維度資料方塊的技術和增加資料方塊的更新也己經被研究。但資料方塊可能是相當地疏稀,因為不是在每一維度中的格子(Cell)都會有相關的資料,所以如何能夠有效率地處理疏稀方塊的技術是必頇被發展出來的。屬性導向歸納法屬性導向歸納法是一種以歸納為基礎的資料分析的技術其技術核心為線上資料歸納方法,將相關式表格(relationaldataset資料集合中的每一個屬性,檢查其資料的分佈,判斷應歸納到那個相關的抽象層級。屬性導向歸納法最早在[CCH91]中被提出,而在[HCC93][HF96][CH98][HNKW98]裡有其延伸性的探討。學者對屬性導向歸納法亦做過不少相關的研究:當某一個屬性的concepthierarchy不止只有一種分類法的時候,[HHC96]出多屬性歸納圖(multi-attributegeneralizationgraph的方法來解決。[HC95]利用roughset快速地選出能夠產生區別性規則(discriminatingrule的屬性。在屬性導向歸納法中「概念階層」是處理歸納的過程中所必備的背景知識,不同階層的概念通常有不同的概念分類法。一個概念階層有「一般--特定」(general-to-specific的順序性,最一般化的概念,是以‖ANY‖來表示之,最特定的概念,則對應到資料庫中某一特定的屬性值。{freshman,sophomore,junior,senior}undergraduate{M.S.,M.A.,Ph.D.}graduate{undergraduate,graduate}ANY(status圖、資料庫的概念階層表格(concepthierarchytable上圖為一個典型的大學資料庫的概念階層表格。其中,AB暗示著BA的「歸納」(generalization;概念階層可藉由概念樹呈現出來。ANYundergraduategraduatefreshmansophomorejuniorseniorM.A.M.S.Ph.D.圖、概念樹屬性導向歸納法是利用一些歸納技術來完成資料庫中相關資料集合的歸納,這些歸納技術包括屬性移除(attribute-removal、概念樹爬升(concept-treeclimbing、屬性門檻控制(attribute-thresholdcontrol)和其他整合函數值等。首先是屬性移除,假如在一個屬性中存在著許多不同的屬性值,且沒有較高

本文来源:https://www.2haoxitong.net/k/doc/0f8389748e9951e79b8927f7.html

《在资料库中的资料和物件通常在原始的概念层级(concept level)中包含.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式