《基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析處理技術(shù)》由會員分享,可在線閱讀,更多相關(guān)《基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析處理技術(shù)(3頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析處理技術(shù)
摘 要:摘要:數(shù)據(jù)倉庫是信息業(yè)界的明日之星,數(shù)據(jù)倉庫與聯(lián)機(jī)事務(wù)處理(OLAP)是過去十幾年來最熱門的信息領(lǐng)域,它們的目標(biāo)是以計算機(jī)來取代許多當(dāng)前的作業(yè)。文章首先介紹了數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理技術(shù)的基本概念,比較并分析了它們同傳統(tǒng)的數(shù)據(jù)庫的差異,最后介紹并探討了聯(lián)機(jī)分析處理技術(shù)的發(fā)展領(lǐng)域。
關(guān)鍵詞:關(guān)鍵詞:數(shù)據(jù)倉庫;聯(lián)機(jī)分析處理;聯(lián)機(jī)事務(wù)處理;傳統(tǒng)數(shù)據(jù)庫
中圖分類號:TP392文獻(xiàn)標(biāo)志碼:A文章編號:引言:隨著市場競爭的日趨激烈,信息對于企業(yè)的生存和發(fā)展發(fā)揮著越來越重要的作用。與此同時,在各個領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),但是面對不斷增加如潮水
2、般的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)已無法滿足決策支持系統(tǒng)對數(shù)據(jù)的要求,因此人們提出了更深層次的問題:能不能從數(shù)據(jù)中 提取信息或者知識為決策服務(wù)。在這種情況下,一種適用于決策支持系統(tǒng)的數(shù)據(jù)組織與管理技術(shù)—數(shù)據(jù)倉庫1技術(shù)應(yīng)運(yùn)而生。1.?dāng)?shù)據(jù)倉庫技術(shù)1.1 數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變傳統(tǒng)的數(shù)據(jù)庫與OLTP(On-Line Transaction Process)平臺并不是為了分析數(shù)據(jù)而設(shè)計的,用戶可以在一個OLTP平臺上安裝數(shù)個應(yīng)用系統(tǒng),它在數(shù)據(jù)共享、數(shù)據(jù)與應(yīng)用程序的獨(dú)立性、維護(hù)數(shù)據(jù)的一致性和完整行及數(shù)據(jù)的安全保密性等方面提供了有效的手段。但是當(dāng)它與分析型應(yīng)用結(jié)合時,卻出現(xiàn)了許多問題。首先,利用傳統(tǒng)的數(shù)據(jù)庫進(jìn)
3、行數(shù)據(jù)分析,分析的結(jié)果缺乏可靠性。其次,利用傳統(tǒng)的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)處理,其效率很低。第三,傳統(tǒng)的數(shù)據(jù)庫難以將數(shù)據(jù)轉(zhuǎn)化成信息。第四,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)主要用于事務(wù)處理,而在事務(wù)處理型的應(yīng)用環(huán)境中直接構(gòu)建分析決策型應(yīng)用是不可能的。所以,為了提高分析和決策的效率和有效性,面向分析決策型應(yīng)用的數(shù)據(jù)處理及其數(shù)據(jù)必須與事務(wù)處理型應(yīng)用環(huán)境分離,建立單獨(dú)的分析決策型應(yīng)用環(huán)境。數(shù)據(jù)倉庫正是為了解決這一問題而誕生的一種數(shù)據(jù)存儲和組織技術(shù)。數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)庫的不同之處在于數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,它可以支持企業(yè)或組織的決策分析處理2。2. 聯(lián)機(jī)分析處理技術(shù)聯(lián)機(jī)分析處理O
4、LAP(On-Line Analytical Processing)技術(shù)3是基于數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析的一種技術(shù)。OLAP可使企業(yè)數(shù)據(jù)分析人員、企業(yè)經(jīng)理及企業(yè)其他管理人員通過對企業(yè)信息的多種可能的觀察角度進(jìn)行快速、一致和交互性的存取,以獲得對信息的深入理解。2.1 OLAP的基本特性O(shè)LAP是數(shù)據(jù)處理的一種技術(shù)概念,其定義簡單的概括為:共享多維信息的快速分析。OLAP通過對多維信息以很多種可能的觀察方式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人對數(shù)據(jù)進(jìn)行深入觀察。其特點4有四個方面:(1)快速性。用戶對OLAP的快速反應(yīng)能力有很高的要求。要求系統(tǒng)能在幾秒鐘內(nèi)對用戶的多數(shù)分析要求做出反應(yīng);(
5、2)可分析性。OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析;(3)多維性。多維性是OLAP的關(guān)鍵屬性和靈魂,系統(tǒng)能夠提供對數(shù)據(jù)分析的多維視圖和分析,包括層次維和多重層次維的支持。(4)信息性。OLAP系統(tǒng)能夠及時獲得信息,并且管理大容量信息;(5)共享性。共享性是在大量用戶間實現(xiàn)潛在地共享秘密數(shù)據(jù)所必須的安全需求。2.2 OLAP的基本分析操作OLAP的基本操作是指通過對多維形式組織起來的數(shù)據(jù)進(jìn)行切片、切塊、聚合、鉆取、旋轉(zhuǎn)等分析動作,以求剖析數(shù)據(jù)使用戶能夠從多種維度、多個側(cè)面、多種數(shù)據(jù)綜合度查看數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。(1)切片(Slicing)。切片操作就是
6、在某個或某些維上選定一個屬性成員,而在其他維上取一定區(qū)間的屬性成員,或全部屬性成員來觀察數(shù)據(jù)的一種分析方式。(2)切塊(Dicing)。切塊就是在各個維上取一定區(qū)間的成員屬性,或全部成員屬性來觀察數(shù)據(jù)的一種分析方式。從另一個角度講,切塊可以看成是在切片的基礎(chǔ)上,進(jìn)一步確定各個屬性成員的區(qū)間得到的片段體,也即由多個切片疊合起來。(3)鉆取(Drilling)。鉆取包含向下鉆(Drill-down)和向上鉆(Drill-up) /上卷(Roll-up)操作。下鉆指從概括性的數(shù)據(jù)出發(fā)獲得相應(yīng)的更詳細(xì)的數(shù)據(jù),上鉆則相反。鉆取的深度與維度所劃分的層次相對應(yīng)。(4)旋轉(zhuǎn)(Pivoting)。旋轉(zhuǎn)即改變一個
7、報告或頁面顯示的維方向。旋轉(zhuǎn)可能包含交換行和列,或是把某一個行維移到列為中去,或包頁面顯示中的一個維和頁面外的維進(jìn)行交換。3. OLAP與數(shù)據(jù)倉庫在數(shù)據(jù)倉庫中 ,OLAP和數(shù)據(jù)倉庫是密不可分的,但是兩者是不同的概念。數(shù)據(jù)倉庫是一個包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫,這些歷史數(shù)據(jù)要用于對企業(yè)的經(jīng)營決策提供分析和支持。數(shù)據(jù)倉庫中的數(shù)據(jù)是不能用于OLTP的,而OLAP則利用數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析,將復(fù)雜的分析查詢結(jié)果快速地返回用戶。OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行組織和匯總,用聯(lián)機(jī)分析和可視化工具對這些數(shù)據(jù)迅速進(jìn)行評價。OLAP可用多級結(jié)構(gòu)表示數(shù)據(jù)倉庫中的數(shù)據(jù),創(chuàng)建組織和
8、匯總數(shù)據(jù)的立方體,這樣才能有效的提高用戶復(fù)雜查詢的要求。因此數(shù)據(jù)倉庫的結(jié)構(gòu)將直接影響立方體的設(shè)計和構(gòu)造,也就影響了OLAP的工作效率。從OLAP使用的效率角度考慮,在設(shè)計數(shù)據(jù)倉庫時應(yīng)該考慮一下幾個因素:(1)盡可能使用星型架構(gòu),如果采用雪花結(jié)構(gòu),就要最小化事實表底層維度表以后的維度表數(shù)量。(2)為用戶設(shè)計包含事實表的維度表,這些維度表應(yīng)該包含有意義的、用戶希望了解的信息。(3)度表的設(shè)計應(yīng)該符合通常意義上的范式約束,維度表中不要出現(xiàn)無關(guān)的數(shù)據(jù)。(4)事實表中不要包含匯總數(shù)據(jù),事實表中包含的用戶需要訪問的數(shù)據(jù)應(yīng)該具有必需的粒度,這些數(shù)據(jù)應(yīng)該是同一層次的數(shù)據(jù)。(5)對事實表和維度表中的關(guān)鍵字必須創(chuàng)
9、建索引,同一中數(shù)據(jù)盡可能使用一個事實表。(6)保證數(shù)據(jù)的參考完整性,使事實表中的所有數(shù)據(jù)都出現(xiàn)在所有的維度表中,避免事實表中的某些數(shù)據(jù)行在立方體進(jìn)行聚集運(yùn)算時沒有參加過來。4. OLAP的發(fā)展OLAP技術(shù)5是在市場競爭日益激烈,決策人員迫切需要準(zhǔn)確及時并且可以靈活訪問的決策信息的背景下興起的。其主要的發(fā)展領(lǐng)域為:(1)市場和銷售分析幾乎每個商業(yè)公司都需要此類軟件,但其大規(guī)模分布在:生活消費(fèi)品行業(yè)、零售業(yè)、金融服務(wù)業(yè)。此類行業(yè)通常都需要用發(fā)哦OLAP能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行復(fù)雜的分析和統(tǒng)計功能。(2)電子
商務(wù)分析電子商務(wù)網(wǎng)站記錄了用戶在網(wǎng)上的所有行為,為更精細(xì)的分析用戶行為提供了可能。一個典型
10、的商業(yè)網(wǎng)站每天都產(chǎn)生大量的數(shù)據(jù),簡單手工分析顯然難以勝任,用多維、分層OLAP可以很好的把這些數(shù)據(jù)組織起來。(3)基于歷史數(shù)據(jù)的營銷通過各種不同的歷史數(shù)據(jù),用數(shù)據(jù)挖掘或統(tǒng)計的方法,找到針對某項服務(wù)或商品的銷售對象。雖然傳統(tǒng)上不是OLAP的范圍,但是通過多維數(shù)據(jù)分析的引入,會取得更好的效果。(4)預(yù)算預(yù)算通常是從下到上提交和從上到下約束的反復(fù)過程,OLAP工具可以在這個過程中提供分析能力。預(yù)算制定者利用OLAP提供的工具瀏覽市場、銷售、生成及合并計劃等企業(yè)全方位的數(shù)據(jù),得到一個較合理的方案,也可以利用這些數(shù)據(jù)自動制定出方案。(5)財務(wù)報告與整合早起的財務(wù)報告整合系統(tǒng)與現(xiàn)在OLAP相似,但是OLA
11、P利用對多維數(shù)據(jù)的分析能夠更好的對其進(jìn)行管理。(6)管理報告(7)利益率分析(8)質(zhì)量分析5. 小結(jié)數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理技術(shù)在市場競爭日益激烈的的背景下逐漸興起,目前正處于快速發(fā)展的階段。文章首先對數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理技術(shù)做了詳細(xì)介紹并將它們和傳統(tǒng)的數(shù)據(jù)庫做了對比,得出數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理技術(shù)是在傳統(tǒng)數(shù)據(jù)庫無法到達(dá)設(shè)計者需求下產(chǎn)生的。文章最后對聯(lián)機(jī)分析處理技術(shù)的發(fā)展領(lǐng)域做了介紹和分析。相信在不久的將來基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析處理技術(shù)定會成為處理數(shù)據(jù)的主流技術(shù)。
參考文獻(xiàn): HanJiawei,LuHongjun:The Leeture of Datamining and DatawarehouseSP Onsoredby:IBM China University RelationshiPs,1995年
基金項目:國家自然科學(xué)基金青年基金(61103195);國家博士后基金項目(20100480048)