數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt(46頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,,,日常生活的問題:人們在日常生活中經(jīng)常會(huì)遇到這樣的情況:超市的經(jīng)營者希望將經(jīng)常被同時(shí)購買的商品放在一起,以增加銷售;保險(xiǎn)公司想知道購買保險(xiǎn)的客戶一般具有哪些特征;醫(yī)學(xué)研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助;,企業(yè)面臨的問題經(jīng)過多年的計(jì)算機(jī)應(yīng)用和市場積累,許多企業(yè)保存了大量原始數(shù)據(jù)和各種業(yè)務(wù)數(shù)據(jù),它是企業(yè)生產(chǎn)經(jīng)營活動(dòng)的真實(shí)記錄,由于缺乏集中存儲(chǔ)和管理,這些數(shù)據(jù)不能為本企業(yè)加以利用,不能進(jìn)行有效的統(tǒng)計(jì)、分析及評估,無法將這些數(shù)據(jù)轉(zhuǎn)換成企業(yè)有用的信息,數(shù)據(jù)爆炸:自動(dòng)的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導(dǎo)致巨大的數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)、數(shù)據(jù)庫和其它的信息庫中。我們會(huì)淹死在數(shù)據(jù)中,但卻為信息、知識所餓!,面臨的問題如何使企業(yè)或組織在激烈的市場競爭中保持對客戶的吸引力?如何預(yù)先發(fā)現(xiàn)和避免企業(yè)運(yùn)作過程中不易察覺的商業(yè)風(fēng)險(xiǎn)?如何在堆積如山的企業(yè)交易數(shù)據(jù)中發(fā)現(xiàn)具有商業(yè)價(jià)值的閃光點(diǎn)?,不同層次的信息處理需求,事物處理需求分析處理需求,事務(wù)處理需求(OLTP),不同的事務(wù)處理子系統(tǒng)采購子系統(tǒng):訂單、訂單細(xì)則、供應(yīng)商銷售子系統(tǒng):顧客、銷售庫存子系統(tǒng):出庫領(lǐng)料單、進(jìn)料入庫單、庫存臺帳人事子系統(tǒng):員工、部門各種事務(wù)處理需求一筆訂購、一筆銷售、一次進(jìn)料、一次出料要求強(qiáng)調(diào)多用戶并發(fā)環(huán)境,數(shù)據(jù)的一致性、完整性,分析處理需求(OLAP),今年銷售量下降的因素(時(shí)間、地區(qū)、商品、銷售部門)某種商品今年的銷售情況與以往相比,有怎樣的變化?每年的第一季度商品銷售在各類商品上的分布情況怎樣?要求多個(gè)子系統(tǒng)中的數(shù)據(jù)(數(shù)據(jù)集成)歷史數(shù)據(jù)匯總、綜合的數(shù)據(jù),隨著數(shù)據(jù)庫技術(shù)的應(yīng)用普及和發(fā)展,人們不再僅僅滿足于一般的業(yè)務(wù)處理,而對系統(tǒng)提出了更高的要求:提供決策支持,數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫系統(tǒng)能夠很好的用于事務(wù)處理,但它對分析處理的支持一直不能令人滿意。特別是當(dāng)以業(yè)務(wù)處理為主的聯(lián)機(jī)事務(wù)處理(OLTP)應(yīng)用和以分析處理為主的決策支持系統(tǒng)(DSS)應(yīng)用共存于一個(gè)數(shù)據(jù)庫系統(tǒng)時(shí),就會(huì)產(chǎn)生許多問題(混亂現(xiàn)象)。例如,事務(wù)處理應(yīng)用一般需要的是當(dāng)前數(shù)據(jù),主要考慮較短的響應(yīng)時(shí)間;而分析處理應(yīng)用需要是歷史的、綜合的、集成的數(shù)據(jù),它的分析處理過程可能持續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。,,人們逐漸認(rèn)識到直接用事務(wù)處理環(huán)境來支持DSS是行不通的。要提高分析和決策的有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)分離(不能都在一個(gè)數(shù)據(jù)庫環(huán)境中)。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境。數(shù)據(jù)倉庫技術(shù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。,數(shù)據(jù)倉庫的定義,數(shù)據(jù)倉庫是一種面向主題的數(shù)據(jù)管理技術(shù),它提供集成化的、歷史的數(shù)據(jù)管理功能,支持綜合性的數(shù)據(jù)分析,特別是戰(zhàn)略分析。數(shù)據(jù)倉庫構(gòu)成了DSS和DBMS的技術(shù)基礎(chǔ),它必將推動(dòng)DSS研究的全面發(fā)展和方法的實(shí)用性化。,通俗的解釋,人們專門為業(yè)務(wù)的統(tǒng)計(jì)分析建立一個(gè)數(shù)據(jù)中心,它的數(shù)據(jù)可以從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中得到;它是一個(gè)聯(lián)機(jī)的系統(tǒng),專門為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù),通過它可滿足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。這個(gè)數(shù)據(jù)中心就叫作數(shù)據(jù)倉庫。,特征及體系結(jié)構(gòu),數(shù)據(jù)倉庫的特征數(shù)據(jù)倉庫的體系結(jié)構(gòu),數(shù)據(jù)倉庫的體系結(jié)構(gòu),一個(gè)完整的數(shù)據(jù)倉庫結(jié)構(gòu)一般由6個(gè)基本層次組成1)數(shù)據(jù)源層。2)數(shù)據(jù)后端處理層。3)數(shù)據(jù)倉庫及其管理層(包括源數(shù)據(jù)管理)。4)數(shù)據(jù)集市層。5)數(shù)據(jù)倉庫應(yīng)用層(或稱前端處理層)。6)數(shù)據(jù)展示層。,數(shù)據(jù)倉庫層次結(jié)構(gòu)示意圖,數(shù)據(jù)展示層,數(shù)據(jù)倉庫應(yīng)用層,數(shù)據(jù)集市層,數(shù)據(jù)倉庫及管理層,數(shù)據(jù)后端處理層,數(shù)據(jù)源層,數(shù)據(jù)挖掘,定義:數(shù)據(jù)挖掘(DataMining),就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。,經(jīng)典案例——尿布與啤酒,在一家超市中,人們發(fā)現(xiàn)了一個(gè)特別有趣的現(xiàn)象:尿布與啤酒這兩種風(fēng)馬牛不相及的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的稍量大幅增加了。這可不是一個(gè)笑話,而是一直被商家所津津樂道的發(fā)生在美國沃爾瑪連鎖超市的真實(shí)案例。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會(huì)囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時(shí)又會(huì)順手購買自己愛喝的啤酒。這個(gè)發(fā)現(xiàn)為商家?guī)砹舜罅康睦麧櫍侨绾螐暮迫鐭熀s又雜亂無章的數(shù)據(jù)中,發(fā)現(xiàn)啤酒和尿布銷售之間的聯(lián)系呢?這又給了我們什么樣的啟示呢?,數(shù)據(jù)挖掘能做以下七種分析方法,分類(Classification)估計(jì)(Estimation)預(yù)測(Prediction)相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)聚類(Clustering)描述和可視化(DescriptionandVisualization)復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等),數(shù)據(jù)挖掘分類,直接數(shù)據(jù)挖掘:目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對剩余的數(shù)據(jù),對一個(gè)特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述。間接數(shù)據(jù)挖掘:目標(biāo)中沒有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘。,數(shù)據(jù)挖掘過程和主要步驟,數(shù)據(jù)挖掘過程簡介,(1).確定業(yè)務(wù)對象(2).數(shù)據(jù)準(zhǔn)備1)、數(shù)據(jù)的選擇2)、數(shù)據(jù)的預(yù)處理3)、數(shù)據(jù)的轉(zhuǎn)換(3).數(shù)據(jù)挖掘(4).結(jié)果分析(5).知識的同化,數(shù)據(jù)挖掘的發(fā)展前景,當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。看似廣泛,實(shí)際應(yīng)用還遠(yuǎn)沒有普及。而據(jù)Gartner的報(bào)告也指出,數(shù)據(jù)挖掘會(huì)成為未來10年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨(dú)立的專業(yè)學(xué)科。具體發(fā)展趨勢和應(yīng)用方向主要有:對知識發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如對Bayes和Boosting方法的研究和提高;商業(yè)工具軟件不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng),例如Weka等軟件。數(shù)據(jù)挖掘的發(fā)展應(yīng)是挖掘工具在先進(jìn)理論指導(dǎo)下的改進(jìn),而就國內(nèi)情況而言,還有至少20年的發(fā)展空間。,謝謝觀賞,,決策支持系統(tǒng)(decisionsupportsystem,簡稱DSS)是輔助決策者通過數(shù)據(jù)、模型和知識,以人機(jī)交互方式進(jìn)行半結(jié)構(gòu)化或非結(jié)構(gòu)化決策的計(jì)算機(jī)應(yīng)用系統(tǒng)。它是管理信息系統(tǒng)(MIS)向更高一級發(fā)展而產(chǎn)生的先進(jìn)信息管理系統(tǒng)。它為決策者提供分析問題、建立模型、模擬決策過程和方案的環(huán)境,調(diào)用各種信息資源和分析工具,幫助決策者提高決策水平和質(zhì)量。,,應(yīng)具備的特性,效率足夠高數(shù)據(jù)質(zhì)量可靠可擴(kuò)展性,數(shù)據(jù)倉庫的四個(gè)主要特征,數(shù)據(jù)的時(shí)變性數(shù)據(jù)的非易失性數(shù)據(jù)是集成的面向主題,,subject-oriented(面向主題性),面向主題表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)據(jù)都是圍繞著某一主題組織展開的。例如,企業(yè)中的客戶、產(chǎn)品、供應(yīng)商等都可以作為主題看待。從信息管理的角度看,主題就是在一個(gè)較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進(jìn)行綜合、歸類所形成的分析對象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。確定主題是組織數(shù)據(jù)倉庫中數(shù)據(jù)的前提。,,integrated(數(shù)據(jù)集成性),數(shù)據(jù)倉庫的集成性是指根據(jù)決策分析的要求,將分散于各處的源數(shù)據(jù)進(jìn)行抽取、篩選、清理、綜合等工作,使數(shù)據(jù)倉庫的數(shù)據(jù)具有集成性。數(shù)據(jù)倉庫在從業(yè)務(wù)處理系統(tǒng)那里獲取數(shù)據(jù)時(shí),并不能將源數(shù)據(jù)庫中的數(shù)據(jù)直接加載到數(shù)據(jù)倉庫中,而是需要進(jìn)行一系列的數(shù)據(jù)預(yù)處理,即數(shù)據(jù)的抽取、篩選、清理、綜合等集成工作。,,time-variant數(shù)據(jù)的時(shí)變性,數(shù)據(jù)倉庫的時(shí)變性,就是數(shù)據(jù)應(yīng)該隨著時(shí)間的推移而變化。盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫那樣反映業(yè)務(wù)處理的實(shí)際狀況,但是數(shù)據(jù)也不能長期不變,如果依據(jù)10前的數(shù)據(jù)進(jìn)行決策分析,那決策所帶來的后果將是十分可怕的。,,non-volatile數(shù)據(jù)的非易失性,數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的數(shù)據(jù)不進(jìn)行更新處理,而是一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,就會(huì)保持一個(gè)相當(dāng)長的時(shí)間。原因是數(shù)據(jù)倉庫中數(shù)據(jù)大多表示過去某一時(shí)刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯(cuò)誤的。,,數(shù)據(jù)源,數(shù)據(jù)源是數(shù)據(jù)倉庫的數(shù)據(jù)來源,它是多種OLTP系統(tǒng)及外部文件,一個(gè)數(shù)據(jù)倉庫往往可以含多個(gè)數(shù)據(jù)源,這些數(shù)據(jù)源可以有多種不同數(shù)據(jù)結(jié)構(gòu)類型,可以有桌面式數(shù)據(jù)庫如Access,也可以是對象關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫.同時(shí),數(shù)據(jù)源也可以包括各種數(shù)據(jù)文件如Excel、Word以及基于WWW的HTML、XML等文件形式。數(shù)據(jù)源一般可以分布于網(wǎng)絡(luò)的各個(gè)結(jié)點(diǎn),通過網(wǎng)絡(luò)中的數(shù)據(jù)接口與數(shù)據(jù)倉庫相互連接。,,數(shù)據(jù)后端處理,數(shù)據(jù)后端處理:數(shù)據(jù)源中數(shù)據(jù)經(jīng)提取、清洗、轉(zhuǎn)換最終成為數(shù)據(jù)倉庫所需的數(shù)據(jù)。它的主要工作是為數(shù)據(jù)倉庫提供統(tǒng)一的數(shù)據(jù)并按階段及時(shí)更新這些數(shù)據(jù)。,數(shù)據(jù)后端處理,一個(gè)完整的后端處理包括下面5個(gè)方面1)數(shù)據(jù)提取2)數(shù)據(jù)清洗3)數(shù)據(jù)轉(zhuǎn)換4)數(shù)據(jù)加載5)數(shù)據(jù)刷新,后端處理4個(gè)環(huán)節(jié)的流程圖,,數(shù)據(jù)倉庫及管理層,1.?dāng)?shù)據(jù)倉庫數(shù)據(jù)倉庫是存儲(chǔ)分析與決策數(shù)據(jù)的實(shí)體。它一般以關(guān)系結(jié)構(gòu)形式存儲(chǔ),能支持?jǐn)?shù)據(jù)共享。,數(shù)據(jù)倉庫及管理,數(shù)據(jù)倉庫管理系統(tǒng)(DWMS)是一種專門于管理數(shù)據(jù)倉庫的軟件,包括數(shù)據(jù)倉庫中的數(shù)據(jù)結(jié)構(gòu)構(gòu)建;數(shù)據(jù)操縱;數(shù)據(jù)維護(hù)、控制、數(shù)據(jù)服務(wù)等內(nèi)容。其具體功能如下:(1)、數(shù)據(jù)倉庫數(shù)據(jù)模式定義它能定義數(shù)據(jù)倉庫的關(guān)系結(jié)構(gòu),包括數(shù)據(jù)模式、數(shù)據(jù)子模式。,數(shù)據(jù)倉庫及管理,(2)數(shù)據(jù)倉庫的數(shù)據(jù)操縱在數(shù)據(jù)倉庫中能向用戶直接提供的只有一種操作,即只讀(或稱查詢)操作。(3)數(shù)據(jù)倉庫的數(shù)據(jù)控制數(shù)據(jù)倉庫具有完整性約束控制、數(shù)據(jù)授權(quán)和數(shù)據(jù)安全以及數(shù)據(jù)并發(fā)控制、故障恢復(fù)能力,均與傳統(tǒng)數(shù)據(jù)庫類似。,數(shù)據(jù)倉庫及管理,(4)數(shù)據(jù)倉庫的數(shù)據(jù)服務(wù)數(shù)據(jù)倉庫管理系統(tǒng)提供對數(shù)據(jù)倉庫中數(shù)據(jù)的多種服務(wù)功能,如數(shù)據(jù)拷貝,轉(zhuǎn)儲(chǔ),性能監(jiān)測及網(wǎng)絡(luò)監(jiān)控等功能。,,數(shù)據(jù)集市,數(shù)據(jù)集市是一種特殊形式的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是面向整個(gè)企業(yè)決策的數(shù)據(jù)集合,面向多種應(yīng)用,具有全局性;而數(shù)據(jù)集市則是面向企業(yè)中部門決策的數(shù)據(jù)集合,面向特定應(yīng)用,具有局部性;由此可見,數(shù)據(jù)集市是由數(shù)據(jù)倉庫派生而出,針對特定應(yīng)用的規(guī)模更小的,結(jié)構(gòu)更集中的決策數(shù)據(jù)集合體。數(shù)據(jù)倉庫與數(shù)據(jù)集市的有效結(jié)合可以使數(shù)據(jù)倉庫更能適應(yīng)多種應(yīng)用的不同需求。,,數(shù)據(jù)倉庫應(yīng)用層,數(shù)據(jù)倉庫應(yīng)用層又稱前端處理層。該層主要是以數(shù)據(jù)倉庫為基礎(chǔ)的應(yīng)用。目前,該層主要包括有兩種應(yīng)用:(1)分析、決策應(yīng)用分析、決策應(yīng)用主要是歸納型的分析、決策。即是以數(shù)據(jù)倉庫中的數(shù)據(jù)為對象作歸納以獲得分析、決策的模式(pattern)或規(guī)則(rule)。,數(shù)據(jù)倉庫應(yīng)用層,(2)統(tǒng)一平臺的建立與應(yīng)用除了分析、決策應(yīng)用外,數(shù)據(jù)倉庫還具有為企業(yè)已有的多種平臺、多種結(jié)構(gòu)、多種語法/語義、多種接口建立統(tǒng)一數(shù)據(jù)平臺的功能,并在該平臺上建立企業(yè)級應(yīng)用。,,數(shù)據(jù)展示層,在數(shù)據(jù)倉庫應(yīng)用層之上是數(shù)據(jù)展示層,即是將應(yīng)用結(jié)果,特別是分析、決策結(jié)果以多種媒體形式表示,它還可以通過Web發(fā)布數(shù)據(jù)倉庫的數(shù)據(jù)展示具有多種固定的圖板,即固定的表示形式,而每個(gè)圖板又有多種不同靈活表現(xiàn)手段。圖板的類型有多種不同的直方圖、條狀圖、餅圖、報(bào)表、曲線等。,數(shù)據(jù)展示層,在Web方式下一般還有安全授權(quán)功能以控制結(jié)果數(shù)據(jù)的安全性。目前市場上有多種數(shù)據(jù)展示工具,有名的有BRIO、BO等,當(dāng)然也可以通過工具以編程方式實(shí)現(xiàn)。,,OLTP技術(shù),聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果。最大優(yōu)點(diǎn):即輸即答,具有實(shí)效性。重要性能指標(biāo):系統(tǒng)性能,具體體現(xiàn)為實(shí)時(shí)響應(yīng)時(shí)間。例如民航定票系統(tǒng)和銀行ATM機(jī)是聯(lián)機(jī)事務(wù)處理系統(tǒng)。,,,,,OLAP技術(shù),數(shù)據(jù)倉庫是管理決策分析的基礎(chǔ),要有效地利用數(shù)據(jù)倉庫的信息資源,必須要有強(qiáng)大的工具對數(shù)據(jù)倉庫的信息進(jìn)行分析決策。OLAP,即On-lineAnalyticalProcessing(在線分析處理或聯(lián)機(jī)分析處理),就是一個(gè)應(yīng)用廣泛的數(shù)據(jù)倉庫使用技術(shù)。它可以根據(jù)分析人員的要求,迅速靈活地對大量的數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員,使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運(yùn)營情況,了解市場的需求。,,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉庫 數(shù)據(jù) 挖掘
鏈接地址:http://kudomayuko.com/p-11536358.html