柚子快報(bào)激活碼778899分享:數(shù)據(jù)倉(cāng)庫(kù)——決策支持型系統(tǒng)
柚子快報(bào)激活碼778899分享:數(shù)據(jù)倉(cāng)庫(kù)——決策支持型系統(tǒng)
數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)筆記思維導(dǎo)圖已經(jīng)整理完畢,完整連接為: 數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)知識(shí)筆記思維導(dǎo)圖
前言
兩種數(shù)據(jù)庫(kù)觀念
服務(wù)于操作型需求數(shù)據(jù)庫(kù)服務(wù)于信息型或分析型數(shù)據(jù)庫(kù)
分析型環(huán)境又稱(chēng)決策支持系統(tǒng)(Decision-making Support System,DDS)
信息型和決策支持型系統(tǒng)處理核心–數(shù)據(jù)倉(cāng)庫(kù)
分析型信息型處理
服務(wù)于決策支持過(guò)程的管理需求,一般稱(chēng)為DSS處理 ,要在大量的數(shù)據(jù)中分析處理探索趨勢(shì)
DSS環(huán)境重點(diǎn)
數(shù)據(jù)粒度數(shù)據(jù)分區(qū)元數(shù)據(jù)數(shù)據(jù)可信度的缺乏DSS數(shù)據(jù)的集成DSS數(shù)據(jù)的時(shí)間基準(zhǔn)確定DSS的數(shù)據(jù)源–記錄系統(tǒng)數(shù)據(jù)遷移及方法
數(shù)據(jù)倉(cāng)庫(kù)本身意味著建立不同類(lèi)型的數(shù)據(jù)庫(kù)
決策支持系統(tǒng)的發(fā)展
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)需要從整體上著手,然后逐步解決具體細(xì)節(jié)問(wèn)題的體系結(jié)構(gòu)。
直接存取存儲(chǔ)設(shè)備(Direct Access Storage Device,DASD): 指磁盤(pán)存儲(chǔ)器
數(shù)據(jù)庫(kù)管理系統(tǒng)(Database Management System,DBMS) :使程序員方便地在DASD上存儲(chǔ)和訪問(wèn)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行索引等功能的新型系統(tǒng)軟件。
在線事務(wù)處理(Online Transaction Processing,OLTP :是一種用于處理實(shí)時(shí)交易和數(shù)據(jù)記錄的計(jì)算機(jī)處理方式。它是許多企業(yè)與機(jī)構(gòu)日常運(yùn)營(yíng)中的關(guān)鍵組成部分,確保了數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性。OLTP使用基于事務(wù)的處理方式,將并發(fā)用戶(hù)的交易安全地提交到數(shù)據(jù)庫(kù)中。它通過(guò)保證數(shù)據(jù)的一致性、原子性、持久性和隔離性來(lái)確保交易的完整性和可靠性。
在線分析處理(Online Analysis Processing,OLAP):一種用于分析和查詢(xún)大規(guī)模數(shù)據(jù)集的計(jì)算機(jī)處理技術(shù)。OLAP技術(shù)主要用于多維數(shù)據(jù)分析和數(shù)據(jù)挖掘,通過(guò)提供多維數(shù)據(jù)模型和多維查詢(xún)功能,幫助用戶(hù)從不同角度和層次上對(duì)數(shù)據(jù)進(jìn)行分析和查詢(xún),側(cè)重分析決策。
抽取程序
抽取程序 : 搜索整個(gè)文件或者數(shù)據(jù)庫(kù) 使用某些標(biāo)準(zhǔn)選擇合乎要求的數(shù)據(jù) 并把這些數(shù)據(jù)傳送到其他文件或者數(shù)據(jù)庫(kù)去。
抽取程序受歡迎的原因
抽取處理將數(shù)據(jù)從高性能在線事務(wù)處理環(huán)境中轉(zhuǎn)移出來(lái),在對(duì)數(shù)據(jù)進(jìn)行總體分析時(shí),性能方面不存在沖突。抽取程序?qū)?shù)據(jù)從操作型數(shù)據(jù)處理環(huán)境中轉(zhuǎn)移出來(lái) ,數(shù)據(jù)控制方式轉(zhuǎn)移給最終的用戶(hù)。
蜘蛛網(wǎng)
由于迭代抽取,隨著業(yè)務(wù)自然演化,造成抽取處理失控,數(shù)據(jù)庫(kù)體系結(jié)構(gòu)越來(lái)越龐大 、越來(lái)越復(fù)雜,最后演變成類(lèi)似蜘蛛網(wǎng)的結(jié)構(gòu)。
自然演化體系結(jié)構(gòu)的問(wèn)題
數(shù)據(jù)可信性生產(chǎn)率的問(wèn)題無(wú)法將數(shù)據(jù)轉(zhuǎn)化為信息
數(shù)據(jù)缺乏可信性
原因
數(shù)據(jù)無(wú)時(shí)間基準(zhǔn)數(shù)據(jù)算法上的差異抽取的多層次問(wèn)題外部數(shù)據(jù)問(wèn)題無(wú)公共起始數(shù)據(jù)源
生產(chǎn)率問(wèn)題
數(shù)據(jù)定位問(wèn)題
數(shù)年內(nèi)積累的大量數(shù)據(jù)與眾多文件,存儲(chǔ)來(lái)不同的系統(tǒng)中 、不同的硬件中,并且相同文件相同元素存在差異。
數(shù)據(jù)編輯問(wèn)題
要寫(xiě)的程序很多每個(gè)程序都需要定制程序涵蓋了公司采用的所有技術(shù)
使用以形成蜘蛛網(wǎng)的遺留系統(tǒng),信息訪問(wèn)費(fèi)用非常高 并且需要花費(fèi)很長(zhǎng)時(shí)間才能建立。
從數(shù)據(jù)到信息
DSS分析員將面對(duì)眾多未集成的遺留應(yīng)用,但是因?yàn)閼?yīng)用建立之初未考慮集成問(wèn)題,從它們中抽取信息幾乎不可能。不同應(yīng)用中,只有當(dāng)前數(shù)據(jù),并沒(méi)有DSS分析員需求的歷史數(shù)據(jù)。
體系結(jié)構(gòu)的轉(zhuǎn)變
原始數(shù)據(jù)/操作型數(shù)據(jù)導(dǎo)出數(shù)據(jù)/DSS型數(shù)據(jù)面向應(yīng)用面向主題詳細(xì)的概要的在訪問(wèn)瞬間是準(zhǔn)確的代表過(guò)去的數(shù)據(jù),快照為日常工作服務(wù)為管理者服務(wù)可更新不更新重復(fù)運(yùn)行啟發(fā)運(yùn)行處理需求預(yù)先可知處理需求事先不知道生命周期符合SDLC完全不同的生命周期對(duì)性能要求高對(duì)性能要求寬松一次訪問(wèn)一個(gè)單元一次訪問(wèn)一個(gè)集合事務(wù)處理驅(qū)動(dòng)分析處理驅(qū)動(dòng)就操作型數(shù)據(jù)更新責(zé)任來(lái)說(shuō)更新控制是一個(gè)主要關(guān)心的問(wèn)題無(wú)更新控制問(wèn)題高可用性寬松的可用性要求整體管理以子集管理非冗余性總是存在冗余靜態(tài)結(jié)構(gòu) 可變的內(nèi)容結(jié)構(gòu)靈活一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量發(fā)支持日常操作支持管理需求訪問(wèn)頻繁訪問(wèn)很少或不多
原始數(shù)據(jù)與導(dǎo)出數(shù)據(jù)差異如此巨大,它們根本不能存在于同一數(shù)據(jù)庫(kù)中,甚至不能共存于同一個(gè)環(huán)境中。
體系結(jié)構(gòu)層次
**企業(yè)信息源(corporate information factory,CIF )**體系結(jié)構(gòu)的基石: 體系結(jié)構(gòu)化環(huán)境四個(gè)層次。
操作層原子層/數(shù)據(jù)倉(cāng)庫(kù)層部門(mén)層個(gè)體層細(xì)節(jié)的 日常的 當(dāng)前值的 訪問(wèn)頻繁 面向應(yīng)用大部分是粒度化數(shù)據(jù) 隨時(shí)間變化的 集成的 面向主題 一些匯總領(lǐng)域狹隘 一些導(dǎo)出數(shù)據(jù) 一些原始數(shù)據(jù) 如財(cái)務(wù) 市場(chǎng) 工程 保險(xiǎn)暫時(shí)的 為特定目的的 啟發(fā)的 非重復(fù)的 基于PC和工作站的
體系結(jié)構(gòu)化環(huán)境并沒(méi)有產(chǎn)生太多的冗余數(shù)據(jù)
數(shù)據(jù)倉(cāng)庫(kù)環(huán)境存儲(chǔ)的是歷史信息,并不與操作環(huán)境中的當(dāng)前信息重復(fù)。數(shù)據(jù)倉(cāng)庫(kù)中記錄之間并沒(méi)有重復(fù),每個(gè)記錄都有相關(guān)聯(lián)的時(shí)間元素。部門(mén)/數(shù)據(jù)集市環(huán)境數(shù)據(jù)是反向規(guī)范的和匯總的,與數(shù)據(jù)倉(cāng)庫(kù)環(huán)境數(shù)據(jù)有根本不同個(gè)體層數(shù)據(jù)常常是暫時(shí)的,小規(guī)模的。
體系結(jié)構(gòu)化數(shù)據(jù)集成
當(dāng)數(shù)據(jù)從操作型環(huán)境流入數(shù)據(jù)倉(cāng)庫(kù)時(shí),數(shù)據(jù)集成必須進(jìn)行。
數(shù)據(jù)以非集成狀態(tài)到達(dá)數(shù)據(jù)倉(cāng)庫(kù),無(wú)法用于支持?jǐn)?shù)據(jù)的企業(yè)視圖。未經(jīng)集成的操作型數(shù)據(jù)都是復(fù)雜和難以處理的。抽取/裝載/轉(zhuǎn)換(ETL)大部分可以自動(dòng)進(jìn)行 ,且繼承集成只需要進(jìn)行一次。
數(shù)據(jù)倉(cāng)庫(kù)的用戶(hù)——DSS分析人員
首先是商務(wù)人員,其次才是技術(shù)人員主要工作是定義和發(fā)現(xiàn)在企業(yè)決策中使用的信息自身對(duì)數(shù)據(jù)倉(cāng)庫(kù)的使用的理解很重要到DSS開(kāi)發(fā)生命周期最后才發(fā)現(xiàn)真正的需求,自身從現(xiàn)有需求開(kāi)始,要將新的需求考慮在內(nèi)幾乎是完全不可能的事
開(kāi)發(fā)生命周期
數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下系統(tǒng)開(kāi)發(fā)生命周期與傳統(tǒng)SDLC完全相反
傳統(tǒng)SDLC數(shù)據(jù)倉(cāng)庫(kù)SDLC收集需求實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)分析集成數(shù)據(jù)設(shè)計(jì)檢驗(yàn)偏差編程針對(duì)數(shù)據(jù)編程測(cè)試設(shè)計(jì)DSS系統(tǒng)集成分析結(jié)果實(shí)現(xiàn)理解需求
硬件利用模式
操作型環(huán)境處理中有多個(gè)波峰和波谷,存在相對(duì)靜止的硬件利用模式數(shù)倉(cāng)環(huán)境中,利用二元模式。
重建工程創(chuàng)造條件
從生產(chǎn)環(huán)境移走大量數(shù)據(jù)
移走巨大數(shù)量數(shù)據(jù),可以使生產(chǎn)環(huán)境更具可塑性。
生產(chǎn)環(huán)境更易于糾錯(cuò)生產(chǎn)環(huán)境更易于重構(gòu)生產(chǎn)環(huán)境更易于監(jiān)控生產(chǎn)環(huán)境更易于索引
從生產(chǎn)環(huán)境中移走信息型處理
信息型處理移到數(shù)據(jù)倉(cāng)庫(kù),生產(chǎn)環(huán)境中維護(hù)的負(fù)擔(dān)將大大減輕。
信息型處理采用報(bào)表,屏幕顯示,抽取等形式。信息型處理特點(diǎn)是不停變化。信息型處理在傳統(tǒng)生產(chǎn)環(huán)境中,維護(hù)起來(lái)無(wú)休無(wú)止。
監(jiān)控?cái)?shù)據(jù)倉(cāng)庫(kù)環(huán)境
建立數(shù)據(jù)倉(cāng)庫(kù)后,需要對(duì)它進(jìn)行維護(hù)。需要對(duì)性能進(jìn)行管理,需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境進(jìn)行監(jiān)控。 需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)監(jiān)控的基本點(diǎn):
數(shù)據(jù)數(shù)據(jù)使用情況DSS環(huán)境中的響應(yīng)時(shí)間
數(shù)據(jù)倉(cāng)庫(kù)監(jiān)控方式
最終用戶(hù)終端服務(wù)器層次
數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)
Inmon的企業(yè)信息化工廠
企業(yè)數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)信息化工廠的樞紐,它是原子數(shù)據(jù)的集成倉(cāng)庫(kù),從各種操作信息集成而來(lái),包含一個(gè)確定得且一致的業(yè)務(wù)活動(dòng)表示法,基于原子數(shù)據(jù)的性質(zhì),該數(shù)倉(cāng)盡可能的包括底層的細(xì)節(jié)數(shù)據(jù)。 企業(yè)數(shù)據(jù)倉(cāng)庫(kù)不是通過(guò)分析型應(yīng)用程序、商務(wù)智能工具或類(lèi)似方法直接查詢(xún),它的目的是將附加的數(shù)據(jù)存儲(chǔ)用于各種分析型系統(tǒng),企業(yè)數(shù)據(jù)倉(cāng)庫(kù)通常存儲(chǔ)與關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)中。并且Inmon主張使用第三范式進(jìn)行數(shù)據(jù)庫(kù)設(shè)計(jì)。 對(duì)于主題區(qū)域來(lái)說(shuō),每個(gè)數(shù)據(jù)集市都從企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中獲取信息,并為后續(xù)的信息做好準(zhǔn)備,Inmon主張?jiān)跀?shù)據(jù)集市中采用維度設(shè)計(jì)的方法,數(shù)據(jù)集市可以從企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的原子表示中聚集數(shù)據(jù)。
Kimball的維度數(shù)據(jù)倉(cāng)庫(kù)
維度數(shù)據(jù)倉(cāng)庫(kù)根據(jù)維度建模的原則來(lái)設(shè)計(jì),它由一系列星型模式或者多維數(shù)據(jù)集組成,并且他們獲取盡可能詳盡的細(xì)節(jié)數(shù)據(jù)。 維度數(shù)據(jù)倉(cāng)庫(kù)也許能被分析型系統(tǒng)直接訪問(wèn),雖然這種訪問(wèn)方式不是必要的,但是這種體系結(jié)構(gòu)顯然允許存在,數(shù)據(jù)集市的概念有著邏輯上的區(qū)別,數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)中的主題區(qū)域。ETL開(kāi)發(fā)者通常會(huì)將滿足第三范式的一組表作為該過(guò)程的中間步驟,Kimball認(rèn)為,如果這些臨時(shí)表時(shí)由ETL過(guò)程,而不是其他任何過(guò)程直接訪問(wèn),那么這在維度數(shù)據(jù)倉(cāng)庫(kù)中是可接受的。
獨(dú)立型數(shù)據(jù)集市
獨(dú)立型數(shù)據(jù)集市是一個(gè)分析型數(shù)據(jù)存儲(chǔ),并不是在企業(yè)環(huán)境中被設(shè)計(jì)的,它只關(guān)注于主題區(qū)域,一個(gè)或多個(gè)操作型系統(tǒng)可以滿足一個(gè)被稱(chēng)作數(shù)據(jù)集市的數(shù)據(jù)庫(kù)。數(shù)據(jù)集市可能采用維度設(shè)計(jì)、實(shí)體關(guān)系模型或是其他設(shè)計(jì),分析型工具或應(yīng)用程序?qū)λ苯舆M(jìn)行查詢(xún),然后將結(jié)果反饋給最終用戶(hù)。 獨(dú)立型數(shù)據(jù)集市在短期內(nèi)獲取快速的、廉價(jià)的結(jié)果的同事,會(huì)導(dǎo)致長(zhǎng)期費(fèi)用的提高和效率的低下。數(shù)據(jù)集市本身可能是基于不同的技術(shù),并且用戶(hù)群體可能依賴(lài)于各自的查詢(xún)和報(bào)表基礎(chǔ)設(shè)施。這些特性經(jīng)常使獨(dú)立型數(shù)據(jù)倉(cāng)庫(kù)帶有“信息孤島”的標(biāo)記,缺乏兼容性。多重獨(dú)立型數(shù)據(jù)集市增加了整個(gè)解決方案的成本,需要對(duì)冗余技術(shù),進(jìn)程和技能集合進(jìn)行維護(hù)。 即使最大限度的降低了這些技術(shù)的低效性,在數(shù)據(jù)中也仍然可能存在嚴(yán)重缺陷,如果構(gòu)建的數(shù)據(jù)集市僅用于解決某一方面的需求,當(dāng)需求擴(kuò)大時(shí),由于缺乏不同粒度的數(shù)據(jù)存儲(chǔ),數(shù)據(jù)集市將難以回答那些比原先預(yù)期需要更多細(xì)節(jié)信息的新問(wèn)題,冗余的加載過(guò)程對(duì)源數(shù)據(jù)應(yīng)用不同的規(guī)則,導(dǎo)致系統(tǒng)得出矛盾的結(jié)果。 由于最初是為了滿足狹隘的需求,因此無(wú)法支持跨功能進(jìn)行分析,需要大量的重復(fù)工作來(lái)適應(yīng)更深、更廣的需求,短期的節(jié)省將付出長(zhǎng)期的代價(jià)。 獨(dú)立型數(shù)據(jù)集市產(chǎn)生的問(wèn)題不是因?yàn)椴捎眯切湍J綄?dǎo)致的,相反,這是有獨(dú)立型數(shù)據(jù)集市只關(guān)注有限范圍這一缺陷造成的。
體系結(jié)構(gòu)提倡者其他稱(chēng)謂描述維度設(shè)計(jì)的角色企業(yè)信息化工廠Bill Inmon原子數(shù)據(jù)倉(cāng)庫(kù)、企業(yè)數(shù)據(jù)倉(cāng)庫(kù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)是原子數(shù)據(jù)的集成倉(cāng)庫(kù)、不能被直接訪問(wèn)、數(shù)據(jù)集市為部門(mén)使用/分析而重新組織數(shù)據(jù)維度設(shè)計(jì)只應(yīng)用于數(shù)據(jù)集市維度數(shù)據(jù)倉(cāng)庫(kù)Ralph and Kimbal企業(yè)數(shù)據(jù)倉(cāng)庫(kù)、總線體系結(jié)構(gòu)、結(jié)構(gòu)化數(shù)據(jù)集市、虛擬數(shù)據(jù)集市維度數(shù)據(jù)倉(cāng)庫(kù)是原子數(shù)據(jù)的一種集成倉(cāng)庫(kù)、可以被直接訪問(wèn)、包含在維度數(shù)據(jù)倉(cāng)庫(kù)的主題區(qū)域,有時(shí)稱(chēng)為數(shù)據(jù)集市、數(shù)據(jù)集市不要求是獨(dú)立的數(shù)據(jù)庫(kù)所有數(shù)據(jù)按照維度組織獨(dú)立型數(shù)據(jù)集市無(wú)倡導(dǎo)者但很常見(jiàn)數(shù)據(jù)集市、豎井式、煙囪型、孤島型主題區(qū)域的實(shí)現(xiàn)不需要企業(yè)環(huán)境可以使用維度設(shè)計(jì)
不同數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法對(duì)比
企業(yè)信息化工廠和維度數(shù)據(jù)倉(cāng)庫(kù)都關(guān)注企業(yè)級(jí)應(yīng)用,他們的目的是支持跨企業(yè)或者組織機(jī)構(gòu)的分析型需求,允許在一個(gè)主題區(qū)域內(nèi)處理需求,需要采用一種工程化的方法來(lái)處理來(lái)自不同組織的數(shù)據(jù)需求。 獨(dú)立型數(shù)據(jù)集市在關(guān)注企業(yè)級(jí)應(yīng)用方面顯示不足,其開(kāi)發(fā)只考慮了來(lái)自一個(gè)小組或者部門(mén)的需求。
企業(yè)級(jí)主題區(qū)域級(jí)原子數(shù)據(jù)集成倉(cāng)庫(kù)格式直接訪問(wèn)數(shù)據(jù)集市格式直接訪問(wèn)企業(yè)信息化工廠有第三范式否物理維度*是維度數(shù)據(jù)倉(cāng)庫(kù)有維度是*邏輯*維度是獨(dú)立型數(shù)據(jù)集市無(wú)物理維度*是
“*”為可選標(biāo)志
對(duì)于Inmon體系結(jié)構(gòu)來(lái)說(shuō),數(shù)據(jù)集市是為部門(mén)使用而建立的一組表格,并且時(shí)物理分離的,可以聚集細(xì)節(jié)數(shù)據(jù)以適應(yīng)部門(mén)或小組的特殊需要,這方面它與獨(dú)立型數(shù)據(jù)集市有相似之處。然后企業(yè)信息化工廠中的數(shù)據(jù)集市在企業(yè)倉(cāng)庫(kù)中獲取數(shù)據(jù),因此內(nèi)容與企業(yè)信息視圖保持一致,這是獨(dú)立型數(shù)據(jù)集市無(wú)法保證的。 對(duì)于Kimball體系來(lái)說(shuō),不要求數(shù)據(jù)集市與物理數(shù)據(jù)分開(kāi)存儲(chǔ),相反它可以是一種邏輯構(gòu)件,數(shù)據(jù)倉(cāng)庫(kù)表的子集。單獨(dú)的數(shù)據(jù)集市報(bào)表可以隨時(shí)構(gòu)建。構(gòu)建完畢后即可從集成倉(cāng)庫(kù)中得到報(bào)表。數(shù)據(jù)集市與企業(yè)信息視圖保持一致。要么是由他們將這種視圖具體化,要么是由他們從數(shù)據(jù)及時(shí)獲取數(shù)據(jù)
Kimball維度數(shù)據(jù)倉(cāng)庫(kù)更加強(qiáng)調(diào)維度設(shè)計(jì),依賴(lài)維度數(shù)據(jù)體系結(jié)構(gòu)為企業(yè)和部門(mén)提供服務(wù)。Inmon則依靠維度模型在企業(yè)級(jí)解決方案背景下提供部門(mén)級(jí)的解決方案。多理性數(shù)據(jù)集市在使用維度設(shè)計(jì)時(shí)不考慮企業(yè)環(huán)境。
柚子快報(bào)激活碼778899分享:數(shù)據(jù)倉(cāng)庫(kù)——決策支持型系統(tǒng)
好文閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。