柚子快報激活碼778899分享:數(shù)據(jù)倉庫-數(shù)倉分層建設(shè)
柚子快報激活碼778899分享:數(shù)據(jù)倉庫-數(shù)倉分層建設(shè)
數(shù)倉分層設(shè)計的作用
支持數(shù)據(jù)的重用
通過在數(shù)據(jù)倉庫中創(chuàng)建可重用的數(shù)據(jù)模型,可以減少數(shù)據(jù)的重復處理,提高數(shù)據(jù)的處理效率。
優(yōu)化性能
通過在數(shù)據(jù)倉庫的不同層次上進行數(shù)據(jù)聚合和匯總,可以提高查詢性能,尤其是在面對大量數(shù)據(jù)時。
提高數(shù)據(jù)的一致性
通過在數(shù)據(jù)倉庫中間層(如ODS層,操作數(shù)據(jù)存儲層)確保數(shù)據(jù)的一致性,可以減少數(shù)據(jù)冗余和錯誤。
提高數(shù)據(jù)的可維護性
通過分層,可以容易地對數(shù)據(jù)進行維護和更新。每一層的數(shù)據(jù)都具有特定的用途和結(jié)構(gòu),這使得數(shù)據(jù)的管理和維護變得更加簡單。
支持數(shù)據(jù)的可拓展性
隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)量和復雜性可能會增加。分層設(shè)計可以更容易地擴展數(shù)據(jù)倉庫,以適應(yīng)不斷變化的需求。
提高數(shù)據(jù)的可理解性
分層可以幫助用戶更好地理解數(shù)據(jù)的結(jié)構(gòu)和用途。每一層的數(shù)據(jù)都有明確的定義和目的,這有助于用戶快速找到他們需要的數(shù)據(jù)。
提高數(shù)據(jù)處理的靈活性
分層設(shè)計允許數(shù)據(jù)在不同的層次上進行處理和分析。例如,可以在數(shù)據(jù)倉庫的底層進行數(shù)據(jù)的清洗和轉(zhuǎn)換,而在上層進行更復雜的分析和報告。
支持數(shù)據(jù)的完全性和權(quán)限管理
分層設(shè)計可以更容易地實現(xiàn)數(shù)據(jù)的安全性和權(quán)限管理。例如,敏感數(shù)據(jù)可以在較低的層次上進行處理,而只將匯總數(shù)據(jù)暴露給最終用戶。
支持數(shù)據(jù)的審計和合規(guī)性
分層設(shè)計可以幫助企業(yè)遵守數(shù)據(jù)審計和合規(guī)性要求,因為每一層的數(shù)據(jù)都可以被單獨監(jiān)控和審計。
數(shù)倉各層建設(shè)思路
數(shù)據(jù)引入層 ODS(Operational Data Store)
結(jié)構(gòu)與源系統(tǒng)保持一致的增量或者全量數(shù)據(jù)。作為DW數(shù)據(jù)的一個數(shù)據(jù)準備區(qū),同時又承擔基礎(chǔ)數(shù)據(jù)的記錄歷史變化,之所以保留原始數(shù)據(jù)和源系統(tǒng)數(shù)據(jù)保持一致,方便后期數(shù)據(jù)核對需要。
數(shù)據(jù)明細層 DWD(Data Warehouse Detail)
對ODS層數(shù)據(jù)進行清洗轉(zhuǎn)化,以業(yè)務(wù)過程作為建模驅(qū)動,基于每個具體的業(yè)務(wù)過程特點,構(gòu)建最細粒度的明細事實表。可以結(jié)合企業(yè)的數(shù)據(jù)使用特點,基于維度建模思想,將明細事實表的某些重要屬性字段做適當冗余,也即寬表化處理,構(gòu)建明細寬表。
選擇業(yè)務(wù)過程,聲明粒度,確認維度,確定事實,關(guān)聯(lián)維度,數(shù)據(jù)清洗和轉(zhuǎn)換,數(shù)據(jù)存儲策略,性能優(yōu)化,命名規(guī)范,數(shù)據(jù)模型選擇
匯總數(shù)據(jù)層 DWS (Data Warehouse Summary)
基于指標需求,構(gòu)建初步匯總事實表,一般是寬表?;谏蠈拥膽?yīng)用和產(chǎn)品的指標需求,構(gòu)建公共粒度的匯總指標表。以寬表化手段物理化模型,構(gòu)建命名規(guī)范、口徑一致的統(tǒng)計指標,為上層提供公共指標。
公共維度層 DIM(Dimension)
建立一致數(shù)據(jù)分析維表,可以降低數(shù)據(jù)計算口徑不統(tǒng)一的風險,同時可以方便進行交叉探查。以維度作為建模驅(qū)動,基于每個維度的業(yè)務(wù)含義,通過添加維度屬性、關(guān)聯(lián)維度等定義計算邏輯,完成屬性定義的過程并建立一致的數(shù)據(jù)分析維表。
應(yīng)用數(shù)據(jù)服務(wù)層 ADS (Application Data Service)
整合匯總成分析某一個主題域的服務(wù)數(shù)據(jù),面向應(yīng)用邏輯的數(shù)據(jù)加工。該層主要存放數(shù)據(jù)產(chǎn)品個性化的統(tǒng)計指標數(shù)據(jù),這一層的數(shù)據(jù)直接對接數(shù)據(jù)的消費者,是產(chǎn)品、運營等角色可以直接感知理解的一層,大多數(shù)這一層的表都可以直接在BI上通過圖表的形式直接透出。
DWS層一定需要建設(shè)嗎?
當我們在做數(shù)據(jù)需求時,會不會有這樣的疑問,我直接能從DWD層很方便的取出想要的數(shù)據(jù),為什么還要多此一舉建立DWS層的匯總表呢?那是不是意味著可以不用建立DWS層的表呢。答案是可以的。但是這有一個前提,就是業(yè)務(wù)場景不復雜。從短期來看可以快速滿足數(shù)據(jù)需求的開發(fā),但是長期來看,會存在如下的問題:
對于復雜的業(yè)務(wù)場景而言,會出現(xiàn)很多跨域、跨事實的交叉探查,如果沒有沉淀出DWS層的指標進行統(tǒng)一口徑的收口,那么相同的指標會出現(xiàn)不同的口徑和命名,其后果就是取數(shù)變得越來越不方便,而且容易造成業(yè)務(wù)懷疑數(shù)據(jù)是否正確的尷尬局面。公共指標沒有統(tǒng)一計算,當每次需要相同的指標時,則需要重新計算一遍取數(shù)邏輯,不僅效率不高(需要關(guān)聯(lián)表,指標計算),而且造成計算資源浪費。
還有一種情況我認為可以延遲DWS層的建設(shè),當對源系統(tǒng)數(shù)據(jù)了解不足或需求變動頻繁時。因為項目初期需求頻繁變更時,會產(chǎn)生較高DWS層維護成本。所以等對數(shù)據(jù)或需求有整體把控時,陸續(xù)沉淀DWS層模型也不失為一種方案。
柚子快報激活碼778899分享:數(shù)據(jù)倉庫-數(shù)倉分層建設(shè)
相關(guān)文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。