柚子快報邀請碼778899分享:大數(shù)據(jù)領(lǐng)域建模綜述
柚子快報邀請碼778899分享:大數(shù)據(jù)領(lǐng)域建模綜述
1 為什么需要數(shù)據(jù)建模
? ? ? ? 數(shù)據(jù)模型就是數(shù)據(jù)的組織和存儲方法,強調(diào)從業(yè)務(wù)、數(shù)據(jù)存取和使用角度合理存儲數(shù)據(jù)。建立合適的業(yè)務(wù)和基礎(chǔ)數(shù)據(jù)存儲環(huán)境的模型,大數(shù)據(jù)能獲得如下的好處。
?性能:好的數(shù)據(jù)模型提高查詢所需要的數(shù)據(jù),提高I/O的存儲成本:減少 不必要的數(shù)據(jù)冗余,實現(xiàn)計算結(jié)果的復(fù)用,降低大數(shù)據(jù)的存儲和計算成本效率:改善用戶的使用數(shù)據(jù)的體驗,提高數(shù)據(jù)的效率質(zhì)量:改善數(shù)據(jù)統(tǒng)計口徑的不一致性,減少數(shù)據(jù)計錯誤的可能性
2 典型的數(shù)據(jù)倉庫建模方法論
? ? ? ?ER模型
? ? ? ? 采用ER模型建設(shè)數(shù)據(jù)倉庫模型的出發(fā)點是整合數(shù)據(jù),將整個系統(tǒng)中的數(shù)據(jù)以整個企業(yè)的角度按照主題進行相似性組合和合并,并進行一致性處理,為數(shù)據(jù)分析決策服務(wù),建模步驟包括三個階段 。
高層模型:描述主要的主題和主題之間的關(guān)系中層模型:在高層的基礎(chǔ)上,細化主題的數(shù)據(jù)項物理模型:在中層的基礎(chǔ)上,考慮物理儲存,基于性能和平臺特點進行物理屬性的設(shè)計,可以做一些表的合并和分區(qū)的設(shè)計。?
? ? ? ? 維度模型
? ? ? ? 維度模型從分析決策的需求出發(fā)構(gòu)建模型,為分析需求服務(wù),重點關(guān)注用戶如何更快速的完成需求的分析。典型的代表是星型模型,特殊場景使用雪花模型。
? ? ? ? 設(shè)計分為一下幾個步驟:
?選擇需要進行分析和決策的業(yè)務(wù)過程??梢允菃蝹€業(yè)務(wù)事件如交易的支付、退款;也可以是某個時間的狀態(tài)如賬戶的余額;還可以是一些列相關(guān)事務(wù)組成的業(yè)務(wù)流程。選擇粒度。所有分析需要細分的程度,決定選擇的粒度。識別維表。選擇粒度之后,需要基于此粒度設(shè)計維表,包括維度屬性,用于分析時進行分組和篩選。選擇事實。確定分析需要的衡量的指標
? ? ? ? Data Vault模型
? ? ? ? 由一下幾部分組成:
Hub:企業(yè)的核心實體,由實體key,數(shù)據(jù)倉庫序列代理鍵,裝載時間,數(shù)據(jù)組成Link:代表Hub之間的關(guān)系。直接描述1:1,1:n,n:n之間的關(guān)系。由Hub的代理健,裝載時間和數(shù)據(jù)來源組成。Satellite:是Hub的詳細描述內(nèi)容,一個Hub可以有多個Satellite。由Hub的代理健,裝載時間,來源類型,詳細的Hub信息描述組成。
? ? ? ? Anchor模型
Anchors:代表業(yè)務(wù)實體,只有主鍵Attributes:類似于Data Vault的Satellite,更加規(guī)范化,將其全部k-v結(jié)構(gòu)化。Ties:Anchors之間的關(guān)系,類似于Data Vault的Link,可以提升整體模型關(guān)系的擴展能力。Knots:可能會在多個Anchors中公用的屬性的提煉,比如性別、狀態(tài)等這種枚舉且被公用的屬性。
柚子快報邀請碼778899分享:大數(shù)據(jù)領(lǐng)域建模綜述
好文推薦
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。