柚子快報激活碼778899分享:數(shù)據(jù)倉庫總結(jié)
柚子快報激活碼778899分享:數(shù)據(jù)倉庫總結(jié)
1.為什么要做數(shù)倉建模
數(shù)據(jù)倉庫建模的目標(biāo)是通過建模的方法更好的組織、存儲數(shù)據(jù),以便在性能、成本、效率和數(shù)據(jù)質(zhì)量之間找到最佳平衡點。 當(dāng)有了適合業(yè)務(wù)和基礎(chǔ)數(shù)據(jù)存儲環(huán)境的模型(良好的數(shù)據(jù)模型),那么大數(shù)據(jù)就能獲得以下好處:
當(dāng)有了適合業(yè)務(wù)和基礎(chǔ)數(shù)據(jù)存儲環(huán)境的模型(良好的數(shù)據(jù)模型) 訪問性能:能夠快速查詢所需的數(shù)據(jù),減少數(shù)據(jù)I/O。 數(shù)據(jù)成本:減少不必要的數(shù)據(jù)冗余,實現(xiàn)計算結(jié)果數(shù)據(jù)復(fù)用,降低大數(shù)據(jù)系統(tǒng)中的存儲成本和計算成本。 使用效率:改善用戶應(yīng)用體驗,提高使用數(shù)據(jù)的效率。 數(shù)據(jù)質(zhì)量:改善數(shù)據(jù)統(tǒng)計口徑的不一致性,減少數(shù)據(jù)計算錯誤的可能性,提供高質(zhì)量的、一致的數(shù)據(jù)訪問平臺
建模方式有哪些
er建模
在信息系統(tǒng)中,將事務(wù)抽象為“實體”(Entity)、“屬性”(Property)、“關(guān)系”(Relationship)來表示數(shù)據(jù)關(guān)聯(lián)和事物描述,這種對數(shù)據(jù)的抽象建模通常被稱為ER實體關(guān)系模型。 ER模型是數(shù)據(jù)庫設(shè)計的理論基礎(chǔ),當(dāng)前幾乎所有的OLTP系統(tǒng)設(shè)計都采用ER模型建模的方式 遵從三范式 1NF:原子性。 字段屬性不可再分 2NF:唯一性 。一個表只說明一個事物; 3NF:每列都與主鍵有直接關(guān)系,不存在傳遞依賴。
維度建模
關(guān)系模型雖然冗余少,但是在大規(guī)模數(shù)據(jù),跨表分析統(tǒng)計查詢過程中,會造成多表關(guān)聯(lián),這會大大降低執(zhí)行效率。所以一般都會采用維度模型建模,把相關(guān)各種表整理成兩種:事實表和維度表兩種。
在維度建模的基礎(chǔ)上又可分為三種模型:星型模型、雪花模型、星座模型。
維度建模是從分析決策的需求出發(fā)構(gòu)建模型,為分析需求服務(wù),因此它重點關(guān)注用戶如何更快速的完成需求分析,同事具有較好的大規(guī)模復(fù)雜查詢的相應(yīng)能力。其典型的代表是星型模型,以及在一些特殊場景下使用的雪花模型。
維度建模設(shè)計分為以下步驟:
選擇需要進行分析決策的業(yè)務(wù)過程定義粒度識別維度確認(rèn)事實
星型模型
星型模式是維度模型中最簡單的形式,也是數(shù)據(jù)倉庫以及數(shù)據(jù)集市開發(fā)中使用最廣泛的形式。星型模式由事實表和維度表組成,一個星型模式中可以有一個或多個事實表,每個事實表引用任意數(shù)量的維度表。
星型模型與雪花模型的區(qū)別主要在于維度的層級,標(biāo)準(zhǔn)的星型模型維度只有一層,而雪花模型可能會涉及多層。
雪花模型
雪花模式是一種多維模型中表的邏輯布局,與星型模式相同,雪花模式也是由事實表和維度表所組成。所謂的“雪花化”就是將星型模型中的維度表進行規(guī)范化處理。當(dāng)所有的維度表完成規(guī)范化后,就形成了以事實表為中心的雪花型結(jié)構(gòu),即雪花模式。、
星座模型
數(shù)據(jù)倉庫由多個主題構(gòu)成,包含多個事實表,而維表是公共的,可以共享(例如兩張事實表共用一些維度表時,就叫做星型模型),這種模式可以看做星型模式的匯集,因而稱作星系模式或者事實星座模式。
數(shù)據(jù)倉庫和數(shù)據(jù)庫的區(qū)別
數(shù)據(jù)庫和數(shù)據(jù)倉庫都是存儲數(shù)據(jù)的地方,關(guān)鍵是存儲數(shù)據(jù)的區(qū)別。數(shù)據(jù)倉庫準(zhǔn)確而言是一個邏輯的概念,依托RDBMS作為數(shù)據(jù)倉庫平臺。數(shù)據(jù)庫存儲的是原始數(shù)據(jù),沒經(jīng)過任何加工;而數(shù)據(jù)倉庫是為了滿足數(shù)據(jù)分析需要設(shè)計的,對源數(shù)據(jù)進行了ETL(Extract,Transform,Load)過程,數(shù)據(jù)抽取工作分抽取、清洗、轉(zhuǎn)換、裝載。 數(shù)據(jù)倉庫中的數(shù)據(jù)主要是為了給企業(yè)做決策時分析使用,涉及的主要是對數(shù)據(jù)的查詢,一般情況下不會對數(shù)據(jù)進行修改,如果數(shù)據(jù)倉庫中的歷史數(shù)據(jù)超過存儲期限
為什么要數(shù)倉分層
我們先來看下數(shù)據(jù)倉庫為什么要分層,也就是分層的優(yōu)勢。
1)把復(fù)雜問題簡單化
將復(fù)雜的問題分解成多層來完成,每一次只處理簡單的任務(wù),方便定位問題。
2)減少重復(fù)開發(fā)
規(guī)范數(shù)據(jù)分層,通過的中間層數(shù)據(jù),能夠減少極大的重復(fù)計算,增加一次計算結(jié)果的復(fù)用性。
3)隔離原始數(shù)據(jù)
不論是數(shù)據(jù)的異常還是數(shù)據(jù)敏感度,使真實數(shù)據(jù)與統(tǒng)計數(shù)據(jù)解耦開。
各個分層的作用
第一層:
ODS——原始數(shù)據(jù)層:存放原始數(shù)據(jù)
第二層:
DWD——數(shù)據(jù)明細層:對ODS層數(shù)據(jù)進行清洗、維度退化、脫敏等。
第三層:
DWS——數(shù)據(jù)匯總層: 對DWD層數(shù)據(jù)進行一個輕度的匯總。
第四層:
ADS——數(shù)據(jù)應(yīng)用層:為各種統(tǒng)計報表提供數(shù)據(jù)
該層是基于DW層的數(shù)據(jù),整合匯總成主題域的服務(wù)數(shù)據(jù),用于提供后續(xù)的業(yè)務(wù)查詢等。
第五層:
DIM——維表層:基于維度建模理念思想,建立整個企業(yè)的一致性維度。
維表層主要包含兩部分?jǐn)?shù)據(jù):
高基數(shù)維度數(shù)據(jù):一般是用戶資料表、商品資料表類似的資料表。數(shù)據(jù)量可能是千萬級或者上億級別。
低基數(shù)維度數(shù)據(jù):一般是配置表,比如枚舉值對應(yīng)的中文含義,或者日期維表。數(shù)據(jù)量可能是個位數(shù)或者幾千幾萬
柚子快報激活碼778899分享:數(shù)據(jù)倉庫總結(jié)
文章鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。