柚子快報(bào)激活碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)倉庫知識(shí)點(diǎn)總結(jié)
柚子快報(bào)激活碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)倉庫知識(shí)點(diǎn)總結(jié)
數(shù)據(jù)倉庫是面向主題的,集成的,相對(duì)穩(wěn)定的,反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定。 數(shù)據(jù)倉庫的模型架構(gòu)圖:
?????? 1.數(shù)據(jù)處理方式
(1)OLTP
OLTP的全稱是On-line Transaction Processing,中文名稱是聯(lián)機(jī)事務(wù)處理。其特點(diǎn)是會(huì)有高并發(fā)且數(shù)據(jù)量級(jí)不大的查詢,是主要用于管理事務(wù)(transaction-oriented)的系統(tǒng)。此類系統(tǒng)專注于short on-line-tansactions 如INSERT, UPDATE, DELETE操作。通常存在此類系統(tǒng)中的數(shù)據(jù)都是以實(shí)體對(duì)象模型來存儲(chǔ)數(shù)據(jù),并滿足3NF(數(shù)據(jù)庫第三范式)。
(2)OLAP
OLAP的全稱是 On-line Analytical Processing,中文名稱是聯(lián)機(jī)分析處理。其特點(diǎn)是查詢頻率較OLTP系統(tǒng)更低,但通常會(huì)涉及到非常復(fù)雜的聚合計(jì)算。
2.數(shù)據(jù)建模
1.范式模型(實(shí)體關(guān)系(ER)模型)
數(shù)據(jù)倉庫之父Bill Inmon推崇從全企業(yè)的高度設(shè)計(jì)一個(gè)3NF模型的方法,用實(shí)體加關(guān)系描述的數(shù)據(jù)模型描述企業(yè)業(yè)務(wù)架構(gòu),在范式理論上符合3NF,站在企業(yè)角度面向主題的抽象,而不是針對(duì)某個(gè)具體業(yè)務(wù)流程的實(shí)體對(duì)象關(guān)系抽象。 特點(diǎn):設(shè)計(jì)思路自上而下,適合上游基礎(chǔ)數(shù)據(jù)存儲(chǔ),同一份數(shù)據(jù)只存儲(chǔ)一份,沒有數(shù)據(jù)冗余,方便解耦,易維護(hù),缺點(diǎn)是開發(fā)周期一般比較長,維護(hù)成本高,需要全面了解企業(yè)業(yè)務(wù)、數(shù)據(jù)和關(guān)系。 1NF:屬性不可再分,即表中的每個(gè)列都不可以再進(jìn)行拆分。 2NF:在滿足1NF的前提下,表中不存在部分依賴,非主鍵列要完全依賴于主鍵。(主要是說在聯(lián)合主鍵的情況下,非主鍵列不能只依賴于主鍵的一部分) 3NF:在滿足2NF的前提下,不存在傳遞依賴。(非主鍵列不能相互依賴)
2.維度模型
數(shù)據(jù)倉庫領(lǐng)域大師Ralph Kimball倡導(dǎo),以分析決策的需求出發(fā)構(gòu)建模型,構(gòu)建的數(shù)據(jù)模型為分析需求服務(wù),因此它重點(diǎn)解決用戶如何更快速完成分析需求,同時(shí)還有較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能,更直接面向業(yè)務(wù)。 維度模型建設(shè)原則: 1.一致性維度和事實(shí):企業(yè)數(shù)據(jù)倉庫應(yīng)該建立統(tǒng)一的一致性維度和事實(shí),而不是為每個(gè)部門建立維度和事實(shí)。 2.一致性維度:具有一致的維度關(guān)鍵字、屬性列名稱,一致的屬性定義和屬性值。一致性維度要么是統(tǒng)一的,要么是維度的一個(gè)子集。 3.一致性事實(shí):即每個(gè)事實(shí)度量在整個(gè)數(shù)據(jù)倉庫中都具有唯一的統(tǒng)計(jì)口徑,一個(gè)度量必須只有唯一的業(yè)務(wù)術(shù)語。 維度模型設(shè)計(jì)過程: 選定業(yè)務(wù)過程 -> 確定事實(shí)粒度 -> 確定維度 -> 確定事實(shí)。 選擇業(yè)務(wù):選擇業(yè)務(wù)線,如訂單,倉庫,售后,計(jì)費(fèi)。 聲明粒度:一行代表的信息(一條訂單?一天的訂單?一周的訂單?選擇最小粒度) 確認(rèn)維度:選擇能夠描述清楚業(yè)務(wù)過程所處的環(huán)境的維度信息(誰,什么時(shí)間什么地點(diǎn)) 確認(rèn)事實(shí):選擇與業(yè)務(wù)過程有關(guān)的所有事實(shí)(度量值:如個(gè)數(shù),件數(shù),金額)
(1)維度表的分類
在維度建模中,將度量稱為“事實(shí)” ,將環(huán)境描述為“維度”。
①維度表
1.維度表設(shè)計(jì)原則
維度的作用一般是查詢約束、分類匯總以及排序等,我們?cè)谶M(jìn)行維度表設(shè)計(jì)時(shí),應(yīng)當(dāng)提前考慮: (1)維度屬性盡量豐富,為數(shù)據(jù)使用打下基礎(chǔ) 比如蘇寧商品維度有幾十個(gè)維度屬性,為下游的數(shù)據(jù)統(tǒng)計(jì)、分析、探查提供了良好的基礎(chǔ)。 (2)給出詳實(shí)的、富有意義的文字描述 屬性不應(yīng)該是編碼,而應(yīng)該是真正的文字。一般是編碼和文字同時(shí)存在,比如商品維度中的商品ID和商品標(biāo)題、類目ID和類目名稱等。ID一般用于不同表之間的關(guān)聯(lián),而名稱一般用于報(bào)表標(biāo)簽 (3)區(qū)分?jǐn)?shù)值型屬性和事實(shí) 數(shù)值型字段是作為事實(shí)還是維度屬性,可以參考字段的一般用途。如果通常用于查詢約束條件或分組統(tǒng)計(jì),則是作為維度屬性;如果通常用于參與度量的計(jì)算,則是作為事實(shí)。比如商品價(jià)格,可以用于查詢約束條件或統(tǒng)計(jì)價(jià)格區(qū)間 的商品數(shù)量,此時(shí)是作為維度屬性使用的;也可以用于統(tǒng)計(jì)某類目下商品的平均價(jià)格,此時(shí)是作為事實(shí)使用的。 (4)沉淀出通用的維度屬性,為建立一致性維度做好鋪墊 有些維度屬性獲取需要進(jìn)行比較復(fù)雜的邏輯處理,有些需要通過多表關(guān)聯(lián)得到,或者通過單表的不同字段混合處理得到,或者通過對(duì)單表的某個(gè)字段進(jìn)行解析得到。此時(shí),需要將盡可能多的通用的維度屬性進(jìn)行沉淀。一方面,可以提高下游使用的方便性,減少復(fù)雜度;另一方面,可以避免下游使用解析時(shí)由于各自邏輯不同而導(dǎo)致口徑不一致。 (5)退化維度(DegenerateDimension) 在維度類型中,有一種重要的維度稱作為退化維度。這種維度指的是直接把一些簡單的維度放在事實(shí)表中。退化維度是維度建模領(lǐng)域中的一個(gè)非常重要的概念,它對(duì)理解維度建模有著非常重要的作用,退化維度一般在分析中可以用來做分組使用。例如來源渠道字段。 (6)緩慢變化維(Slowly Changing Dimensions) 維度的屬性并不是始終不變的,它會(huì)隨著時(shí)間的流逝發(fā)生緩慢的變化,這種隨時(shí)間發(fā)生變化的維度我們一般稱之為緩慢變化維(SCD),緩慢變化維一般使用代理健作為維度表的主健。 緩慢變化維的三種處理方式: ① 直接覆蓋原值 適用于:不看歷史數(shù)據(jù),簡單粗暴
② 拉鏈表(新增列) 新增三列維度記錄,分配新的代理主鍵,通常配合有效開始時(shí)間、有效結(jié)束時(shí)間、有效標(biāo)識(shí)使用
③ 增加屬性列 新增數(shù)據(jù)列記錄對(duì)應(yīng)列數(shù)據(jù)變化前數(shù)據(jù).
2.維度表設(shè)計(jì)方法
1.選擇維度或新建維度 作為維度建模的核心,在企業(yè)級(jí)數(shù)據(jù)倉庫中必須保證維度的唯一性。以蘇寧商品維度為例,有且只允許有一個(gè)維度的定義。 2.確定主維表 此處的主維度表一般是直接與業(yè)務(wù)系統(tǒng)同步得表。例如蘇寧商品的主維表是PCMS(商品中心)的商品數(shù)據(jù) 3.確定相關(guān)維表 數(shù)據(jù)倉庫是業(yè)務(wù)源系統(tǒng)的數(shù)據(jù)整合,不同業(yè)務(wù)系統(tǒng)或者同一業(yè)務(wù)系統(tǒng)中的表之間存在關(guān)聯(lián)性。根據(jù)對(duì)業(yè)務(wù)的梳理,確定哪些表和主維表存在關(guān)聯(lián)關(guān)系,并選擇其中的某些表用于生產(chǎn)維度屬性。以蘇寧商品維度為例,根據(jù)對(duì)業(yè)務(wù)邏輯的梳理,可以得到商品與品牌、品類等維度存在的關(guān)聯(lián)關(guān)系。 4.確定維度屬性 本步驟包括兩個(gè)階段,其中第一個(gè)階段是從主維度表中選擇維度屬性或生成新的維度屬性;第二個(gè)階段是從相關(guān)維表中選擇維度屬性或生成新的維度屬性。
②事實(shí)表
表中的每行數(shù)據(jù)代表一個(gè)業(yè)務(wù)事件?!笆聦?shí)”表示的是業(yè)務(wù)事件的度量值(可以統(tǒng)計(jì)次數(shù)、個(gè)數(shù)、金額等) 事實(shí)表分類: ?事務(wù)事實(shí)表 以每個(gè)事務(wù)或事件為單位,描述業(yè)務(wù)過程,例如一個(gè)銷售訂單記錄,一筆支付記錄等,作為事實(shí)表里的一行數(shù)據(jù)。一旦事務(wù)被提交,事實(shí)表數(shù)據(jù)被插入,數(shù)據(jù)就不再進(jìn)行更改,其更新方式為增量更新 ?周期快照事實(shí)表 以一個(gè)周期為時(shí)間間隔,來記錄事實(shí),一般周期可以是每天、每周、每月、每年等; ?累積快照事實(shí) 用來描述過程開始和結(jié)束之間的關(guān)鍵步驟事件,覆蓋過程的整個(gè)生命周期,通常具有多個(gè)日期字段來記錄關(guān)鍵時(shí)間點(diǎn);當(dāng)過程隨著生命周期不斷變化時(shí),記錄也會(huì)隨著過程的變化而被修改;比如:創(chuàng)建訂單 → 買家付款 → 賣家發(fā)貨 → 買家確認(rèn)收貨。粒度是一個(gè)訂單一行數(shù)據(jù),創(chuàng)建訂單時(shí)間,付款時(shí)間,發(fā)貨時(shí)間,收貨時(shí)間,分別作為一個(gè)字段,便于計(jì)算不同業(yè)務(wù)過程的時(shí)間間隔。
1.事實(shí)表設(shè)計(jì)原則
原則 1:盡可能包含所有與業(yè)務(wù)過程相關(guān)的事實(shí) 分析哪些事實(shí)與業(yè)務(wù)過程相關(guān),是設(shè)計(jì)過程中非常重要的關(guān)注點(diǎn);在事實(shí)表中,盡量包含所有與業(yè)務(wù)過程相關(guān)的事實(shí),即使存在冗余,由于事實(shí)通常是數(shù)字型,存儲(chǔ)開銷不會(huì)太大; 原則 2:只選擇與業(yè)務(wù)過程相關(guān)的事實(shí) 如:訂單的下單這個(gè)業(yè)務(wù)過程,事實(shí)表中不應(yīng)該存在支付金額這個(gè)表示支付業(yè)務(wù)過程的事實(shí); 原則 3:分解不可加性事實(shí)為可加的組件 如,訂單的優(yōu)惠率,應(yīng)分解為訂單原價(jià)金額與訂單優(yōu)惠金額兩個(gè)事實(shí)存儲(chǔ)在事實(shí)表中; 原則 4:在選擇維度和事實(shí)之前必須先聲明粒度 粒度用于確定事實(shí)表中一行所表示業(yè)務(wù)的細(xì)節(jié)層次,決定了維度模型的擴(kuò)展性;每個(gè)維度和事實(shí)必須與所定義的粒度保持一致;設(shè)計(jì)事實(shí)表時(shí),粒度定義越細(xì)越好,一般從最低級(jí)別的原子粒度開始; 原則 5:在同一個(gè)事實(shí)表中不能有多種不同粒度的事實(shí) 原則 6:事實(shí)的單位要保持一致 如,訂單金額、訂單優(yōu)惠金額、訂單運(yùn)費(fèi)這3個(gè)事實(shí),應(yīng)該采用統(tǒng)一的計(jì)量單位,統(tǒng)一為元或者分,以方便使用; 原則 7:對(duì)事實(shí)的null值要處理 原則 8:使用退化維度提高事實(shí)表的易用性
2.事實(shí)表設(shè)計(jì)方法
1.選擇業(yè)務(wù)過程 選擇需要進(jìn)行分析決策的業(yè)務(wù)過程。 業(yè)務(wù)過程可以概括為一個(gè)不可拆分的行為事件或者事件的當(dāng)前狀態(tài);比如日志域的曝光、訪問、點(diǎn)擊、搜索等; 2.聲明粒度 在事件分析中,我們需要預(yù)判所有分析需要細(xì)分的程度,從而決定選擇的粒度。粒度是維度的組合。 數(shù)據(jù)整合的程度,采用“最小粒度原則”,即將度量的粒度設(shè)置到最小。 3.確認(rèn)維度 選擇好粒度之后,就需要基于此粒度設(shè)計(jì)維度表,包括維度屬性,用于分析時(shí)進(jìn)行分組和篩選。 4.確認(rèn)度量 確定分析時(shí)候需要衡量的指標(biāo)。
(2)數(shù)據(jù)組織類型
按數(shù)據(jù)組織類型劃分可分為星型模型、雪花模型、星座模型。 ① 星型模型 是一種多維的數(shù)據(jù)關(guān)系,它由一個(gè)事實(shí)表(Fact Table)和一組維表(Dimension Table)組成每個(gè)維表都有一個(gè)維作為主鍵,所有這些維的主鍵組合成事實(shí)表的主鍵。 星型架構(gòu)是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個(gè)維度都直接與事實(shí)表相連接,所以數(shù)據(jù)有一定的冗余。 ② 雪花模型 雪花模型,在星型模型的基礎(chǔ)上,維度表上又關(guān)聯(lián)了其他維度表。這種模型維護(hù)成本高,性能方面也較差,所以一般不建議使用。尤其是基于hadoop體系構(gòu)建數(shù)倉,減少join就是減少shuffle,性能差距會(huì)很大。 ③ 星座模型 星座模型,是對(duì)星型模型的擴(kuò)展延伸,多張事實(shí)表共享維度表。
(3)總線架構(gòu)框架
在Kimball的維度建模的數(shù)據(jù)倉庫中,關(guān)于多維體系結(jié)構(gòu)(MD)有三個(gè)關(guān)鍵性概念:總線架構(gòu)(Bus Architecture),一致性維度(Conformed Dimension)和一致性事實(shí)(Conformed Fact),主導(dǎo)思想是分步建立數(shù)據(jù)倉庫,由數(shù)據(jù)集市組合成企業(yè)的數(shù)據(jù)倉庫。但是,在建立第一個(gè)數(shù)據(jù)集市前,架構(gòu)師首先要做的就是設(shè)計(jì)出在整個(gè)企業(yè)內(nèi)具有統(tǒng)一解釋的標(biāo)準(zhǔn)化的維度和事實(shí),即一致性維度和一致性事實(shí)。而開發(fā)團(tuán)隊(duì)必須嚴(yán)格的按照這個(gè)體系結(jié)構(gòu)來進(jìn)行數(shù)據(jù)集市的迭代開發(fā)。
(4)建設(shè)公共層流程
第一步:需求調(diào)研 業(yè)務(wù)調(diào)研:確認(rèn)需求的產(chǎn)業(yè)板塊、產(chǎn)品線、功能模塊以及具體的業(yè)務(wù)流程; 需求分析:與分析師、業(yè)務(wù)運(yùn)營人員確認(rèn)數(shù)據(jù)需求,具體到表報(bào)形式(維度+指標(biāo))。 第二步:確定數(shù)據(jù)域 確認(rèn)歸屬的數(shù)據(jù)域(如交易域、日志域、會(huì)員域等); 第三步:構(gòu)建總線矩陣 確認(rèn)業(yè)務(wù)過程:業(yè)務(wù)過程可以概括為一個(gè)不可拆分的行為事件或者事件的當(dāng)前狀態(tài); 確認(rèn)數(shù)據(jù)粒度:數(shù)據(jù)整合的程度,采用“最小粒度原則”,即將度量的粒度設(shè)置到最??; 確認(rèn)業(yè)務(wù)主體:業(yè)務(wù)主體是維度的分類(如商品、店鋪、買家等),以及維度的層次; 第四步:明確指標(biāo)統(tǒng)計(jì) 明確需求的原子指標(biāo)、派生指標(biāo)(維度+原子指標(biāo)的組合)。 第五步:一致性維度度量定義 確認(rèn)一致性維度:確認(rèn)一致性維度屬性以及對(duì)應(yīng)的維度編碼,明確新增維度屬性; 確認(rèn)一致性度量:確認(rèn)一致性的指標(biāo)以及對(duì)應(yīng)的指標(biāo)編碼,明確新增指標(biāo)。 第六步:維度模型設(shè)計(jì)(DIM) 一致性維度設(shè)計(jì)(DIM):根據(jù)總線矩陣完成維表設(shè)計(jì),維度及屬性的規(guī)范定義。 第七步:明細(xì)模型設(shè)計(jì) 一致性事實(shí)表設(shè)計(jì)(DWD):根據(jù)總線矩陣的業(yè)務(wù)過程完成一致性事實(shí)表設(shè)計(jì),包含單事務(wù)事實(shí)表和多事務(wù)事實(shí)表,確認(rèn)一致性維度,分解不可加性事實(shí)為可加的原子事實(shí)/度量(如訂單優(yōu)惠率分解為訂單原價(jià)金額和訂單優(yōu)惠金額)。 第八步:匯總模型設(shè)計(jì) 公用匯總層模型設(shè)計(jì)(DWS):確認(rèn)業(yè)務(wù)主體和數(shù)據(jù)域,根據(jù)總線矩陣,面向業(yè)務(wù)主體建模;確認(rèn)公用的指標(biāo),不可累加的衍生指標(biāo)(如比率、比例、TOPN等)拆成可累加的指標(biāo);DWS可以根據(jù)需要分層,比如:第一層當(dāng)日匯總,第二層周、季、月、年累計(jì)等周期需求基于日匯總表進(jìn)一步處理,或者在ADS層處理; 應(yīng)用匯總層設(shè)計(jì)(ADS):確認(rèn)業(yè)務(wù)場景,將同主體的DWS層模型進(jìn)行組裝,生成應(yīng)用個(gè)性化指標(biāo)以及處理時(shí)間修飾的派生指標(biāo)(如最近7天的銷售金額等) 。
3.Data Vault模型
DataVault由Hub(關(guān)鍵核心業(yè)務(wù)實(shí)體)、Link(關(guān)系)、Satellite(實(shí)體屬性) 三部分組成 ,是Dan Linstedt發(fā)起創(chuàng)建的一種模型方法論,它是在ER關(guān)系模型上的衍生,同時(shí)設(shè)計(jì)的出發(fā)點(diǎn)也是為了實(shí)現(xiàn)數(shù)據(jù)的整合,并非為數(shù)據(jù)決策分析直接使用。
4.Anchor模型
高度可擴(kuò)展的模型,所有的擴(kuò)展只是添加而不是修改,因此它將模型規(guī)范到6NF,基本變成了K-V結(jié)構(gòu)模型。企業(yè)很少使用。
3.數(shù)倉總體架構(gòu)
(1)ODS (Operation Data Store) 原始數(shù)據(jù)層
該層最接近數(shù)據(jù)源中數(shù)據(jù)的一層,是數(shù)據(jù)倉庫準(zhǔn)備區(qū),為DWD層提供基礎(chǔ)原始數(shù)據(jù),可減少對(duì)業(yè)務(wù)系統(tǒng)的影響,與業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型保持一致、按主題邏輯劃分。 ?SSA(細(xì)節(jié)數(shù)據(jù)臨時(shí)存儲(chǔ)區(qū))System of records Staging Area SSA層保存源系統(tǒng)每天的增量數(shù)據(jù),可根據(jù)應(yīng)用需要保留適當(dāng)歷史周期的數(shù)據(jù),不長期保存數(shù)據(jù)。 ?SOR(細(xì)節(jié)數(shù)據(jù)區(qū))System of Record 存儲(chǔ)數(shù)據(jù)倉庫最細(xì)節(jié)數(shù)據(jù),按照業(yè)務(wù)源系統(tǒng)分類劃分。 對(duì)數(shù)據(jù)做結(jié)構(gòu)化處理,業(yè)務(wù)上對(duì)數(shù)據(jù)做清洗轉(zhuǎn)換處理,排重?cái)?shù)據(jù)保持業(yè)務(wù)主鍵唯一,完整保留所有細(xì)節(jié)數(shù)據(jù)。 近源層是整個(gè)數(shù)據(jù)倉庫中數(shù)據(jù)量最大的部分。
(2)DWD (Data Warehouse Detail) 明細(xì)數(shù)據(jù)層
對(duì)ODS層的數(shù)據(jù)做一定的數(shù)據(jù)清洗和轉(zhuǎn)換(NULL值處理、數(shù)據(jù)格式統(tǒng)一),提供業(yè)務(wù)系統(tǒng)細(xì)節(jié)數(shù)據(jù)的長期沉淀,為未來分析類需求的擴(kuò)展提供歷史數(shù)據(jù)支撐 明細(xì)數(shù)據(jù)區(qū)面向數(shù)據(jù)域和業(yè)務(wù)過程建表,從事實(shí)的多種角度(維度)來描述事實(shí)(指標(biāo))的模型,包含:事務(wù)事實(shí)表、周期快照事實(shí)表、累積快照事實(shí)表。 ●目的:對(duì)外提供的公用明細(xì)清單——穩(wěn)定性、豐富性、易用性、一致性、可塑性 ●技術(shù)手段:基于最細(xì)粒度的事實(shí)重新組裝(join)+一致性維度下沉+公用業(yè)務(wù)標(biāo)簽化
(3)DWS (Data Warehouse Service) 服務(wù)數(shù)據(jù)層
公共匯總層主要是將使用頻繁的公用數(shù)據(jù),通過聚集進(jìn)行抽象沉淀。根據(jù)數(shù)據(jù)分析的需求,基于通用業(yè)務(wù)邏輯、指標(biāo)定義和共性分析的要求,設(shè)計(jì)匯總表的指標(biāo)。 ●目的:抽象出面向業(yè)務(wù)主體(商品、買家、店鋪等)的使用頻繁的公用匯總數(shù)據(jù),提升數(shù)據(jù)查詢效率 ●技術(shù)手段:維度下沉+一致性維度+公共指標(biāo)建設(shè)
(4)DIM(統(tǒng)一維度區(qū))
提供數(shù)倉統(tǒng)一維度模型,所有需要使用到的維度表都從此區(qū)獲取。
(5)ADS (Application Data Store) 應(yīng)用數(shù)據(jù)層
該層主要是提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用的數(shù)據(jù),我們說的報(bào)表數(shù)據(jù)就是這一層。
4.為什么要進(jìn)行數(shù)據(jù)倉庫建模
只有數(shù)據(jù)模型將數(shù)據(jù)有序的組織和存儲(chǔ)起來之后,大數(shù)據(jù)才能得到高性能、低成本、高效率、高質(zhì)量的使用。 性能:良好的模型能幫我們快速查詢需要的數(shù)據(jù),減少數(shù)據(jù)的IO吞吐 成本:減少數(shù)據(jù)冗余、計(jì)算結(jié)果復(fù)用、從而降低存儲(chǔ)和計(jì)算成本 效率:改善用戶使用數(shù)據(jù)的體驗(yàn),提高使用數(shù)據(jù)的效率 質(zhì)量:改善統(tǒng)計(jì)口徑的不一致性,減少數(shù)據(jù)計(jì)算錯(cuò)誤的可能性
5.數(shù)據(jù)治理
阿里巴巴的數(shù)據(jù)治理模式:
?數(shù)據(jù)穩(wěn)定性與質(zhì)量治理:解決數(shù)據(jù)產(chǎn)出及時(shí)性和準(zhǔn)確性問題 ?數(shù)據(jù)規(guī)范治理:解決數(shù)據(jù)口徑一致性問題 ?數(shù)據(jù)安全治理:解決數(shù)據(jù)權(quán)限控制與數(shù)據(jù)共享交換問題 ?數(shù)據(jù)成本治理:解決數(shù)據(jù)計(jì)算和存儲(chǔ)成本高昂問題
1.數(shù)據(jù)穩(wěn)定性
針對(duì)任務(wù)進(jìn)行優(yōu)先級(jí),失敗重試,告警等配置,出現(xiàn)問題可以及時(shí)通知相關(guān)人員進(jìn)行處理,保證數(shù)據(jù)穩(wěn)定產(chǎn)出
2.數(shù)據(jù)質(zhì)量治理
數(shù)據(jù)質(zhì)量直接影響數(shù)據(jù)價(jià)值和加工效率,高質(zhì)量的數(shù)據(jù)對(duì)完整性、有效性、準(zhǔn)確性、唯一性、一致性、合理性等特性有很高的要求。阿里巴巴將這些特性封裝成靈活的規(guī)則,然后將規(guī)則應(yīng)用到具體的任務(wù),通過調(diào)度平臺(tái),進(jìn)行規(guī)則巡檢和規(guī)則執(zhí)行,并對(duì)有問題的任務(wù)進(jìn)行告警或者阻塞處理。其關(guān)鍵特點(diǎn)如下: 質(zhì)量監(jiān)控與調(diào)度掛鉤,第一時(shí)間發(fā)現(xiàn)問題,避免上游臟數(shù)據(jù)污染下游數(shù)據(jù),大大減小影響面。 40+規(guī)則&自定義規(guī)則,精細(xì)化質(zhì)量控制。 無需設(shè)定閾值,算法自動(dòng)判斷異常值。 故障快速恢復(fù)。
3.數(shù)據(jù)規(guī)范治理
數(shù)據(jù)在實(shí)現(xiàn)層面以表為單位進(jìn)行,阿里巴巴圍繞數(shù)據(jù)生產(chǎn)使用全生命周期,在指標(biāo)體系設(shè)計(jì)、數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)處理任務(wù)開發(fā)、數(shù)據(jù)服務(wù)開放等環(huán)節(jié)的每個(gè)關(guān)鍵階段都設(shè)計(jì)具體標(biāo)準(zhǔn)、流程及規(guī)范,比如創(chuàng)建指標(biāo)的時(shí)候要配置相應(yīng)的指標(biāo)描述,業(yè)務(wù)口徑的描述(比如倉儲(chǔ)每日的發(fā)貨的及時(shí)率統(tǒng)計(jì)),技術(shù)口徑的描述(通過相關(guān)維度統(tǒng)計(jì)已發(fā)貨單數(shù)與總單數(shù)的比值),還有指標(biāo)對(duì)應(yīng)的業(yè)務(wù)、產(chǎn)品、開發(fā)分別是誰等等
4.數(shù)據(jù)安全治理
創(chuàng)建模型的時(shí)候?qū)ψ侄芜M(jìn)行敏感等級(jí)配置,是否進(jìn)行加密、脫敏,以及表權(quán)限等級(jí)的配置
5.數(shù)據(jù)成本治理
通過設(shè)立組織大的成本目標(biāo),然后通過培養(yǎng)個(gè)人的成本意識(shí),在數(shù)據(jù)的計(jì)算與存儲(chǔ)、治理與運(yùn)營層面建立具體目標(biāo)去細(xì)化和落地,來推進(jìn)數(shù)據(jù)治理方面的成本管理。比如阿里巴巴2020年成本治理的目標(biāo):數(shù)據(jù)成本增速不能超過業(yè)務(wù)增速。
柚子快報(bào)激活碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)倉庫知識(shí)點(diǎn)總結(jié)
推薦鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。