柚子快報激活碼778899分享:數(shù)據(jù)挖掘 數(shù)據(jù)庫 數(shù)據(jù)倉庫實戰(zhàn)
柚子快報激活碼778899分享:數(shù)據(jù)挖掘 數(shù)據(jù)庫 數(shù)據(jù)倉庫實戰(zhàn)
目錄
1、最佳實戰(zhàn)1.1 表的分類1.2 ETL策略1.3 任務調(diào)度
2、項目實戰(zhàn)2.1 項目概述2.2 數(shù)據(jù)描述2.3 架構(gòu)設計2.4 環(huán)境搭建2.5 項目開發(fā)
1、最佳實戰(zhàn)
1.1 表的分類
維度建模中表的類型:事實表和維度表 事實表又可以分為:事務事實表、周期快照事實表、累積快照事實表
事實表:一般指現(xiàn)實存在的業(yè)務對象,比如用戶、商品、商家、銷售員等 維度表:對應一些業(yè)務狀態(tài),代碼的解釋表,也稱為碼表 通常使用維度對事實表中的數(shù)據(jù)進行統(tǒng)計、聚合運算 事務事實表:隨著業(yè)務不斷產(chǎn)生的數(shù)據(jù)、一旦產(chǎn)生不會再變化,如交易流水、操作日志、出庫入庫記錄 周期快照事實表:隨著業(yè)務周期型的推進而變化,完成間隔周期內(nèi)的度量統(tǒng)計,如年、季度累計 使用周期+狀態(tài)度量的組合,如年累計訂單數(shù),年是周期,訂單總數(shù)是量度 分析壓力大 累積快照事實表:記錄不確定周期的度量統(tǒng)計,完全覆蓋一個事實的生命周期,如訂單狀態(tài)表 多個時間字段,用于記錄生命周期中的關鍵時間點 一條記錄,對此記錄不斷更新
一條事件只有一個記錄
累積快照事實表的實現(xiàn): 實現(xiàn)方式一:使用日期分區(qū)表,全量數(shù)據(jù)記錄 存儲大量永遠不更新的冷數(shù)據(jù),對性能影響較大,適用數(shù)據(jù)量小的情況
實現(xiàn)方式二:存儲周期內(nèi)數(shù)據(jù),周期外的冷數(shù)據(jù)存儲到歸檔表
實現(xiàn)方式三:-使用最多且最好的 使用日期分區(qū)表,以業(yè)務實體的結(jié)束時間分區(qū),每天的分區(qū)存放當天結(jié)束的數(shù)據(jù),設計一個時間非常大的分區(qū),如9999-12-31,存放截止當前未結(jié)束的數(shù)據(jù)
拉鏈表:記錄每條信息的生命周期,用于保留數(shù)據(jù)的所以歷史狀態(tài) 拉鏈表將表數(shù)據(jù)的隨機修改方式,變?yōu)轫樞蜃芳?/p>
金額300.5的那個信息,上表中結(jié)束日期9999-99-99,說明此狀態(tài)未結(jié)束,下表,日期改為了2020-01-03,說明狀態(tài)已結(jié)束,且新增了一條記錄,已支付狀態(tài),結(jié)束日期也是9999-99-99
1.2 ETL策略
兩種:全量同步,增量同步
全量同步: 數(shù)據(jù)初始化裝載一定使用全量同步的方式
增量同步: 傳統(tǒng)數(shù)據(jù)整合方案中,大多采用merge方式(update +insert) 大數(shù)據(jù)平臺不支持update操作,可采用全外連接+數(shù)據(jù)全量覆蓋方式
1.3 任務調(diào)度
為什么需要任務調(diào)度?
解決任務單元間的依賴關系自動化完成任務的定時執(zhí)行
常見任務類型? shell、java程序、Mapreduce程序、SQL腳本
常見調(diào)度工具? Azkaban、Oozie
2、項目實戰(zhàn)
2.1 項目概述
背景: 某電商企業(yè),因數(shù)據(jù)積存、分析需要,籌劃搭建數(shù)據(jù)倉庫,提供數(shù)據(jù)分析訪問接口 項目一期需要完成數(shù)倉建設,并完成用戶復購率的分析計算,支持業(yè)務查詢需求
復購率: 指在一段時間間隔內(nèi),多次重復購買產(chǎn)品的用戶,占全部人數(shù)的比率
2.2 數(shù)據(jù)描述
2.3 架構(gòu)設計
一開始,業(yè)務數(shù)據(jù)存放在Mysql中
2.4 環(huán)境搭建
虛擬機搭建 - Xshell - 腳本準備 - 集群按照
2.5 項目開發(fā)
1,業(yè)務數(shù)據(jù)生成: 2,ETL數(shù)據(jù)導入 后面看不懂了。。。 原視頻課程
柚子快報激活碼778899分享:數(shù)據(jù)挖掘 數(shù)據(jù)庫 數(shù)據(jù)倉庫實戰(zhàn)
好文鏈接
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權,聯(lián)系刪除。