柚子快報邀請碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫簡介
柚子快報邀請碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫簡介
數(shù)據(jù)倉庫誕生的原因
歷史數(shù)據(jù)的積存企業(yè)數(shù)據(jù)分析的需要
歷史數(shù)據(jù)的積存
線上的業(yè)務(wù)系統(tǒng)隨著業(yè)務(wù)的進(jìn)行,會源源不斷的產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)都會存儲在業(yè)務(wù)數(shù)據(jù)庫中,比如mysql等。但是隨著業(yè)務(wù)系統(tǒng)的運(yùn)行,數(shù)據(jù)庫中積壓的數(shù)據(jù)就會越來越多。對業(yè)務(wù)數(shù)據(jù)庫就會產(chǎn)生一定的負(fù)載,導(dǎo)致業(yè)務(wù)系統(tǒng)的運(yùn)行速度較慢。
堆積的數(shù)據(jù)當(dāng)中,相當(dāng)一部分的是冷數(shù)據(jù)。一般最長調(diào)用的都是最近的數(shù)據(jù),過早的數(shù)據(jù)調(diào)用的頻率就很低。為了避免由于冷數(shù)據(jù)的積壓導(dǎo)致業(yè)務(wù)系統(tǒng)的緩慢,就需要定期將業(yè)務(wù)數(shù)據(jù)庫中的冷數(shù)據(jù)存儲到一個專門存儲歷史數(shù)據(jù)的倉庫中。這個倉庫就是數(shù)據(jù)倉庫。
企業(yè)數(shù)據(jù)分析的需要
在沒有建立數(shù)據(jù)倉庫之前,企業(yè)要進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)的來源是業(yè)務(wù)數(shù)據(jù)庫。
但是這種方法是有弊端的。
首先,各個部門的分析結(jié)果就會不一致,因為如果兩個部門是在不同的時間抽取的同一個業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行分析,結(jié)果肯定會不一致。其次,每個部門都要建立數(shù)據(jù)抽取系統(tǒng),就會產(chǎn)生資源的浪費(fèi),每個數(shù)據(jù)抽取系統(tǒng)都要數(shù)據(jù)庫的權(quán)限,數(shù)據(jù)庫的權(quán)限管理也會變得麻煩。同時還會降低數(shù)據(jù)庫的性能
這時就可以建立一個數(shù)據(jù)倉庫,統(tǒng)一對業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行抽取,就可以解決上面的問題
數(shù)據(jù)倉庫的基本概念
數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的且隨時間變化的數(shù)據(jù)結(jié)合
主要應(yīng)用與積累歷史數(shù)據(jù),利用分析方法進(jìn)行分析整理,進(jìn)而輔助決策
數(shù)據(jù)倉庫的特點(diǎn)
面向主題:為數(shù)據(jù)分析提供服務(wù),根據(jù)主題將原始數(shù)據(jù)整合在一起[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳
集成:原始數(shù)據(jù)來源于不同的數(shù)據(jù)源,要整合成最終的數(shù)據(jù),需要經(jīng)過抽取、清洗的過程
非易失:保存的數(shù)據(jù)都是歷史快照,不允許被修改,只允許查詢和分析
隨時間變化:數(shù)倉會定期接受新的數(shù)據(jù),從而反應(yīng)出數(shù)據(jù)的最新變化
數(shù)據(jù)倉庫VS數(shù)據(jù)庫
數(shù)據(jù)倉庫是面向事務(wù)的,屬于OLTP(在線事務(wù)處理)系統(tǒng),主要操作是隨機(jī)讀寫。在設(shè)計是要避免冗余,要符合范式設(shè)計數(shù)據(jù)倉庫是面向主題的,屬于OLAP(在線分析系統(tǒng)),主要操作是批量讀寫嗎,注重分析性能,會有意引入冗余,不滿足三范式
數(shù)據(jù)倉庫的技術(shù)實現(xiàn)
傳統(tǒng)數(shù)據(jù)倉庫大數(shù)據(jù)數(shù)據(jù)倉庫
傳統(tǒng)數(shù)據(jù)倉庫
傳統(tǒng)數(shù)據(jù)倉庫使用關(guān)系型數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的存儲。由多個單機(jī)節(jié)點(diǎn)組成MPP(大規(guī)模并行處理)集群
在數(shù)據(jù)量沒超過某個量級時是非常優(yōu)秀的解決方案,但一旦超過了某個量級就會產(chǎn)生拓展性有限和熱點(diǎn)
問題
由于每個節(jié)點(diǎn)都是獨(dú)立進(jìn)行計算的,所以進(jìn)行數(shù)據(jù)交換的時候會經(jīng)過高速網(wǎng)絡(luò)來進(jìn)行連接,就限制了節(jié)點(diǎn)上線
在進(jìn)行存儲時,采用分庫分表,將一張大表拆分到各個節(jié)點(diǎn)進(jìn)行存儲,節(jié)點(diǎn)數(shù)越多,出現(xiàn)錯誤的頻率就會越高,集群的可用性就會降低
由于是單機(jī)節(jié)點(diǎn),數(shù)據(jù)存儲的位置不透明,需要通過hash來確定數(shù)據(jù)所在的物理節(jié)點(diǎn),查詢?nèi)蝿?wù)在所有的節(jié)點(diǎn)都會進(jìn)行
在并行計算時,單節(jié)點(diǎn)會成為整個系統(tǒng)的短板,因為如果一個節(jié)點(diǎn)運(yùn)行過于緩慢,其他所有的節(jié)點(diǎn)都需要等待這個節(jié)點(diǎn)完成任務(wù)才能繼續(xù)運(yùn)行
大數(shù)據(jù)數(shù)據(jù)倉庫
采用分布式架構(gòu)來存儲數(shù)據(jù),具有極強(qiáng)的擴(kuò)展性
為了避免海量數(shù)據(jù)的移動造成的IO和網(wǎng)絡(luò)的開銷,采用了移動計算的架構(gòu),也就是將計算任務(wù)分發(fā)到數(shù)據(jù)所在的節(jié)點(diǎn)
解決了熱點(diǎn)問題,因為一個數(shù)據(jù)默認(rèn)會存三份,處理數(shù)據(jù)時節(jié)點(diǎn)就是可選的
但是數(shù)據(jù)倉庫缺少事務(wù)支持,因為在分布式的環(huán)境下要實現(xiàn)事務(wù)的難度還是不小的
同時在數(shù)據(jù)量沒到達(dá)一定的規(guī)模的時候,數(shù)據(jù)倉庫處理數(shù)據(jù)的速度還是比較慢的,因為要對任務(wù)進(jìn)行拆分、調(diào)度、合并,如果數(shù)據(jù)量很少的話,這個過程所要花費(fèi)的時間比處理數(shù)據(jù)所花費(fèi)的時間都要多
柚子快報邀請碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫簡介
參考閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。