柚子快報(bào)邀請碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫基礎(chǔ)
柚子快報(bào)邀請碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫基礎(chǔ)
數(shù)據(jù)倉庫基礎(chǔ)知識(shí)
數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫,中文簡稱數(shù)倉。英文叫做Data WareHouse,簡稱DW。 數(shù)據(jù)倉庫是面向分析的集成化數(shù)據(jù)平臺(tái),分析的結(jié)果給企業(yè)提供決策支持; 數(shù)據(jù)倉庫本身不生產(chǎn)數(shù)據(jù); 數(shù)據(jù)倉庫本身也不消費(fèi)數(shù)據(jù); 企業(yè)中一般先有數(shù)據(jù)庫,然后有數(shù)據(jù)倉庫,可以沒有數(shù)據(jù)倉庫,但是不能沒有數(shù)據(jù)庫。 數(shù)據(jù)倉庫不是大型的數(shù)據(jù)庫,只是一個(gè)數(shù)據(jù)分析的平臺(tái)。
數(shù)據(jù)倉庫核心特征
面向主題性
主題(subject)是一個(gè)抽象的概念 數(shù)據(jù)綜合體。一個(gè)分析的主題可以對應(yīng)多個(gè)數(shù)據(jù)源。 在數(shù)倉中開展分析,首先確定分析的主題,然后基于主題尋找、采集跟主題相關(guān)的數(shù)據(jù)。
集成性
數(shù)倉不是生成數(shù)據(jù)的平臺(tái) 其數(shù)據(jù)來自于各個(gè)不同的數(shù)據(jù)源 當(dāng)我們確定主題之后 就需要把和主題相關(guān)的數(shù)據(jù)從各個(gè)數(shù)據(jù)源集成過來。 因?yàn)橥粋€(gè)主題的數(shù)據(jù)可能來自不同的數(shù)據(jù)源 它們之間會(huì)存在著差異(異構(gòu)數(shù)據(jù)):字段同名不同意、單位不統(tǒng)一、編碼不統(tǒng)一; 因此在集成的過程中需要進(jìn)行ETL(Extract抽取 ?Transform轉(zhuǎn)換 load加載)
不可更新性
數(shù)倉上面的數(shù)據(jù)幾乎沒有修改操作,都是分析的操作。
數(shù)倉是分析數(shù)據(jù)規(guī)律的平臺(tái) 不是創(chuàng)造數(shù)據(jù)規(guī)律的平臺(tái)。 ? 注意:改指的數(shù)據(jù)之間的規(guī)律不能修改。
時(shí)變性
數(shù)倉是一個(gè)持續(xù)維護(hù)建設(shè)的東西。 站在時(shí)間的角度,數(shù)倉的數(shù)據(jù)成批次變化更新。一天一分析(T+1) 一周一分析(T+7)
上述所講的更多偏向于離線數(shù)倉,當(dāng)下還有比較火的實(shí)時(shí)數(shù)倉。
數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別
本質(zhì)的區(qū)別就是OLTP 和OLAP系統(tǒng)的區(qū)別 OLTP(On-Line ==Transaction== Processing) Transaction 事務(wù) 面向事務(wù)支持事務(wù)
OLTP系統(tǒng)注重的是數(shù)據(jù)安全、完整、響應(yīng)效率。通常指的就是RDBMS關(guān)系型數(shù)據(jù)庫。
?
#面向事務(wù) 支持事務(wù)
#RDBMS: MySQL ORACLE
#注意 不是NoSQL數(shù)據(jù)庫 沒有事務(wù)支持: Redis HBase OLAP(On-Line ==Analytical== Processing) 中文發(fā)音:歐萊普 Analytical 分析 面向分析支持分析
主要指的是數(shù)據(jù)倉庫、數(shù)據(jù)集市(小型數(shù)據(jù)倉庫):Apache Hive、Apache Impala 注意:在某些場合下,說ORACLE也是OLAP系統(tǒng),如何理解? 如果把RDBMS只用作數(shù)據(jù)分析工作,就是OLAP系統(tǒng)。 ==數(shù)據(jù)倉庫不是大型的數(shù)據(jù)庫,也沒有要取代數(shù)據(jù)庫的目標(biāo)==,只是一個(gè)數(shù)據(jù)分析的平臺(tái)。
數(shù)據(jù)倉庫分層架構(gòu)
數(shù)倉本身不生產(chǎn)數(shù)據(jù)也不消費(fèi)數(shù)據(jù),按照數(shù)據(jù)流入流出的特點(diǎn),對平臺(tái)進(jìn)行分層 最基礎(chǔ)最核心的3層架構(gòu),企業(yè)實(shí)際應(yīng)用中,可以結(jié)合需要添加不同分層。 核心3層架構(gòu)
ODS 操作型數(shù)據(jù)層、源數(shù)據(jù)層、臨時(shí)存儲(chǔ)層 其數(shù)據(jù)來自于各個(gè)不同的數(shù)據(jù)源 臨時(shí)存儲(chǔ) 和數(shù)據(jù)源解耦合 之間有差異 一般不直接用于分析 DW 數(shù)據(jù)倉庫 其數(shù)據(jù)來自于ODS經(jīng)過層層的ETL變成各種模型的數(shù)據(jù) 數(shù)據(jù)干凈規(guī)則 統(tǒng)一
基于各種模型開展各種分析
?
企業(yè)中根據(jù)業(yè)務(wù)復(fù)雜度 繼續(xù)在DW中繼續(xù)劃分子層。 存儲(chǔ)大量的中間結(jié)果。其數(shù)據(jù)來自于ODS經(jīng)過層層ETL得出 企業(yè)中可以根據(jù)需求在DW中繼續(xù)分層。 DA 數(shù)據(jù)應(yīng)用層 最終消費(fèi)DW數(shù)據(jù)的各種應(yīng)用。 分層好處
解耦合 空間換時(shí)間 提高最終應(yīng)用層使用數(shù)據(jù)的效率
ETL和ELT
?
柚子快報(bào)邀請碼778899分享:數(shù)據(jù)庫 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫基礎(chǔ)
精彩鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。