柚子快報激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫相關概述
柚子快報激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫相關概述
數(shù)據(jù)倉庫概述
數(shù)據(jù)倉庫概念
數(shù)據(jù)倉庫是一個為數(shù)據(jù)分析而設計的企業(yè)級數(shù)據(jù)管理系統(tǒng)。數(shù)據(jù)倉庫可集中、整合多個信息源的大量數(shù)據(jù),借助數(shù)據(jù)倉庫的分析能力,企業(yè)可從數(shù)據(jù)中獲得寶貴的信息進而改進決策。同時,隨著時間的推移,數(shù)據(jù)倉庫中積累的大量歷史數(shù)據(jù)對于數(shù)據(jù)科學家和業(yè)務分析師也是十分寶貴的。
數(shù)據(jù)倉庫核心架構(gòu)
數(shù)據(jù)倉庫建模概述
數(shù)據(jù)倉庫建模的意義
數(shù)據(jù)模型就是數(shù)據(jù)組織和存儲方法,它強調(diào)從業(yè)務、數(shù)據(jù)存取和使用角度合理存儲數(shù)據(jù)。只有將數(shù)據(jù)有序的組織和存儲起來之后,數(shù)據(jù)才能得到高性能、低成本、高效率、高質(zhì)量的使用。 高性能:良好的數(shù)據(jù)模型能夠幫助我們快速查詢所需要的數(shù)據(jù)。 低成本:良好的數(shù)據(jù)模型能減少重復計算,實現(xiàn)計算結(jié)果的復用,降低計算成本。 高效率:良好的數(shù)據(jù)模型能極大的改善用戶使用數(shù)據(jù)的體驗,提高使用數(shù)據(jù)的效率。 高質(zhì)量:良好的數(shù)據(jù)模型能改善數(shù)據(jù)統(tǒng)計口徑的混亂,減少計算錯誤的可能性。
數(shù)據(jù)倉庫建模方法論
ER模型
數(shù)據(jù)倉庫之父Bill Inmon提出的建模方法是從全企業(yè)的高度,用實體關系(Entity Relationship,ER)模型來描述企業(yè)業(yè)務,并用規(guī)范化的方式表示出來,在范式理論上符合3NF。
1)實體關系模型 實體關系模型將復雜的數(shù)據(jù)抽象為兩個概念——實體和關系。實體表示一個對象,例如學生、班級,關系是指兩個實體之間的關系,例如學生和班級之間的從屬關系。2)數(shù)據(jù)庫規(guī)范化 數(shù)據(jù)庫規(guī)范化是使用一系列范式設計數(shù)據(jù)庫(通常是關系型數(shù)據(jù)庫)的過程,其目的是減少數(shù)據(jù)冗余,增強數(shù)據(jù)的一致性。 這一系列范式就是指在設計關系型數(shù)據(jù)庫時,需要遵從的不同的規(guī)范。關系型數(shù)據(jù)庫的范式一共有六種,分別是第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF)。遵循的范式級別越高,數(shù)據(jù)冗余性就越低。3)三范式
(1)函數(shù)依賴 1、完全函數(shù)依賴: 設X,Y是關系R的兩個屬性集合,X’是X的真子集,存在X→Y,但對每一個X’都有X’!→Y,則稱Y完全函數(shù)依賴于X。 比如通過(學號,課程) 推出分數(shù) ,但是單獨用學號推斷不出來分數(shù),那么就可以說:分數(shù) 完全依賴于(學號,課程) 。即:通過AB能得出C,但是AB單獨得不出C,那么說C完全依賴于AB。 2、部分函數(shù)依賴 假如 Y函數(shù)依賴于 X,但同時 Y 并不完全函數(shù)依賴于 X,那么我們就稱 Y 部分函數(shù)依賴于 X。 比如通過(學號,課程) 推出姓名,因為其實直接可以通過學號推出姓名,所以**:姓名 部分依賴于 (學號,課程)**。即:通過AB能得出C,通過A也能得出C,或者通過B也能得出C,那么說C部分依賴于AB。 3、傳遞函數(shù)依賴 傳遞函數(shù)依賴:設X,Y,Z是關系R中互不相同的屬性集合,存在X→Y(Y !→X),Y→Z,則稱Z傳遞函數(shù)依賴于X。 比如:學號 推出 系名 , 系名 推出 系主任, 但是,系主任推不出學號,系主任主要依賴于系名。這種情況可以說:系主任 傳遞依賴于 學號。即:通過A得到B,通過B得到C,但是C得不到A,那么說C傳遞依賴于A。(2)第一范式 第一范式1NF核心原則就是:屬性不可切割。1NF是所有關系型數(shù)據(jù)庫的最基本要求,你在關系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS),例如SQL Server,Oracle,MySQL中創(chuàng)建數(shù)據(jù)表的時候,如果數(shù)據(jù)表的設計不符合這個最基本的要求,那么操作一定是不能成功的。也就是說,只要在RDBMS中已經(jīng)存在的數(shù)據(jù)表,一定是符合1NF的。(3)第二范式 第二范式2NF核心原則:不能存在“部分函數(shù)依賴”(4)第三范式 第三范式 3NF核心原則:不能存在傳遞函數(shù)依賴 下圖為一個采用Bill Inmon倡導的建模方法構(gòu)建的模型,從圖中可以看出,較為松散、零碎,物理表數(shù)量多。 這種建模方法的出發(fā)點是整合數(shù)據(jù),其目的是將整個企業(yè)的數(shù)據(jù)進行組合和合并,并進行規(guī)范處理,減少數(shù)據(jù)冗余性,保證數(shù)據(jù)的一致性。這種模型并不適合直接用于分析統(tǒng)計。
維度模型
數(shù)據(jù)倉庫領域的另一位大師——Ralph Kimball倡導的建模方法為維度建模。維度模型將復雜的業(yè)務通過事實和維度兩個概念進行呈現(xiàn)。事實通常對應業(yè)務過程,而維度通常對應業(yè)務過程發(fā)生時所處的環(huán)境。 注:業(yè)務過程可以概括為一個個不可拆分的行為事件,例如電商交易中的下單,取消訂單,付款,退單等,都是業(yè)務過程。 下圖為一個典型的維度模型,其中位于中心的SalesOrder為事實表,其中保存的是下單這個業(yè)務過程的所有記錄。位于周圍每張表都是維度表,包括Date(日期),Customer(顧客),Product(產(chǎn)品),Location(地區(qū))等,這些維度表就組成了每個訂單發(fā)生時所處的環(huán)境,即何人、何時、在何地下單了何種產(chǎn)品。從圖中可以看出,模型相對清晰、簡潔。 維度建模以數(shù)據(jù)分析作為出發(fā)點,為數(shù)據(jù)分析服務,因此它關注的重點的用戶如何更快的完成需求分析以及如何實現(xiàn)較好的大規(guī)模復雜查詢的響應性能。
柚子快報激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫相關概述
推薦鏈接
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權,聯(lián)系刪除。