柚子快報邀請碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫——環(huán)境
柚子快報邀請碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫——環(huán)境
數(shù)據(jù)倉庫環(huán)境
數(shù)據(jù)倉庫基礎筆記思維導圖已經(jīng)整理完畢,完整連接為: 數(shù)據(jù)倉庫基礎知識筆記思維導圖
數(shù)據(jù)倉庫的特性
數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的、隨時間變化的用來支持管理人員決策的數(shù)據(jù)集合。
面向主題性
主題(Subject):在較高層次上將企業(yè)信息系統(tǒng)中數(shù)據(jù)進行綜合、歸類分析利用。屬于一個抽象概念,每一個主題基本對應一個宏觀分析領域。主題(Subject)是對應企業(yè)中某一宏觀分析領域所涉及的分析對象。 DSS系統(tǒng)是圍繞與某個領域有關的數(shù)據(jù)集合而組織的。 面向主題的好處:
更好地支持和分析數(shù)據(jù)。數(shù)據(jù)可以整合和抽象。提高數(shù)據(jù)的可復用性。
面向主題的實現(xiàn)
在數(shù)據(jù)倉庫中,每一個主要主題域都是以一組相關的表來具體實現(xiàn)的。
數(shù)據(jù)表在同一主題域由一個公共關鍵字聯(lián)系起來。數(shù)據(jù)倉庫中的主題域可能包含在不同介質上。數(shù)據(jù)倉庫中的每一個表都有時間元素作為關鍵字結構的一部分。
集成性
數(shù)據(jù)從多個不同的數(shù)據(jù)源傳送進來,進入數(shù)據(jù)倉庫必須進行轉換、重新排列以及匯總等操作。存在于數(shù)據(jù)倉庫的數(shù)據(jù),必須具有企業(yè)的單一物理映像。 集成性的好處:
實現(xiàn)部門間,系統(tǒng)間的協(xié)作。節(jié)省DSS分析員時間和精力。提高數(shù)據(jù)的一致性和準確性提升數(shù)據(jù)發(fā)掘與分析的效果。
非易失性
數(shù)據(jù)倉庫中并不進行(一般意義上的)數(shù)據(jù)更新,數(shù)據(jù)倉庫在進行裝載時是以靜態(tài)快照的格式進行的。
隨時間變化
數(shù)據(jù)倉庫中每個數(shù)據(jù)單元只是在某一時間是準確的。任何情況下記錄都包含時間標志用以說明數(shù)據(jù)在那一時間是準確的。數(shù)據(jù)倉庫的關鍵字結構總是包含時間元素。 時變性的表現(xiàn):
數(shù)據(jù)倉庫隨時間變化不斷增加新的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫中包含有大量的綜合數(shù)據(jù)。這些綜合數(shù)據(jù)中很多跟時間有關,如數(shù)據(jù)經(jīng)常按照時間段進行綜合,或隔一定的時間片進行抽樣等等。
第1天到第N天的現(xiàn)象
數(shù)據(jù)倉庫只能一步一步地進行設計并載入數(shù)據(jù),即它是進化性的,而非革命性的。爆炸式開發(fā)方法只會帶來災難性的后果。
粒度
細節(jié)程度越高,粒度級就越低。細節(jié)程度越低,粒度集就越高。 粒度會深刻影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小及數(shù)據(jù)倉庫所能回答的查詢類型。
粒度級別低
可以從不同角度觀察數(shù)據(jù)靈活數(shù)據(jù)倉庫中包含了整個企業(yè)活動的事件和歷史
粒度級別高
表示數(shù)據(jù)效率遠高于低粒度級別。需要的索引項更少,數(shù)據(jù)占用空間的大小較小。不利于數(shù)據(jù)壓縮。
設置粒度時需要注意的問題
數(shù)據(jù)倉庫中粒度變高時,數(shù)據(jù)所能回答查詢的能力就會隨之降低。因為每個實體都會有特殊要求,確定體系結構中的哪些實體需要從數(shù)據(jù)倉庫獲取粒度。
雙重粒度
雙重粒度是降低數(shù)據(jù)量的最佳方法。低細節(jié)級和高細節(jié)級。要知道:在很低的細節(jié)級上建立輕度匯總數(shù)據(jù)是沒有意義的。反過來,在太高的細節(jié)級建立匯總數(shù)據(jù)也是沒有用的。所以,一定要進行數(shù)據(jù)粒度的評估,然后才能得出最佳的匯總方案。
輕度綜合數(shù)據(jù)庫中的數(shù)據(jù)量要比細節(jié)數(shù)據(jù)庫中的數(shù)據(jù)量少得多。大部分DSS處理是針對被壓縮的、存取效率高的輕度綜合數(shù)據(jù)進行的。
活樣本數(shù)據(jù)庫
當數(shù)據(jù)倉庫中的數(shù)據(jù)量增長到非常大時,采用抽樣取得真實檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)的一個子集,且這個數(shù)據(jù)庫需要進行周期刷新。
分區(qū)設計
把數(shù)據(jù)分散到可獨立處理的分離物理單元中。
數(shù)據(jù)裝載數(shù)據(jù)訪問數(shù)據(jù)存檔數(shù)據(jù)刪除數(shù)據(jù)監(jiān)控數(shù)據(jù)存儲
數(shù)據(jù)分區(qū)要點
數(shù)據(jù)分區(qū)標準完全由開發(fā)人員來決定注意在應用層上數(shù)據(jù)進行分區(qū)更有意義,并且轉移數(shù)據(jù)到其他設備不會帶來問題。
數(shù)據(jù)倉庫中的數(shù)據(jù)組織
簡單堆積結構:將所有同類型的數(shù)據(jù)進行合并。以逐個記錄為基礎堆積。輪轉綜合數(shù)據(jù)存儲:將由近期到遠期的數(shù)據(jù)由天、周、月、年進行匯總處理,一些細節(jié)數(shù)據(jù)丟失,提取越久的數(shù)據(jù)越不詳細。簡單直接文件:數(shù)據(jù)僅僅是從操作型環(huán)境被拖入數(shù)據(jù)倉庫環(huán)境。并不是在每天基礎上組織的,而是較長時間生成的快照。連續(xù)文件:依據(jù)兩個或者更多的簡單直接文件生成的文件。等等、、
審計與數(shù)據(jù)倉庫
在數(shù)據(jù)倉庫中審計是可能的,但是審計帶來的復雜性使得審計在其他地方進行更有意義。
數(shù)據(jù)倉庫中的同構和異構
數(shù)據(jù)倉庫中的數(shù)據(jù)是異構的。數(shù)據(jù)倉庫中的數(shù)據(jù)按照主題域,表,數(shù)據(jù)在表中的出現(xiàn)。
數(shù)據(jù)倉庫中的數(shù)據(jù)清理
數(shù)據(jù)并非永久地注入數(shù)據(jù)倉庫 數(shù)據(jù)清理或數(shù)據(jù)細節(jié)轉換主要方式:
數(shù)據(jù)加入到數(shù)據(jù)原有細節(jié)的輪轉綜合文件中數(shù)據(jù)從高性能介質轉移到大容量介質上數(shù)據(jù)從系統(tǒng)中被真正清除數(shù)據(jù)從體系結構的一個層次轉移到另一個層次
操作型窗口
在操作環(huán)境中的檔案數(shù)據(jù)的時間范圍稱為數(shù)據(jù)的操作型窗口
操作型分析型數(shù)據(jù)量小數(shù)據(jù)量大數(shù)據(jù)訪問頻繁數(shù)據(jù)訪問較不頻繁訪問數(shù)據(jù)較為新鮮任何數(shù)據(jù)都可能被訪問
操作型窗口長度對DSS分析員非常重要,它決定可分析員在哪里進行不同的分析和能做什么類型的分析
處理錯誤數(shù)據(jù)的方式
找到錯誤數(shù)據(jù),進行更新
干凈徹底數(shù)據(jù)集成被破壞,更新條目所聚合生成的報表失去一致性更新必須在數(shù)據(jù)倉庫環(huán)境進行許多時候不止修正一條,而是很多
加入修正條目
最新數(shù)據(jù)的最好反映可能要修正很多條目,而非一個有時候修正公式非常復雜,以至于根本不可能進行調整
重設數(shù)據(jù)值為正常值,不考慮以前值
方便快捷需要對應用與過程進行約定不能對過去的錯誤進行準確的解釋
柚子快報邀請碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫——環(huán)境
好文推薦
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯(lián)系刪除。