柚子快報激活碼778899分享:大數據 數據倉庫 基礎教程
柚子快報激活碼778899分享:大數據 數據倉庫 基礎教程
數據倉庫 基礎教程
1. 數據倉庫概述
數據倉庫(Data Warehouse,簡稱DW或者DWH)是通過集成來自多個異構數據源的數據來構建的。它支持分析報告、結構化和/或特別查詢和決策制定。本教程采用循序漸進的方法來解釋數據倉庫的所有必要概念。
“數據倉庫”一詞最早是由Bill Inmon在1990年提出的。根據Inmon的說法,數據倉庫是面向主題的、集成的、時變的、非易失性的數據集合。這些數據有助于分析人員在組織中做出明智的決策。
由于事務的發(fā)生,操作數據庫每天都要經歷頻繁的變化。假設業(yè)務主管想要分析任何數據(如產品、供應商或任何消費者數據)的先前反饋,那么該主管將沒有可用的數據來分析,因為先前的數據已經由于事務的變化而更新。
數據倉庫在多維視圖中為我們提供一般化和整合的數據。除了一般化和統(tǒng)一的數據視圖外,數據倉庫還為我們提供了在線分析處理(OLAP)工具。這些工具幫助我們在多維空間中進行交互式和有效的數據分析。這種分析的結果是數據泛化和數據挖掘。
將關聯、聚類、分類、預測等數據挖掘功能與OLAP操作集成在一起,增強了多層次抽象知識的交互式挖掘。這就是為什么數據倉庫現在已經成為數據分析和在線分析處理的重要平臺。
理解數據倉庫
數據倉庫是一個數據庫,它與組織的操作數據庫分開。數據倉庫中不需要進行頻繁的更新。它擁有統(tǒng)一的歷史數據,這有助于組織分析其業(yè)務。數據倉庫幫助管理人員組織、理解和使用他們的數據來制定戰(zhàn)略決策。數據倉庫系統(tǒng)有助于集成各種不同的應用系統(tǒng)。數據倉庫系統(tǒng)有助于合并歷史數據分析。
為什么要將數據倉庫與操作數據庫分開?
數據倉庫與操作數據庫需要分開的原因如下:
操作數據庫是為眾所周知的任務和工作負載構建的,例如搜索特定記錄、索引等。相較而言,數據倉庫查詢通常很復雜,它們呈現的是一種通用的數據形式。操作型數據庫支持并發(fā)處理多個事務。操作數據庫需要并發(fā)控制和恢復機制,以確保數據庫的健壯性和一致性。操作數據庫查詢允許讀取和修改操作,而OLAP查詢只需要對存儲的數據進行只讀訪問。操作數據庫維護當前數據,而數據倉庫維護歷史數據。
數據倉庫的特點
數據倉庫的主要特性如下所述:
面向主題—數據倉庫是面向主題的,因為它提供圍繞主題的信息,而不是組織正在進行的操作。這些主題可以是產品、客戶、供應商、銷售、收入等。數據倉庫并不關注正在進行的操作,而是關注用于決策制定的數據建模和分析。
集成式:通過集成關系數據庫、平面文件等異構數據源的數據來構建數據倉庫。這種集成增強了對數據的有效分析。
時變性?數據倉庫中收集的數據以特定的時間段標識。數據倉庫中的數據從歷史角度提供信息。
非易失性?非易失性是指添加新數據時不擦除原有數據。數據倉庫與操作數據庫保持分離,因此操作數據庫的頻繁更改不會影響數據倉庫。
數據倉庫不需要事務處理、恢復和并發(fā)控制,因為它是物理存儲的,與操作數據庫是分開的。
數據倉庫的應用
如前所述,數據倉庫幫助業(yè)務主管去組織、分析和使用他們的數據進行決策。數據倉庫是企業(yè)管理 計劃-執(zhí)行-評估“閉環(huán)”反饋系統(tǒng)的唯一組成部分。數據倉庫廣泛應用于以下領域:?
金融服務
銀行服務
消費品服務
零售部門
控制生產
數據倉庫的類型
信息處理、分析處理和數據挖掘是下面討論的三種類型的數據倉庫應用
信息處理?數據倉庫可以對存儲在其中的數據進行處理。數據可以通過查詢、基本統(tǒng)計分析、使用交叉表、表格、圖表或圖形進行報告來處理。
分析處理?數據倉庫支持對存儲在其中的信息進行分析處理。可以通過基本的OLAP操作來分析數據,包括切片分析、向下鉆取(drill down)、向上鉆?。╠rill up,)和旋轉(pivoting)。
數據挖掘?數據挖掘通過發(fā)現隱藏的模式和關聯、構建分析模型、執(zhí)行分類和預測來支持知識發(fā)現。這些挖掘結果可以通過可視化工具呈現出來。
OLAP VS OLTP
Sr.No.Data Warehouse (OLAP)Operational Database(OLTP)1它涉及信息的歷史處理。它涉及到日常的處理。2OLAP系統(tǒng)由知識工作者(如執(zhí)行人員、經理和分析師)使用。OLTP系統(tǒng)由文員、dba或數據庫專業(yè)人員使用。3它被用來分析業(yè)務。它是用來經營業(yè)務的4它關注的是信息輸出。它關注的是數據輸入。5它基于星型模式、雪花模式和事實星座模式。它基于實體關系模型。6它關注的是信息輸出。它是面向應用的。7它包含歷史數據。它包含當前數據。8它提供了匯總和合并的數據。它提供了原始的和非常詳細的數據。9它提供了數據的匯總和多維視圖。它提供了詳細而扁平的數據關系視圖。10用戶數量數以百計。用戶數量以千為單位。11訪問的記錄數以百萬計。訪問的記錄數以10計。12數據庫大小從100GB到100tb。數據庫大小為100mb ~ 100gb。13這些都是高度靈活的。它提供了高性能。
柚子快報激活碼778899分享:大數據 數據倉庫 基礎教程
推薦文章
本文內容根據網絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯系刪除。