柚子快報(bào)激活碼778899分享:黑馬大數(shù)據(jù)實(shí)訓(xùn)——三
柚子快報(bào)激活碼778899分享:黑馬大數(shù)據(jù)實(shí)訓(xùn)——三
一、Hive簡(jiǎn)介
Apache Hive是一款分布式SQL計(jì)算的工具, 其主要功能是:
?
將
SQL語(yǔ)句 翻譯成MapReduce程序
運(yùn)行
使用Hive處理數(shù)據(jù)的好處
?
操作接口采用
類SQL語(yǔ)法
,提供快速開發(fā)的能力(
簡(jiǎn)單、容易上手
)
?
底層執(zhí)行MapReduce,
可以完成分布式海量數(shù)據(jù)的SQL處理
二、Hive架構(gòu)
Hive架構(gòu)圖
Hive的核心架構(gòu)
? 元數(shù)據(jù)管理:稱之為Metastore服務(wù),推薦遠(yuǎn)程模式
元數(shù)據(jù)包含:用Hive創(chuàng)建的database、table、表的字段等元信息。
元數(shù)據(jù)存儲(chǔ):存在關(guān)系型數(shù)據(jù)庫(kù)中,如:hive內(nèi)置的Derby數(shù)據(jù)庫(kù)或者第三方MySQL數(shù)據(jù)庫(kù)等。
? SQL解析器(Driver驅(qū)動(dòng)程序),完成SQL解析、執(zhí)行優(yōu)化、代碼提交等功能
包括語(yǔ)法解析器、計(jì)劃編譯器、優(yōu)化器、執(zhí)行器
作用:
完成 HQL 查詢語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃存儲(chǔ)在 HDFS 中,
并在隨后有 MapReduce 調(diào)用執(zhí)行。
? 用戶接口:提供用戶和Hive交互的功能
包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)為shell命令行;Hive中的Thrift服務(wù)器允
許外部客戶端通過(guò)網(wǎng)絡(luò)與Hive進(jìn)行交互,類似于JDBC或ODBC協(xié)議。WebGUI是通過(guò)瀏覽器訪問(wèn)Hive。
?三、Hive元數(shù)據(jù)存儲(chǔ)的三種模式
(1)內(nèi)嵌模式
優(yōu)點(diǎn)
: 解壓hive安裝包 bin/hive 啟動(dòng)即可使用
缺點(diǎn)
: 不適用于生產(chǎn)環(huán)境,derby和Metastore服務(wù)都嵌入在主Hive Server進(jìn)程中,一個(gè)服務(wù)只能被一個(gè)客戶端連接(如果用兩 個(gè)客戶端以上就非常浪費(fèi)資源),且元數(shù)據(jù)不能共享
(2)本地模式
優(yōu)點(diǎn)
: 可以單獨(dú)使用外部的數(shù)據(jù)庫(kù)(mysql),元數(shù)據(jù)共享
缺點(diǎn)
: 相對(duì)浪費(fèi)資源,metastore嵌入到了hive進(jìn)程中,每啟動(dòng)一次hive服務(wù),都內(nèi)置啟動(dòng)了一個(gè)metastore。
(3)遠(yuǎn)程模式
優(yōu)點(diǎn)
: 可以單獨(dú)使用外部庫(kù)(mysql) 可以共享元數(shù)據(jù) 可以連接metastore服務(wù)也可以連接hiveserver2服務(wù) metastore可以單獨(dú)啟動(dòng),配置 其他依賴hive的軟件都可以通過(guò)Metastore訪問(wèn)hive
缺點(diǎn)
: 需要注意的是如果想要啟動(dòng)hiveserver2服務(wù)
需要
先啟動(dòng)metastore服務(wù)
Hive元數(shù)據(jù)存儲(chǔ)三種模式的區(qū)別
?
四、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)
(1)操作型處理(數(shù)據(jù)庫(kù)),又稱聯(lián)機(jī)事務(wù)處理(OLTP,On-Line Transaction Processing)
操作型處理(OLTP)是指針對(duì)具體業(yè)務(wù)的數(shù)據(jù)庫(kù)聯(lián)機(jī)日常操作,包括數(shù)據(jù)的增刪改查等操作。在操作型處理中,用戶通常關(guān)心操作的響應(yīng)時(shí)間、數(shù)據(jù)的安全性、完整性以及并發(fā)支持的用戶數(shù)等問(wèn)題。傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)作為數(shù)據(jù)管理的主要手段,主要用于操作型處理。
(2)分析型處理(數(shù)據(jù)倉(cāng)庫(kù))聯(lián)機(jī)分析處理(OLAP,On-Line Analytical Processing)
面向?qū)I(yè)分析人員進(jìn)行數(shù)據(jù)分析的過(guò)程。在分析型處理中,通常涉及查詢和分析操作,針對(duì)某些主題的歷史數(shù)據(jù)進(jìn)行深入分析,以支持管理決策。分析型處理強(qiáng)調(diào)對(duì)數(shù)據(jù)的深度挖掘和分析,以幫助組織做出更具有戰(zhàn)略性的決策。
主要特征
:
面向主題的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和時(shí)變的(Time-Variant )
?數(shù)據(jù)倉(cāng)庫(kù)的分層架構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)可分為三層:
源數(shù)據(jù)層(ODS)
此層數(shù)據(jù)無(wú)任何更改,直接沿用外圍系統(tǒng)數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù), 不對(duì)外開放;為臨時(shí)存儲(chǔ)層,是接口數(shù)據(jù)的臨時(shí)存儲(chǔ)區(qū)域,為后一步的數(shù)據(jù)處理做 準(zhǔn)備
數(shù)據(jù)倉(cāng)庫(kù)層(DW)
也稱為細(xì)節(jié)層,
DW
層的數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù),即對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。
數(shù)據(jù)應(yīng)用層(DA或APP)
前端應(yīng)用直接讀取的數(shù)據(jù)源;根據(jù)報(bào)表、專題分析 需求而計(jì)算生成的數(shù)據(jù)。
?
柚子快報(bào)激活碼778899分享:黑馬大數(shù)據(jù)實(shí)訓(xùn)——三
文章來(lái)源
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。