欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)邀請碼778899分享:數(shù)據(jù)倉庫及應(yīng)用(hive基礎(chǔ))

柚子快報(bào)邀請碼778899分享:數(shù)據(jù)倉庫及應(yīng)用(hive基礎(chǔ))

http://yzkb.51969.com/

一、hive產(chǎn)生背景

傳統(tǒng)Hadoop架構(gòu)存在的一些問題 ????????MapReduce編程必須掌握J(rèn)ava,門檻較高 ????????傳統(tǒng)數(shù)據(jù)庫開發(fā)、DBA、運(yùn)維人員學(xué)習(xí)門檻高 ????????HDFS上沒有Schema的概念,僅僅是一個(gè)純文本文件

Hive的產(chǎn)生 ????????為了讓用戶從一個(gè)現(xiàn)有數(shù)據(jù)基礎(chǔ)架構(gòu)轉(zhuǎn)移到Hadoop上 ????????現(xiàn)有數(shù)據(jù)基礎(chǔ)架構(gòu)大多基于關(guān)系型數(shù)據(jù)庫和SQL查詢 ????????Facebook誕生了Hive

二、hive是什么

它是基于Hadoop的數(shù)據(jù)倉庫工具 ????????方便的將結(jié)構(gòu)化數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表 ????????提供SQL查詢功能,SQL語句底層轉(zhuǎn)換為MR作業(yè)執(zhí)行 ????????Hive提供了一系列功能可以方便進(jìn)行數(shù)據(jù)ETLHive目前是Apache基金會的頂級項(xiàng)目 ????????Hive作為數(shù)據(jù)倉庫工具,非常適合數(shù)據(jù)倉庫聯(lián)機(jī)分析處理(OLAP)對于ETL的解釋 ????????ETL是指“Extract, Transform, Load”的縮寫,是數(shù)據(jù)倉庫中常見的一種數(shù)據(jù)處理過程。在ETL過程中,數(shù)據(jù)從一個(gè)或多個(gè)來源(Extract)抽取出來,經(jīng)過清洗、轉(zhuǎn)換和整合等處理(Transform),最終加載(Load)到目標(biāo)數(shù)據(jù)庫或數(shù)據(jù)倉庫中。 具體來說,ETL過程通常包括以下幾個(gè)步驟: 1. Extract(抽?。簭囊粋€(gè)或多個(gè)數(shù)據(jù)源中抽取數(shù)據(jù)。這些數(shù)據(jù)源可以是數(shù)據(jù)庫、文件、API接口等。在這個(gè)階段,數(shù)據(jù)會被提取出來,準(zhǔn)備進(jìn)行后續(xù)的處理。 2. Transform(轉(zhuǎn)換):在數(shù)據(jù)抽取之后,數(shù)據(jù)會經(jīng)過各種轉(zhuǎn)換操作,以滿足目標(biāo)系統(tǒng)的需求。轉(zhuǎn)換可能包括數(shù)據(jù)清洗、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)合并、數(shù)據(jù)計(jì)算等操作。目的是將原始數(shù)據(jù)轉(zhuǎn)換為目標(biāo)數(shù)據(jù)模型的格式。 3. Load(加載):經(jīng)過轉(zhuǎn)換處理后的數(shù)據(jù)會被加載到目標(biāo)數(shù)據(jù)庫或數(shù)據(jù)倉庫中。這個(gè)過程包括將數(shù)據(jù)寫入目標(biāo)系統(tǒng)的表格或數(shù)據(jù)結(jié)構(gòu)中,以供后續(xù)分析和查詢使用。ETL過程在數(shù)據(jù)倉庫和商業(yè)智能系統(tǒng)中起著至關(guān)重要的作用,幫助組織將分散的、雜亂的數(shù)據(jù)整合、清洗并轉(zhuǎn)化為有用的信息。通過ETL過程,組織可以實(shí)現(xiàn)數(shù)據(jù)的一致性、準(zhǔn)確性和可靠性,從而支持?jǐn)?shù)據(jù)分析、報(bào)告和決策制定等業(yè)務(wù)需求。

三、hive在Hadoop生態(tài)系統(tǒng)中的位置

在Hadoop生態(tài)系統(tǒng)中,Hive是一種數(shù)據(jù)倉庫工具,它提供了類似于SQL的查詢語言(HiveQL)來查詢和分析存儲在Hadoop集群中的大規(guī)模數(shù)據(jù)。Hive通常被用作數(shù)據(jù)倉庫,用于結(jié)構(gòu)化數(shù)據(jù)的存儲和查詢。

Hive的位置可以理解為在Hadoop生態(tài)系統(tǒng)中處于數(shù)據(jù)處理和查詢層的位置。在Hadoop生態(tài)系統(tǒng)中,Hive通常與以下組件和工具一起使用:

1. Hadoop Distributed File System (HDFS):HDFS是Hadoop的分布式文件系統(tǒng),用于存儲大規(guī)模數(shù)據(jù)。Hive通常可以直接查詢和分析存儲在HDFS上的數(shù)據(jù)。

2. MapReduce:MapReduce是Hadoop的一種計(jì)算框架,用于處理大規(guī)模數(shù)據(jù)的并行計(jì)算。Hive可以通過MapReduce來執(zhí)行查詢和數(shù)據(jù)處理操作。

3. YARN:YARN是Hadoop的資源管理器,用于集群資源的管理和作業(yè)調(diào)度。Hive作業(yè)可以由YARN進(jìn)行資源分配和調(diào)度。

4. Hive Metastore:Hive Metastore是Hive的元數(shù)據(jù)存儲,用于存儲表結(jié)構(gòu)、分區(qū)信息等元數(shù)據(jù)。通常,Hive Metastore會使用關(guān)系數(shù)據(jù)庫(如MySQL)來存儲元數(shù)據(jù)信息。

總的來說,Hive在Hadoop生態(tài)系統(tǒng)中的位置是作為一個(gè)用于數(shù)據(jù)倉庫、數(shù)據(jù)查詢和分析的工具,它通過HiveQL語言將SQL查詢轉(zhuǎn)換為MapReduce任務(wù)或Tez任務(wù),從而實(shí)現(xiàn)對Hadoop集群中大規(guī)模數(shù)據(jù)的查詢和分析。

四、Hive與傳統(tǒng)關(guān)系型數(shù)據(jù)庫的異同

HIVERDBMS查詢語言HQLSQL數(shù)據(jù)存儲HDFS塊設(shè)備、本地文件系統(tǒng)執(zhí)行MapReduceExecutor執(zhí)行延遲高低處理數(shù)據(jù)規(guī)模大小事務(wù)0.14版本后加入支持索引 0.8版本后加入 有復(fù)制的索引數(shù)據(jù)更新不支持支持

五、Hive的特點(diǎn)及優(yōu)勢

Hive支持運(yùn)行在不同的計(jì)算框架上:MapReduce、Tez、Spark、Flink等。

Hive與SQL有著相似的語法,大大提高開發(fā)效率

Hive支持HDFS與HBase上的ad-hoc(點(diǎn)對點(diǎn)模式)

Hive支持用戶自定義函數(shù)、腳本等

Hive設(shè)計(jì)特點(diǎn):

Hive不支持對數(shù)據(jù)的改寫和添加,所有數(shù)據(jù)都是在加載的時(shí)候確定的支持索引,加快數(shù)據(jù)查詢不同的存儲類型,例如:文本文件、序列化文件將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫中,減少了在查詢中執(zhí)行語義檢查時(shí)間可以直接使用存儲在Hadoop文件系統(tǒng)中的數(shù)據(jù)類SQL的查詢方式,將SQL查詢轉(zhuǎn)換為MapReduce的job在Hadoop集群上執(zhí)行編碼跟Hadoop同樣使用UTF-8字符集

在生產(chǎn)環(huán)境中,Hive有如下優(yōu)勢

可擴(kuò)展,Hive可以自由擴(kuò)展集群規(guī)模,拓展功能方便延展性,Hive支持自定義函數(shù),用戶可根據(jù)需求自定義容錯(cuò)性,良好的容錯(cuò)性

解決了傳統(tǒng)關(guān)系數(shù)據(jù)庫在大數(shù)據(jù)處理上的瓶頸;適合大數(shù)據(jù)的批量處理。 充分利用集群的CPU計(jì)算資源、存儲資源,實(shí)現(xiàn)并行計(jì)算。 Hive支持標(biāo)準(zhǔn)SQL語法,免去了編寫MR程序的過程,減少了并發(fā)成本。?

六、Hive的框架設(shè)計(jì)?

Hive的架構(gòu)設(shè)計(jì)包括三個(gè)部分:

Hive Client

? ? ? ? Hive客戶發(fā),可通過Java、Python等語言連接Hive并進(jìn)行與RDBMS類似的SQL查詢操作

Hive Service

? ? ? ? Hive服務(wù)端,客戶端必須通過服務(wù)端與Hive交互,主要包括CLI、HiveServer、HiveWebInterface等組件

Hive Storage and Computing

? ? ? ? 包含Hive的數(shù)據(jù)存儲與計(jì)算的內(nèi)容,Hive元數(shù)據(jù)存儲在RDBMS中,數(shù)據(jù)存儲在HDFS中,計(jì)算由MR完成

Hive框架圖:

Hive架構(gòu)主要包括: CLI、HiveServer2、HWI、Driver、Metastore Hive數(shù)據(jù)存儲模型與RDBMS類似,分區(qū)和分桶是Hive為提升查詢性能而特有的概念 Hive元數(shù)據(jù)釋對真實(shí)數(shù)據(jù)的描述,通常單獨(dú)存儲在MYSQL中 Hive除了兩種命令行開發(fā)工具(CLI和Beeline)之外還有許多第三方工具(HUE、Ambari、zeppelin)?

Hive的工作流程圖:

七、Hive的適用場景

Hive的劣勢 ? ? ? ? Hive的HQL表達(dá)能力有限:有些復(fù)雜運(yùn)算用HQL不易表達(dá);效率低:Hive自動生成MR作業(yè),通常不夠智能。

業(yè)務(wù)場景

適用于非結(jié)構(gòu)化數(shù)據(jù)的離線分析統(tǒng)計(jì)Hive的優(yōu)勢在于處理大數(shù)據(jù),對處理小數(shù)據(jù)沒有優(yōu)勢

不適用場景

復(fù)雜的機(jī)器學(xué)習(xí)算法復(fù)雜的科學(xué)計(jì)算聯(lián)機(jī)交互式實(shí)時(shí)查詢?

場景技術(shù)特點(diǎn)

為超大數(shù)據(jù)集設(shè)計(jì)的計(jì)算、擴(kuò)展能力支持SQL like查詢語言多表的join操作支持非結(jié)構(gòu)化數(shù)據(jù)的查詢、計(jì)算提供對數(shù)據(jù)存取的編程接口,支持JDBC、ODBC

八、Hive 的存儲格式

Hive中的數(shù)據(jù) ? ? ? ? 有真實(shí)數(shù)據(jù)與元數(shù)據(jù)之分,元數(shù)據(jù)是表示真實(shí)數(shù)據(jù)與Hive表的映射關(guān)系 Hive真實(shí)數(shù)據(jù)的存儲格式

TEXTFILE,文本文件格式SEQUENCEFILE,二進(jìn)制序列化過的文本存儲文件格式RCFILE,面向列的數(shù)據(jù)存儲格式ORCFILE,對RCFILE的優(yōu)化格式

存儲模型 Hive數(shù)據(jù)在HDFS的典型存儲結(jié)構(gòu)表現(xiàn)

?/數(shù)據(jù)倉庫地址/數(shù)據(jù)庫名/表名/數(shù)據(jù)文件(或分桶文件) /數(shù)據(jù)倉庫地址/數(shù)據(jù)庫名/表名/分區(qū)鍵/數(shù)據(jù)文件(或分桶文件)?

Hive數(shù)據(jù)存儲模型圖:

九、Hive數(shù)據(jù)單元介紹

Database:數(shù)據(jù)庫,在HDFS中為hive.metastore.warehouse.dir目錄下的一個(gè)文件夾。 Tables:表,表由列構(gòu)成,在表上可以進(jìn)行過濾、映射、連接和聯(lián)合操作,在HDFS中為數(shù)據(jù)庫目錄下的子目錄。 Hive表分為內(nèi)部表和外部表:內(nèi)部表類似于RDBMS中的表,由Hive管理 外部表指向已經(jīng)存在HDFS中的數(shù)據(jù),外部表的真實(shí)數(shù)據(jù)不被Hive管理。

Partitions 分區(qū),每個(gè)表都可以按指定的鍵分為多個(gè)分區(qū),作用是為了提高查詢的效率,在HDFS中是表目錄的子目錄。

Buckets 分桶,根據(jù)表中某一列的哈希值將數(shù)據(jù)分為多個(gè)桶,在HDFS最終為同一目錄下根據(jù)哈希散列后的多個(gè)文件。

柚子快報(bào)邀請碼778899分享:數(shù)據(jù)倉庫及應(yīng)用(hive基礎(chǔ))

http://yzkb.51969.com/

推薦文章

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18991435.html

發(fā)布評論

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄