柚子快報(bào)激活碼778899分享：Hadoop云上大數(shù)據(jù)技術(shù)

Officeworks辦公出海綜合2025-05-05490

http://yzkb.51969.com/

一、大數(shù)據(jù)的特征

??? 大數(shù)據(jù)主要具有四個(gè)方面的特征，通常指的4V，即大量(Volume)、多樣(Variety)、高速(Velocity)和價(jià)值(Value)。

（1）數(shù)據(jù)量大(Volume) 非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長，導(dǎo)致數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大，數(shù)據(jù)單位已從GB到TB再到PB級(jí)，甚至開始以EB和ZB來計(jì)數(shù)。

（2）類型繁多(Variety) 大數(shù)據(jù)的類型不僅包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等結(jié)構(gòu)化數(shù)據(jù)，還包括半結(jié)構(gòu)化數(shù)據(jù)甚至是非結(jié)構(gòu)化數(shù)據(jù)，具有異構(gòu)性和多樣性的特點(diǎn)。

（3）價(jià)值密度低(Value) 大數(shù)據(jù)本身存在較大的潛在價(jià)值，但由于大數(shù)據(jù)的數(shù)據(jù)量過大，其價(jià)值往往呈現(xiàn)稀疏性的特點(diǎn)。雖然單位數(shù)據(jù)的價(jià)值密度在不斷降低，但是數(shù)據(jù)的整體價(jià)值在提高。

（4）速度快時(shí)效高(Velocity) 要求大數(shù)據(jù)的處理速度快，時(shí)效性高，需要實(shí)時(shí)分析而非批量式分析，數(shù)據(jù)的輸入、處理和分析連貫性地處理。

二、結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)

?? （1）結(jié)構(gòu)化數(shù)據(jù)：即行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)類型是一種用戶定義的數(shù)據(jù)類型，它包含一些非原子的元素，更確切地說，這些數(shù)據(jù)類型是可以分割的，它們既可以單獨(dú)使用，又可以在適當(dāng)情況下作為一個(gè)獨(dú)立的單元使用。結(jié)構(gòu)化數(shù)據(jù)類型是一種用戶定義的數(shù)據(jù)類型，它包含了一系列的屬性，每一個(gè)屬性都有一個(gè)數(shù)據(jù)類型。屬性是專門用來幫助描述類型實(shí)例的特性。

例如：????? ?id????? name?????????????? age????????? gender

?????? ?????????????1????? Liu Yi??????????????? 20? ? ? ? ? ? ?male

?????? ?????????????2????? Chen Er???????????35??????? ???female

?????? ?????????????3????? Zhang San???????28?????????? male

?? （2）非結(jié)構(gòu)化數(shù)據(jù)：不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)，包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻視頻信息等等。非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變，并且每個(gè)字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫，用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)（如數(shù)字、符號(hào)等信息）而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)（全文文本、圖象、聲音、影視、超媒體等信息）。

三、Hadoop生態(tài)圈

? ??Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序。是目前應(yīng)用最為廣泛的分布式大數(shù)據(jù)處理框架，其具備可靠、高效、可伸縮等特點(diǎn)。

??? Hadoop的核心組件是HDFS、MapReduce。隨著處理任務(wù)不同，各種組件相繼出現(xiàn)，豐富Hadoop生態(tài)圈。根據(jù)服務(wù)對象和層次分為：數(shù)據(jù)來源層、數(shù)據(jù)傳輸層、數(shù)據(jù)存儲(chǔ)層、資源管理層、數(shù)據(jù)計(jì)算層、任務(wù)調(diào)度層、業(yè)務(wù)模型層。

四、Hadoop hdfs 架構(gòu)

（1）HDFS（Hadoop Distributed File System），它是一個(gè)文件系統(tǒng)；HDFS的使用場景：適合一次寫入，多次讀出的場景。

（2）組成架構(gòu)：

?? NameNode（nn）：

?????? 1）管理HDFS的名稱空間;

?????? 2）配置副本策略;

?????? 3）管理數(shù)據(jù)塊(Block) 映射信息;

?????? 4）處理客戶端讀寫請求。

?? DataNode：就是Slave，NameNode下達(dá)命令，DataNode執(zhí)行實(shí)際操作。

?????? 1）存儲(chǔ)實(shí)際的數(shù)據(jù)塊

?????? 2）執(zhí)行數(shù)據(jù)塊的讀寫操作

?? Client：就是客戶端。

?????? 1）文件切分。文件上傳HDFS的時(shí)候， Client將文件切分成一個(gè)個(gè)的Block，然后進(jìn)行上傳

?????? 2）與NameNode交互，獲取文件的位置信息

?????? 3）與DataNode交互，讀取或者寫入數(shù)據(jù)

?????? 4）Client提供一些命令來管理HDFS,比如NameNode格式化

?????? 5）Client可以通過一些命令來訪問HDFS,比如對HDFS增刪查改操作

?? Secondany NameNode：并非NameNode的熱備。當(dāng)NameNode掛掉的時(shí)候，它并不能馬上替換NameNode并提供服務(wù)。

?????? 1）輔助NameNode,分擔(dān)其工作量，比如定期臺(tái)并fsimage和edits,并推送給NameNode ;

?????? 2）在緊急情況下，可輔助恢復(fù)NameNode。

（3）HDFS特性

?????? 1）能夠保存PB級(jí)的數(shù)據(jù)量，將數(shù)據(jù)散布在大量的計(jì)算機(jī)（節(jié)點(diǎn)）上，支持更大的文件。

?????? 2）使用數(shù)據(jù)備份的方法解決文件存儲(chǔ)的可靠性，如果集群中單個(gè)節(jié)點(diǎn)故障則啟用備份。

?????? 3）很好的與Map-Reduce集成，為減小計(jì)算時(shí)的數(shù)據(jù)交互，HDFS允許數(shù)據(jù)在本地計(jì)算。

（4） HDFS局限性

?????? 1）針對高速流式讀取進(jìn)行優(yōu)化，查詢性能低下（可利用Hive查詢）

?????? 2）一次寫入多次讀取，不支持并發(fā)寫入，并發(fā)讀取性能很高

?????? 3）不支持文件修改

?????? 4）不支持緩存，每次讀取文件須從硬盤上重新讀取，當(dāng)然對于大文件順序讀取性能影響不大

?????? 5）不適合存儲(chǔ)小文件

五、hdfs 讀流程

（1）HDFS Client 調(diào)用Filesystem.open(filePath)方法，與NN進(jìn)行RPC通信

（2）NN對文件進(jìn)行權(quán)限檢查（存在？權(quán)限？）然后根據(jù)就近返回相應(yīng)的block列表給Client

（3）Client與相應(yīng)的每個(gè)block主機(jī)建立PipeLine（并行）

（4）client調(diào)用FSDataInputStream.read方法同樣以package為單位進(jìn)行讀取，讀取完后進(jìn)行檢查

（5）將讀取的不同block進(jìn)行合并

（6）client調(diào)用FSDataInputStream的close方法關(guān)閉數(shù)據(jù)流

柚子快報(bào)激活碼778899分享：Hadoop云上大數(shù)據(jù)技術(shù)

http://yzkb.51969.com/

精彩鏈接

評論可見，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/19541502.html

發(fā)布評論

取消回復(fù)

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

金鑰匙跨境

掃描二維碼手機(jī)訪問

文章目錄

欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

柚子快報(bào)激活碼778899分享：Hadoop云上大數(shù)據(jù)技術(shù)

隨便看看

特朗普要求美國最高法院暫停執(zhí)行TikTok強(qiáng)制出售令

最新留言

您暫未設(shè)置收款碼