柚子快報(bào)激活碼778899分享:Hadoop云上大數(shù)據(jù)技術(shù)
柚子快報(bào)激活碼778899分享:Hadoop云上大數(shù)據(jù)技術(shù)
一、大數(shù)據(jù)的特征
??? 大數(shù)據(jù)主要具有四個(gè)方面的特征,通常指的4V,即大量(Volume)、多樣(Variety)、高速(Velocity)和價(jià)值(Value)。
(1)數(shù)據(jù)量大(Volume) 非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長,導(dǎo)致數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,數(shù)據(jù)單位已從GB到TB再到PB級(jí),甚至開始以EB和ZB來計(jì)數(shù)。
(2)類型繁多(Variety) 大數(shù)據(jù)的類型不僅包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等結(jié)構(gòu)化數(shù)據(jù),還包括半結(jié)構(gòu)化數(shù)據(jù)甚至是非結(jié)構(gòu)化數(shù)據(jù),具有異構(gòu)性和多樣性的特點(diǎn)。
(3)價(jià)值密度低(Value) 大數(shù)據(jù)本身存在較大的潛在價(jià)值,但由于大數(shù)據(jù)的數(shù)據(jù)量過大,其價(jià)值往往呈現(xiàn)稀疏性的特點(diǎn)。雖然單位數(shù)據(jù)的價(jià)值密度在不斷降低,但是數(shù)據(jù)的整體價(jià)值在提高。
(4)速度快時(shí)效高(Velocity) 要求大數(shù)據(jù)的處理速度快,時(shí)效性高,需要實(shí)時(shí)分析而非批量式分析,數(shù)據(jù)的輸入、處理和分析連貫性地處理。
二、結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)
?? (1)結(jié)構(gòu)化數(shù)據(jù):即行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)類型是一種用戶定義的數(shù)據(jù)類型,它包含一些非原子的元素,更確切地說,這些數(shù)據(jù)類型是可以分割的,它們既可以單獨(dú)使用,又可以在適當(dāng)情況下作為一個(gè)獨(dú)立的單元使用。結(jié)構(gòu)化數(shù)據(jù)類型 是一種用戶定義的數(shù)據(jù)類型,它包含了一系列的屬性,每一個(gè)屬性都有一個(gè)數(shù)據(jù)類型。屬性 是專門用來幫助描述類型實(shí)例的特性。
例如:????? ?id????? name?????????????? age????????? gender
?????? ?????????????1????? Liu Yi??????????????? 20? ? ? ? ? ? ?male
?????? ?????????????2????? Chen Er???????????35??????? ???female
?????? ?????????????3????? Zhang San???????28?????????? male
?? (2)非結(jié)構(gòu)化數(shù)據(jù):不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻視頻信息等等。非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變,并且每個(gè)字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫,用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號(hào)等信息)而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(全文文本、圖象、聲音、影視、超媒體等信息)。
三、Hadoop生態(tài)圈
? ??Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。是目前應(yīng)用最為廣泛的分布式大數(shù)據(jù)處理框架,其具備可靠、高效、可伸縮等特點(diǎn)。
??? Hadoop的核心組件是HDFS、MapReduce。隨著處理任務(wù)不同,各種組件相繼出現(xiàn),豐富Hadoop生態(tài)圈。根據(jù)服務(wù)對象和層次分為:數(shù)據(jù)來源層、數(shù)據(jù)傳輸層、數(shù)據(jù)存儲(chǔ)層、資源管理層、數(shù)據(jù)計(jì)算層、任務(wù)調(diào)度層、業(yè)務(wù)模型層。
四、Hadoop hdfs 架構(gòu)
(1)HDFS(Hadoop Distributed File System),它是一個(gè)文件系統(tǒng);HDFS的使用場景:適合一次寫入,多次讀出的場景。
(2)組成架構(gòu):
?? NameNode(nn):
?????? 1)管理HDFS的名稱空間;
?????? 2)配置副本策略;
?????? 3)管理數(shù)據(jù)塊(Block) 映射信息;
?????? 4)處理客戶端讀寫請求。
?? DataNode:就是Slave,NameNode下達(dá)命令,DataNode執(zhí)行實(shí)際操作。
?????? 1)存儲(chǔ)實(shí)際的數(shù)據(jù)塊
?????? 2)執(zhí)行數(shù)據(jù)塊的讀寫操作
?? Client:就是客戶端。
?????? 1)文件切分。文件上傳HDFS的時(shí)候, Client將文件切分成一 個(gè)個(gè)的Block, 然后進(jìn)行上傳
?????? 2)與NameNode交互,獲取文件的位置信息
?????? 3)與DataNode交互,讀取或者寫入數(shù)據(jù)
?????? 4)Client提供一 些命 令來管理HDFS,比如NameNode格式化
?????? 5)Client可以通過一些命令來訪問HDFS,比如對HDFS增刪查改操作
?? Secondany NameNode:并非NameNode的熱備。當(dāng)NameNode掛掉的時(shí)候, 它并不能馬上替換NameNode并提供服務(wù)。
?????? 1)輔助NameNode,分擔(dān)其工作量,比如定期臺(tái)并fsimage和edits,并推送給NameNode ;
?????? 2)在緊急情況下,可輔助恢復(fù)NameNode。
(3)HDFS特性
?????? 1)能夠保存PB級(jí)的數(shù)據(jù)量,將數(shù)據(jù)散布在大量的計(jì)算機(jī)(節(jié)點(diǎn))上,支持更大的文件。
?????? 2)使用數(shù)據(jù)備份的方法解決文件存儲(chǔ)的可靠性,如果集群中單個(gè)節(jié)點(diǎn)故障則啟用備份。
?????? 3)很好的與Map-Reduce集成,為減小計(jì)算時(shí)的數(shù)據(jù)交互,HDFS允許數(shù)據(jù)在本地計(jì)算。
(4) HDFS局限性
?????? 1)針對高速流式讀取進(jìn)行優(yōu)化,查詢性能低下(可利用Hive查詢)
?????? 2)一次寫入多次讀取,不支持并發(fā)寫入,并發(fā)讀取性能很高
?????? 3)不支持文件修改
?????? 4)不支持緩存,每次讀取文件須從硬盤上重新讀取,當(dāng)然對于大文件順序讀取性能影響不大
?????? 5)不適合存儲(chǔ)小文件
五、hdfs 讀流程
(1)HDFS Client 調(diào)用Filesystem.open(filePath)方法,與NN進(jìn)行RPC通信
(2)NN對文件進(jìn)行權(quán)限檢查(存在?權(quán)限?)然后根據(jù)就近返回相應(yīng)的block列表給Client
(3)Client與相應(yīng)的每個(gè)block主機(jī)建立PipeLine(并行)
(4)client調(diào)用FSDataInputStream.read方法同樣以package為單位進(jìn)行讀取,讀取完后進(jìn)行檢查
(5)將讀取的不同block進(jìn)行合并
(6)client調(diào)用FSDataInputStream的close方法關(guān)閉數(shù)據(jù)流
柚子快報(bào)激活碼778899分享:Hadoop云上大數(shù)據(jù)技術(shù)
精彩鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。