柚子快報邀請碼778899分享:hadoop HDFS架構
柚子快報邀請碼778899分享:hadoop HDFS架構
目錄
一,HDFS簡介
二、HDFS架構
三、HDFS的工作機制
一,HDFS簡介
①HDFS概念:Hadoop Distributed File System,是Hadoop項?的核??項?,是分布式計算中數(shù)據(jù)存儲管理的基礎。?持海量數(shù)據(jù)的存儲,允許?戶將成百上千的計算機組成存儲集群,HDFS 可以運?在低成本的硬件上,提供?吞吐量、?容錯性的數(shù)據(jù)訪問,?常適合?規(guī)模數(shù)據(jù)集上的應?。
②HDFS優(yōu)缺點:
HDFS優(yōu)點:高容錯性(多個副本且副本丟失可快速恢復);處理大數(shù)據(jù);高擴展性(動態(tài)擴展集群節(jié)點);低成本運行;
HDFS缺點:不適合低延時的數(shù)據(jù)訪問;不適合存儲大量小文件;不支持并發(fā)寫入(也就是一次只能運行一個進程);支持文件追加不支持文件隨機修改;
二、HDFS架構
?
①NN(NameNode)是HDFS的管理者,負責管理和維護 HDFS 的命名空間,配置副本策略(根據(jù)機架感知與副本冗余存儲策略選擇節(jié)點。?個文件分割為若干個數(shù)據(jù)塊,這些數(shù)據(jù)塊并不?定存儲在相同的數(shù)據(jù)節(jié)點上),管理數(shù)據(jù)塊映射信息,處理客戶端讀寫請求。
②DataNode:NN下達命令,DN(DataNode)執(zhí)行實際的操作:DN存儲實際的數(shù)據(jù)塊(block),數(shù)據(jù)塊副本默認為 3,數(shù)據(jù)塊的??默認為 128 M,執(zhí)?數(shù)據(jù)塊的讀/寫操作。
③2NN(secondary NameNode):并?NN的熱備,當NN掛掉的時候,并不能馬上替換NN并提供服務,2NN是輔助NN,分擔其工作量,比如定期合并fsimage和edits,并推送給NN 。
④Client:就是客戶端。文件上傳給HDFS時進行文件切分,與NN交互,獲取?件的位置信息。
與 DN交互,讀取或者寫入數(shù)據(jù)。Client 提供?些命令來管理 HDFS。也可以通過?些命令來訪問 HDFS。
三、HDFS的工作機制
了解每部分的工作機制之前,我們要知道的是,fsimage是命名空間鏡像?件。edits是操作?志?件。元數(shù)據(jù)是存放在內存中的,但是如果元數(shù)據(jù)只存在在內存中的話,一旦斷電數(shù)據(jù)就全部會消失,所以提出了fsimage文件,該文件在磁盤中備份元數(shù)據(jù),但是當數(shù)據(jù)在內存中更新之后,又跑到fsimage里面更新數(shù)據(jù)就會非常麻煩,效率也很低,所以又拿出一個文件edits,用這個文件存儲更新后的數(shù)據(jù),然后引入2NN,讓2NN對兩個文件進行合并,實現(xiàn)元數(shù)據(jù)更新的效果,看到這里NN與2NN的關系和工作機制就已經(jīng)很明了了。
?
①NN,2NN工作機制:NN管理維護fsimage和edits,首先NN啟動,創(chuàng)建fsimage和edits,如果已經(jīng)創(chuàng)建好了就直接加載到內存,client對文件進行增刪改操作,NN記錄日志并且更改內存中的數(shù)據(jù)。引??個新的節(jié)點2NN,專門用于fsimage和edits的合并,2NN詢問是否需要checkpoint,然后請求checkpoint,NN滾動正在寫的日志文件并將日志文件拷貝到2NN,2NN把日志和鏡像在內存中合并,生成新的鏡像文件,并拷貝到NN,NN再把這個文件重新命名為fsimage。
?
??DN的工作機制:DN啟動后向NN注冊,注冊成功后,每六個小時上報所有塊信息,心跳三秒一次,每次心跳帶有NN的操作命令,超過10min+30s沒有收到心跳就認為該節(jié)點不可用。
柚子快報邀請碼778899分享:hadoop HDFS架構
好文推薦
本文內容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯(lián)系刪除。