欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)激活碼778899分享:HaDoop學(xué)習(xí)1

柚子快報(bào)激活碼778899分享:HaDoop學(xué)習(xí)1

http://yzkb.51969.com/

第一章

讀時(shí)模式(Read-Time Schema)- 寫時(shí)模式(Write-Time Schema)

通常與模式演變(Schema Evolution)相關(guān) 即在數(shù)據(jù)表結(jié)構(gòu)發(fā)生變化時(shí),已經(jīng)存在的數(shù)據(jù)如何適應(yīng)新的模式?

【讀時(shí)模式(Read-Time Schema)】 當(dāng)在讀取數(shù)據(jù)時(shí)應(yīng)用模式變更的邏輯,這被稱為讀時(shí)模式 特別是在分析型數(shù)據(jù)庫(kù)(如Hive)中,這種模式比較常見(jiàn) 當(dāng)查詢執(zhí)行時(shí),如果表結(jié)構(gòu)發(fā)生了變化(例如,有新的列添加到表中) 數(shù)據(jù)庫(kù)會(huì)在讀取數(shù)據(jù)時(shí)動(dòng)態(tài)地調(diào)整數(shù)據(jù)以匹配當(dāng)前的表結(jié)構(gòu)。

這可能涉及到如下處理:

為新添加的列填充默認(rèn)值忽略已經(jīng)刪除的列

讀時(shí)模式下不需要對(duì)存儲(chǔ)的數(shù)據(jù)格式做實(shí)際的更改,這樣可以節(jié)省大量時(shí)間,減少對(duì)存儲(chǔ)數(shù)據(jù)的影響 當(dāng)讀取數(shù)據(jù)時(shí),Hive 會(huì)根據(jù)表的當(dāng)前模式將數(shù)據(jù)文件中的數(shù)據(jù)動(dòng)態(tài)投影(project)為合適的結(jié)構(gòu),即更加靈活化

【寫時(shí)模式(Write-Time Schema)】 在數(shù)據(jù)被寫入存儲(chǔ)系統(tǒng)時(shí)立即應(yīng)用模式變更。 通常涉及到格式化/重寫數(shù)據(jù)以匹配新的模式。

如果向表中添加了一個(gè)新列,新數(shù)據(jù)/存量數(shù)據(jù)都會(huì)包含這個(gè)新列的值(實(shí)際值/默認(rèn)值) 寫時(shí)模式通常意味著數(shù)據(jù)一旦寫入,就立刻按照最新的模式進(jìn)行對(duì)齊 在讀取時(shí)不需要任何進(jìn)一步的模式適配

【個(gè)人理解】 是否對(duì)存量數(shù)據(jù)有變動(dòng)? 讀模式:沒(méi)有 寫模式:有

RDS和數(shù)據(jù)是全對(duì)齊關(guān)系,Hive和數(shù)據(jù)不是對(duì)齊關(guān)系,只是強(qiáng)行將數(shù)據(jù)映射為Hive最新的Schema

第三章

HDFS(Hadoop 分布式文件系統(tǒng))

一般文件系統(tǒng)的塊:1024B,對(duì)應(yīng)的磁盤上一個(gè)塊512B,當(dāng)有文件使用600B時(shí),需要兩個(gè)磁盤塊,且其他文件不能使用這兩個(gè)塊 HDFS的塊:128MB及更大,,當(dāng)有文件使用1MB時(shí),需一個(gè)磁盤塊,其他文件能使用這個(gè)塊

為什么HDFS的block這么大? 最大化尋址開(kāi)銷,比如磁盤尋址10ms,傳輸速度100MB/s,為了使尋址時(shí)間占傳輸時(shí)間的1%,需要將塊設(shè)置到100MB+ 但不能過(guò)大,比如1GB,因?yàn)镸apReduce的map任務(wù)一次只處理一個(gè)塊的數(shù)據(jù),如果集群有多個(gè)節(jié)點(diǎn),只有一個(gè)節(jié)點(diǎn)在處理任務(wù),整個(gè)耗時(shí)就會(huì)上去

HDFS中,一個(gè)文件可能有PB級(jí)別+的數(shù)據(jù),當(dāng)一個(gè)文件被保存到HDFS時(shí),它被切分成一系列的塊 每個(gè)塊通常是128MB,這些塊被分散存儲(chǔ)在集群中的不同數(shù)據(jù)節(jié)點(diǎn)上。 它允許系統(tǒng)跨多個(gè)服務(wù)器以分布式方式存儲(chǔ)大型文件,為了容錯(cuò),每個(gè)塊默認(rèn)被復(fù)制到不同的節(jié)點(diǎn)(通常是三個(gè)副本)

集群有兩類節(jié)點(diǎn): namenode:管理節(jié)點(diǎn) datanode:工作節(jié)點(diǎn)

NameNode不夠用時(shí)怎么辦

水平擴(kuò)展

NameNode的定位是保存文件系統(tǒng)中每個(gè)文件和每個(gè)數(shù)據(jù)塊的引用關(guān)系 聯(lián)邦NameNode 將組織為 NameNode volumn1,NameNode volumn12等 每個(gè)NameNode管理文件系統(tǒng)命名空間的一部分,它對(duì)應(yīng)一個(gè)數(shù)據(jù)塊,存儲(chǔ)該文件目錄下文件和數(shù)據(jù)塊的引用關(guān)系

【聯(lián)邦 HDFS 的主要特點(diǎn)】 多個(gè)獨(dú)立的NameNode 在聯(lián)邦 HDFS 架構(gòu)中,可以運(yùn)行多個(gè)獨(dú)立的 NameNode,每個(gè) NameNode 管理自己的命名空間和文件系統(tǒng)的元數(shù)據(jù)。 這意味著每個(gè) NameNode 負(fù)責(zé)一個(gè)命名空間卷(Namespace Volume)

獨(dú)立命名空間 每個(gè) NameNode 都有自己的命名空間,并且不會(huì)與其他的 NameNode 命名空間重疊 這樣,整個(gè)文件系統(tǒng)的命名空間和系統(tǒng)元數(shù)據(jù)的容量實(shí)際上是多個(gè)命名空間卷的匯總。

共享存儲(chǔ)資源 盡管每個(gè) NameNode 擁有獨(dú)立的命名空間,所有的 NameNode 都共享同一套存儲(chǔ)正文信息的 DataNode 集群 DataNode 配置為“向每個(gè) NameNode 報(bào)告它所存儲(chǔ)的數(shù)據(jù)塊信息”。

【聯(lián)邦 HDFS 的優(yōu)勢(shì)】 擴(kuò)展性: 增加新的 NameNode 可以無(wú)縫擴(kuò)展命名空間,允許更多的文件和目錄的存儲(chǔ)。

隔離性: 由于每個(gè) NameNode 管理不同的命名空間,所以一個(gè)命名空間的故障對(duì)其他命名空間的影響更小。

性能: 運(yùn)行多個(gè) NameNode 實(shí)例可以將客戶端請(qǐng)求的負(fù)載分散到不同的服務(wù)器上,從而提高整體的處理能力。

維護(hù)靈活性: 部分命名空間可以獨(dú)立升級(jí)或進(jìn)行維護(hù),而不會(huì)影響到整個(gè) HDFS。

聯(lián)邦 HDFS 允許大型企業(yè)和組織以更加靈活和可伸縮的方式管理大規(guī)模數(shù)據(jù)集 這種架構(gòu)設(shè)計(jì)通過(guò)引入多個(gè) NameNode 實(shí)例來(lái)滿足不斷擴(kuò)張的存儲(chǔ)需求,并解決了多租戶環(huán)境下的數(shù)據(jù)存儲(chǔ)挑戰(zhàn)。

【為什么不能縱向擴(kuò)展】 HDFS的NameNode雖然是設(shè)計(jì)為可以縱向擴(kuò)展(或稱為垂直擴(kuò)展)的組件,但卻存在一定的限制和瓶頸

內(nèi)存限制: NameNode將整個(gè)文件系統(tǒng)的元數(shù)據(jù)(如目錄結(jié)構(gòu)、文件屬性和文件數(shù)據(jù)塊的位置信息)保存在內(nèi)存中 以便快速訪問(wèn) 隨著集群大小的增長(zhǎng),所需處理的元數(shù)據(jù)數(shù)量也會(huì)增加,這最終會(huì)超出單個(gè)機(jī)器可以處理的內(nèi)存容量 受限于單個(gè)服務(wù)器內(nèi)存的物理上限

單點(diǎn)故障風(fēng)險(xiǎn): 盡管可以通過(guò)增加更多的CPU、內(nèi)存和網(wǎng)絡(luò)資源來(lái)提升單個(gè)NameNode的處理能力,但這并不能避免單點(diǎn)故障的問(wèn)題 如果該NameNode出現(xiàn)故障,整個(gè)HDFS將不可用,造成數(shù)據(jù)無(wú)法訪問(wèn)

處理能力瓶頸: 隨著集群規(guī)模的擴(kuò)大,單個(gè)NameNode需要處理的客戶端請(qǐng)求也會(huì)增多,這可能導(dǎo)致CPU和網(wǎng)絡(luò)I/O資源的瓶頸 因而單純?cè)黾觾?nèi)存無(wú)法解決所有性能問(wèn)題

成本效率問(wèn)題: 縱向擴(kuò)展通常涉及購(gòu)買昂貴的高端服務(wù)器硬件 隨著機(jī)器規(guī)模的增加,成本將大幅上升,且每次投資所帶來(lái)的性能提升效果邊際遞減

HDFS的高可用性方案并不只依賴于NameNode的縱向擴(kuò)展,而是采用了橫向擴(kuò)展(或稱為水平擴(kuò)展)的策略 引入多個(gè)NameNode實(shí)例,使用Active/Standby的架構(gòu)來(lái)提高可靠性 通過(guò)分布式文件存儲(chǔ)和并行計(jì)算彈性應(yīng)對(duì)大規(guī)模數(shù)據(jù)處理的需求 這樣不僅能解決單點(diǎn)故障問(wèn)題,還能通過(guò)增加更多服務(wù)器來(lái)提高處理能力和存儲(chǔ)容量

NameNode存儲(chǔ)元信息的高可用

高可用性架構(gòu)(High Availability, HA)允許客戶端即使在元數(shù)據(jù)服務(wù)器(即NameNode)失效時(shí)也能不間斷訪問(wèn)文件系統(tǒng) 這是通過(guò)運(yùn)行多個(gè)NameNode實(shí)例來(lái)實(shí)現(xiàn) 即使一個(gè)NameNode宕機(jī),其他的NameNode實(shí)例也可以接管其職責(zé),維持HDFS的持續(xù)運(yùn)行

在高可用性配置中,通常有兩個(gè)NameNode: 一個(gè)是活動(dòng)的(Active NameNode),另一個(gè)是待命的(Standby NameNode)

【共享存儲(chǔ)】 Active和Standby NameNodes共享存儲(chǔ)設(shè)施,以存放文件系統(tǒng)的命名空間和塊信息 這通常通過(guò)網(wǎng)絡(luò)文件系統(tǒng)(如NFS)或使用特定的分布式文件系統(tǒng)(如QJM,即Quorum Journal Manager)來(lái)實(shí)現(xiàn) 共享存儲(chǔ)包含對(duì)命名空間改動(dòng)的所有信息,允許Standby NameNode始終擁有最新的狀態(tài)信息

Quorum Journal Manager (QJM) 群體日志管理 QJM是一種特殊的共享存儲(chǔ),它使用多個(gè)(3/5/7)對(duì)等的JournalNode來(lái)保持NameNode狀態(tài)的更新 (如果一個(gè)故障,并不會(huì)影響整個(gè)集群,它不使用ZK) Active NameNode將所有的元數(shù)據(jù)變化同步寫到多個(gè)JournalNode上形成的集群 由于使用了對(duì)等的存儲(chǔ)節(jié)點(diǎn),這可以保證元數(shù)據(jù)信息不會(huì)因單點(diǎn)故障而丟失

【服務(wù)端的自動(dòng)故障轉(zhuǎn)移】 ZooKeeper用于監(jiān)控Active NameNode的狀態(tài) 每個(gè)NameNode運(yùn)行一個(gè)輕量級(jí)的故障轉(zhuǎn)移控制器(failover controller)實(shí)體,通過(guò)心跳監(jiān)視宿主NameNode是否失效 當(dāng)Active NameNode出現(xiàn)問(wèn)題時(shí),ZooKeeper可以自動(dòng)觸發(fā)故障轉(zhuǎn)移過(guò)程,將Standby NameNode提升為新的Active狀態(tài)

網(wǎng)絡(luò)很慢時(shí)導(dǎo)致的故障轉(zhuǎn)移 舊NameNode處理C端的過(guò)時(shí)請(qǐng)求,新NameNode處理C端的新請(qǐng)求 QJM通過(guò)同一時(shí)間僅允許一個(gè)NameNode向編輯日志中寫數(shù)據(jù)+SSH規(guī)避(fencing)命令殺死NameNode NFS無(wú)法做到同一時(shí)間僅允許一個(gè)NameNode向編輯日志中寫數(shù)據(jù),它利用STONITH(shoot the other node in the head)一槍爆頭來(lái)實(shí)現(xiàn)(特供斷電單元,對(duì)主機(jī)斷電)

【服務(wù)端的手動(dòng)故障轉(zhuǎn)移】 graceful failover 用于演練,讓主備有序切換

【客戶端的自動(dòng)故障轉(zhuǎn)移】 客戶端配置文件,HDFS URI 使用一個(gè)邏輯主機(jī)名->一對(duì)NameNode地址,客戶端類訪問(wèn)每一個(gè)地址直到處理完成

【數(shù)據(jù)節(jié)點(diǎn)】 HDFS中的數(shù)據(jù)節(jié)點(diǎn)(DataNode)同時(shí)與Active和Standly NameNodes通信 它們會(huì)向兩個(gè)NameNode發(fā)送心跳和塊報(bào)告 一旦故障轉(zhuǎn)移發(fā)生,DataNodes會(huì)快速識(shí)別新的Active NameNode

整個(gè)配置旨在確保元數(shù)據(jù)的一致性和服務(wù)的連續(xù)性,避免因?yàn)镹ameNode故障導(dǎo)致整個(gè)HDFS服務(wù)的中斷

寫數(shù)據(jù)時(shí)的機(jī)架

“機(jī)架”(Rack)是指將存儲(chǔ)數(shù)據(jù)的物理服務(wù)器(通常稱為DataNode)在數(shù)據(jù)中心中組織的一種方式。

在大型分布式系統(tǒng)中,數(shù)據(jù)中心內(nèi)服務(wù)器通常按照機(jī)架進(jìn)行排列,一個(gè)機(jī)架包含了多個(gè)服務(wù)器。

從網(wǎng)絡(luò)的角度看,一個(gè)機(jī)架中的服務(wù)器共享相同的網(wǎng)絡(luò)交換機(jī),這意味著它們之間的網(wǎng)絡(luò)帶寬和延遲都是一致的。

在HDFS中,理解數(shù)據(jù)節(jié)點(diǎn)的機(jī)架位置對(duì)于實(shí)現(xiàn)數(shù)據(jù)的高可用性以及優(yōu)化數(shù)據(jù)存儲(chǔ)和檢索的性能非常重要。

【HDFS會(huì)根據(jù)機(jī)架信息在寫入數(shù)據(jù)的時(shí)候自動(dòng)實(shí)現(xiàn)以下目標(biāo)】 機(jī)架感知的數(shù)據(jù)副本放置策略(Rack-aware Replica Placement Policy) 當(dāng)一個(gè)文件被寫入到HDFS時(shí),它會(huì)被分割成多個(gè)數(shù)據(jù)塊(Block) 為了確??煽啃远诓煌腄ataNode上存儲(chǔ)多個(gè)副本 HDFS嘗試將至少一個(gè)副本放置在不同的機(jī)架上 這樣即使一個(gè)機(jī)架完全失效,數(shù)據(jù)依然可以從其他機(jī)架上的副本進(jìn)行恢復(fù)

網(wǎng)絡(luò)帶寬優(yōu)化 通過(guò)在不同的機(jī)架之間分散存儲(chǔ)數(shù)據(jù),HDFS能夠優(yōu)化網(wǎng)絡(luò)帶寬的使用 在跨機(jī)架通信時(shí),相比機(jī)架內(nèi)通信會(huì)消耗更多的帶寬和有更高的延遲 因此在大部分情況下訪問(wèn)本地機(jī)架上的數(shù)據(jù)比訪問(wèn)遠(yuǎn)程機(jī)架的數(shù)據(jù)更優(yōu)

故障隔離 將副本放置在不同的機(jī)架上可以提高系統(tǒng)對(duì)機(jī)架故障的韌性 如果一個(gè)機(jī)架的電源或網(wǎng)絡(luò)連接失敗,尚存放在其他機(jī)架上的副本可以繼續(xù)確保數(shù)據(jù)的可用性

機(jī)架信息通常是通過(guò)配置文件或者通過(guò)腳本來(lái)提供給HDFS的 使得NameNode能夠意識(shí)到每個(gè)DataNode的物理位置 管理員可以使用名為“機(jī)架感知”(Rack Awareness)的特性來(lái)配置HDFS 這樣NameNode就能有效地管理數(shù)據(jù)塊的位置,優(yōu)化存儲(chǔ)和數(shù)據(jù)恢復(fù)過(guò)程 在實(shí)際的大數(shù)據(jù)處理場(chǎng)景中,機(jī)架感知能顯著提升系統(tǒng)的性能和可靠性

HDFS副本的選擇

第一個(gè)副本replic放置在運(yùn)行客戶端的節(jié)點(diǎn)上,如果客戶端在機(jī)架外,則隨機(jī)選擇一個(gè)節(jié)點(diǎn)(跳過(guò)太滿的節(jié)點(diǎn)) 第二個(gè)副本放置在其他機(jī)架的某個(gè)節(jié)點(diǎn) 第三個(gè)副本放置在和第二個(gè)副本相同機(jī)架的隨機(jī)某個(gè)節(jié)點(diǎn)

柚子快報(bào)激活碼778899分享:HaDoop學(xué)習(xí)1

http://yzkb.51969.com/

推薦鏈接

評(píng)論可見(jiàn),查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18793104.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄