柚子快報(bào)激活碼778899分享:Hadoop vs Spark
柚子快報(bào)激活碼778899分享:Hadoop vs Spark
Hadoop 和 Spark 都是apache基金會(huì)下、在大數(shù)據(jù)架構(gòu)中廣泛使用的開源框架,兩個(gè)框架都各自有各自的開源技術(shù)生態(tài)系統(tǒng),用于準(zhǔn)備、處理、管理和分析大數(shù)據(jù)集。
Hadoop 生態(tài)系統(tǒng)由四個(gè)主要模塊組成:
HDFS): Hadoop的數(shù)據(jù)存儲(chǔ)系統(tǒng),用于管理運(yùn)行在普通硬件上的大型數(shù)據(jù)集,提供高吞吐量的數(shù)據(jù)訪問和高容錯(cuò)性。
YARN?: 集群資源管理器,它為應(yīng)用程序安排任務(wù)并分配資源(例如 CPU 和內(nèi)存)。
Hadoop MapReduce: 將大型數(shù)據(jù)處理任務(wù)拆分為小型任務(wù),再將小型任務(wù)分布在不同的節(jié)點(diǎn)上運(yùn)行;
Hadoop Common (Hadoop Core) : 其他三個(gè)模塊所依賴的一組通用庫和實(shí)用程序
Spark生態(tài)圈包括:
Spark Core: 底層執(zhí)行引擎,用于調(diào)度和分派任務(wù),協(xié)調(diào)I/O操作,內(nèi)存管理等;
Spark SQL: 處理結(jié)構(gòu)化數(shù)據(jù);
Spark streaming:實(shí)時(shí)流處理引擎,Spark Streaming 從不同的數(shù)據(jù)源獲取數(shù)據(jù),并將其劃分為微批處理以形成連續(xù)的流,將處理后的結(jié)果輸出到HDFS、關(guān)系型數(shù)據(jù)庫等;
機(jī)器學(xué)習(xí)庫(MLlib) : 一組機(jī)器學(xué)習(xí)算法,以及用于特征選擇和構(gòu)建機(jī)器學(xué)習(xí)管道的工具;
GraphX: 提供圖計(jì)算能力,支持交互式構(gòu)建、修改和分析可伸縮的圖形結(jié)構(gòu)數(shù)據(jù)。
Spark 是基于 Hadoop ?MapReduce 的增強(qiáng)。Spark 和 MapReduce 的主要區(qū)別在于,Spark 將中間結(jié)果保存在內(nèi)存以提高處理速度,而 MapReduce 的中間結(jié)果保存在HDFS磁盤上。因此,對(duì)于較小的工作負(fù)載,Spark 的數(shù)據(jù)處理速度比 MapReduce 快。
此外,與 MapReduce 中的兩階段執(zhí)行過程不同,Spark 創(chuàng)建了一個(gè)有向無環(huán)圖(DAG)來調(diào)度任務(wù)并利用Hadoop 集群中節(jié)點(diǎn)的編排。這個(gè)任務(wù)跟蹤過程支持容錯(cuò),容錯(cuò)將記錄的操作重新應(yīng)用于來自以前狀態(tài)的數(shù)據(jù)。
總結(jié)對(duì)比:
性能: Spark 更快,因?yàn)樗褂脙?nèi)存而不是磁盤來保存中間結(jié)果。
成本: Hadoop 的運(yùn)行成本較低,因?yàn)樗蕾囉谄胀ù疟P存儲(chǔ)進(jìn)行數(shù)據(jù)處理;Spark 的運(yùn)行成本更高,它依賴于內(nèi)存進(jìn)行實(shí)時(shí)數(shù)據(jù)處理,這需要使用大量的 RAM 做中轉(zhuǎn)節(jié)點(diǎn)。
場(chǎng)景: Hadoop 適用于批處理和線性數(shù)據(jù)處理,spark適用于實(shí)時(shí)處理和處理實(shí)時(shí)非結(jié)構(gòu)化數(shù)據(jù)流。
可伸縮性: 當(dāng)數(shù)據(jù)量快速增長(zhǎng)時(shí),Hadoop 通過 HDFS快速擴(kuò)展以滿足需求。反過來,Spark 依賴于容錯(cuò) HDFS 來處理大量數(shù)據(jù)。
安全性: Spark 通過共享秘密或事件日志來增強(qiáng)身份驗(yàn)證的安全性,而 Hadoop 使用多種身份驗(yàn)證和訪問控制方法。綜合來講,Hadoop 更安全。?Spark可以通過與 Hadoop 集成以達(dá)到更高的安全級(jí)別。
機(jī)器學(xué)習(xí)(ML) : Spark更勝一籌,因?yàn)樗?MLlib;它通過內(nèi)存 進(jìn)行ML 計(jì)算,還包括回歸、聚類、評(píng)估等工具。
在實(shí)際應(yīng)用中,spark能很好融入hadoop的生態(tài)圈,Spark 替代 Hadoop 中的 MapReduce 計(jì)算模型,存儲(chǔ)大多仍然使用 HDFS,且使用YARN 實(shí)現(xiàn)資源調(diào)度管理。
柚子快報(bào)激活碼778899分享:Hadoop vs Spark
精彩鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。