柚子快報激活碼778899分享:大數(shù)據(jù) 分布式 【Hadoop
柚子快報激活碼778899分享:大數(shù)據(jù) 分布式 【Hadoop
1、Hadoop、HDFS、YARN介紹(1)Hadoop簡介與優(yōu)勢(2)Hadoop組成(3)HDFS概述(4)YARN概述(5)MapReduce概述
2、安裝(1)Centos7.5軟硬件安裝(2)配置服務(wù)器IP地址(3)Xshell遠程訪問(4)安裝epel-release(5)關(guān)閉防火墻,關(guān)閉防火墻開機自啟(6)卸載自帶JDK
3、克隆三臺虛擬機(1)克隆虛擬機(2)在hadoop102上安裝JDK(3)配置JDK環(huán)境變量(4)在hadoop102按照hadoop(5)配置hadoop環(huán)境變量
1、Hadoop、HDFS、YARN介紹
Hadoop解決兩件事情:海量數(shù)據(jù)的存儲(使用HDFS)和海量數(shù)據(jù)的計算(使用MapReduce)。
(1)Hadoop簡介與優(yōu)勢
簡介: 1)Hadoop是一個由Apachc基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。 2)主要解決,海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的分析計算問題。 3)廣義上來說,Hadoop通常是指一個更廣泛的概念——Hadoop生態(tài)圈。
優(yōu)勢: 1)高可靠性:Hadoop底層維護多個數(shù)據(jù)副本,所以即使Hadoop某個計算元素或存儲出現(xiàn)故障,也不會導(dǎo)致數(shù)據(jù)的丟失。 2)高擴展性:在集群間分配任務(wù)數(shù)據(jù),可方便的擴展數(shù)以千計的節(jié)點。 3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任務(wù)處理速度。 4)高容錯性:能夠自動將失敗的任務(wù)自動分配。
(2)Hadoop組成
在Hadoop1.x時代,Hadoop中的MapReduce同時處理業(yè)務(wù)邏輯運算和資源的調(diào)度,耦合性較大。在Hadoop2.x時代,增加了Yarn。Yarn只負(fù)責(zé)資源的調(diào)度,MapReduce只負(fù)責(zé)運算。而Hadoop3.x在組成上沒有變化。
(3)HDFS概述
Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。主要解決海量數(shù)據(jù)存儲的問題。
NameNode(nn)︰存儲文件的元數(shù)據(jù),如文件名,文件目錄結(jié)構(gòu),文件屬性(生成時間、副本數(shù).文件權(quán)限),以及每個文件的塊列表和塊所在的DataNodc等。【記錄數(shù)據(jù)存儲在哪個節(jié)點上】DataNode(dn):在本地文件系統(tǒng)存儲文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗和?!矩?fù)責(zé)數(shù)據(jù)的存儲】Secondary NameNode(2nn):每隔一段時間對NameNode元數(shù)據(jù)備份?!痉乐筃ameNode突然癱瘓,進行備份】
(4)YARN概述
Yet Another Resource Negotiator簡稱YARN,另一種資源協(xié)調(diào)者,是Hadoop的資源管理器。
Resource Maneger(RM):所有資源的管理者,是整個集群資源(內(nèi)存、CPU等)的老大,管理所有的內(nèi)存和CPU。NodeManager(NM):單節(jié)點資源的管理者,是單個節(jié)點服務(wù)器資源的老大。ApplicationMaster(AM):單個任務(wù)運行的老大。Container:容器,相當(dāng)于一臺獨立的服務(wù)器,里面封裝了任務(wù)運行所需要的資源,如內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)等。
說明1:客戶端可以有多個 說明2∶集群上可以運行多個ApplicationMaster【相當(dāng)于Hadoop的并行運算】 說明3:每個NodeManager上可以有多個Container
那么到底可以運行多少個Container容器呢?
一個Container默認(rèn)的內(nèi)存是1-8G。由于一個NodeManager是4G的內(nèi)存,因此一個NodeManager上最多開辟4個Container【每個Container=1G】,而一個Container最少需要分配一個CPU,因此最終一個NodeManager上最多開辟2個Container。
(5)MapReduce概述
MapReduce將計算過程分為兩個階段:Map和 Reduce。
Map階段并行處理輸入數(shù)據(jù)Reduce階段對Map結(jié)果進行匯總
2、安裝
(1)Centos7.5軟硬件安裝
下載鏡像:centos鏡像
(2)配置服務(wù)器IP地址
設(shè)置vmware:
設(shè)置windows:
設(shè)置虛擬機:
主機名稱映射: 配置Linux克隆機主機名稱映射hosts文件,打開/etc/hosts
(3)Xshell遠程訪問
修改windows的主機映射文件: 下載Xftp
(4)安裝epel-release
(5)關(guān)閉防火墻,關(guān)閉防火墻開機自啟
(6)卸載自帶JDK
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
rpm -qa:查詢所安裝的所有rpm軟件包grep -i:忽略大小寫xargs -nl:表示每次只傳遞一個參數(shù)rpm -e --nodeps:強制卸載軟件
3、克隆三臺虛擬機
(1)克隆虛擬機
注意:克隆之前先關(guān)機 克隆之后需要修改三臺虛擬機的主機名稱以及IP地址
(2)在hadoop102上安裝JDK
當(dāng)時遇到一個錯誤,查閱這篇博客之后解決:xftp傳輸文件狀態(tài)錯誤解決辦法
linux退出當(dāng)前目錄使用:cd … linux查看當(dāng)前目錄所在路徑:pwd
(3)配置JDK環(huán)境變量
(4)在hadoop102按照hadoop
注意安裝路徑!
(5)配置hadoop環(huán)境變量
在系統(tǒng)文件加入下面的環(huán)境變量:
hadoop目錄下有哪些內(nèi)容:
柚子快報激活碼778899分享:大數(shù)據(jù) 分布式 【Hadoop
精彩內(nèi)容
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。