柚子快報邀請碼778899分享:大數(shù)據(jù) spark 作業(yè)4
柚子快報邀請碼778899分享:大數(shù)據(jù) spark 作業(yè)4
1.4.1.
實驗任務(wù)一:配置
Linux
系統(tǒng)基礎(chǔ)環(huán)境
1.4.1.1.
步驟一:查看服務(wù)器的
IP
地址
查看服務(wù)器的
IP
地址
[root@localhost ~]#
ip add show
1.4.1.2. 步驟二:設(shè)置服務(wù)器的主機(jī)名稱
1.4.1.3.
步驟三:綁定主機(jī)名與
IP
地址
1.4.1.4.
步驟四:查看
SSH
服務(wù)狀態(tài)
SSH
為
Secure Shell
的縮寫,是專為遠(yuǎn)程登錄會話和其他網(wǎng)絡(luò)服務(wù)提供安全性的協(xié)議。一般的用法是在本地計算機(jī)安裝 SSH
客服端,在服務(wù)器端安裝
SSH
服務(wù),然后本地計算機(jī)利用 SSH
協(xié)議遠(yuǎn)程登錄服務(wù)器,對服務(wù)器進(jìn)行管理。這樣可以非常方便地對多臺服務(wù)器進(jìn)行管理。同時在 Hadoop
分布式環(huán)境下,集群中的各個節(jié)點之間(節(jié)點可以看作是一臺主機(jī))需要使用 SSH
協(xié)議進(jìn)行通信。因此
Linux
系統(tǒng)必須安裝并啟用
SSH
服務(wù)。
CentOS 7
默認(rèn)安裝
SSH
服務(wù),可以使用如下命令查看
SSH
的狀態(tài)。
1.4.1.5.
步驟五:關(guān)閉防火墻
Hadoop
可以使用
Web
頁面進(jìn)行管理,但需要關(guān)閉防火墻,否則打不開
Web
頁面。
同時不關(guān)閉防火墻也會造成
Hadoop
后臺運行腳本出現(xiàn)莫名其妙的錯誤。關(guān)閉命令如下:
看到
inactive (dead)
就表示防火墻已經(jīng)關(guān)閉。不過這樣設(shè)置后,
Linux
系統(tǒng)如果重啟,防火墻仍然會重新啟動。執(zhí)行如下命令可以永久關(guān)閉防火墻。
1.4.1.6.
步驟六:創(chuàng)建 hadoop 用戶
1.4.2.
實驗任務(wù)二:安裝
JAVA
環(huán)境
1.4.2.1.
步驟一:下載 JDK 安裝包
JDK 安 裝 包 需 要 在 Oracle 官 網(wǎng) 下 載 , 下 載 地 址 為 :https://www.oracle.com/java/technologies /javase-jdk8-downloads.html,本教材采用的 Hadoop 2.7.1
所需要的
JDK
版本為
JDK7
以上,這里采用的安裝包為
jdk-8u152-linux x64.tar.gz。
1.4.2.2.
步驟二:卸載自帶
OpenJDK
查看刪除結(jié)果再次鍵入命令 java -version 出現(xiàn)以下結(jié)果表示刪除功
1.4.2.3.
步驟三:安裝
JDK
Hadoop 2.7.1
要求
JDK
的版本為
1.7
以上,這里安裝的是
JDK1.8
版 (即JAVA 8
)。
安裝命令如下,將安裝包解壓到
/usr/local/src
目錄下 ,注意
/opt/software
目錄 下的軟件包事先準(zhǔn)備好。
1.4.2.4.
步驟四:設(shè)置
JAVA
環(huán)境變量
在
Linux 中設(shè)置環(huán)境變量的方法比較多,較常見的有兩種:一是配置 /etc/profile 文件,配置結(jié)果對整個系統(tǒng)有效,系統(tǒng)所有用戶都可以使用;二是配置~/.bashrc 文件,配置結(jié)果僅對當(dāng)前用戶有效。這里使用第一種方法。
2.4.1.
實驗任務(wù)一:獲取
Hadoop
安裝包
Apache Hadoop 各 個 版 本 的 下 載 網(wǎng) 址 :
https://archive.apache.org/dist/hadoop /common/
。本教材選用的是
Hadoop 2.7.1 版本,安裝包為
hadoop-2.7.1.tar.gz
。需要先下載
Hadoop
安裝包,再上傳到 Linux 系統(tǒng)的
/opt/software
目錄。具體的方法見前一節(jié)
“
實驗一
Linux
操作系統(tǒng)環(huán)境 設(shè)置”
,這里就不再贅述。
2.4.2.
實驗任務(wù)二:安裝
Hadoop
軟件
2.4.2.1.
步驟一:安裝
Hadoop
軟件
安裝命令如下,將安裝包解壓到/usr/local/src/目錄下
2.4.2.2.
步驟二:配置
Hadoop
環(huán)境變量
和設(shè)置
JAVA
環(huán)境變量類似,修改/etc/profile 文件。
2.4.2.3.
步驟三:修改目錄所有者和所有者組
上述安裝完成的
Hadoop
軟件只能讓
root
用戶使用,要讓
hadoop
用戶能夠 運行 Hadoop
軟件,需要將目錄
/usr/local/src
的所有者改為
hadoop
用戶。
3.4.1.
實驗任務(wù)一:配置
Hadoop
配置文件
3.4.2.
實驗任務(wù)二:測試
Hadoop
本地模式的運行
3.4.2.1.
步驟一
:
切換到
hadoop
用戶
使用
hadoop
這個用戶來運行
Hadoop
軟件。
3.4.2.2.
步驟二
:
創(chuàng)建輸入數(shù)據(jù)存放目錄
將輸入數(shù)據(jù)存放在
~/input
目錄(
hadoop
用戶主目錄下的 input 目錄中)。
3.4.2.3.
步驟三
:
創(chuàng)建數(shù)據(jù)輸入文件
創(chuàng)建數(shù)據(jù)文件
data.txt
,將要測試的數(shù)據(jù)內(nèi)容輸入到
data.txt
文件中。
3.4.2.4.
步驟四
:
測試 MapReduce 運行
1.4.1. 實驗任務(wù)一:實驗環(huán)境下集群網(wǎng)絡(luò)配置
2.4.1.1.
步驟一:每個節(jié)點安裝和啟動 SSH 協(xié)議
2.4.1.2. 步驟二:切換到 hadoop 用戶
2.4.1.3. 步驟三:每個節(jié)點生成秘鑰對
2.4.1.4.
步驟四:查看
"/home/hadoop/"
下是否有
".ssh"
文件夾,且
".ssh"
文件下是否
有
兩個剛生產(chǎn)的無密碼密鑰對。
2.4.1.5.
步驟五:將 id_rsa.pub 追加到授權(quán) key 文件中
2.4.1.6.
步驟六:修改文件
"authorized_keys"
權(quán)限
通過
ll
命令查看,可以看到修改后
authorized_keys
文件的權(quán)限為
“rw-------”
,表示所有者可讀寫,其他用戶沒有訪問權(quán)限。如果該文件權(quán)限太大,ssh
服務(wù)會拒絕工作,出現(xiàn)無法通過密鑰文件進(jìn)行登錄認(rèn)證的情況。
2.4.1.7.
步驟七:配置
SSH
服務(wù)
31
使用
root
用戶登錄,修改
SSH
配置文件
"/etc/ssh/sshd_config"
的下列內(nèi)容,需要將該配置字段前面的#
號刪除,啟用公鑰私鑰配對認(rèn)證方式。
2.4.1.8.
步驟八:重啟
SSH
服務(wù)
設(shè)置完后需要重啟 SSH 服務(wù),才能使配置生效。
2.4.1.9. 步驟九:切換到 hadoop 用戶
2.4.1.10.
步驟十:驗證
SSH
登錄本機(jī)
在
hadoop
用戶下驗證能否嵌套登錄本機(jī),若可以不輸入密碼登錄,則本機(jī)通過密鑰登錄認(rèn)證成功。
2.4.2.
實驗任務(wù)二:交換
SSH
密鑰
2.4.2.1.
步驟一:將
Master
節(jié)點的公鑰
id_rsa.pub
復(fù)制到每個 Slave 點
2.4.2.2.
步驟二:在每個
Slave
節(jié)點把
Master
節(jié)點復(fù)制的公鑰復(fù)制到
authorized_keys
文件 hadoop 用戶登錄
slave1
和 slave2 節(jié)點,執(zhí)行命令。
2.4.2.3.
步驟三:在每個
Slave
節(jié)點刪除 id_rsa.pub 文件
2.4.2.4.
步驟四:將每個
Slave 節(jié)點的公鑰保存到 Master
2.4.3.
實驗任務(wù)三:驗證
SSH
無密碼登錄
2.4.3.1.
步驟一:查看
Master
節(jié)點 authorized_keys 文件
2.4.3.2.
步驟二:查看
Slave
節(jié)點 authorized_keys 文件
2.4.3.3.
步驟三:驗證
Master
到每個
Slave
節(jié)點無密碼登錄
hadoop
用戶登錄
master
節(jié)點,執(zhí)行
SSH
命令登錄
slave1
和
slave2
節(jié)點??梢杂^察
到不需要輸入密碼即可實現(xiàn) SSH 登錄。
2.4.3.4.
步驟四:驗證兩個
Slave
節(jié)點到 Master 節(jié)點無密碼登錄
2.4.3.
5. 步驟五:配置兩個子節(jié)點slave1、slave2的JDK環(huán)境。
1.4.
實驗過程
1.4.1.
實驗任務(wù)一:在
Master
節(jié)點上安裝
Hadoop
1. 將 hadoop-2.7.1 文件夾重命名為 Hadoop
2. 配置 Hadoop 環(huán)境變量
3. 使配置的 Hadoop 的環(huán)境變量生效
4. 執(zhí)行以下命令修改 hadoop-env.sh 配置文件
任務(wù)二,三,四,五:配置文件參數(shù)
任務(wù)六:Hadoop 其他相關(guān)配置
slave1
slave2
2、大數(shù)據(jù)平臺集群運行
1.
實驗一:
hadoop 集群運行
1.4.
實驗過程
1.4.1.
實驗任務(wù)一:配置
Hadoop
格式化
1.4.1.1.
步驟一:
NameNode
格式化
將
NameNode
上的數(shù)據(jù)清零,第一次啟動
HDFS
時要進(jìn)行格式化,以后啟動無
需再格式化,否則會缺失
DataNode
進(jìn)程。另外,只要運行過
HDFS
,
Hadoop
的
工作目錄(本書設(shè)置為
/usr/local/src/hadoop/tmp
)就會有數(shù)據(jù),如果需要重
新格式化,則在格式化之前一定要先刪除工作目錄下的數(shù)據(jù),否則格式化時會
出問題。
執(zhí)行如下命令,格式化 NameNode
1.4.1.2.
步驟二:啟動
NameNode
執(zhí)行如下命令,啟動 NameNode:
1.4.2.
實驗任務(wù)二:查看
Java
進(jìn)程
啟動完成后,可以使用
JPS
命令查看是否成功。
JPS
命令是
Java
提供的一個顯示當(dāng)前所有
Java
進(jìn)程 pid 的命令。
1.4.2.1.
步驟一:
slave
節(jié)點 啟動 DataNode
1.4.2.2.
步驟二:啟動
SecondaryNameNode
執(zhí)行如下命令,啟動 SecondaryNameNode:
1.4.2.3.
步驟三:查看 HDFS 數(shù)據(jù)存放位置:
1.4.3.
實驗任務(wù)三:查看 HDFS 的報告
1.4.4.
實驗任務(wù)四:使用瀏覽器查看節(jié)點狀態(tài)
在瀏覽器的地址欄輸入
http://master:50070
,進(jìn)入頁面可以查看
NameNode
和
DataNode
信息,如圖 5-2 所示。
1.4.4.1.
步驟一:在
HDFS
文件系統(tǒng)中創(chuàng)建數(shù)據(jù)輸入目錄
確保
dfs
和 yarn 都啟動成功
1.4.4.2.
步驟二:將輸入數(shù)據(jù)文件復(fù)制到
HDFS
的
/input
目錄中
測試用數(shù)據(jù)文件仍然是上一節(jié)所用的測試數(shù)據(jù)文件~/input/data.txt,內(nèi)容如下所示。
1.4.4.3.
步驟三:運行
WordCount
案例,計算數(shù)據(jù)文件中各單詞的頻度。
47
48
運行
MapReduce
命令需要指定數(shù)據(jù)輸出目錄,該目錄為
HDFS
文件系統(tǒng)中的目錄,會自
動生成。如果在執(zhí)行
MapReduce
命令前,該目錄已經(jīng)存在,則執(zhí)行
MapReduce
命令會出
錯。
例如
MapReduce
命令指定數(shù)據(jù)輸出目錄為
/output
,
/output
目錄在
HDFS
文件系統(tǒng)中已
經(jīng)存在,則執(zhí)行相應(yīng)的
MapReduce
命令就會出錯。所以如果不是第一次運行
MapReduce
,就要先查看
HDFS
中的文件,是否存在
/output
目錄。如果已經(jīng)存在
/output
目錄,就要先刪除
/output
目錄,再執(zhí)行上述命令。自動創(chuàng)建的
/output
目錄在
HDFS
文件
系統(tǒng)中,使用
HDFS 命令查看和操作。
1.4.
實驗過程
任務(wù)一:下載和解壓安裝文件
1. 解壓安裝文件
任務(wù)二:設(shè)置 Hive 環(huán)境
1. 卸載 MariaDB 數(shù)據(jù)庫
2. 安裝 MySQL 數(shù)據(jù)[root@master tools]# cd mysql-5.7.18/
3. 配置 Hive 組件
4. 初始化 hive 元數(shù)據(jù)
柚子快報邀請碼778899分享:大數(shù)據(jù) spark 作業(yè)4
相關(guān)文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。