柚子快報邀請碼778899分享:PySpark RDD的創(chuàng)建
柚子快報邀請碼778899分享:PySpark RDD的創(chuàng)建
第1關(guān):集合并行化創(chuàng)建RDD
# -*- coding: UTF-8 -*-
from pyspark import SparkContext
if __name__ == "__main__":
#********** Begin **********#
# 1.初始化 SparkContext,該對象是 Spark 程序的入口
sc = SparkContext("local", "Simple App")
# 2.創(chuàng)建一個1到8的列表List
data = [1, 2, 3, 4, 5, 6, 7, 8]
# 3.通過 SparkContext 并行化創(chuàng)建 rdd
rdd = sc.parallelize(data)
# 4.使用 rdd.collect() 收集 rdd 的內(nèi)容。 rdd.collect() 是 Spark Action 算子,在后續(xù)內(nèi)容中將會詳細(xì)說明,主要作用是:收集 rdd 的數(shù)據(jù)內(nèi)容
result = rdd.collect()
# 5.打印 rdd 的內(nèi)容
print(result)
# 6.停止 SparkContext
sc.stop()
第2關(guān):讀取外部數(shù)據(jù)集創(chuàng)建RDD
# -*- coding: UTF-8 -*-
from pyspark import SparkContext
if __name__ == '__main__':
#********** Begin **********#
# 1.初始化 SparkContext,該對象是 Spark 程序的入口
sc = SparkContext("local", "Simple App")
# 文本文件 RDD 可以使用創(chuàng)建 SparkContext 的t extFile 方法。此方法需要一個 URI的 文件(本地路徑的機(jī)器上,或一個hdfs://,s3a://等URI),并讀取其作為行的集合
# 2.讀取本地文件,URI為:/root/wordcount.txt
rdd = sc.textFile("/root/wordcount.txt")
# 3.使用 rdd.collect() 收集 rdd 的內(nèi)容。 rdd.collect() 是 Spark Action 算子,在后續(xù)內(nèi)容中將會詳細(xì)說明,主要作用是:收集 rdd 的數(shù)據(jù)內(nèi)容
result = rdd.collect()
# 4.打印 rdd 的內(nèi)容
print(result)
# 5.停止 SparkContext
sc.stop()
#********** End **********#
柚子快報邀請碼778899分享:PySpark RDD的創(chuàng)建
相關(guān)鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。