柚子快報邀請碼778899分享:spark 2023
柚子快報邀請碼778899分享:spark 2023
需求:
1、做某個文件的詞頻統(tǒng)計//某個單詞在這個文件出現(xiàn)次數(shù)
步驟:
文件單詞規(guī)律(空格分開)單詞切分單詞的統(tǒng)計(k,v)->(k:單詞,V:數(shù)量)打印
框架:
單例對象,main()創(chuàng)建CONF創(chuàng)建SC-->讀取文件的方式--》RDDRDD進行處理閉資源關
一、新建object類取名為WordCount
2、編寫如下代碼
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
System.setProperty("hadoop.home.dir","D:\\hadoop\\hadoop-2.8.0")
val sparkConf= new SparkConf().setAppName("WordCount").setMaster("local") //設置為本地模式
val sc = new SparkContext(sparkConf)
sc.setLogLevel("WARN")
val resultArray = sc.textFile(path = "file:///d:/temp/a.txt")
.flatMap(_.split(" "))
.map((_,1))
.reduceByKey(_+_)
.collect()
resultArray.foreach(println )
sc.stop()
}
}
3、本地運行,查看運行結果如下:
解決無法下載spark與打包插件的辦法
maven打包插件與spark所需依賴下載地址:
鏈接:百度網(wǎng)盤 請輸入提取碼
提取碼:jnta
解決步驟:
到網(wǎng)盤下載maven打包插件與spark依賴,網(wǎng)盤嗎中的內(nèi)容如下:
將下載的插件plugins.rar解壓,并復制插件文件夾到你本地maven倉庫下將下載的spark依賴spark.rar解壓,并復制spark文件夾到你本地maven倉庫下重啟idea,重新build下工程
將下載的插件plugins.rar解壓,并復制插件文件夾到你本地maven倉庫下
將下載的spark依賴spark.rar解壓,并復制spark文件夾到你本地maven倉庫下
重啟idea,重新build下工程
柚子快報邀請碼778899分享:spark 2023
參考鏈接
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯(lián)系刪除。