柚子快報邀請碼778899分享:spark復(fù)習(xí)題
柚子快報邀請碼778899分享:spark復(fù)習(xí)題
Sparkf復(fù)習(xí)
主要框架
RDD 為項目團隊提供了一個明確的框架,以便在整個項目周期內(nèi)對項目進行管理和控制
叫做彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象,它代表一個不可變、可分區(qū)、里面的元素可并行計算的集合
SQL(DataFrame) 索引和切片?數(shù)據(jù)清洗?數(shù)據(jù)轉(zhuǎn)換?計算和統(tǒng)計?排序和排名 條件篩選
Streaming 支持可擴展的、高吞吐量的、容錯的實時數(shù)據(jù)流處理
Graphx?圖形和圖形并行計算的組件,實現(xiàn)了大規(guī)模圖計算
圖構(gòu)建和操作 圖算法 頂點屬性和邊屬性 分布式計算 圖切割
MLlib 其是Apache Spark的機器學(xué)習(xí)庫,它提供了一系列常用的機器學(xué)習(xí)算法和工具,用于數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練和評估等任務(wù)
Sprak支持的語言:Scala java python R
Python下使用Spark:PySpark支持所有主要框架(Graphx除外)
Transform函數(shù):延遲執(zhí)行ma,filter,groupBy,join
Action函數(shù):立即執(zhí)行count,collect,save,reduce,take
無監(jiān)督學(xué)習(xí):聚類PCA、k-means
有監(jiān)督學(xué)習(xí):有學(xué)習(xí)樣本的、回歸、決策樹、深度學(xué)習(xí)
scala語法
val和var的區(qū)別
1.val(value)用于聲明不可變的變量,一旦賦值之后,其值就不能被改變,類似于Java中的final變量。
使用val聲明的變量不能重新賦值,嘗試這樣做會導(dǎo)致編譯錯誤。
即使是對于可變類型的對象,如Map,使用val聲明的引用本身是不可變的,但對象的內(nèi)容是可以被修改的
2.var(variable)用于聲明可變的變量,可以在其生命周期內(nèi)被重新賦值。
使用var聲明的變量可以改變其值,但是變量的類型一旦在初始化時確定,就不能改變。即var變量可以在同一類型之間進行賦值和修改,但不能跨類型修改。
函數(shù)的定義、if-else語句、采用for循環(huán)遍歷數(shù)組(采用下標(biāo)遍歷和直接遍歷)
下標(biāo)遍歷:for(a < -0 to 10)
直接遍歷:for(ele < -數(shù)組/List)
循環(huán)過濾:for(a?< -0?to 10?if?a%2?==?0)前面的a?< -0?to10,應(yīng)該是從0到9(不包括10)加上后面的a%2?==?0,就是從0到9中間篩選偶數(shù)
雙for循環(huán)遍歷
元組A中的元素引用:A_1表示第一個元素
RDD
RDD的構(gòu)建:讀取文件textFile、array或list構(gòu)建Paralize RDD遍歷打?。篶ollect后foreach(println) RDD的結(jié)構(gòu):RDD[KEY,VALUE],舉例:RDD[KEY,{VA,VB}],?RDD[KEY,VA] RDD的join、groupby都是針對KEY的 KEY不支持復(fù)雜類型 RDD內(nèi)、左外、右外、全連接函數(shù):join,rightOuterJoin,leftOuteroin,fullQuterJoin reduceByKey的作用 按照相同的key,對value進行聚合(求和)SQL(DataFrame) 結(jié)構(gòu):與Pandas相同,每列都有自己的類型,DataFrame[A,B,C] 可以針對每一列join,groupby groupBy("列名“) join(col("列名"))、join(col("列名"),"left")、join(col("列名"),"right")、join(col("列名"),"full") 遍歷打?。簊how0默認20條,show(number)可打印number條,show{lnt.MaxValue)所有 改列名:withColumnRenamedGraphX 不可以從外部修改vetex和Edge Graph[KEY,VALUEI是一個RDD,KEY:頂點的屬性,VALUE:邊的屬性
柚子快報邀請碼778899分享:spark復(fù)習(xí)題
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。