柚子快報邀請碼778899分享:大數(shù)據(jù)知識點之大數(shù)據(jù)5V特征
大數(shù)據(jù)的特征可以濃縮為五個英文單詞,Volume(大量)、Variety(多樣性)、Velocity(速度)、Value(價值)、Veracity(準(zhǔn)確性)。因為是5個特征都是以“V”開頭的英文單詞,又叫大數(shù)據(jù)5V特征。
概述:
1、Volume(大量)
即可從數(shù)百TB到數(shù)十?dāng)?shù)百PB、甚至EB的規(guī)模
2、Variety(多樣性)
即大數(shù)據(jù)包括各種格式和形態(tài)的數(shù)據(jù)
3、Velocity(速度)
數(shù)據(jù)增長速度快,處理速度也快,獲取數(shù)據(jù)的速度也要快
4、Value(價值)
數(shù)據(jù)價值密度低,但是商業(yè)價值高
5、Veracity(準(zhǔn)確性)
即處理的結(jié)果要保證一定的準(zhǔn)確性
詳細(xì)描述:
1、Volume 中文翻譯是“大量”的意思,顧名思義,就是數(shù)據(jù)量非常的龐大。而這也是大數(shù)據(jù)的字面含義。我們知道在表示數(shù)據(jù)大小的時候,生活中常見的計量單位有KB、MB、GB、TB等,但是在此之上還有其他的單位,例如: PB、EB、ZB、YB、BB、NB、DB等。這些單位之間的換算率都是1024,也正是因此,人們會把每年的10月24日定為程序員節(jié)。我們每一個人在互聯(lián)網(wǎng)上進(jìn)行各種各樣的行為,都會留下數(shù)據(jù),而這些數(shù)據(jù)量雖然不算大,但是在龐大的用戶基數(shù)下,累計起來的還是非常龐大的。在一個中大型企業(yè)中,需要處理的數(shù)據(jù)規(guī)模是很容易達(dá)到PB、EB的級別的,而這也正是大數(shù)據(jù)的第一個特征: 大量。 2、Variety 中文翻譯是“多樣化”的意思。我們知道學(xué)習(xí)大數(shù)據(jù)就是來處理龐大的數(shù)據(jù)集的,那么組成這個龐大的數(shù)據(jù)集的數(shù)據(jù)是可以分為不同的類型的。我們把這些數(shù)據(jù)大致分為三類:結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。 結(jié)構(gòu)化的數(shù)據(jù),一般指的是關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),例如MySQL、Oracle中的表中的數(shù)據(jù)。這些數(shù)據(jù)中,每一行的數(shù)據(jù)都保持著相同的數(shù)據(jù)格式,有規(guī)律可循,非常容易處理。 半結(jié)構(gòu)化的數(shù)據(jù),指的是有一定的結(jié)構(gòu)性,但是比起關(guān)系型數(shù)據(jù)庫表中的結(jié)構(gòu)化的數(shù)據(jù)來說,結(jié)構(gòu)不是那么清晰,處理起來也比結(jié)構(gòu)化的數(shù)據(jù)略微麻煩。常見的半結(jié)構(gòu)化的數(shù)據(jù)有json、xml、html等。 非結(jié)構(gòu)化的數(shù)據(jù),指的就是沒有絲毫結(jié)構(gòu)性可言的數(shù)據(jù)了。數(shù)據(jù)沒有固定的格式,通常需要我們單獨(dú)設(shè)計程序來處理這些數(shù)據(jù),從中提取出來有價值的信息。 而我們在工作中要處理的數(shù)據(jù),往往都是以半結(jié)構(gòu)化和非結(jié)構(gòu)化的居多。 3、Value 中文翻譯是“價值”的意思。這里其實有兩點體現(xiàn):價值密度低、商業(yè)價值高。 大數(shù)據(jù)相關(guān)的技術(shù)體系,需要處理的數(shù)據(jù)量是非常龐大的,動輒PB、EB規(guī)模的數(shù)據(jù),但是真正具有價值的數(shù)據(jù)卻非常稀少,只有100M,甚至更少。我們就需要從這么龐大的數(shù)據(jù)集中提取出來這些密度非常低的有價值的數(shù)據(jù)進(jìn)行處理。 但是,也就是這些密度非常低的數(shù)據(jù),能夠發(fā)揮出來巨大的商業(yè)價值。這點其實也是來推動大數(shù)據(jù)發(fā)展的重要的特征之一,因為這些大數(shù)據(jù)相關(guān)的技術(shù)體系可以給商人帶來巨大的利益,老板才愿意培養(yǎng)人來從事這個行業(yè);越來越多的人涌入到這個行業(yè),才能夠推動這門技術(shù)不斷的向前發(fā)展。 4、Velocity 中文翻譯是“速度”的意思。我們要處理的數(shù)據(jù)集在很多情況下,并不是一潭死水,而是在不斷增長的。對于一個企業(yè)來說,每天都會新增龐大的數(shù)據(jù),這些數(shù)據(jù)可能來自于用戶的操作、可能來自于智能家居、可能來自于各種傳感器等,數(shù)據(jù)的來源非常多,而且數(shù)據(jù)量的增速也是非??膳碌摹R蕴詫?、京東這類的電商來說,每日新增的數(shù)據(jù)量達(dá)到幾百個GB是很正常的事情。在這樣快速的數(shù)據(jù)增長的情況下,也對我們處理數(shù)據(jù)的速度有了較高的要求了。我們一定要優(yōu)化我們的業(yè)務(wù)邏輯,提高處理的速度,才不會造成數(shù)據(jù)積壓。 5、Veracity 中文翻譯是“真實性”的意思。大規(guī)模的數(shù)據(jù)量,在處理的時候,對技術(shù)體系是有較高的要求的。在還沒有形成現(xiàn)有的技術(shù)體系的年代,人們在處理龐大的數(shù)據(jù)集的時候,往往束手無策,要么實效性非常差,要么干脆無法處理。那個時代甚至流行一種做法:隨機(jī)抽樣。隨機(jī)的從龐大的數(shù)據(jù)集中抽取一部分出來進(jìn)行處理,以這樣的處理結(jié)果,作為整個數(shù)據(jù)集的處理結(jié)果。追求真實性的,可能會多隨機(jī)幾次。但是這個結(jié)果其實是不準(zhǔn)確的,并不能夠體現(xiàn)出這些數(shù)據(jù)完整的價值,甚至還可能得到錯誤的結(jié)論。但是現(xiàn)在大數(shù)據(jù)的技術(shù)體系相對成熟,我們不再使用這樣的隨機(jī)抽樣的方式了。我們就是要對所有的數(shù)據(jù)進(jìn)行高效的處理,得出的結(jié)論自然也是正確的。
大數(shù)據(jù)的5V特征是Volume、Velocity、Variety、Veracity和Value,這些特征描述了大數(shù)據(jù)的規(guī)模、速度、多樣性、真實性和價值,對于理解和應(yīng)用大數(shù)據(jù)具有重要意義。
柚子快報邀請碼778899分享:大數(shù)據(jù)知識點之大數(shù)據(jù)5V特征
推薦閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。