柚子快報(bào)邀請(qǐng)碼778899分享:大數(shù)據(jù)知識(shí)點(diǎn)之大數(shù)據(jù)5V特征
柚子快報(bào)邀請(qǐng)碼778899分享:大數(shù)據(jù)知識(shí)點(diǎn)之大數(shù)據(jù)5V特征
大數(shù)據(jù)的特征可以濃縮為五個(gè)英文單詞,Volume(大量)、Variety(多樣性)、Velocity(速度)、Value(價(jià)值)、Veracity(準(zhǔn)確性)。因?yàn)槭?個(gè)特征都是以“V”開(kāi)頭的英文單詞,又叫大數(shù)據(jù)5V特征。
概述:
1、Volume(大量)
即可從數(shù)百TB到數(shù)十?dāng)?shù)百PB、甚至EB的規(guī)模
2、Variety(多樣性)
即大數(shù)據(jù)包括各種格式和形態(tài)的數(shù)據(jù)
3、Velocity(速度)
數(shù)據(jù)增長(zhǎng)速度快,處理速度也快,獲取數(shù)據(jù)的速度也要快
4、Value(價(jià)值)
數(shù)據(jù)價(jià)值密度低,但是商業(yè)價(jià)值高
5、Veracity(準(zhǔn)確性)
即處理的結(jié)果要保證一定的準(zhǔn)確性
詳細(xì)描述:
1、Volume 中文翻譯是“大量”的意思,顧名思義,就是數(shù)據(jù)量非常的龐大。而這也是大數(shù)據(jù)的字面含義。我們知道在表示數(shù)據(jù)大小的時(shí)候,生活中常見(jiàn)的計(jì)量單位有KB、MB、GB、TB等,但是在此之上還有其他的單位,例如: PB、EB、ZB、YB、BB、NB、DB等。這些單位之間的換算率都是1024,也正是因此,人們會(huì)把每年的10月24日定為程序員節(jié)。我們每一個(gè)人在互聯(lián)網(wǎng)上進(jìn)行各種各樣的行為,都會(huì)留下數(shù)據(jù),而這些數(shù)據(jù)量雖然不算大,但是在龐大的用戶基數(shù)下,累計(jì)起來(lái)的還是非常龐大的。在一個(gè)中大型企業(yè)中,需要處理的數(shù)據(jù)規(guī)模是很容易達(dá)到PB、EB的級(jí)別的,而這也正是大數(shù)據(jù)的第一個(gè)特征: 大量。 2、Variety 中文翻譯是“多樣化”的意思。我們知道學(xué)習(xí)大數(shù)據(jù)就是來(lái)處理龐大的數(shù)據(jù)集的,那么組成這個(gè)龐大的數(shù)據(jù)集的數(shù)據(jù)是可以分為不同的類(lèi)型的。我們把這些數(shù)據(jù)大致分為三類(lèi):結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。 結(jié)構(gòu)化的數(shù)據(jù),一般指的是關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),例如MySQL、Oracle中的表中的數(shù)據(jù)。這些數(shù)據(jù)中,每一行的數(shù)據(jù)都保持著相同的數(shù)據(jù)格式,有規(guī)律可循,非常容易處理。 半結(jié)構(gòu)化的數(shù)據(jù),指的是有一定的結(jié)構(gòu)性,但是比起關(guān)系型數(shù)據(jù)庫(kù)表中的結(jié)構(gòu)化的數(shù)據(jù)來(lái)說(shuō),結(jié)構(gòu)不是那么清晰,處理起來(lái)也比結(jié)構(gòu)化的數(shù)據(jù)略微麻煩。常見(jiàn)的半結(jié)構(gòu)化的數(shù)據(jù)有json、xml、html等。 非結(jié)構(gòu)化的數(shù)據(jù),指的就是沒(méi)有絲毫結(jié)構(gòu)性可言的數(shù)據(jù)了。數(shù)據(jù)沒(méi)有固定的格式,通常需要我們單獨(dú)設(shè)計(jì)程序來(lái)處理這些數(shù)據(jù),從中提取出來(lái)有價(jià)值的信息。 而我們?cè)诠ぷ髦幸幚淼臄?shù)據(jù),往往都是以半結(jié)構(gòu)化和非結(jié)構(gòu)化的居多。 3、Value 中文翻譯是“價(jià)值”的意思。這里其實(shí)有兩點(diǎn)體現(xiàn):價(jià)值密度低、商業(yè)價(jià)值高。 大數(shù)據(jù)相關(guān)的技術(shù)體系,需要處理的數(shù)據(jù)量是非常龐大的,動(dòng)輒PB、EB規(guī)模的數(shù)據(jù),但是真正具有價(jià)值的數(shù)據(jù)卻非常稀少,只有100M,甚至更少。我們就需要從這么龐大的數(shù)據(jù)集中提取出來(lái)這些密度非常低的有價(jià)值的數(shù)據(jù)進(jìn)行處理。 但是,也就是這些密度非常低的數(shù)據(jù),能夠發(fā)揮出來(lái)巨大的商業(yè)價(jià)值。這點(diǎn)其實(shí)也是來(lái)推動(dòng)大數(shù)據(jù)發(fā)展的重要的特征之一,因?yàn)檫@些大數(shù)據(jù)相關(guān)的技術(shù)體系可以給商人帶來(lái)巨大的利益,老板才愿意培養(yǎng)人來(lái)從事這個(gè)行業(yè);越來(lái)越多的人涌入到這個(gè)行業(yè),才能夠推動(dòng)這門(mén)技術(shù)不斷的向前發(fā)展。 4、Velocity 中文翻譯是“速度”的意思。我們要處理的數(shù)據(jù)集在很多情況下,并不是一潭死水,而是在不斷增長(zhǎng)的。對(duì)于一個(gè)企業(yè)來(lái)說(shuō),每天都會(huì)新增龐大的數(shù)據(jù),這些數(shù)據(jù)可能來(lái)自于用戶的操作、可能來(lái)自于智能家居、可能來(lái)自于各種傳感器等,數(shù)據(jù)的來(lái)源非常多,而且數(shù)據(jù)量的增速也是非??膳碌摹R蕴詫?、京東這類(lèi)的電商來(lái)說(shuō),每日新增的數(shù)據(jù)量達(dá)到幾百個(gè)GB是很正常的事情。在這樣快速的數(shù)據(jù)增長(zhǎng)的情況下,也對(duì)我們處理數(shù)據(jù)的速度有了較高的要求了。我們一定要優(yōu)化我們的業(yè)務(wù)邏輯,提高處理的速度,才不會(huì)造成數(shù)據(jù)積壓。 5、Veracity 中文翻譯是“真實(shí)性”的意思。大規(guī)模的數(shù)據(jù)量,在處理的時(shí)候,對(duì)技術(shù)體系是有較高的要求的。在還沒(méi)有形成現(xiàn)有的技術(shù)體系的年代,人們?cè)谔幚睚嫶蟮臄?shù)據(jù)集的時(shí)候,往往束手無(wú)策,要么實(shí)效性非常差,要么干脆無(wú)法處理。那個(gè)時(shí)代甚至流行一種做法:隨機(jī)抽樣。隨機(jī)的從龐大的數(shù)據(jù)集中抽取一部分出來(lái)進(jìn)行處理,以這樣的處理結(jié)果,作為整個(gè)數(shù)據(jù)集的處理結(jié)果。追求真實(shí)性的,可能會(huì)多隨機(jī)幾次。但是這個(gè)結(jié)果其實(shí)是不準(zhǔn)確的,并不能夠體現(xiàn)出這些數(shù)據(jù)完整的價(jià)值,甚至還可能得到錯(cuò)誤的結(jié)論。但是現(xiàn)在大數(shù)據(jù)的技術(shù)體系相對(duì)成熟,我們不再使用這樣的隨機(jī)抽樣的方式了。我們就是要對(duì)所有的數(shù)據(jù)進(jìn)行高效的處理,得出的結(jié)論自然也是正確的。
大數(shù)據(jù)的5V特征是Volume、Velocity、Variety、Veracity和Value,這些特征描述了大數(shù)據(jù)的規(guī)模、速度、多樣性、真實(shí)性和價(jià)值,對(duì)于理解和應(yīng)用大數(shù)據(jù)具有重要意義。
柚子快報(bào)邀請(qǐng)碼778899分享:大數(shù)據(jù)知識(shí)點(diǎn)之大數(shù)據(jù)5V特征
推薦閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。