柚子快報(bào)邀請碼778899分享:大數(shù)據(jù) 初識Hadoop
柚子快報(bào)邀請碼778899分享:大數(shù)據(jù) 初識Hadoop
1.1?初識Hadoop
1.1.1章節(jié)概要
隨著近幾年計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的發(fā)展,“大數(shù)據(jù)”這個(gè)詞被提及的越來越頻繁。與此同時(shí),大數(shù)據(jù)的快速發(fā)展也在無時(shí)無刻的影響著我們的生活。例如,醫(yī)療方面,大數(shù)據(jù)能夠幫助醫(yī)生預(yù)測疾??;電商方面,大數(shù)據(jù)能夠向顧客個(gè)性化推薦商品;交通方面,大數(shù)據(jù)會幫助人們選擇最佳出行方案。
Hadoop作為一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,用戶利用Hadoop生態(tài)體系開發(fā)和處理海量數(shù)據(jù)。由于Hadoop有可靠及高效的處理性能,使得它逐漸成為分析大數(shù)據(jù)的領(lǐng)先平臺。
1.1.2什么是大數(shù)據(jù)
高速發(fā)展的信息時(shí)代,新一輪科技革命和變革正在加速推進(jìn),技術(shù)創(chuàng)新日益成為重塑經(jīng)濟(jì)發(fā)展模式和促進(jìn)經(jīng)濟(jì)增長的重要驅(qū)動(dòng)力量,而“大數(shù)據(jù)”無疑是核心推動(dòng)力。那么,什么是“大數(shù)據(jù)”呢?如果從字面意思來看,大數(shù)據(jù)指的是巨量數(shù)據(jù)。那么可能有人會問,多大量級的數(shù)據(jù)才叫大數(shù)據(jù)?不同的機(jī)構(gòu)或?qū)W者有不同的理解,難以有一個(gè)非常定量的定義,只能說,大數(shù)據(jù)的計(jì)量單位已經(jīng)越過TB級別發(fā)展到PB、EB、ZB、YB甚至BB來衡量。
最早提出“大數(shù)據(jù)”這一概念的是全球知名咨詢公司麥肯錫,他是這樣定義大數(shù)據(jù)的:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型以及價(jià)值密度四大特征。
研究機(jī)構(gòu)Gartner是這樣定義大數(shù)據(jù)的:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流轉(zhuǎn)優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。
1.1.3大數(shù)據(jù)的特征
大數(shù)據(jù)主要有以下四個(gè)方面的典型特征,即大量(Volume)、多樣(Varity)、高速(Velocity)和價(jià)值(Value),即所謂的4V
圖1.1.1 大數(shù)據(jù)特征
1.1.4為什么要研究大數(shù)據(jù)
現(xiàn)在的社會是一個(gè)高速發(fā)展的社會,科技發(fā)達(dá),信息流通,人們之間的交流也越來越密切,生活也越來越便捷,然而大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。阿里巴巴的創(chuàng)辦人馬云曾經(jīng)說過,未來的時(shí)代將不是IT時(shí)代,而是DT的時(shí)代,DT就是Data Technology數(shù)據(jù)科技,這顯示出大數(shù)據(jù)對于阿里巴巴集團(tuán)來說是舉足輕重的。
有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在于“大”,而在于“有用”。數(shù)據(jù)的價(jià)值含量、挖掘成本比數(shù)量更為重要。對于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù),發(fā)掘其潛在價(jià)值,才是贏得核心競爭力的關(guān)鍵。
研究大數(shù)據(jù),最重要的意義是預(yù)測。因?yàn)閿?shù)據(jù)從根本上講,是對過去和現(xiàn)在的歸納和總結(jié),其本身不具備趨勢和方向性的特征,但是我們可以應(yīng)用大數(shù)據(jù)去了解事物發(fā)展的客觀規(guī)律、了解人類行為,并且能夠幫助我們改變過去的思維方式,建立新的數(shù)據(jù)思維模型,從而對未來進(jìn)行預(yù)測和推測。知名互聯(lián)網(wǎng)公司谷歌對其用戶每天頻繁搜索的詞匯進(jìn)行數(shù)據(jù)挖掘,從而進(jìn)行相關(guān)的廣告推廣和商業(yè)研究。
1.1.5 大數(shù)據(jù)的應(yīng)用場景
(1)醫(yī)療大數(shù)據(jù)看病更高效
大數(shù)據(jù)讓就醫(yī)、看病更簡單。隨著大數(shù)據(jù)在醫(yī)療行業(yè)的深度融合,大數(shù)據(jù)平臺積累了海量的病例、病例報(bào)告、治愈方案、藥物報(bào)告等信息資源,所有常見的病例、既往病例等都記錄在案,醫(yī)生通過有效、連續(xù)的診療記錄,給病人提供優(yōu)質(zhì)、合理的診療方案。借助于大數(shù)據(jù)平臺,可以搜集不同病人的疾病特征、病例和治療方案,從而建立醫(yī)療行業(yè)的病人分類數(shù)據(jù)庫。在醫(yī)生診斷病人時(shí)可以參考病人的疾病特征、化驗(yàn)報(bào)告和檢測報(bào)告,參考疾病數(shù)據(jù)庫來快速幫助病人確診。在制定治療方案時(shí),醫(yī)生可以依據(jù)病人的基因特點(diǎn),調(diào)取相似基因、年齡、人種、身體情況相同的有效治療方案,制定出適合病人的治療方案,幫助更多人及時(shí)進(jìn)行治療。解決患者的疾病,最為簡單的方式就是防患于未然。通過大數(shù)據(jù)對于群眾的人體數(shù)據(jù)監(jiān)控,將各自的健康數(shù)據(jù)、生命體征指標(biāo)都集合在數(shù)據(jù)庫和健康檔案中。群眾需要定期去做檢查,及時(shí)更新數(shù)據(jù),以便于通過大數(shù)據(jù)來預(yù)防和預(yù)測疾病的發(fā)生,做到早治療、早康復(fù)。
(2)金融大數(shù)據(jù)理財(cái)利器
大數(shù)據(jù)在金融行業(yè)的應(yīng)用可以總結(jié)為以下五個(gè)方面:
精準(zhǔn)營銷:依據(jù)客戶消費(fèi)習(xí)慣、地理位置、消費(fèi)時(shí)間進(jìn)行推薦
風(fēng)險(xiǎn)管控:依據(jù)客戶消費(fèi)和現(xiàn)金流提供信用評級或融資支持,利用客戶社交行為記錄實(shí)施信用卡反欺詐
決策支持:利用抉策樹技術(shù)進(jìn)抵押貸款管理,利用數(shù)據(jù)分析報(bào)告實(shí)施產(chǎn)業(yè)信貸風(fēng)險(xiǎn)控制
效率提升:利用金融行業(yè)全局?jǐn)?shù)據(jù)了解業(yè)務(wù)運(yùn)營薄弱點(diǎn),利用大數(shù)據(jù)技術(shù)加快內(nèi)部數(shù)據(jù)處理速度
產(chǎn)品設(shè)計(jì):利用大數(shù)據(jù)計(jì)算技術(shù)為財(cái)富客戶推薦產(chǎn)品,利用客戶行為數(shù)據(jù)設(shè)計(jì)滿足客戶需求的金融產(chǎn)品
(3)零售大數(shù)據(jù)最懂消費(fèi)者
在美國零售業(yè)上有這樣一個(gè)傳奇故事,某家商店將紙尿褲和啤酒并排放在一起銷售,結(jié)果紙尿褲和啤酒的銷量雙雙增長!為什么看起來風(fēng)馬牛不相及的兩種商品搭配在一起,能取到如此驚人的效果呢?后來經(jīng)過分析發(fā)現(xiàn)這些購買者多數(shù)是已婚男士,這些男士在為小孩買紙尿褲的同時(shí),也會為自己買一些啤酒。發(fā)現(xiàn)這個(gè)秘密后,沃爾瑪超市就將啤酒擺放在尿不濕旁邊,顧客購買會更方便,銷量自然也會大幅上升。
企業(yè)進(jìn)入或開拓某一區(qū)域零售行業(yè)市場,首先要進(jìn)行項(xiàng)目評估和可行性分析,只有通過項(xiàng)目評估和可行性分析才能決定是否適合進(jìn)入或者開拓這塊市場。通常分析這個(gè)區(qū)域流動(dòng)人口、消費(fèi)水平、客戶的消費(fèi)習(xí)慣、市場對產(chǎn)品的認(rèn)知度以及當(dāng)前的市場供需情況等等,這些問題的背后包含的海量信息構(gòu)成了零售行業(yè)市場調(diào)研的大數(shù)據(jù),對這些大數(shù)據(jù)的分析就是零售行業(yè)市場精準(zhǔn)定位的過程。
大數(shù)據(jù)時(shí)代的來臨,為企業(yè)收益管理工作的開展提供了廣闊的空間。需求預(yù)測、細(xì)分市場和敏感度分析對數(shù)據(jù)需求量很大,而傳統(tǒng)的數(shù)據(jù)分析大多是對企業(yè)自身的歷史數(shù)據(jù)進(jìn)行預(yù)測和分析,容易忽視整個(gè)零售行業(yè)信息,因此預(yù)測結(jié)果難免會存在偏差。企業(yè)在實(shí)施收益管理過程中,如果在自有的數(shù)據(jù)基礎(chǔ)上,依靠自動(dòng)化信息采集軟件來收集更多的零售行業(yè)數(shù)據(jù),以此來了解更多的市場信息,這將會對制訂準(zhǔn)確的收益策略,取得更高收益起到推進(jìn)作用。
總結(jié):以上是為大家舉例說明了大數(shù)據(jù)的應(yīng)用場景,當(dāng)然大數(shù)據(jù)技術(shù)的應(yīng)用場景是遠(yuǎn)遠(yuǎn)不止這些的比如還有電商大數(shù)據(jù)、農(nóng)牧大數(shù)據(jù)、交通大數(shù)據(jù)、教育大數(shù)據(jù)、體育大數(shù)據(jù)、環(huán)保大數(shù)據(jù)等多種大數(shù)據(jù)應(yīng)用場景,不論是哪個(gè)行業(yè)的大數(shù)據(jù)分析和應(yīng)用場景,可以看到一個(gè)典型的特點(diǎn)還是無法離開以人為中心所產(chǎn)生的各種用戶行為數(shù)據(jù),用戶業(yè)務(wù)活動(dòng)和交易記錄,用戶社交數(shù)據(jù),這些核心數(shù)據(jù)的相關(guān)性再加上可感知設(shè)備的智能數(shù)據(jù)采集就構(gòu)成一個(gè)完整的大數(shù)據(jù)生態(tài)環(huán)境。
1.1.6 什么是Hadoop
Hadoop是一個(gè)由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架; Hadoop以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理;用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。
1.1.7 Hadoop的優(yōu)勢
(1)高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
(2)高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
(3)高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
(4)低成本。與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項(xiàng)目的軟件成本因此會大大降低。
1.1.8 Hadoop的生態(tài)系統(tǒng)
隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)體系越來越完善,現(xiàn)如今已經(jīng)發(fā)展成一個(gè)龐大的生態(tài)體系。
圖1.1.2 Hadoop生態(tài)系統(tǒng)
(1)HDFS分布式文件系統(tǒng):HDFS是Hadoop的分布式文件系統(tǒng),它是Hadoop生態(tài)系統(tǒng)中的核心項(xiàng)目之一,是分布式計(jì)算中數(shù)據(jù)存儲管理基礎(chǔ)。
圖1.1.3 HDFS架構(gòu)
(2)MapReduce分布式計(jì)算框架:MapReduce是一種計(jì)算模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。其中Map對數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵-值對形式中間結(jié)果。Reduce則對中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce這樣的功能劃分,非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。
(3)Yarn資源管理框架:Yarn(Yet Another Resource Negotiator)是Hadoop 2.0中的資源管理器,它可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。
(4)Sqoop數(shù)據(jù)遷移工具:Sqoop是一款開源的數(shù)據(jù)導(dǎo)入導(dǎo)出工具,主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的轉(zhuǎn)換。Sqoop是SQL-to-Hadoop的縮寫,數(shù)據(jù)的導(dǎo)入和導(dǎo)出?本質(zhì)上是Mapreduce程序,充分利用了MR的并行化和容錯(cuò)性。
(5)Mahout數(shù)據(jù)挖掘算法庫:Mahout起源于2008年,最初是Apache Lucent的子項(xiàng)目,它在極短的時(shí)間內(nèi)取得了長足的發(fā)展,現(xiàn)在是Apache的頂級項(xiàng)目。
Mahout的主要目標(biāo)是創(chuàng)建一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法,Mahout還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)。
(6)HBase分布式存儲系統(tǒng):HBase是Google Bigtable克隆版,它是一個(gè)針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同,HBase采用了BigTable的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。HBase提供了對大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問,同時(shí),HBase中保存的數(shù)據(jù)可以使用MapReduce來處理,它將數(shù)據(jù)存儲和并行計(jì)算完美地結(jié)合在一起。
(7)Zookeeper分布式協(xié)作服務(wù):Zookeeper是一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個(gè)開源的實(shí)現(xiàn),是Hadoop和HBase的重要組件。
(8)Hive基于Hadoop的數(shù)據(jù)倉庫:Hive是基于Hadoop的一個(gè)分布式數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。Hive定義了一種類似SQL的查詢語言(HQL),?將SQL轉(zhuǎn)化為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于離線分析。
(9)Flume日志收集工具:Cloudera開源的日志收集系統(tǒng),具有分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展的特點(diǎn)。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。同時(shí),F(xiàn)lume數(shù)據(jù)流提供對日志數(shù)據(jù)進(jìn)行簡單處理的能力,如過濾、格式轉(zhuǎn)換等。此外,F(xiàn)lume還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)(可定制)的能力??偟膩碚f,F(xiàn)lume是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。
1.1.9 Hadoop的版本
Hadoop發(fā)行版本分為開源社區(qū)版和商業(yè)版。社區(qū)版是指由Apache軟件基金會維護(hù)的版本,是官方維護(hù)的版本體系。商業(yè)版Hadoop是指由第三方商業(yè)公司在社區(qū)版Hadoop基礎(chǔ)上進(jìn)行了一些修改、整合以及各個(gè)服務(wù)組件兼容性測試而發(fā)行的版本。
Hadoop自誕生以來,主要分為Hadoop1、Hadoop2、Hadoop3三個(gè)系列的多個(gè)版本,目前市場上最主流的是Hadoop2.x版本。Hadoop2.x版本指的是第2代 Hadoop,它是從Hadoop1.x發(fā)展而來的,并且相對于Hadoop1.x來說,有很多改進(jìn)。
Hadoop1.0內(nèi)核主要由分布式存儲系統(tǒng)HDFS和分布式計(jì)算框架MapReduce兩個(gè)系統(tǒng)組成,而Hadoop2.x版本主要新增了資源管理框架Yarn以及其他工作機(jī)制的改變。下圖是對比。
圖1.1.4 Hadoop1.0與Hadoop2.0對比
柚子快報(bào)邀請碼778899分享:大數(shù)據(jù) 初識Hadoop
參考鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。