柚子快報邀請碼778899分享:大數據 初識Hadoop
柚子快報邀請碼778899分享:大數據 初識Hadoop
1.1?初識Hadoop
1.1.1章節(jié)概要
隨著近幾年計算機技術和互聯網的發(fā)展,“大數據”這個詞被提及的越來越頻繁。與此同時,大數據的快速發(fā)展也在無時無刻的影響著我們的生活。例如,醫(yī)療方面,大數據能夠幫助醫(yī)生預測疾病;電商方面,大數據能夠向顧客個性化推薦商品;交通方面,大數據會幫助人們選擇最佳出行方案。
Hadoop作為一個能夠對大量數據進行分布式處理的軟件框架,用戶利用Hadoop生態(tài)體系開發(fā)和處理海量數據。由于Hadoop有可靠及高效的處理性能,使得它逐漸成為分析大數據的領先平臺。
1.1.2什么是大數據
高速發(fā)展的信息時代,新一輪科技革命和變革正在加速推進,技術創(chuàng)新日益成為重塑經濟發(fā)展模式和促進經濟增長的重要驅動力量,而“大數據”無疑是核心推動力。那么,什么是“大數據”呢?如果從字面意思來看,大數據指的是巨量數據。那么可能有人會問,多大量級的數據才叫大數據?不同的機構或學者有不同的理解,難以有一個非常定量的定義,只能說,大數據的計量單位已經越過TB級別發(fā)展到PB、EB、ZB、YB甚至BB來衡量。
最早提出“大數據”這一概念的是全球知名咨詢公司麥肯錫,他是這樣定義大數據的:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數據庫軟件工具能力范圍的數據集合,具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型以及價值密度四大特征。
研究機構Gartner是這樣定義大數據的:“大數據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流轉優(yōu)化能力來適應海量、高增長率和多樣化的信息資產。
1.1.3大數據的特征
大數據主要有以下四個方面的典型特征,即大量(Volume)、多樣(Varity)、高速(Velocity)和價值(Value),即所謂的4V
圖1.1.1 大數據特征
1.1.4為什么要研究大數據
現在的社會是一個高速發(fā)展的社會,科技發(fā)達,信息流通,人們之間的交流也越來越密切,生活也越來越便捷,然而大數據就是這個高科技時代的產物。阿里巴巴的創(chuàng)辦人馬云曾經說過,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology數據科技,這顯示出大數據對于阿里巴巴集團來說是舉足輕重的。
有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據并不在于“大”,而在于“有用”。數據的價值含量、挖掘成本比數量更為重要。對于很多行業(yè)而言,如何利用這些大規(guī)模數據,發(fā)掘其潛在價值,才是贏得核心競爭力的關鍵。
研究大數據,最重要的意義是預測。因為數據從根本上講,是對過去和現在的歸納和總結,其本身不具備趨勢和方向性的特征,但是我們可以應用大數據去了解事物發(fā)展的客觀規(guī)律、了解人類行為,并且能夠幫助我們改變過去的思維方式,建立新的數據思維模型,從而對未來進行預測和推測。知名互聯網公司谷歌對其用戶每天頻繁搜索的詞匯進行數據挖掘,從而進行相關的廣告推廣和商業(yè)研究。
1.1.5 大數據的應用場景
(1)醫(yī)療大數據看病更高效
大數據讓就醫(yī)、看病更簡單。隨著大數據在醫(yī)療行業(yè)的深度融合,大數據平臺積累了海量的病例、病例報告、治愈方案、藥物報告等信息資源,所有常見的病例、既往病例等都記錄在案,醫(yī)生通過有效、連續(xù)的診療記錄,給病人提供優(yōu)質、合理的診療方案。借助于大數據平臺,可以搜集不同病人的疾病特征、病例和治療方案,從而建立醫(yī)療行業(yè)的病人分類數據庫。在醫(yī)生診斷病人時可以參考病人的疾病特征、化驗報告和檢測報告,參考疾病數據庫來快速幫助病人確診。在制定治療方案時,醫(yī)生可以依據病人的基因特點,調取相似基因、年齡、人種、身體情況相同的有效治療方案,制定出適合病人的治療方案,幫助更多人及時進行治療。解決患者的疾病,最為簡單的方式就是防患于未然。通過大數據對于群眾的人體數據監(jiān)控,將各自的健康數據、生命體征指標都集合在數據庫和健康檔案中。群眾需要定期去做檢查,及時更新數據,以便于通過大數據來預防和預測疾病的發(fā)生,做到早治療、早康復。
(2)金融大數據理財利器
大數據在金融行業(yè)的應用可以總結為以下五個方面:
精準營銷:依據客戶消費習慣、地理位置、消費時間進行推薦
風險管控:依據客戶消費和現金流提供信用評級或融資支持,利用客戶社交行為記錄實施信用卡反欺詐
決策支持:利用抉策樹技術進抵押貸款管理,利用數據分析報告實施產業(yè)信貸風險控制
效率提升:利用金融行業(yè)全局數據了解業(yè)務運營薄弱點,利用大數據技術加快內部數據處理速度
產品設計:利用大數據計算技術為財富客戶推薦產品,利用客戶行為數據設計滿足客戶需求的金融產品
(3)零售大數據最懂消費者
在美國零售業(yè)上有這樣一個傳奇故事,某家商店將紙尿褲和啤酒并排放在一起銷售,結果紙尿褲和啤酒的銷量雙雙增長!為什么看起來風馬牛不相及的兩種商品搭配在一起,能取到如此驚人的效果呢?后來經過分析發(fā)現這些購買者多數是已婚男士,這些男士在為小孩買紙尿褲的同時,也會為自己買一些啤酒。發(fā)現這個秘密后,沃爾瑪超市就將啤酒擺放在尿不濕旁邊,顧客購買會更方便,銷量自然也會大幅上升。
企業(yè)進入或開拓某一區(qū)域零售行業(yè)市場,首先要進行項目評估和可行性分析,只有通過項目評估和可行性分析才能決定是否適合進入或者開拓這塊市場。通常分析這個區(qū)域流動人口、消費水平、客戶的消費習慣、市場對產品的認知度以及當前的市場供需情況等等,這些問題的背后包含的海量信息構成了零售行業(yè)市場調研的大數據,對這些大數據的分析就是零售行業(yè)市場精準定位的過程。
大數據時代的來臨,為企業(yè)收益管理工作的開展提供了廣闊的空間。需求預測、細分市場和敏感度分析對數據需求量很大,而傳統(tǒng)的數據分析大多是對企業(yè)自身的歷史數據進行預測和分析,容易忽視整個零售行業(yè)信息,因此預測結果難免會存在偏差。企業(yè)在實施收益管理過程中,如果在自有的數據基礎上,依靠自動化信息采集軟件來收集更多的零售行業(yè)數據,以此來了解更多的市場信息,這將會對制訂準確的收益策略,取得更高收益起到推進作用。
總結:以上是為大家舉例說明了大數據的應用場景,當然大數據技術的應用場景是遠遠不止這些的比如還有電商大數據、農牧大數據、交通大數據、教育大數據、體育大數據、環(huán)保大數據等多種大數據應用場景,不論是哪個行業(yè)的大數據分析和應用場景,可以看到一個典型的特點還是無法離開以人為中心所產生的各種用戶行為數據,用戶業(yè)務活動和交易記錄,用戶社交數據,這些核心數據的相關性再加上可感知設備的智能數據采集就構成一個完整的大數據生態(tài)環(huán)境。
1.1.6 什么是Hadoop
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構,一個能夠對大量數據進行分布式處理的軟件框架; Hadoop以一種可靠、高效、可伸縮的方式進行數據處理;用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。
1.1.7 Hadoop的優(yōu)勢
(1)高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
(2)高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節(jié)點中。
(3)高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數據,并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
(4)低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
1.1.8 Hadoop的生態(tài)系統(tǒng)
隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)體系越來越完善,現如今已經發(fā)展成一個龐大的生態(tài)體系。
圖1.1.2 Hadoop生態(tài)系統(tǒng)
(1)HDFS分布式文件系統(tǒng):HDFS是Hadoop的分布式文件系統(tǒng),它是Hadoop生態(tài)系統(tǒng)中的核心項目之一,是分布式計算中數據存儲管理基礎。
圖1.1.3 HDFS架構
(2)MapReduce分布式計算框架:MapReduce是一種計算模型,用于大規(guī)模數據集(大于1TB)的并行運算。其中Map對數據集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。Reduce則對中間結果中相同“鍵”的所有“值”進行規(guī)約,以得到最終結果。MapReduce這樣的功能劃分,非常適合在大量計算機組成的分布式并行環(huán)境里進行數據處理。
(3)Yarn資源管理框架:Yarn(Yet Another Resource Negotiator)是Hadoop 2.0中的資源管理器,它可為上層應用提供統(tǒng)一的資源管理和調度。
(4)Sqoop數據遷移工具:Sqoop是一款開源的數據導入導出工具,主要用于在Hadoop與傳統(tǒng)的數據庫間進行數據的轉換。Sqoop是SQL-to-Hadoop的縮寫,數據的導入和導出?本質上是Mapreduce程序,充分利用了MR的并行化和容錯性。
(5)Mahout數據挖掘算法庫:Mahout起源于2008年,最初是Apache Lucent的子項目,它在極短的時間內取得了長足的發(fā)展,現在是Apache的頂級項目。
Mahout的主要目標是創(chuàng)建一些可擴展的機器學習領域經典算法的實現,旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout現在已經包含了聚類、分類、推薦引擎(協同過濾)和頻繁集挖掘等廣泛使用的數據挖掘方法。除了算法,Mahout還包含數據的輸入/輸出工具、與其他存儲系統(tǒng)(如數據庫、MongoDB 或Cassandra)集成等數據挖掘支持架構。
(6)HBase分布式存儲系統(tǒng):HBase是Google Bigtable克隆版,它是一個針對結構化數據的可伸縮、高可靠、高性能、分布式和面向列的動態(tài)模式數據庫。和傳統(tǒng)關系數據庫不同,HBase采用了BigTable的數據模型:增強的稀疏排序映射表(Key/Value),其中,鍵由行關鍵字、列關鍵字和時間戳構成。HBase提供了對大規(guī)模數據的隨機、實時讀寫訪問,同時,HBase中保存的數據可以使用MapReduce來處理,它將數據存儲和并行計算完美地結合在一起。
(7)Zookeeper分布式協作服務:Zookeeper是一個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現,是Hadoop和HBase的重要組件。
(8)Hive基于Hadoop的數據倉庫:Hive是基于Hadoop的一個分布式數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,將SQL語句轉換為MapReduce任務進行運行。Hive定義了一種類似SQL的查詢語言(HQL),?將SQL轉化為MapReduce任務在Hadoop上執(zhí)行。通常用于離線分析。
(9)Flume日志收集工具:Cloudera開源的日志收集系統(tǒng),具有分布式、高可靠、高容錯、易于定制和擴展的特點。它將數據從產生、傳輸、處理并最終寫入目標的路徑的過程抽象為數據流,在具體的數據流中,數據源支持在Flume中定制數據發(fā)送方,從而支持收集各種不同協議數據。同時,Flume數據流提供對日志數據進行簡單處理的能力,如過濾、格式轉換等。此外,Flume還具有能夠將日志寫往各種數據目標(可定制)的能力??偟膩碚f,Flume是一個可擴展、適合復雜環(huán)境的海量日志收集系統(tǒng)。
1.1.9 Hadoop的版本
Hadoop發(fā)行版本分為開源社區(qū)版和商業(yè)版。社區(qū)版是指由Apache軟件基金會維護的版本,是官方維護的版本體系。商業(yè)版Hadoop是指由第三方商業(yè)公司在社區(qū)版Hadoop基礎上進行了一些修改、整合以及各個服務組件兼容性測試而發(fā)行的版本。
Hadoop自誕生以來,主要分為Hadoop1、Hadoop2、Hadoop3三個系列的多個版本,目前市場上最主流的是Hadoop2.x版本。Hadoop2.x版本指的是第2代 Hadoop,它是從Hadoop1.x發(fā)展而來的,并且相對于Hadoop1.x來說,有很多改進。
Hadoop1.0內核主要由分布式存儲系統(tǒng)HDFS和分布式計算框架MapReduce兩個系統(tǒng)組成,而Hadoop2.x版本主要新增了資源管理框架Yarn以及其他工作機制的改變。下圖是對比。
圖1.1.4 Hadoop1.0與Hadoop2.0對比
柚子快報邀請碼778899分享:大數據 初識Hadoop
參考鏈接
本文內容根據網絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯系刪除。