柚子快報(bào)激活碼778899分享:第十四章 大數(shù)據(jù)和數(shù)據(jù)科學(xué)
柚子快報(bào)激活碼778899分享:第十四章 大數(shù)據(jù)和數(shù)據(jù)科學(xué)
信息收斂三角
數(shù)據(jù)科學(xué) 數(shù)據(jù)科學(xué)將數(shù)據(jù)挖掘、統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)與數(shù)據(jù)集成整合,結(jié)合數(shù)據(jù)建模能力,去構(gòu)建預(yù)測(cè)模型、探索數(shù)據(jù)內(nèi)容模式。 分析對(duì)比
數(shù)倉和數(shù)據(jù)科學(xué)區(qū)別:
數(shù)據(jù)倉庫主要用于描述性分析,提供事后的結(jié)論
數(shù)據(jù)科學(xué)側(cè)重于預(yù)測(cè)性和規(guī)范性分析,旨在為未來提供預(yù)測(cè)和決策支持。 數(shù)據(jù)倉庫關(guān)注已發(fā)生事情的總結(jié),而數(shù)據(jù)科學(xué)強(qiáng)調(diào)對(duì)未來的洞察和預(yù)見。
數(shù)據(jù)科學(xué):
預(yù)測(cè)性分析,洞察,未來可能會(huì)發(fā)生什么 規(guī)范性分析,預(yù)見,我們?cè)撟鍪裁床拍鼙WC事情發(fā)生
數(shù)據(jù)科學(xué)的過程階段
2. 業(yè)務(wù)驅(qū)動(dòng)因素
從多種流程生成的數(shù)據(jù)集中發(fā)現(xiàn)的商機(jī)
3. 大數(shù)據(jù)
早期,人們通過3 V來定義大數(shù)據(jù)含義的特征:數(shù)據(jù)量大 (Volume)、數(shù)據(jù)更新快(Velocity)、數(shù)據(jù)類型多樣/可變(Variety)(Laney,2001)。隨著越來越多的組織開始深挖大數(shù)據(jù)的潛力,已經(jīng)不止于以上三個(gè)V。
V列表有了更多的擴(kuò)展:
1)數(shù)據(jù)量大(Volume)。大數(shù)據(jù)通常擁有上千個(gè)實(shí)體或數(shù)十億個(gè)記錄中的元素。 2)數(shù)據(jù)更新快(Velocity)。指數(shù)據(jù)被捕獲、生成或共享的速度。大數(shù)據(jù)通常實(shí)時(shí)地生成、分發(fā)及進(jìn)行分析。 3)數(shù)據(jù)類型多樣/可變(Variety/Variability)。指抓取或傳遞數(shù)據(jù)的形式。大數(shù)據(jù)需要多種格式儲(chǔ)存。通常,數(shù)據(jù)集內(nèi)或跨數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)是不一致的。 4)數(shù)據(jù)黏度大(Viscosity)。指數(shù)據(jù)使用或集成的難度比較高。 5)數(shù)據(jù)波動(dòng)性大(Volatility)。指數(shù)據(jù)更改的頻率,以及由此導(dǎo) 致的數(shù)據(jù)有效時(shí)間短。 6)數(shù)據(jù)準(zhǔn)確性低(Veracity)。指數(shù)據(jù)的可靠程度不高。
總結(jié):
數(shù)據(jù)量大(Volume) 數(shù)據(jù)更新快(Velocity) 數(shù)據(jù)更新快(Velocity) 數(shù)據(jù)黏度大(Viscosity) 數(shù)據(jù)波動(dòng)性大(Volatility) 數(shù)據(jù)準(zhǔn)確性低(Veracity)
2.1 大數(shù)據(jù)的來源?
結(jié)構(gòu)化的數(shù)據(jù)(數(shù)倉) 非結(jié)構(gòu)化的數(shù)據(jù)(進(jìn)數(shù)據(jù)湖)
3. 數(shù)據(jù)湖
數(shù)據(jù)湖是一種可以提取,存儲(chǔ),評(píng)估和分析不同類型和結(jié)構(gòu)海量數(shù)據(jù)的環(huán)境可供多種場(chǎng)景使用,例如:
1)數(shù)據(jù)科學(xué)家可以挖掘和分析數(shù)據(jù)的環(huán)境。 2)原始數(shù)據(jù)的集中存儲(chǔ)區(qū)域,只需很少量的轉(zhuǎn)換(如果需要的 話)。 3)數(shù)據(jù)倉庫明細(xì)歷史數(shù)據(jù)的備用存儲(chǔ)區(qū)域。 4)信息記錄的在線歸檔。 5)可以通過自動(dòng)化的模型識(shí)別提取流數(shù)據(jù)的環(huán)境。
數(shù)據(jù)湖的風(fēng)險(xiǎn)在于:它可能很快會(huì)變成數(shù)據(jù)沼澤——雜亂、不干 凈、不一致。為了建立數(shù)據(jù)湖中的內(nèi)容清單,在數(shù)據(jù)被攝取時(shí)對(duì)元數(shù)據(jù)進(jìn)行管理至關(guān)重要。
4. 基于服務(wù)的架構(gòu)(Lambda架構(gòu))
SBA架構(gòu)
批處理層(Batch Layer) 加速層(Speed Layer) 服務(wù)層(Serving Layer)
5. 機(jī)器學(xué)習(xí)(需要理解)
算法分類
監(jiān)督學(xué)習(xí)(Supervised learning) 基于通用規(guī)則(如將SPAM郵件與非SPAM郵件分開) (對(duì)于可能性的結(jié)果是可知的,比如預(yù)測(cè)一下明年的銷售額比今年多還是少) 無監(jiān)督學(xué)習(xí)(Unsupervised learning) 基于找到的那些隱藏的規(guī)律(數(shù)據(jù)挖掘) (無監(jiān)督學(xué)習(xí)可能性結(jié)果未知,比如預(yù)測(cè)一下明年的銷售額是多少) 監(jiān)督學(xué)習(xí)關(guān)注已發(fā)生動(dòng)作的預(yù)測(cè),無監(jiān)督學(xué)習(xí)關(guān)注無限可能性。
強(qiáng)化學(xué)習(xí)(Reinforcement learning) 基于目標(biāo)的實(shí)現(xiàn)(如在國際象棋中擊敗對(duì)手) (前面那一次的結(jié)果會(huì)作為下面這一次的一個(gè)輸入,所以它是不斷的越來越好,越來越好的這么一個(gè)過程)
6. 語義分析 NLP(自然語言分析)
7. 數(shù)據(jù)和文本挖掘
剖析(Profiling) 數(shù)據(jù)縮減(Data reduction) 關(guān)聯(lián)(Association) 聚類(Clustering) 自組織映射(Self-organizing maps)
8. 規(guī)范分析
規(guī)范分析(Prescriptive Analytics)比預(yù)測(cè)分析更進(jìn)一步,它對(duì)將會(huì)影響結(jié)果的動(dòng)作進(jìn)行定義,而不僅僅是根據(jù)已發(fā)生的動(dòng)作預(yù)測(cè)結(jié)果
9.數(shù)據(jù)可視化
通過使用圖片或圖形表示來解釋概念、想法和事實(shí)的過程。
10. 活動(dòng)
10.1 大數(shù)據(jù)戰(zhàn)略評(píng)估標(biāo)準(zhǔn)
1)組織試圖解決什么問題,需要分析什么 2)要使用或獲取的數(shù)據(jù)源是什么 3)提供數(shù)據(jù)的及時(shí)性和范圍 4)對(duì)其他數(shù)據(jù)結(jié)構(gòu)的影響以及與其他數(shù)據(jù)結(jié)構(gòu)的相關(guān)性 5)對(duì)現(xiàn)有建模數(shù)據(jù)的影響
11. 工具
MPP無共享技術(shù)和架構(gòu) 基于分布式文件的數(shù)據(jù)庫 數(shù)據(jù)庫內(nèi)算法 大數(shù)據(jù)云解決方案 統(tǒng)計(jì)計(jì)算和圖形語言 數(shù)據(jù)可視化工具集
12. 度量指標(biāo)
數(shù)據(jù)使用指標(biāo) 響應(yīng)和性能指標(biāo) 和掃描指標(biāo) 學(xué)習(xí)和故事場(chǎng)景
柚子快報(bào)激活碼778899分享:第十四章 大數(shù)據(jù)和數(shù)據(jù)科學(xué)
文章來源
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。