欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)激活碼778899分享:大數(shù)據(jù)-數(shù)據(jù)倉庫(原理+實(shí)戰(zhàn))

柚子快報(bào)激活碼778899分享:大數(shù)據(jù)-數(shù)據(jù)倉庫(原理+實(shí)戰(zhàn))

http://yzkb.51969.com/

1、簡介

誕生原因:歷史數(shù)據(jù)積存+企業(yè)分析數(shù)據(jù)需要(統(tǒng)一,不用建立多個數(shù)據(jù)抽取系統(tǒng)而且可以保證數(shù)據(jù)的一致性)data warehose DW數(shù)據(jù)集合(面向主題,集成,非易失,時變性)不允許修改

數(shù)據(jù)庫數(shù)據(jù)倉庫OLTP 在線事務(wù)處理 隨機(jī)讀取注重冗余,范式規(guī)范基于ER模型,面向應(yīng)用GB-TBOLAP 在線分析 批量讀寫注重?cái)?shù)據(jù)整合,引入冗余,反范式基于星形/雪花,面向主題>=TB

傳統(tǒng)數(shù)據(jù)倉庫大數(shù)據(jù)數(shù)據(jù)倉庫定義多個關(guān)系型數(shù)據(jù)庫組成MPP集群(大規(guī)模并行處理),一個數(shù)據(jù)多個節(jié)點(diǎn),結(jié)果是匯總分布式SQL引擎(SQL向大數(shù)據(jù)的轉(zhuǎn)換)-大數(shù)據(jù)計(jì)算引擎-分布式文件系統(tǒng)優(yōu)缺點(diǎn)擴(kuò)展性有限:需要用到數(shù)據(jù)交換,要用高速網(wǎng)絡(luò),限制節(jié)點(diǎn)上線分庫分表也存在上限,力度越細(xì),性能越差熱點(diǎn)問題:如果高頻訪問數(shù)據(jù)只存在了一個節(jié)點(diǎn),會容易出問題可擴(kuò)展:文件系統(tǒng),把結(jié)構(gòu)數(shù)據(jù)變成文件,很粗獷,不細(xì)分,利于擴(kuò)展性解決熱點(diǎn):對數(shù)據(jù)進(jìn)行備份,備份三份,分發(fā)任務(wù)的時候可以選擇一個空閑的數(shù)據(jù)節(jié)點(diǎn)。問題在于SQL支持率較低,缺少事務(wù)支持,數(shù)據(jù)量較小的時候慢。兩個架構(gòu)區(qū)別單機(jī)數(shù)據(jù)庫節(jié)點(diǎn)組成集群非共享,每個節(jié)點(diǎn)有獨(dú)立的磁盤存儲和內(nèi)存系統(tǒng),不關(guān)心其他節(jié)點(diǎn)。但是只能作為一個整體去提供服務(wù)。通過專用網(wǎng)絡(luò)連接,速度很快。架構(gòu)上遵從數(shù)據(jù)一致性(C)事務(wù)、然后A可用性、然后P分區(qū)容錯性。所以更注重鎖、事務(wù)啥的。太精細(xì)了,只適合中等的。缺陷:數(shù)據(jù)存儲不透明,分配的時候用的是HASH,但是查詢時候所有節(jié)點(diǎn)都進(jìn)行。擴(kuò)展性問題,單個節(jié)點(diǎn)一定成為系統(tǒng)的短板。隨著集群增大,節(jié)點(diǎn)故障率會越來越高。也稱為批處理、Hadoop場地自治,可以單獨(dú)運(yùn)行局部應(yīng)用。數(shù)據(jù)是共享的。計(jì)算的時候,訪問公共存儲系統(tǒng),找到位置。通過局域網(wǎng)、廣域網(wǎng),所以在運(yùn)算的時候要減少數(shù)據(jù)移動。優(yōu)先考慮P(分區(qū)容錯性)、A可用性、C一致性。(數(shù)據(jù)存在多個節(jié)點(diǎn)上,備份。)這兩個合起來:數(shù)據(jù)存儲采用分布式架構(gòu)中的公共存儲,提高分區(qū)容錯性,但是上層用MPP,減少運(yùn)算延遲常見產(chǎn)品oracle:單個集群只能支持100左右,適合數(shù)據(jù)量不大的場景DB2:半身是mpp架構(gòu),并不占優(yōu)勢。teradata:商業(yè)數(shù)據(jù)庫,一體機(jī),自帶數(shù)據(jù)引擎和查詢greeplum:開源。學(xué)習(xí)資料多。穩(wěn)定性。易用性,性能比teradata差hive:SQL轉(zhuǎn)成MapReduce,也支持轉(zhuǎn)spark。海量數(shù)據(jù) hqlsparkSQL:運(yùn)行更快hbase:底層是nosql 實(shí)時流處理 非結(jié)構(gòu)化 ddl頻繁impala:數(shù)據(jù)查詢,底層兼容hive,sparkSQL,Hbase。提供快速交互查詢。一般作為數(shù)據(jù)倉庫的查詢接口HAWQ:分布式+mppTIDB:mpp+smp,nosql存儲,同時用來做olap/oltp,更側(cè)重oltp

2、數(shù)據(jù)倉庫架構(gòu)

ETL:定期從業(yè)務(wù)數(shù)據(jù)庫同步數(shù)據(jù),sqoop、kattle、flume

本身對數(shù)據(jù)庫的抽取不復(fù)雜,對于非結(jié)構(gòu)化的比較復(fù)雜,比如日志,這個時候會清晰復(fù)雜

ODS-操作數(shù)據(jù)源層:原始數(shù)據(jù) ——非易失CDM-公共維度模型層:首先是DMD數(shù)據(jù)明細(xì)層,對原始數(shù)據(jù)統(tǒng)一規(guī)范后的數(shù)據(jù)

其次是數(shù)據(jù)匯總層DWS,對明細(xì)表進(jìn)行匯總,匯成一個寬表,減少對其他表的join對寬表可能進(jìn)行數(shù)據(jù)建模,以模型形式儲存

ADS-數(shù)據(jù)應(yīng)用層:主要注重查詢速度,也被叫做數(shù)據(jù)集市。

ETL

這個部分占比60%-80%,之后數(shù)據(jù)進(jìn)入ODS里

數(shù)據(jù)抽取不同數(shù)據(jù):結(jié)構(gòu)化——JDBC:很慢,IO問題,這種會選擇在凌晨,有業(yè)務(wù)甚至不允許結(jié)構(gòu)化——數(shù)據(jù)庫日志,直接采,不走IO對于非/半結(jié)構(gòu)——監(jiān)聽文件變動 更新最新抽取方式:全量同步(剛開始)+增量數(shù)據(jù)轉(zhuǎn)換清洗 主要是非結(jié)構(gòu)化、半結(jié)構(gòu)轉(zhuǎn)換 標(biāo)準(zhǔn)化 字段、數(shù)據(jù)類型數(shù)據(jù)加載導(dǎo)入到目標(biāo)源

工具:sqoop 1.x 抽取 從業(yè)務(wù)數(shù)據(jù)庫kettle 可視化 datastage informatica/kafka 消息隊(duì)列 也提供ETL 數(shù)據(jù)抽取存在隊(duì)列里面半結(jié)構(gòu)化:flume/logstash(日志監(jiān)控)

ODS操作數(shù)據(jù)層

可以擴(kuò)充字段,用來管理數(shù)據(jù)(update_type)全量導(dǎo)入/增量導(dǎo)入(區(qū)分是新增還是修改的 與現(xiàn)在的ods表join一下 如果沒有就是追加)增量數(shù)據(jù)與歷史數(shù)據(jù)做一個外連接,直接可以判斷

DWD數(shù)據(jù)明細(xì)層

維度退化(時間/分類/地域),多張表匯總到一張表上

DWS數(shù)據(jù)匯總表

定期信息匯總表 脫離三范式

ADS數(shù)據(jù)應(yīng)用層

存儲數(shù)據(jù)結(jié)果,為不同業(yè)務(wù)場景提供借口不同場景提供不同的 報(bào)表——kylin 并發(fā)查詢-hbase 搜索檢索-elastic search

3、建模

OLTP(在線事務(wù)處理)系統(tǒng)中,主要操作事隨機(jī)讀寫,減少冗余,使用關(guān)系模型OLAP(在線聯(lián)機(jī)分析)復(fù)雜分析查詢,分析/處理ROLAP:關(guān)系模型構(gòu)建 MOLAP:預(yù)先聚合計(jì)算,使用多維數(shù)組 依賴數(shù)倉產(chǎn)品選型HOLAP:上面兩者的集成 低層是關(guān)系型的 高層是多維矩陣型的 依賴數(shù)倉產(chǎn)品選型

ROLAP

主要是dws層ER模型——datavalue模型——anchor模型——維度模型(最流行)前三個是比較穩(wěn)定維度模型比較靈活維度表/事實(shí)表,維度是對事實(shí)的一種組織比如要查詢今天的數(shù)據(jù),時間就是維度 維度模型可以分為星型模型,中間是事實(shí)表,周圍是維度表

星型模型標(biāo)準(zhǔn)的只有一層多層維度——雪花模型星座模型-事實(shí)表會共享一些維度表

寬表模型——維度冗余到事實(shí)表中

molap

其實(shí)不是靠人工 而是靠產(chǎn)品的選型 主要是ads層 主要是加快結(jié)果查詢cube模型 多維數(shù)組 是一個魔方kylin;獲取數(shù)據(jù) 進(jìn)行加工 存到hbase.

多維分析

低層次到高層次——上卷roll-up下鉆——drill- down 切片選擇某個維度,切塊就是同時選了多個維度旋轉(zhuǎn)——維度方向的互換

4、最佳實(shí)踐

表的分類

事實(shí)表 現(xiàn)實(shí)存在的業(yè)務(wù)對象 事務(wù)事實(shí)表:順序追加 之前的數(shù)據(jù)不會修改。交易流水 周期快照事實(shí)表: 隨著周期變化 需要計(jì)算。比如間隔周期內(nèi)的度量統(tǒng)計(jì)比如 年累計(jì) 每天統(tǒng)計(jì)(年初到現(xiàn)在) 周期+狀態(tài)度量相比事務(wù)事實(shí)表,計(jì)算量要小一點(diǎn) 累計(jì)快照事實(shí)表:不確定周期的度量統(tǒng)計(jì)多個時間字段,記錄關(guān)鍵時間點(diǎn) : 比如一個訂單從下單到支付。具體實(shí)現(xiàn):日期分區(qū)表:每天分區(qū)存儲昨天全量數(shù)據(jù)與當(dāng)天增量數(shù)據(jù)合并的結(jié)果,但是會有存儲大量不更新的冷數(shù)據(jù),對性能影響較大,適用于數(shù)據(jù)量少的情況日期分區(qū)表:基于第一種方式進(jìn)行更新,推測出數(shù)據(jù)最長的生命周期,來存儲,周期外的冷數(shù)據(jù)就歸檔表。(比如推測訂單的周期是一個月,一個月之前的數(shù)據(jù)就不要)。但是這方式也要存儲多天的分區(qū)數(shù)據(jù)。日期分區(qū)表:以業(yè)務(wù)實(shí)體的結(jié)束時間進(jìn)行分區(qū),每天的分區(qū)就放那個當(dāng)天結(jié)束的數(shù)據(jù),設(shè)置一個時間非常大的分區(qū) 9999-12-31,沒結(jié)束的數(shù)據(jù)就在這個里面更新。這樣的話數(shù)據(jù)量不會很大,無存儲浪費(fèi)。存在的問題就是業(yè)務(wù)可能沒法標(biāo)識業(yè)務(wù)實(shí)體的結(jié)束時間,可以用其他相關(guān)業(yè)務(wù)系統(tǒng)的結(jié)束標(biāo)志來替代。 維度表 碼表 直觀上就是對數(shù)據(jù)進(jìn)行篩選或者組織 進(jìn)行聚合運(yùn)算 拉鏈表: 可以看到300.5的這個 待支付這個狀態(tài)1.3的時候結(jié)束了 變成已支付

ETL策略

全量同步

1、是數(shù)據(jù)初始化裝載jdbcogg cdc(開源免費(fèi))2、由于給的就是全量表 就是只能全量同步

增量同步

結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)庫日志ogg ,cdc jdbc(使用創(chuàng)建時間啥的篩選 SQL)非結(jié)構(gòu)化/半結(jié)構(gòu)化:抽取數(shù)據(jù)自帶數(shù)據(jù)監(jiān)控功能,可以實(shí)時監(jiān)控變動的數(shù)據(jù)增量數(shù)據(jù)和歷史數(shù)據(jù) outjoin 然后在歷史數(shù)據(jù)里面更新 重寫覆蓋數(shù)據(jù)

任務(wù)調(diào)度

可以解決依賴關(guān)系,自動化shell 啟動數(shù)倉組件java/mapreduce 數(shù)據(jù)清洗 自定義功能sql ddl/數(shù)據(jù)處理常見工具:azkaban/Oozie

5、項(xiàng)目實(shí)戰(zhàn)

背景

背景:數(shù)據(jù)積存,需要分析,提供分析訪問接口。目標(biāo):完成用戶復(fù)購率分析計(jì)算。一級品類下,品牌月單次復(fù)購率,多次復(fù)購率表:訂單表/訂單詳情表(用戶、商品ID)/商品表(商品ID,品牌ID、品類ID)/用戶表/商品一級分類/二級分類/三級分類(通過三級分類依次關(guān)聯(lián)到一級分類)

架構(gòu)

presto 快速查詢

環(huán)境安裝-略

虛擬機(jī)是oracle vm virtualxshell-連接虛擬機(jī)為啥要改IP地址?

虛擬機(jī)修改IP地址的背后原因包括:?

方便遠(yuǎn)程訪問和連接:?通過將IP地址設(shè)置為靜態(tài),?可以方便地使用遠(yuǎn)程連接工具(?如xshell)?進(jìn)行連接,?避免了每次需要重新查詢虛擬機(jī)IP地址的麻煩,?提高了工作效率。?滿足多臺虛擬機(jī)之間互聯(lián)的需求:?在某些情況下,?可能需要多臺虛擬機(jī)之間進(jìn)行互聯(lián),?通過設(shè)置靜態(tài)IP地址,?可以確保虛擬機(jī)之間的網(wǎng)絡(luò)連接穩(wěn)定性,?滿足特定的網(wǎng)絡(luò)需求

用的腳本安裝

項(xiàng)目開發(fā)

業(yè)務(wù)數(shù)據(jù)生成

create database mall建表—商品分類數(shù)據(jù)插入——函數(shù)腳本——存儲過程腳本

ETL數(shù)據(jù)導(dǎo)入

調(diào)用 sqoop :swoop_import 腳本兩個參數(shù):一個表名,一個時間提交成mapreduce ,swoop 作業(yè)沒有reduce,只有map執(zhí)行完成查看文件系統(tǒng)

創(chuàng)建ODS層,完成HDFS數(shù)據(jù)接入

建表:8張表 保持和原數(shù)據(jù)一致ods_ddl create database if not exists mall;use mall;drop table if exists ods order_info;create table ods_order_info(數(shù)據(jù)導(dǎo)入:傳入?yún)?shù) 時間

DWD層分析

建表:5個表 改變一個商品分類表 擴(kuò)充了品類數(shù)據(jù)導(dǎo)入:制定hive運(yùn)行非嚴(yán)格insert overwrite table “&APP”,dwd_order_info partition(dt)特別注意商品表可以看到hive中已經(jīng)有了,注意不同的層命名方式不同

DWS層分析

注意匯聚成建表:數(shù)據(jù)導(dǎo)入:

ADS層分析

建表數(shù)據(jù)導(dǎo)入、ADS數(shù)據(jù)導(dǎo)出導(dǎo)出到mysql數(shù)據(jù)導(dǎo)入還用swoop sqoop_export.sh

Azkaban調(diào)度

import.jobods.jobdwd.jobdws.jobads.jobexport.job把這些文件壓縮成mall-job在三個節(jié)點(diǎn)上啟動在上面看到可以調(diào)度

柚子快報(bào)激活碼778899分享:大數(shù)據(jù)-數(shù)據(jù)倉庫(原理+實(shí)戰(zhàn))

http://yzkb.51969.com/

推薦文章

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19256728.html

發(fā)布評論

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄