欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

柚子快報(bào)激活碼778899分享：大數(shù)據(jù)-數(shù)據(jù)倉庫（原理+實(shí)戰(zhàn)）

Takelot速購族綜合2025-05-05190

柚子快報(bào)激活碼778899分享：大數(shù)據(jù)-數(shù)據(jù)倉庫（原理+實(shí)戰(zhàn)）

http://yzkb.51969.com/

1、簡介

誕生原因：歷史數(shù)據(jù)積存+企業(yè)分析數(shù)據(jù)需要（統(tǒng)一，不用建立多個數(shù)據(jù)抽取系統(tǒng)而且可以保證數(shù)據(jù)的一致性）data warehose DW數(shù)據(jù)集合（面向主題，集成，非易失，時變性）不允許修改

數(shù)據(jù)庫數(shù)據(jù)倉庫OLTP 在線事務(wù)處理隨機(jī)讀取注重冗余，范式規(guī)范基于ER模型，面向應(yīng)用GB-TBOLAP 在線分析批量讀寫注重?cái)?shù)據(jù)整合，引入冗余，反范式基于星形/雪花，面向主題>=TB

傳統(tǒng)數(shù)據(jù)倉庫大數(shù)據(jù)數(shù)據(jù)倉庫定義多個關(guān)系型數(shù)據(jù)庫組成MPP集群（大規(guī)模并行處理），一個數(shù)據(jù)多個節(jié)點(diǎn)，結(jié)果是匯總分布式SQL引擎（SQL向大數(shù)據(jù)的轉(zhuǎn)換）-大數(shù)據(jù)計(jì)算引擎-分布式文件系統(tǒng)優(yōu)缺點(diǎn)擴(kuò)展性有限：需要用到數(shù)據(jù)交換，要用高速網(wǎng)絡(luò)，限制節(jié)點(diǎn)上線分庫分表也存在上限，力度越細(xì)，性能越差熱點(diǎn)問題：如果高頻訪問數(shù)據(jù)只存在了一個節(jié)點(diǎn)，會容易出問題可擴(kuò)展：文件系統(tǒng)，把結(jié)構(gòu)數(shù)據(jù)變成文件，很粗獷，不細(xì)分，利于擴(kuò)展性解決熱點(diǎn)：對數(shù)據(jù)進(jìn)行備份，備份三份，分發(fā)任務(wù)的時候可以選擇一個空閑的數(shù)據(jù)節(jié)點(diǎn)。問題在于SQL支持率較低，缺少事務(wù)支持，數(shù)據(jù)量較小的時候慢。兩個架構(gòu)區(qū)別單機(jī)數(shù)據(jù)庫節(jié)點(diǎn)組成集群非共享，每個節(jié)點(diǎn)有獨(dú)立的磁盤存儲和內(nèi)存系統(tǒng)，不關(guān)心其他節(jié)點(diǎn)。但是只能作為一個整體去提供服務(wù)。通過專用網(wǎng)絡(luò)連接，速度很快。架構(gòu)上遵從數(shù)據(jù)一致性（C）事務(wù)、然后A可用性、然后P分區(qū)容錯性。所以更注重鎖、事務(wù)啥的。太精細(xì)了，只適合中等的。缺陷：數(shù)據(jù)存儲不透明，分配的時候用的是HASH,但是查詢時候所有節(jié)點(diǎn)都進(jìn)行。擴(kuò)展性問題，單個節(jié)點(diǎn)一定成為系統(tǒng)的短板。隨著集群增大，節(jié)點(diǎn)故障率會越來越高。也稱為批處理、Hadoop場地自治，可以單獨(dú)運(yùn)行局部應(yīng)用。數(shù)據(jù)是共享的。計(jì)算的時候，訪問公共存儲系統(tǒng)，找到位置。通過局域網(wǎng)、廣域網(wǎng)，所以在運(yùn)算的時候要減少數(shù)據(jù)移動。優(yōu)先考慮P（分區(qū)容錯性）、A可用性、C一致性。（數(shù)據(jù)存在多個節(jié)點(diǎn)上，備份。）這兩個合起來：數(shù)據(jù)存儲采用分布式架構(gòu)中的公共存儲，提高分區(qū)容錯性，但是上層用MPP，減少運(yùn)算延遲常見產(chǎn)品oracle：單個集群只能支持100左右，適合數(shù)據(jù)量不大的場景DB2：半身是mpp架構(gòu)，并不占優(yōu)勢。teradata：商業(yè)數(shù)據(jù)庫，一體機(jī)，自帶數(shù)據(jù)引擎和查詢greeplum：開源。學(xué)習(xí)資料多。穩(wěn)定性。易用性，性能比teradata差hive：SQL轉(zhuǎn)成MapReduce，也支持轉(zhuǎn)spark。海量數(shù)據(jù) hqlsparkSQL：運(yùn)行更快hbase：底層是nosql 實(shí)時流處理非結(jié)構(gòu)化 ddl頻繁impala：數(shù)據(jù)查詢，底層兼容hive，sparkSQL，Hbase。提供快速交互查詢。一般作為數(shù)據(jù)倉庫的查詢接口HAWQ：分布式+mppTIDB：mpp+smp，nosql存儲，同時用來做olap/oltp，更側(cè)重oltp

2、數(shù)據(jù)倉庫架構(gòu)

ETL：定期從業(yè)務(wù)數(shù)據(jù)庫同步數(shù)據(jù)，sqoop、kattle、flume

本身對數(shù)據(jù)庫的抽取不復(fù)雜，對于非結(jié)構(gòu)化的比較復(fù)雜，比如日志，這個時候會清晰復(fù)雜

ODS-操作數(shù)據(jù)源層：原始數(shù)據(jù) ——非易失CDM-公共維度模型層：首先是DMD數(shù)據(jù)明細(xì)層，對原始數(shù)據(jù)統(tǒng)一規(guī)范后的數(shù)據(jù)

其次是數(shù)據(jù)匯總層DWS，對明細(xì)表進(jìn)行匯總，匯成一個寬表，減少對其他表的join對寬表可能進(jìn)行數(shù)據(jù)建模，以模型形式儲存

ADS-數(shù)據(jù)應(yīng)用層：主要注重查詢速度，也被叫做數(shù)據(jù)集市。

ETL

這個部分占比60%-80%，之后數(shù)據(jù)進(jìn)入ODS里

數(shù)據(jù)抽取不同數(shù)據(jù)：結(jié)構(gòu)化——JDBC：很慢，IO問題，這種會選擇在凌晨，有業(yè)務(wù)甚至不允許結(jié)構(gòu)化——數(shù)據(jù)庫日志，直接采，不走IO對于非/半結(jié)構(gòu)——監(jiān)聽文件變動更新最新抽取方式：全量同步（剛開始）+增量數(shù)據(jù)轉(zhuǎn)換清洗主要是非結(jié)構(gòu)化、半結(jié)構(gòu)轉(zhuǎn)換標(biāo)準(zhǔn)化字段、數(shù)據(jù)類型數(shù)據(jù)加載導(dǎo)入到目標(biāo)源

工具：sqoop 1.x 抽取從業(yè)務(wù)數(shù)據(jù)庫kettle 可視化 datastage informatica/kafka 消息隊(duì)列也提供ETL 數(shù)據(jù)抽取存在隊(duì)列里面半結(jié)構(gòu)化：flume/logstash（日志監(jiān)控）

ODS操作數(shù)據(jù)層

可以擴(kuò)充字段，用來管理數(shù)據(jù)（update_type）全量導(dǎo)入/增量導(dǎo)入（區(qū)分是新增還是修改的與現(xiàn)在的ods表join一下如果沒有就是追加）增量數(shù)據(jù)與歷史數(shù)據(jù)做一個外連接，直接可以判斷

DWD數(shù)據(jù)明細(xì)層

維度退化（時間/分類/地域），多張表匯總到一張表上

DWS數(shù)據(jù)匯總表

定期信息匯總表脫離三范式

ADS數(shù)據(jù)應(yīng)用層

存儲數(shù)據(jù)結(jié)果，為不同業(yè)務(wù)場景提供借口不同場景提供不同的報(bào)表——kylin 并發(fā)查詢-hbase 搜索檢索-elastic search

3、建模

OLTP（在線事務(wù)處理）系統(tǒng)中，主要操作事隨機(jī)讀寫，減少冗余，使用關(guān)系模型OLAP（在線聯(lián)機(jī)分析）復(fù)雜分析查詢，分析/處理ROLAP：關(guān)系模型構(gòu)建 MOLAP：預(yù)先聚合計(jì)算，使用多維數(shù)組依賴數(shù)倉產(chǎn)品選型HOLAP：上面兩者的集成低層是關(guān)系型的高層是多維矩陣型的依賴數(shù)倉產(chǎn)品選型

ROLAP

主要是dws層ER模型——datavalue模型——anchor模型——維度模型（最流行）前三個是比較穩(wěn)定維度模型比較靈活維度表/事實(shí)表，維度是對事實(shí)的一種組織比如要查詢今天的數(shù)據(jù)，時間就是維度維度模型可以分為星型模型，中間是事實(shí)表，周圍是維度表

星型模型標(biāo)準(zhǔn)的只有一層多層維度——雪花模型星座模型-事實(shí)表會共享一些維度表

寬表模型——維度冗余到事實(shí)表中

molap

其實(shí)不是靠人工而是靠產(chǎn)品的選型主要是ads層主要是加快結(jié)果查詢cube模型多維數(shù)組是一個魔方kylin；獲取數(shù)據(jù) 進(jìn)行加工存到hbase.

多維分析

低層次到高層次——上卷roll-up下鉆——drill- down 切片選擇某個維度，切塊就是同時選了多個維度旋轉(zhuǎn)——維度方向的互換

4、最佳實(shí)踐

表的分類

事實(shí)表現(xiàn)實(shí)存在的業(yè)務(wù)對象事務(wù)事實(shí)表：順序追加之前的數(shù)據(jù)不會修改。交易流水周期快照事實(shí)表：隨著周期變化需要計(jì)算。比如間隔周期內(nèi)的度量統(tǒng)計(jì)比如年累計(jì) 每天統(tǒng)計(jì)（年初到現(xiàn)在）周期+狀態(tài)度量相比事務(wù)事實(shí)表，計(jì)算量要小一點(diǎn) 累計(jì)快照事實(shí)表：不確定周期的度量統(tǒng)計(jì)多個時間字段，記錄關(guān)鍵時間點(diǎn) ：比如一個訂單從下單到支付。具體實(shí)現(xiàn)：日期分區(qū)表：每天分區(qū)存儲昨天全量數(shù)據(jù)與當(dāng)天增量數(shù)據(jù)合并的結(jié)果，但是會有存儲大量不更新的冷數(shù)據(jù)，對性能影響較大，適用于數(shù)據(jù)量少的情況日期分區(qū)表：基于第一種方式進(jìn)行更新，推測出數(shù)據(jù)最長的生命周期，來存儲，周期外的冷數(shù)據(jù)就歸檔表。（比如推測訂單的周期是一個月，一個月之前的數(shù)據(jù)就不要）。但是這方式也要存儲多天的分區(qū)數(shù)據(jù)。日期分區(qū)表：以業(yè)務(wù)實(shí)體的結(jié)束時間進(jìn)行分區(qū)，每天的分區(qū)就放那個當(dāng)天結(jié)束的數(shù)據(jù)，設(shè)置一個時間非常大的分區(qū) 9999-12-31，沒結(jié)束的數(shù)據(jù)就在這個里面更新。這樣的話數(shù)據(jù)量不會很大，無存儲浪費(fèi)。存在的問題就是業(yè)務(wù)可能沒法標(biāo)識業(yè)務(wù)實(shí)體的結(jié)束時間，可以用其他相關(guān)業(yè)務(wù)系統(tǒng)的結(jié)束標(biāo)志來替代。維度表碼表直觀上就是對數(shù)據(jù)進(jìn)行篩選或者組織進(jìn)行聚合運(yùn)算拉鏈表：可以看到300.5的這個待支付這個狀態(tài)1.3的時候結(jié)束了變成已支付

ETL策略

全量同步

1、是數(shù)據(jù)初始化裝載jdbcogg cdc(開源免費(fèi)）2、由于給的就是全量表就是只能全量同步

增量同步

結(jié)構(gòu)化數(shù)據(jù)：數(shù)據(jù)庫日志ogg ,cdc jdbc（使用創(chuàng)建時間啥的篩選 SQL）非結(jié)構(gòu)化/半結(jié)構(gòu)化：抽取數(shù)據(jù)自帶數(shù)據(jù)監(jiān)控功能，可以實(shí)時監(jiān)控變動的數(shù)據(jù)增量數(shù)據(jù)和歷史數(shù)據(jù) outjoin 然后在歷史數(shù)據(jù)里面更新重寫覆蓋數(shù)據(jù)

任務(wù)調(diào)度

可以解決依賴關(guān)系，自動化shell 啟動數(shù)倉組件java/mapreduce 數(shù)據(jù)清洗自定義功能sql ddl/數(shù)據(jù)處理常見工具：azkaban/Oozie

5、項(xiàng)目實(shí)戰(zhàn)

背景

背景：數(shù)據(jù)積存，需要分析，提供分析訪問接口。目標(biāo)：完成用戶復(fù)購率分析計(jì)算。一級品類下，品牌月單次復(fù)購率，多次復(fù)購率表：訂單表/訂單詳情表（用戶、商品ID）/商品表（商品ID，品牌ID、品類ID）/用戶表/商品一級分類/二級分類/三級分類（通過三級分類依次關(guān)聯(lián)到一級分類）

架構(gòu)

presto 快速查詢

環(huán)境安裝-略

虛擬機(jī)是oracle vm virtualxshell-連接虛擬機(jī)為啥要改IP地址？

虛擬機(jī)修改IP地址的背后原因包括：?

方便遠(yuǎn)程訪問和連接：?通過將IP地址設(shè)置為靜態(tài)，?可以方便地使用遠(yuǎn)程連接工具（?如xshell）?進(jìn)行連接，?避免了每次需要重新查詢虛擬機(jī)IP地址的麻煩，?提高了工作效率。?滿足多臺虛擬機(jī)之間互聯(lián)的需求：?在某些情況下，?可能需要多臺虛擬機(jī)之間進(jìn)行互聯(lián)，?通過設(shè)置靜態(tài)IP地址，?可以確保虛擬機(jī)之間的網(wǎng)絡(luò)連接穩(wěn)定性，?滿足特定的網(wǎng)絡(luò)需求

用的腳本安裝

項(xiàng)目開發(fā)

業(yè)務(wù)數(shù)據(jù)生成

create database mall建表—商品分類數(shù)據(jù)插入——函數(shù)腳本——存儲過程腳本

ETL數(shù)據(jù)導(dǎo)入

調(diào)用 sqoop ：swoop_import 腳本兩個參數(shù)：一個表名，一個時間提交成mapreduce ，swoop 作業(yè)沒有reduce，只有map執(zhí)行完成查看文件系統(tǒng)

創(chuàng)建ODS層，完成HDFS數(shù)據(jù)接入

建表：8張表保持和原數(shù)據(jù)一致ods_ddl create database if not exists mall;use mall;drop table if exists ods order_info;create table ods_order_info(數(shù)據(jù)導(dǎo)入：傳入?yún)?shù) 時間

DWD層分析

建表：5個表改變一個商品分類表擴(kuò)充了品類數(shù)據(jù)導(dǎo)入：制定hive運(yùn)行非嚴(yán)格insert overwrite table “&APP”,dwd_order_info partition(dt)特別注意商品表可以看到hive中已經(jīng)有了，注意不同的層命名方式不同

DWS層分析

注意匯聚成建表：數(shù)據(jù)導(dǎo)入：

ADS層分析

建表數(shù)據(jù)導(dǎo)入、ADS數(shù)據(jù)導(dǎo)出導(dǎo)出到mysql數(shù)據(jù)導(dǎo)入還用swoop sqoop_export.sh

Azkaban調(diào)度

import.jobods.jobdwd.jobdws.jobads.jobexport.job把這些文件壓縮成mall-job在三個節(jié)點(diǎn)上啟動在上面看到可以調(diào)度

柚子快報(bào)激活碼778899分享：大數(shù)據(jù)-數(shù)據(jù)倉庫（原理+實(shí)戰(zhàn)）

http://yzkb.51969.com/