欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)面試題

柚子快報(bào)激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)面試題

http://yzkb.51969.com/

1 思維導(dǎo)圖&數(shù)倉(cāng)常見(jiàn)面試題

2 題目

1. 數(shù)據(jù)倉(cāng)庫(kù)是什么?

??數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的(訂單、支付、退單等)、集成的(整合多個(gè)信息源的大量數(shù)據(jù))、非易失的(一般不會(huì)進(jìn)行刪除和修改操作)且隨時(shí)間變化(不是數(shù)據(jù)會(huì)變,而是數(shù)據(jù)量隨著時(shí)間增加)的數(shù)據(jù)集合,主要用于存儲(chǔ)歷史數(shù)據(jù),然后通過(guò)分析整理進(jìn)而提供數(shù)據(jù)支持和輔助決策。

2. 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有什么區(qū)別

數(shù)據(jù)庫(kù)中主要存放在線數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)中主要存放歷史數(shù)據(jù),并且存放的數(shù)據(jù)量比數(shù)據(jù)庫(kù)要多的多。數(shù)據(jù)庫(kù)主要用于業(yè)務(wù)處理(比如支付系統(tǒng)),數(shù)據(jù)倉(cāng)庫(kù)主要用于數(shù)據(jù)分析。數(shù)據(jù)庫(kù)的設(shè)計(jì)要避免冗余,而數(shù)據(jù)倉(cāng)庫(kù)通常會(huì)引入冗余,減少后面分析時(shí)的join操作。

3. 為什么要對(duì)數(shù)據(jù)倉(cāng)庫(kù)分層

將復(fù)雜的需求簡(jiǎn)單化(我們通過(guò)將復(fù)雜的問(wèn)題分解為多個(gè)步驟來(lái)完成,每一層只處理單一的步驟,比較容易和理解)提高數(shù)據(jù)的復(fù)用性,比如需要中間層的數(shù)據(jù),可以直接查詢中間層的數(shù)據(jù),不必從頭開(kāi)始計(jì)算。補(bǔ)充說(shuō)明:數(shù)據(jù)倉(cāng)庫(kù)就是一種以空間換時(shí)間的架構(gòu)

4. 為什么需要數(shù)據(jù)建模

??隨著數(shù)據(jù)的爆發(fā)式增長(zhǎng),如何對(duì)數(shù)據(jù)進(jìn)行有序、有結(jié)構(gòu)地分類組織和存儲(chǔ)是一大挑戰(zhàn)。數(shù)據(jù)建模是對(duì)數(shù)據(jù)存儲(chǔ)和組織的一種方法,它強(qiáng)調(diào)從業(yè)務(wù)數(shù)據(jù)存儲(chǔ)和使用角度合理存儲(chǔ)數(shù)據(jù)。有了適合業(yè)務(wù)的數(shù)據(jù)模型之后,那么大數(shù)據(jù)就可以獲得以下好處:性能、成本、效率、質(zhì)量

5. 經(jīng)典的數(shù)據(jù)倉(cāng)庫(kù)建模方法論有哪些

ER模型,這個(gè)模型是符合3范式的,它的出發(fā)點(diǎn)就是整合數(shù)據(jù),將各個(gè)系統(tǒng)中的數(shù)據(jù)按主題進(jìn)行分類,但是不能直接用于分析決策。維度模型,維度建模以數(shù)據(jù)分析作為出發(fā)點(diǎn),為數(shù)據(jù)分析服務(wù),因此它關(guān)注的重點(diǎn)的用戶如何更快的完成需求分析以及如何實(shí)現(xiàn)較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能,現(xiàn)在大多數(shù)數(shù)倉(cāng)的搭建都是基于維度模型進(jìn)行搭建的。區(qū)別:ER模型冗余少,在大規(guī)模數(shù)據(jù)跨表分析中,會(huì)存在多表關(guān)聯(lián),大大降低了執(zhí)行效率。

6. 數(shù)倉(cāng)相關(guān)的名詞術(shù)語(yǔ)解釋,比如數(shù)據(jù)域、業(yè)務(wù)過(guò)程、衍生指標(biāo)

數(shù)據(jù)域:將業(yè)務(wù)過(guò)程或者維度進(jìn)行抽象的集合,例如交易域、商品域等都是數(shù)據(jù)域。業(yè)務(wù)過(guò)程:一個(gè)不可拆分的行為事件,例如下單、支付、退款等都是業(yè)務(wù)過(guò)程。維度:用于分析事實(shí)所需要的環(huán)境,比如時(shí)間維度,地理維度等。維度屬性:維度屬性屬于一個(gè)維度,比如地理維度中的國(guó)家名稱、身份名稱都是維度屬性原子指標(biāo):原子指標(biāo)基于某一業(yè)務(wù)過(guò)程的度量值,是業(yè)務(wù)定義中不可再拆解的指標(biāo),原子指標(biāo)的核心功能就是對(duì)指標(biāo)的聚合邏輯進(jìn)行了定義。原子指標(biāo)包含三要素,分別是業(yè)務(wù)過(guò)程、度量值和聚合邏輯。派生指標(biāo):基于原子指標(biāo),其與原子指標(biāo)的關(guān)系如下圖所示。與原子指標(biāo)不同,派生指標(biāo)通常會(huì)對(duì)應(yīng)實(shí)際的統(tǒng)計(jì)需求 衍生指標(biāo):衍生指標(biāo)是在一個(gè)或多個(gè)派生指標(biāo)的基礎(chǔ)上,通過(guò)各種邏輯運(yùn)算復(fù)合而成的。例如比率、比例等類型的指標(biāo)。衍生指標(biāo)也會(huì)對(duì)應(yīng)實(shí)際的統(tǒng)計(jì)需求。

7. 派生指標(biāo)的種類

事務(wù)型指標(biāo):對(duì)業(yè)務(wù)活動(dòng)進(jìn)行衡量的指標(biāo)。比如訂單支付金額、新發(fā)商品數(shù)、新增注冊(cè)會(huì)員數(shù)。存量型指標(biāo):對(duì)實(shí)體對(duì)象(比如商品、會(huì)員)某些狀態(tài)的統(tǒng)計(jì)。復(fù)合型指標(biāo):就是衍生指標(biāo)

8. 經(jīng)典數(shù)倉(cāng)分層架構(gòu)

ODS層:把業(yè)務(wù)系統(tǒng)、日志等數(shù)據(jù)幾乎無(wú)處理地同步到ODS層中明細(xì)數(shù)據(jù)層(DWD層):該層存儲(chǔ)維度模型的事實(shí)表數(shù)據(jù)匯總層(DWS層):公共維度層(DIM層):該層存儲(chǔ)維度模型的維度表應(yīng)用數(shù)據(jù)層(ADS層):

9. 模型設(shè)計(jì)的基本原則

高內(nèi)聚低耦合:將業(yè)務(wù)相關(guān)、粒度相同地?cái)?shù)據(jù)設(shè)計(jì)為同一個(gè)物理模型,將高頻率同時(shí)訪問(wèn)地?cái)?shù)據(jù)放在一起,將低頻率同時(shí)訪問(wèn)地?cái)?shù)據(jù)分開(kāi)存儲(chǔ)。核心模型于擴(kuò)展模型分離:核心模型包括地字段支持常用地核心業(yè)務(wù),擴(kuò)展模型包括地字段支持個(gè)性化或少量應(yīng)用的需要。公共處理邏輯下沉:越是公用的處理邏輯,越應(yīng)該在數(shù)據(jù)調(diào)度依賴的底層進(jìn)行封裝于實(shí)現(xiàn),不要讓公共邏輯多出同時(shí)存在。成本與性能平衡:適當(dāng)?shù)臄?shù)據(jù)冗余可以換取查詢和刷新性能,但不要過(guò)度冗余。數(shù)據(jù)可回滾:處理邏輯不變,在不同時(shí)間多次運(yùn)行,數(shù)據(jù)結(jié)果確定不變。一致性:具有相同含義的字段在不同的表中命名必須相同

10. 模型實(shí)施的具體步驟

數(shù)據(jù)調(diào)研:業(yè)務(wù)調(diào)研和需求分析

業(yè)務(wù)調(diào)研目標(biāo)是熟悉業(yè)務(wù)流程、熟悉業(yè)務(wù)數(shù)據(jù),需要將該業(yè)務(wù)所包含的每個(gè)業(yè)務(wù)過(guò)程一一列舉出來(lái)。需求分析需要明確需求所需的業(yè)務(wù)過(guò)程及維度 明確數(shù)據(jù)域: 根據(jù)業(yè)務(wù)情況進(jìn)行縱向劃分?jǐn)?shù)據(jù)域。劃分?jǐn)?shù)據(jù)域的意義是便于數(shù)據(jù)的管理和應(yīng)用。下面是電商離線數(shù)倉(cāng)所需的所有業(yè)務(wù)過(guò)程及數(shù)據(jù)域劃分詳情 構(gòu)建業(yè)務(wù)總線矩陣:業(yè)務(wù)總線矩陣中包含維度模型所需的所有事實(shí)(業(yè)務(wù)過(guò)程)以及維度,以及各業(yè)務(wù)過(guò)程與各維度的關(guān)系。矩陣的行是一個(gè)個(gè)業(yè)務(wù)過(guò)程,列是一個(gè)個(gè)維度,行列的交點(diǎn)表示業(yè)務(wù)過(guò)程與維度的關(guān)系。 一個(gè)業(yè)務(wù)過(guò)程對(duì)應(yīng)一張事務(wù)型事實(shí)表,一個(gè)維度對(duì)應(yīng)一張維度表。明確統(tǒng)計(jì)指標(biāo):原子指標(biāo)、派生指標(biāo)、衍生指標(biāo)

原子指標(biāo):原子指標(biāo)基于某一業(yè)務(wù)過(guò)程的度量值,是業(yè)務(wù)定義中不可再拆解的指標(biāo),原子指標(biāo)的核心功能就是對(duì)指標(biāo)的聚合邏輯進(jìn)行了定義。包含三要素:業(yè)務(wù)過(guò)程、度量值和聚合邏輯。派生指標(biāo):派生指標(biāo) = 原子指標(biāo) + 統(tǒng)計(jì)周期 + 業(yè)務(wù)限定 + 統(tǒng)計(jì)粒度。與原子指標(biāo)不同,派生指標(biāo)通常會(huì)對(duì)應(yīng)實(shí)際的統(tǒng)計(jì)需求。 衍生指標(biāo):衍生指標(biāo)是在一個(gè)或多個(gè)派生指標(biāo)的基礎(chǔ)上,通過(guò)各種邏輯運(yùn)算復(fù)合而成的。例如比率、比例等類型的指標(biāo)。衍生指標(biāo)也會(huì)對(duì)應(yīng)實(shí)際的統(tǒng)計(jì)需求。 維度模型設(shè)計(jì):維度模型的設(shè)計(jì)參照上得到的業(yè)務(wù)總線矩陣即可。事實(shí)表存儲(chǔ)在DWD層,維度表存儲(chǔ)在DIM層。匯總模型設(shè)計(jì):匯總模型的設(shè)計(jì)參考指標(biāo)體系(主要是派生指標(biāo))即可。匯總表與派生指標(biāo)的對(duì)應(yīng)關(guān)系是,一張匯總表通常包含業(yè)務(wù)過(guò)程相同、統(tǒng)計(jì)周期相同、統(tǒng)計(jì)粒度相同的多個(gè)派生指標(biāo)。開(kāi)發(fā)調(diào)度

11. 維度建模有哪幾種模型

星型模型:最常用的維度建模方式,核心就是以事實(shí)表為中心,所有的維度表直接連接在事實(shí)表上。 雪花模型:維度表可以再連接其他維度表,有點(diǎn)類似于3NF模型

12. 維度建模中表的類型

維度表:一張維度表就表示對(duì)一個(gè)對(duì)象的一些描述信息。每個(gè)維度表都包含單一的主鍵列,和一些對(duì)該主鍵的描述信息,通常維度表會(huì)很寬。事實(shí)表:一個(gè)事實(shí)表就表示對(duì)業(yè)務(wù)過(guò)程的描述,比如下單、支付。每個(gè)事實(shí)表都包含若干個(gè)維度外鍵,若干退化維度(維度屬性存儲(chǔ)到事實(shí)表中,減少關(guān)聯(lián)),和數(shù)值型的度量值,通常事實(shí)表都是細(xì)長(zhǎng)(記錄數(shù)多,列數(shù)少)。

13. 維度表的設(shè)計(jì)過(guò)程

維度表是維度建模的基礎(chǔ)和靈魂。事實(shí)表圍繞業(yè)務(wù)過(guò)程進(jìn)行設(shè)計(jì),維度表圍繞業(yè)務(wù)過(guò)程所處的環(huán)境進(jìn)行設(shè)計(jì)。維度表主要包含一個(gè)主鍵和各種維度字段,維度字段稱為維度屬性。

選擇維度確定主維表確定相關(guān)維度確定維度屬性

14. 維度表的設(shè)計(jì)中有哪些值得注意的地方

盡可能生成豐富的維度屬性盡可能詳細(xì)的對(duì)維度屬性進(jìn)行文字解釋盡量沉淀通用的維度屬性

15. 維表整合的兩種表現(xiàn)形式

垂直整合水平整合

16. 如何處理維度的變化

??維度屬性通常不是靜態(tài)的,而是會(huì)隨時(shí)間變化的,數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要特點(diǎn)就是反映歷史的變化,所以如何保存維度的歷史狀態(tài)是維度設(shè)計(jì)的重要工作之一。保存維度數(shù)據(jù)的歷史狀態(tài),通常有以下兩種做法,分別是全量快照表和拉鏈表。

全量快照表:離線數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算周期通常為每天一次,所以可以每天保存一份全量的維度數(shù)據(jù)。

優(yōu)點(diǎn)是簡(jiǎn)單而有效,開(kāi)發(fā)和維護(hù)成本低,且方便理解和使用。缺點(diǎn)是浪費(fèi)存儲(chǔ)空間,尤其是當(dāng)數(shù)據(jù)的變化比例比較低時(shí)。 拉鏈表:拉鏈表的意義就在于能夠更加高效的保存維度信息的歷史狀態(tài)。

17. 事實(shí)表設(shè)計(jì)的八大原則

盡可能包含所有與業(yè)務(wù)過(guò)程相關(guān)的事實(shí)只選擇與業(yè)務(wù)過(guò)程相關(guān)的事實(shí)分解不可加事實(shí)為可加事實(shí)在選擇維度和事實(shí)之前必須先聲明粒度在同一個(gè)事實(shí)表中不能有不同粒度的事實(shí)事實(shí)的單位要保持一致對(duì)事實(shí)的null值要處理使用退化維度提高事實(shí)表的易用性

18. 事實(shí)表的設(shè)計(jì)過(guò)程

選擇業(yè)務(wù)過(guò)程以及確定事實(shí)表類型聲明粒度確定維度確定事實(shí):聲明度量值

19. 事實(shí)表有哪幾種類型

事務(wù)事實(shí)表:事務(wù)事實(shí)表用來(lái)記錄各業(yè)務(wù)過(guò)程,它保存的是各業(yè)務(wù)過(guò)程的原子操作事件,即最細(xì)粒度的操作事件。粒度是指事實(shí)表中一行數(shù)據(jù)所表達(dá)的業(yè)務(wù)細(xì)節(jié)程度。事務(wù)型事實(shí)表可用于分析與各業(yè)務(wù)過(guò)程相關(guān)的各項(xiàng)統(tǒng)計(jì)指標(biāo)周期快照事實(shí)表:周期快照事實(shí)表以具有規(guī)律性的、可預(yù)見(jiàn)的時(shí)間間隔來(lái)記錄事實(shí),主要用于分析一些存量型(例如商品庫(kù)存,賬戶余額)或者狀態(tài)型(空氣溫度,行駛速度)指標(biāo)。累計(jì)快照事實(shí)表:累計(jì)快照事實(shí)表是基于一個(gè)業(yè)務(wù)流程中的多個(gè)關(guān)鍵業(yè)務(wù)過(guò)程聯(lián)合處理而構(gòu)建的事實(shí)表,如交易流程中的下單、支付、發(fā)貨、確認(rèn)收貨業(yè)務(wù)過(guò)程。累積型快照事實(shí)表主要用于分析業(yè)務(wù)過(guò)程之間的時(shí)間間隔等需求。比如用戶下單到支付的平均時(shí)間間隔,使用累積型快照事實(shí)表進(jìn)行統(tǒng)計(jì),就能避免兩個(gè)事務(wù)事實(shí)表的關(guān)聯(lián)操作,從而變得十分簡(jiǎn)單高效。

20. 多事務(wù)事實(shí)表如何對(duì)事務(wù)進(jìn)行處理

??主要有兩種方法對(duì)事實(shí)進(jìn)行處理

不同業(yè)務(wù)過(guò)程的事實(shí)使用不同的事實(shí)字段進(jìn)行存放。比如淘寶交易事務(wù)事實(shí)表,表中會(huì)設(shè)置下單度量,支付度量,完結(jié)度量等字段。不同業(yè)務(wù)過(guò)程的事實(shí)使用同一個(gè)事實(shí)字段進(jìn)行存放,但增加一個(gè)業(yè)務(wù)過(guò)程標(biāo)簽。比如收藏事務(wù)事實(shí)表,表中會(huì)設(shè)置收藏刪除類型,以及收藏刪除度量等字段。

關(guān)于上述兩種方法如何選擇?

當(dāng)不同業(yè)務(wù)過(guò)程的度量比較相似時(shí),采用第二種方式;反之,當(dāng)不同業(yè)務(wù)過(guò)程的度量差異比較大時(shí),采用第一種方式。

21. 單事務(wù)事實(shí)表和多事務(wù)事實(shí)表哪種設(shè)計(jì)更好

??主要從五個(gè)方面來(lái)進(jìn)行分析

業(yè)務(wù)過(guò)程:

對(duì)于單事務(wù)事實(shí)表,一個(gè)業(yè)務(wù)過(guò)程建議一張事實(shí)表,只反映一個(gè)業(yè)務(wù)過(guò)程的事實(shí);對(duì)于多事務(wù)事實(shí)表,在同一個(gè)事實(shí)表中反映多個(gè)業(yè)務(wù)過(guò)程的事實(shí)。多個(gè)業(yè)務(wù)過(guò)程是否放到同一張事實(shí)表中,首先需要分析不同業(yè)務(wù)之間的相似性。 粒度和維度

在確定好業(yè)務(wù)過(guò)程后,需要基于不同的業(yè)務(wù)過(guò)程確定粒度和維度,當(dāng)不同業(yè)務(wù)過(guò)程的粒度相同,同時(shí)擁有相似的維度時(shí),此時(shí)就可以考慮采用多事務(wù)事實(shí)表。如果粒度不同,則必定時(shí)不同的事實(shí)表。比如交易中支付和發(fā)貨有不同的粒度,則無(wú)法將發(fā)貨業(yè)務(wù)過(guò)程放到淘寶交易事務(wù)事實(shí)表中。 事實(shí)

如果單一業(yè)務(wù)過(guò)程的事實(shí)較多,同時(shí)不同業(yè)務(wù)過(guò)程的事實(shí)又不相同,則可以考慮單事務(wù)事實(shí)表,處理更加清晰;若使用多事務(wù)事實(shí)表,則會(huì)導(dǎo)致事實(shí)表零值或空值較多。 下游業(yè)務(wù)使用

單事務(wù)事實(shí)表對(duì)于下游用戶更容易理解,關(guān)注哪個(gè)業(yè)務(wù)員過(guò)程就使用哪張事實(shí)表;而多事務(wù)事實(shí)表包含多個(gè)業(yè)務(wù)過(guò)程,用戶使用往往較為困惑。 計(jì)算存儲(chǔ)成本

當(dāng)業(yè)務(wù)過(guò)程來(lái)源于同一個(gè)業(yè)務(wù)系統(tǒng),具有相同的粒度和維度,且維度較多而事實(shí)不多時(shí),此時(shí)可以考慮多事務(wù)事實(shí)表,不僅加工計(jì)算成本較低,同時(shí)在存儲(chǔ)上也相對(duì)節(jié)省。

22. 周期快照事實(shí)表的設(shè)計(jì)過(guò)程

確定粒度

周期型快照事實(shí)表的粒度可由采樣周期和維度描述,故確定采樣周期和維度后即可確定粒度。采樣周期通常選擇每日。維度可根據(jù)統(tǒng)計(jì)指標(biāo)決定,例如指標(biāo)為統(tǒng)計(jì)每個(gè)倉(cāng)庫(kù)中每種商品的庫(kù)存,則可確定維度為倉(cāng)庫(kù)和商品。確定完采樣周期和維度后,即可確定該表粒度為每日-倉(cāng)庫(kù)-商品。 確認(rèn)事實(shí)

事實(shí)也可根據(jù)統(tǒng)計(jì)指標(biāo)決定,例如指標(biāo)為統(tǒng)計(jì)每個(gè)倉(cāng)庫(kù)中每種商品的庫(kù)存,則事實(shí)為商品庫(kù)存。

23. 累計(jì)快照表的設(shè)計(jì)過(guò)程

選擇業(yè)務(wù)過(guò)程

選擇一個(gè)業(yè)務(wù)流程中需要關(guān)聯(lián)分析的多個(gè)關(guān)鍵業(yè)務(wù)過(guò)程,多個(gè)業(yè)務(wù)過(guò)程對(duì)應(yīng)一張累積型快照事實(shí)表。 聲明粒度

精確定義每行數(shù)據(jù)表示的是什么,盡量選擇最小粒度。 確認(rèn)維度

選擇與各業(yè)務(wù)過(guò)程相關(guān)的維度,需要注意的是,每各業(yè)務(wù)過(guò)程均需要一個(gè)日期維度。 確認(rèn)事實(shí)

選擇各業(yè)務(wù)過(guò)程的度量值。

24. 累計(jì)快照事實(shí)表的特點(diǎn)

數(shù)據(jù)不斷更新對(duì)應(yīng)多業(yè)務(wù)過(guò)程日期

柚子快報(bào)激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)面試題

http://yzkb.51969.com/

推薦文章

評(píng)論可見(jiàn),查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18386733.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄