柚子快報(bào)邀請(qǐng)碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)生產(chǎn)問(wèn)題匯總
柚子快報(bào)邀請(qǐng)碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)生產(chǎn)問(wèn)題匯總
數(shù)據(jù)倉(cāng)庫(kù)生產(chǎn)問(wèn)題匯總
開篇-項(xiàng)目整體流程
你可以簡(jiǎn)單說(shuō)/畫一下你們的項(xiàng)目流程嗎?
第一章:數(shù)據(jù)源問(wèn)題
1:數(shù)據(jù)來(lái)源于 Mysql,簡(jiǎn)單說(shuō)一下大概有什么表,都采集什么業(yè)務(wù)
字段
2:每天的數(shù)據(jù)量多大 ?增量多少、全量數(shù)據(jù)多少
3: Mysql 采用什么版本的?
4:你接觸的業(yè)務(wù)數(shù)據(jù)最大的表多大?多少行?
5:你們業(yè)務(wù)庫(kù)中大概有多少表?
6:你們采用的是什么調(diào)度方式 ?為什么?
7:凌晨調(diào)度的話,如果出現(xiàn)問(wèn)題有什么處理機(jī)制?
8:你們調(diào)用是串行調(diào)度還是并行調(diào)度?
9:調(diào)度過(guò)程中,上一個(gè)調(diào)度和下一個(gè)調(diào)度有沒有先后循序?
10:全量導(dǎo)入什么數(shù)據(jù) ?增量導(dǎo)入什么數(shù)據(jù)?
11:Sqoop 導(dǎo)入數(shù)據(jù)的時(shí)候,你用采用了哪些命令?
12:全量數(shù)據(jù)除了第一次構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)導(dǎo)入,后面沒有全量導(dǎo)入的
場(chǎng)景?
13:有沒有從接口中獲取過(guò)數(shù)據(jù)?簡(jiǎn)單介紹一下流程
14:每天晚上執(zhí)行的調(diào)度任務(wù)量大概多少?
15:你們的調(diào)度任務(wù)大概執(zhí)行多久?
16:在任務(wù)調(diào)度這塊有沒有什么設(shè)計(jì)規(guī)范 ?
17:在導(dǎo)入數(shù)據(jù)的時(shí)候,當(dāng)遇到數(shù)據(jù)量大的時(shí)候有沒有進(jìn)行調(diào)優(yōu)?
怎么調(diào)的?
18:Sqoop 導(dǎo)入數(shù)據(jù)的時(shí)候有沒有遇到過(guò)什么問(wèn)題 ?怎么解決的?
19:你們通過(guò) Sqoop 導(dǎo)入數(shù)據(jù),如何保證自己導(dǎo)入的數(shù)據(jù)是對(duì)的
20:Oozie 是怎么配置的?點(diǎn)了哪些東西,如何上傳的?簡(jiǎn)單
說(shuō)一下吧第二章:數(shù)據(jù)存儲(chǔ)問(wèn)題
1:數(shù)據(jù)為什么要在 HDFS 存儲(chǔ)一份 ?為什么不直接在 Hive 中構(gòu)建
結(jié)構(gòu)化數(shù)據(jù)?
2:你們項(xiàng)目 Hadoop 采用的是什么版本的?
3:有沒有對(duì)集群進(jìn)行監(jiān)控操作?怎么做的?
4:你們的數(shù)據(jù)是如何存儲(chǔ)在 HDFS,有沒有什么規(guī)范?
5:你們 Hive 的 yuan 數(shù)據(jù)存儲(chǔ)在哪里 ?第三章:數(shù)據(jù)計(jì)算問(wèn)題
1:你們?yōu)槭裁匆O(shè)計(jì) N 層數(shù)據(jù)?誰(shuí)設(shè)計(jì)的?
2:你有沒有參與過(guò)分層設(shè)計(jì) ?每一層的作用是什么?
3:你們 ODS 層大概有多少數(shù)據(jù)?ODS 最大的表有多大?
4:設(shè)計(jì) ODS 的目的是什么?對(duì) ODS 層的數(shù)據(jù)做了哪些操作?
5:ODS 層和 DWD 層的數(shù)據(jù)區(qū)別在哪?
6:你們都做了哪些 ETL 操作,涉及到哪些場(chǎng)景?清洗了什么、轉(zhuǎn)換
了什么、如何轉(zhuǎn)換的?
7:你認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)是什么?
8:數(shù)據(jù)從 DWD 層到 DWM 層、DWM 層到 DWS 層都做了哪些操作?
9:數(shù)據(jù)的 DWS 層和數(shù)據(jù) APP 層的服務(wù)對(duì)象一樣嗎?
10:ODS 層、DW 層、RPT/APP 層都采用了那種壓縮格式、存儲(chǔ)格
式?為什么?
11:Hive 你們用的是什么版本的?大數(shù)據(jù)平臺(tái)呢?
12:你們當(dāng)時(shí)執(zhí)行 Hive 腳本大概跑了多長(zhǎng)時(shí)間?
13:Hadoop 界面是藍(lán)色的還是綠色的?14:你們集群當(dāng)時(shí)多大?
15:你可以簡(jiǎn)單說(shuō)一下在 Hive 數(shù)據(jù)倉(cāng)庫(kù)搭建過(guò)程中每層的建模方式
都是什么?
16:有沒有進(jìn)行建模操作?維度建模還是范式建模?
17:數(shù)據(jù)倉(cāng)庫(kù)中有沒有采用模型?為什么采用模型?
18:可以簡(jiǎn)單介紹一下你項(xiàng)目中涉及的事實(shí)表有哪些?哪些維度
表?
19:你能簡(jiǎn)單說(shuō)一下什么是事實(shí)、什么是維度?
20:你在業(yè)務(wù)中都沒有進(jìn)行優(yōu)化?如何優(yōu)化的?
21:有沒有用到拉鏈表?解決了什么問(wèn)題?開鏈和閉鏈?zhǔn)侨绾卧O(shè)計(jì)
的?
22:如果 29 號(hào)發(fā)現(xiàn)導(dǎo)入 ODS 層的某一張表的 28 號(hào)數(shù)據(jù)有問(wèn)題怎么
辦?
23:數(shù)據(jù)倉(cāng)庫(kù)中的表,你們建設(shè)的是內(nèi)部表還是外部表?
24:簡(jiǎn)單說(shuō)一下自動(dòng)化建表導(dǎo)入數(shù)據(jù)的思路是什么?如何做判斷的
25:你是如何驗(yàn)證自己的指標(biāo)是計(jì)算對(duì)的?如果錯(cuò)了,排查思路能
不能簡(jiǎn)單說(shuō)一下?26:你遇到過(guò)最復(fù)雜的指標(biāo)是什么?簡(jiǎn)單介紹一下吧
27:在使用 Hive 的時(shí)候有沒有遇到過(guò)什么錯(cuò)誤?怎么排查的?如何
解決的?
28:你寫過(guò)最長(zhǎng)的 Sql 多少行?
29:你們數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)刪除嗎?如果刪除的話,多久刪除一次?
30:Hive on MR 、 Hive on Spark 他們的哪個(gè)更好一些 ?
31:可以簡(jiǎn)單說(shuō)一下你參與計(jì)算的業(yè)務(wù)價(jià)值是什么嗎?
32:如果你們對(duì)數(shù)據(jù)脫敏后,比如用戶手機(jī)號(hào),但是后期我想使用
該用戶的手機(jī)號(hào)數(shù)據(jù)怎么辦?
柚子快報(bào)邀請(qǐng)碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)生產(chǎn)問(wèn)題匯總
參考文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。