欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)邀請碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫-數(shù)據(jù)質(zhì)量管理

柚子快報(bào)邀請碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫-數(shù)據(jù)質(zhì)量管理

http://yzkb.51969.com/

一、數(shù)據(jù)質(zhì)量管理定義

數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

數(shù)據(jù)質(zhì)量管理不是一時(shí)的數(shù)據(jù)治理手段,而是循環(huán)的管理過程。其終極目標(biāo)是通過可靠的數(shù)據(jù),提升數(shù)據(jù)在使用中的價(jià)值,并最終為企業(yè)贏得經(jīng)濟(jì)效益

二、企業(yè)數(shù)據(jù)質(zhì)量痛點(diǎn)

數(shù)據(jù)問題該如何修復(fù),缺少流程化

數(shù)據(jù)鏈路缺少質(zhì)量保障監(jiān)控

數(shù)據(jù)不能及時(shí)產(chǎn)出,影響到下游數(shù)據(jù)的應(yīng)用

用戶使用數(shù)據(jù)無感知,除了表面的數(shù)據(jù)質(zhì)量問題,隱藏的數(shù)據(jù)問題仍存在

三、數(shù)據(jù)質(zhì)量管理維度

1、數(shù)據(jù)完整性

數(shù)據(jù)信息不完整:數(shù)據(jù)記錄缺失,字段信息的記錄缺失。

模型設(shè)計(jì)不完整:唯一性約束不完整,參照不完整

數(shù)據(jù)條目不完整:數(shù)據(jù)記錄丟失或不可用

數(shù)據(jù)屬性不完整:數(shù)據(jù)屬性空值

2、數(shù)據(jù)規(guī)范性

規(guī)范性指的是描述數(shù)據(jù)遵循預(yù)定的語法規(guī)則的程度,是否符合其定義,比如數(shù)據(jù)的類型、格式、取值范圍等。

3、數(shù)據(jù)一致性

一致性:指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。

數(shù)據(jù)質(zhì)量的一致性:主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯,一致性并不意味著數(shù)值上的絕對相同,而是數(shù)據(jù)收集、處理的方法和標(biāo)準(zhǔn)的一致。

多源數(shù)據(jù)的數(shù)據(jù)模型不一致:命名不一致,數(shù)據(jù)結(jié)構(gòu)不一致,約束規(guī)則不一致

數(shù)據(jù)實(shí)體不一致:數(shù)據(jù)編碼不一致,命名及含義不一致,分類層次不一致,聲明周期不一致

常見的一致性指標(biāo)有:ID 重合度、屬性一致、取值一致、采集方法一致、轉(zhuǎn)化步驟一致。

4、數(shù)據(jù)準(zhǔn)確性

準(zhǔn)確性是指數(shù)據(jù)記錄的信息是否存在異?;蝈e(cuò)誤。和一致性不一樣,存在準(zhǔn)確性問題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致,更為常見的數(shù)據(jù)準(zhǔn)確性錯(cuò)誤就如亂碼。

常見的準(zhǔn)確性指標(biāo)有:缺失值占比、錯(cuò)誤值占比、異常值占比、抽樣偏差、數(shù)據(jù)噪聲。

5、數(shù)據(jù)唯一性

用于識(shí)別和度量重復(fù)數(shù)據(jù)、冗余數(shù)據(jù)。重復(fù)數(shù)據(jù)是導(dǎo)致業(yè)務(wù)無法協(xié)同、流程無法追溯的重要因素,也是數(shù)據(jù)治理需要解決的最基本的數(shù)據(jù)問題。

6、數(shù)據(jù)及時(shí)性

數(shù)據(jù)的及時(shí)性(In-time)是指能否在需要的時(shí)候獲到數(shù)據(jù),數(shù)據(jù)的及時(shí)性與企業(yè)的數(shù)據(jù)處理速度及效率有直接的關(guān)系,是影響業(yè)務(wù)處理和管理效率的關(guān)鍵指標(biāo)。

三、數(shù)據(jù)質(zhì)量實(shí)施流程

1、事前管理

1.1 測試驗(yàn)證

測試需要有專門的數(shù)據(jù)測試人員進(jìn)行測試,輸出測試用例和測試報(bào)告。

總量核對:核對上下兩步的數(shù)據(jù)總條數(shù),沒有過濾條件的話應(yīng)該是一致的。

多維度統(tǒng)計(jì):復(fù)雜的多維度指標(biāo)拆分成單維度SQL統(tǒng)計(jì),對每個(gè)指標(biāo)分別進(jìn)行核查。

多表關(guān)聯(lián)統(tǒng)計(jì):拆分成中間表進(jìn)行核對每一步驟的指標(biāo)。

明細(xì)到指標(biāo)統(tǒng)計(jì):比如隨機(jī)找一臺(tái)車的明細(xì)和最后統(tǒng)計(jì)的指標(biāo)進(jìn)行核對。

新老統(tǒng)計(jì)對比:比如有些指標(biāo)是遷移或者之前業(yè)務(wù)手工制作,可以開發(fā)后的新指標(biāo)同老指標(biāo)進(jìn)行對比。

1.2 上線審核

需要對上線的SQL代碼進(jìn)行審核,主要從以下幾個(gè)方面:

對查詢表的where后面的條件、join關(guān)聯(lián)字段、group by分組字段等重點(diǎn)檢查邏輯,和需求理解結(jié)合審核。

數(shù)據(jù)集命名、數(shù)據(jù)集字段命名、任務(wù)名稱進(jìn)行審核,是否按照數(shù)據(jù)倉庫建設(shè)規(guī)范中的業(yè)務(wù)域、維度、原子指標(biāo)、修飾類型、修飾詞、時(shí)間周期、派生指標(biāo)等標(biāo)準(zhǔn)進(jìn)行命名。

代碼注釋審核,每一步處理需要有注釋該步驟的作用,每個(gè)指標(biāo)也要有注釋,where條件等也要添加注釋。

重要任務(wù)是否開啟短信告警,任務(wù)啟動(dòng)時(shí)間等審核。

任務(wù)上線的位置是否符合上線標(biāo)準(zhǔn),比如上線的數(shù)據(jù)層級與業(yè)務(wù)層級等。

上線審核需要審核人員按照以上步驟進(jìn)行審核,對不合理的地方進(jìn)行指正,審核人員和開發(fā)人員共同保障代碼質(zhì)量。

1.3 流程規(guī)范

需求上線時(shí)候需要在知識(shí)庫中完成所開發(fā)需求邏輯說明

復(fù)雜需求(比如項(xiàng)目指標(biāo)),需要團(tuán)隊(duì)至少兩人以上評審需求后開發(fā)。

提交上線申請的同事需要備注上需求邏輯說明。

審核上線人員為“輪值”,審核上線人員需要review開發(fā)人員的代碼,需要和開發(fā)人員共同承擔(dān)代碼質(zhì)量

1.4 其他規(guī)范

數(shù)據(jù)模型規(guī)范:

數(shù)據(jù)結(jié)構(gòu)清晰、分層明確-層級依賴、高內(nèi)聚-低耦合-可擴(kuò)展、規(guī)范化-反規(guī)范化等。

元數(shù)據(jù)規(guī)范:

字段描述、字段類型-長度-取值范圍、枚舉范圍、主鍵唯一等。

命名規(guī)范:

表、字段名稱,項(xiàng)目名稱,文件名稱、函數(shù)名稱、編碼規(guī)范等。

安全規(guī)范:

隱私字段脫敏、權(quán)限層級管控等。

上線規(guī)范:

唯一性校驗(yàn)、試運(yùn)行正常、數(shù)據(jù)條數(shù)校驗(yàn)、NULL 值校驗(yàn)等。

2、事中監(jiān)控?cái)?shù)據(jù)質(zhì)量

指標(biāo)開發(fā)完成后,需要對指標(biāo)的波動(dòng)情況進(jìn)行監(jiān)控,發(fā)現(xiàn)波動(dòng)較大的進(jìn)行核查,指標(biāo)波動(dòng)范圍需要具體業(yè)務(wù)具體制定,需要業(yè)務(wù)人員協(xié)助確認(rèn)。常用的數(shù)據(jù)質(zhì)量監(jiān)控方法如下:

2.1 校驗(yàn)每天的記錄數(shù)

分析師遇到的最常見數(shù)據(jù)異常是其報(bào)告的輸出突然降至0。我們通常會(huì)發(fā)現(xiàn)最后的罪魁禍?zhǔn)资钱?dāng)天沒有將新記錄添加到相應(yīng)的表中。一種簡單的檢查方法是確保每天一個(gè)表中的新記錄數(shù)>0。

2.2 NULL和0值校驗(yàn)

分析師常遇到的第二個(gè)問題是NULL或0值。我們要保證每天增量數(shù)據(jù)中的NULL或0值不能超過新增數(shù)據(jù)的99%。要檢查這一點(diǎn),只需將一個(gè)循環(huán)腳本設(shè)置為每天用NULL或0計(jì)數(shù)一個(gè)表中的新記錄數(shù)。如果看到記錄數(shù)急劇增加,則可能存在轉(zhuǎn)換錯(cuò)誤或源業(yè)務(wù)系統(tǒng)就存在異常。

2.3 每天新增的記錄數(shù)波動(dòng)范圍

某一天你發(fā)現(xiàn)數(shù)據(jù)量出現(xiàn)大幅增長或下降,而規(guī)則1和2都已校驗(yàn)通過。這種波動(dòng)可能是正常的,比如電商行業(yè)某天的大促活動(dòng),或者社交軟件的營銷活動(dòng)。但是也可能這就是異常的,是因?yàn)閺脑聪到y(tǒng)抽取了重復(fù)的記錄。所以針對此種情況,我們也要制定數(shù)據(jù)質(zhì)量規(guī)則,檢查這些波動(dòng)何時(shí)發(fā)生,并主動(dòng)進(jìn)行診斷。比如自動(dòng)執(zhí)行的一個(gè)簡單的SQL過程,每天檢查COUNT個(gè)新記錄是否在7天跟蹤平均值的誤差范圍內(nèi)。閾值和誤差范圍可能因公司和產(chǎn)品而異,經(jīng)驗(yàn)值一般是加減25%。當(dāng)然,你可也可以直接和前一天的數(shù)據(jù)對比,增量不超過前一天的1倍。

2.4 重復(fù)記錄數(shù)據(jù)校驗(yàn)

不管是電商系統(tǒng)或者是社交系統(tǒng)或者是物聯(lián)網(wǎng)設(shè)備上報(bào)的數(shù)據(jù),正常情況下都不會(huì)出現(xiàn)兩條完全一樣的記錄(包括ID,時(shí)間,值都一樣)。筆者曾遇到一個(gè)終端上報(bào)的兩條數(shù)據(jù)完全一樣的場景,導(dǎo)致我在做時(shí)間分段時(shí)候,劃分不正確。所以,對數(shù)據(jù)值唯一性校驗(yàn)是有必要的。

2.5 數(shù)據(jù)時(shí)間校驗(yàn)

一般我們業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都是帶有時(shí)間戳的,這個(gè)時(shí)間戳肯定比當(dāng)前的時(shí)間要小。但是由于采集數(shù)據(jù)設(shè)備異常(業(yè)務(wù)系統(tǒng)異常),我們會(huì)碰到“未來時(shí)間”的數(shù)據(jù),那如果我們以時(shí)間作為分區(qū),后期可能就會(huì)出現(xiàn)異常的分析結(jié)果。當(dāng)然,如果你的公司業(yè)務(wù)是跨國的,你需要考慮時(shí)差因素。

3、事后分析和問題跟蹤

每周定時(shí)跑一次程序,對全局?jǐn)?shù)據(jù)進(jìn)行質(zhì)量稽核控制,如唯一性,非空性等對于程序跑出來的數(shù)據(jù):數(shù)據(jù)質(zhì)量概覽在數(shù)據(jù)質(zhì)量管理系統(tǒng)查詢數(shù)據(jù)質(zhì)量明細(xì)數(shù)據(jù)在數(shù)據(jù)質(zhì)量管理系統(tǒng)查詢根據(jù)異常數(shù)據(jù)統(tǒng)計(jì)出來的各種數(shù)據(jù)質(zhì)量報(bào)表也可以在數(shù)據(jù)質(zhì)量管理系統(tǒng)查詢,包括表覆蓋率,歷史趨勢,綜合分析,排名分析等(質(zhì)量報(bào)告支持導(dǎo)出為word,pdf,excel)對異常進(jìn)行評估、嚴(yán)重程度、影響范圍、問題分類等可以訂閱自己比較關(guān)心的主題,表或者規(guī)則,郵件只會(huì)發(fā)送訂閱內(nèi)容對于打分比較低的表或者業(yè)務(wù),可以反推業(yè)務(wù)方進(jìn)行整改

4、數(shù)據(jù)質(zhì)量監(jiān)控(DQC)

4.1 DQC概念

DQC全稱Data Quality Center,中文又稱數(shù)據(jù)質(zhì)量監(jiān)控,用于監(jiān)控表/字段數(shù)據(jù)的質(zhì)量,防止問題數(shù)據(jù)流入下游任務(wù),是數(shù)據(jù)倉庫強(qiáng)有力的保障卡點(diǎn),dqc觸發(fā)于每個(gè)任務(wù)執(zhí)行后

4.2 DQC種類

強(qiáng)規(guī)則:強(qiáng)規(guī)則可以中斷任務(wù)的進(jìn)行,將任務(wù)置于失敗,并對任務(wù)負(fù)責(zé)人及值班人發(fā)送任務(wù)失敗的消息(消息包括電話、郵件、短信、釘釘、飛書等)

弱規(guī)則:弱規(guī)則不能中斷任務(wù)的進(jìn)行,只對任務(wù)負(fù)責(zé)人及值班人發(fā)送任務(wù)失敗的消息(消息包括電話、郵件、短信、釘釘、飛書等)

四、體系評價(jià)維度

數(shù)據(jù)完整性

☆ 考量數(shù)據(jù)項(xiàng)信息是否全面、完整、無缺失

★ 指標(biāo)公式:表完整性和字段完整性的平均值

監(jiān)控覆蓋率

☆ 確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范要求

★ 指標(biāo)公式:已監(jiān)控作業(yè)個(gè)數(shù)/作業(yè)總個(gè)數(shù)

告警響應(yīng)度

☆ 通過日常管理、應(yīng)急響應(yīng),降低或消除問題影響,避免數(shù)據(jù)損毀、丟失

★ 指標(biāo)公式:已處理告警個(gè)數(shù)(本周)/告警總個(gè)數(shù)(本周)

作業(yè)準(zhǔn)確性

☆ 考量數(shù)據(jù)是否符合預(yù)設(shè)的質(zhì)量要求,如唯一性約束、記錄量校驗(yàn)等

★ 指標(biāo)公式:1 - 告警作業(yè)個(gè)數(shù)(本周)/監(jiān)控作業(yè)總個(gè)數(shù)

作業(yè)穩(wěn)定性

☆ 考量作業(yè)的運(yùn)行穩(wěn)定性,是否經(jīng)常報(bào)錯(cuò),導(dǎo)致數(shù)據(jù)事故

★ 指標(biāo)公式:1 - 錯(cuò)誤作業(yè)個(gè)數(shù)(本周)/作業(yè)總個(gè)數(shù)

作業(yè)時(shí)效性

☆ 考量數(shù)據(jù)項(xiàng)信息可被獲取和使用的時(shí)間是否滿足預(yù)期要求

★ 指標(biāo)公式:延遲的高價(jià)值作業(yè)個(gè)數(shù)/高價(jià)值作業(yè)總個(gè)數(shù)

作業(yè)性能分

☆ 考量作業(yè)的執(zhí)行效率和健康度,診斷作業(yè)是否傾斜等性能問題

★ 指標(biāo)公式:1 - 危急作業(yè)個(gè)數(shù)(本周)/作業(yè)總個(gè)數(shù)

柚子快報(bào)邀請碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫-數(shù)據(jù)質(zhì)量管理

http://yzkb.51969.com/

推薦閱讀

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19252052.html

發(fā)布評論

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄