為了解決多數(shù)據(jù)源導致的口徑不一致、數(shù)據(jù)無關聯(lián)、數(shù)據(jù)質(zhì)量差、缺少歷史數(shù)據(jù)、開發(fā)效率低等問題,企業(yè)需要構建企業(yè)級數(shù)據(jù)倉庫,對數(shù)據(jù)進行規(guī)整和高效利用。除此以外,由于直連業(yè)務系統(tǒng)支撐多方報表導致讀寫交叉性能降低,影響正常業(yè)務系統(tǒng)使用的問題也可解決。
構建企業(yè)級數(shù)據(jù)倉庫的步驟分為調(diào)研、數(shù)倉設計、數(shù)倉實施和測試上線四個主要環(huán)節(jié)。
(資料圖片僅供參考)
調(diào)研前期,需要明確本次項目在此階段成功的要素,其次是劃分責任矩陣,收集相關資料并制定合適的調(diào)研策略。與用戶需求相關的信息應該足夠的詳細。最終要交付給最終用戶項目計劃及需求說明,需要的情況下需要制定災備計劃,以便數(shù)據(jù)倉庫可以從事故中恢復。
調(diào)研責任矩陣
調(diào)研執(zhí)行分為四步驟:
第一步對本次項目的目標,整體平臺的范圍和當前IT的技術架構進行調(diào)研與整理;第二步針對本期項目涉及業(yè)務部門進行單獨訪談,明確指標,確認口徑,梳理前端樣式與功能并確定相應的數(shù)據(jù)標準;第三步可根據(jù)上一輪調(diào)研結果所設計的藍圖進行確認和修改并在數(shù)據(jù)側對底層數(shù)據(jù)進行探源;最后將調(diào)研結果與方案藍圖進行最終的多方確認并審核簽字。這一階段的交付物為系統(tǒng)藍圖框架與當前數(shù)據(jù)基礎和質(zhì)量情況表等,具體的執(zhí)行過程見下圖:
指標確認框架
數(shù)倉構建的核心工作是分層及建模,分層架構設計是為應用數(shù)據(jù)資源采集、存儲、處理和交換提供建設性依據(jù),而數(shù)據(jù)模型將決定數(shù)據(jù)倉庫系統(tǒng)的增長性和性能,數(shù)倉一般分為 ODS(貼源層)層、DW 層(數(shù)據(jù)倉儲層)、DM 層(數(shù)據(jù)集市層)三層架構,依據(jù)企業(yè)實際情況會有所調(diào)整,而數(shù)倉模型大多采用維度建模和范式建模。
數(shù)據(jù)分層:
每一個數(shù)據(jù)層都有它的作用域,在使用表的時候能更方便地定位和理解,因此需要針對數(shù)據(jù)進行分層建設,且數(shù)據(jù)分層也利于數(shù)據(jù)血緣追蹤、屏蔽原始數(shù)據(jù)的異常,通過開發(fā)一些中間層,還可以起到減少重復開發(fā)的作用。
數(shù)倉通用技術框架
數(shù)倉建模的流程:
數(shù)倉模型的設計,按照概念模型(主題域模型)——邏輯模型——物理模型的流程進行,邏輯模型和物理模型通常采用維度建模的辦法,以星型和雪花型模型來組織數(shù)據(jù),維度建模的兩個基本元素是事實表和維度表。而維度建模也分為確定業(yè)務主題、定義粒度、確定維度和確認事實表四個步驟。該階段的交付物為針對數(shù)據(jù)源的概念模型、邏輯模型和物理模型。
數(shù)倉建模一般流程
DWD層維度建模步驟
ETL過程常常需要最長的項目時長,可能會占用數(shù)倉開發(fā)的50%及以上,因為獲取源數(shù)據(jù)、理解業(yè)務規(guī)則、邏輯和物理數(shù)據(jù)模型需要花費大量時間。ETL 通過從源系統(tǒng)數(shù)據(jù)庫實時同步數(shù)據(jù)至數(shù)據(jù)倉庫貼源層,基礎層、通用層、應用層基于貼源層的增量數(shù)據(jù)以實時指標加工的規(guī)則進行定時(T+1 天)加工處理。
ETL過程
測試上線
測試上線的主要目的是為了測試當前數(shù)倉開發(fā)完畢后數(shù)據(jù)是否準確,數(shù)據(jù)相應的速度是否及時,包括 ETL 任務的各環(huán)節(jié)是否出現(xiàn)異常等,測試完畢通過業(yè)務確認后即可上線。
數(shù)據(jù)規(guī)范
數(shù)倉建設的規(guī)范是為了后續(xù)開發(fā)人員可以遵從規(guī)范,培養(yǎng)良好的習慣,也可以提升數(shù)倉開發(fā)的可維護性,便于用戶的溝通及交流。數(shù)據(jù)規(guī)范的內(nèi)容包括數(shù)倉設計規(guī)范、命名規(guī)范、ETL 規(guī)范、報表規(guī)范等,數(shù)據(jù)規(guī)范建設為后續(xù)的數(shù)據(jù)治理及數(shù)據(jù)資產(chǎn)的管理建立了良好的基礎。
數(shù)倉規(guī)范文檔
標簽: