项目背景
项目背景
华东某大型证券公司数仓国产化替换启动于2023年9月份,总体目标是用信创数据库替换、迁移并优化现有数仓的数据架构;对数据服务进行大规模升级,以满足数据仓库信创化要求。
根据业务特征,将现有数据库中的数仓架构平行迁移至华为GaussDB(DWS)数据库中,数仓架构模型不变,同时保持调度、ETL作业逻辑及顺序不变。将表结构,存储过程进行新产品适配以保障数据与数据处理的一致性。同时,对表结构和存储过程及跑批作业进行优化,提升处理效率和性能。将原有datastage的调度作业改造适配进新的集群系统。同时将梳理新的开发规范,为之后的数据仓库开发、改造奠定坚实的基础。
为了保证数据仓库高效,安全,平稳的运行,要求:
Ø 确保架构迁移后对业务系统输出的数据和改造前一致
Ø 完成数仓的数据迁移、函数改造、数据对比验证、ETL采集、调度任务改造等工作。
Ø 保证数据迁移后的准确、有效。
帮助某证券公司梳理开发规范及数据治理的理念分析
项目目标
Ø各个层级表数据模型、存储过程及函数迁移
将各层级表数据模型(总量12600+)存储过程及函数(总量3730+)迁移至新的数仓平台(DWS),并保证作业执行成功、数仓内数据加工业务逻辑无误,保证采集端、推送端函数适配并准确推送。
Ø各个层级表数据文件迁移
将各层级表数据文件(总量750T+)迁移至新的数仓平台,并保证历史存量数据迁移后的一致性和完整性,同时保证增量数据迁移方法论的成功性
ØETL平行迁移及调度作业改造迁移
ETL作业与部分调度作业的平行迁移由国君老师负责,部分调度作业(datastage作业改造datax作业,总量4000+)的改造迁移由掌数完成,需保证作业逻辑正确、依赖关系准确、各项配置无误。
Ø数据核验及验收
以上迁移任务完成之后,对数据进行新老集群的总核验。总量12600+张表,需保证历史数据一致,增量数据一致,以及数据加工后的各层级表数据一致,作为项目验收标准。过程中遇到纰漏或者错误的表数据需逐个层级查验,解决问题,直至目标表核验无误并通过国君老师确认后方可通过核验。
整体迁移方案设计
为了实现系统迁移目标,我们将最大限度的保留和复用旧系统的ETL服务层、数据展现层、数据仓库模型,将数仓从旧系统快速迁移到DWS平台。因此,从总体上看只需切换数据服务层的数仓平台。
迁移实施的时间计划
迁移实施的角色分工