项目背景
项目背景
当前采用Greenplum数据仓库底座,系统架构如图所示:
该系统面临如下问题的挑战:
l集群计算能力出现瓶颈
l报表查询响应变慢
l批处理执行时间长
l信创化监管要求
项目目标
针对项目当前面临的问题和挑战,选择采用华为GaussDB(DWS)国产数仓,完成数据仓库的整体迁移上线,力争达成以下目标:
Ø提升系统整体计算能力
Ø提升报表查询效率
Ø提升批处理执行效率
Ø满足信创化监管要求
整体迁移方案设计
Ø软件技术架构升级
数据仓库:Greenplum升级为GaussDB(DWS)
ETL工具:Kettle升级为DataX+自研
调度工具:升级为自研工具
Ø硬件技术架构升级
处理器:Intel x86平台升级为鲲鹏arm平台
操作系统:Redhat系统升级为KylinV10
存储:机械硬盘HHD升级为固态硬盘SSD
迁移实施方案
Ø业务脚本迁移方案:采用转换工具+人工结合的方式,工具转换完成90%工作量、人工完成剩余10%的迁移工作及检查验证工作。
Ø业务数据迁移方案:采用数据文件方式,在Greenplum源端使用copy命令并行导出数据到数据文件,再通过GaussDB(DWS)外部表并行加载高效入库。
Ø业务数据比对方案:采用数据条数+数据特征值+MD5等多种组合方式进行全量或抽查校验比对,确保数据的一致性及迁移的质量。
迁移平滑度总结
GaussDB(DWS)与Greenplum都是基于PostgreSQL生态,语法相似度高,达到90%以上,整体迁移较为平滑。元数据迁移时,先查出Greenplum平台上所有表结构和业务处理函数,然后通过转换工具批量转换为适配GaussDB(DWS)语法的表结构和函数,再通过批量执行工具加载到数据库。以下列出一些语法差异:
迁移实施的组织分工
迁移实施的时间计划
项目总结
Ø满足信创化监管要求
系统采用了华为GaussDB(DWS)数据库,基于银河麒麟V10
SP2操作系统和鲲鹏芯片的服务器构建,实现了整体系统的信创化,进一步提升自主可控能力。
Ø数据迁移周期缩短
在数仓迁移过程中,通过自动化工具和定制化迁移流程,我们成功地减少了数据迁移的时间和人力成本。
Ø查询性能提升
通过优化数据存储和查询算法,我们成功地提高了查询性能,缩短了响应时间。
Ø数据处理效率提高
通过采用分布式计算和并行处理技术以及列式存储引擎,我们提高了数据处理效率,为数据分析提供了更加高效的支持。日间批处理速度较之前提升了1倍。
Ø系统稳定性增强
在优化性能的同时,我们也注重系统的稳定性,确保了系统的正常运行和服务质量。