当前位置: 首页 > news >正文

机构数据治理-质量监控

机构数据中心的痛点

券商、基金、银行、保险等金融机构(以下统称【机构】)一般都会外购数家甚至数十家金融数据库,建设私有数据中心,以博采众长,形成自己的数据资产。数据全不全,对不对,好不好,这些数据质量问题决定了数据资产是否值得信任。常见的痛点有:

1、数据丢失:

外购的数据商数据,能否准确及时的下载到位?网络故障、服务器异常等各种不可控风险是否被数据商充分考虑?丢失1条数据和丢失1万条数据是一个性质,都是重大事故;

数据中心自己的数据向子机构和客户等下游单位分发,如何确保数据不会丢失?

更进一步,数据商和数据中心,能否做到冗灾容错?无论何种异常导致数据未到位,甚至是被误操作删除了数据,是否有完善的解决办法,无需人工干预,自动补齐缺失和丢失的数据?

2、数据准确性:

如何判断相关数据的准确性,能否与权威的来源做智能比对?这其实是一个伪命题:如果存在一个所有数据的权威来源,为何不直接采购该来源数据?何况,事实上并不存在类似的普适性权威信源;

双路(两路来源数据比对,判断标准为非一致数据即认为故障存疑)甚至三路(多数一致即正确原则)校对是否可行?根据实施过类似方案的机构经验,除非投入大量的资源深度研究业务逻辑,技术上很难判断谁对谁错;

排除对业务的定制化理解,如何单纯从技术角度,制定大家都能接受的数据质量量化标准?

3、智能监控:

对数据的质量监控,多数机构提的第一个刚需就是:不能对现有生产环境做任何改动。触发器?不可能!需要日志?没有!给个源库的只读权限,数据具体发生了什么变化,自己判断去;

普适性。常见的关系型数据库(尤其符合信创要求的新环境),所有外购和自产的各种数据,能否有统一的监控?简单设置,却可以监控到一切数据的所有变化都无所遁形;

成本投入。数据中心都是花了千万级资源搭建起来的,不能再重新建设一遍来做监控。能否将成本降到最低(比如十万级)就能满足对现有所有数据的跟踪和监测?

二、UTS对数据质量的探索

UTS(统一数据传输系统)16年来致力于深耕数据库同步技术,基于时间戳对比的同步模式完美做到了数据同步的零风险,目前客户涵盖了证券金融行业头部绝大多数的数据厂商。

通过对比源和目标数据库时间戳的差异来进行同步,无形之中正好满足了机构的监测刚需:不用触发器和日志便可发现数据的所有变化,能广泛适应各种数据库环境,能普遍支持各大数据厂商的数据库。

所以新版UTS在较老版UTS同步速度提升6~100倍的基础上,加入了数据稽核的功能,为机构数据质量监测提供强有力的底层支持:

1、数据质量判断标准:

没有权威的信源作对比,如何判断数据的质量高低?UTS的思路是,将数据的修改和删除统计作为数据故障的参考:作为数据商,必然有着大量的客户在广泛使用,如果数据有差错,总归会有人反馈和投诉,倒逼数据商修正数据。如果数据商发布过来的数据,经常性的反复修改和删除,说明其生产流程有待提高,而机构使用这些经常出故障的数据,也要做好防雷的心理准备;如果故障率极低,说明其数据质量的过硬;

通过监测和统计修改/删除的数据故障率,就可以得出比较直观的结论:该数据商的数据质量到底高低如何。在选择使用同类型数据商数据的时候,也能做到扬长避短,最大可能的提高机构自身数据中心的质量;

精确到每条记录每个字段的变化明细,也给机构提供了扯皮的底气:)有理有据的数据质量报告,倒逼数据商将数据质量作为自己的生命;对于一些直接涉及投资的关键核心数据,下份合同签订时,也能有更多的数据做参考依据。

2、质量监测实现机制:UTS传一遍

UTS通过对比源和目标数据的时间戳差异来判断具体的数据变化:源头有目标没有的数据,说明发生了新增操作;源头没有目标有的,说明发生了删除操作;两边都有但时间戳不一致,说明发生了修改操作;

如果数据厂商本来就是用的UTS下载,那在下载的时候就可以直接生成数据更新明细;如果数据厂商使用其他工具或者老版UTS下载,那就再传一遍,将下载下来的数据,同步一次到镜像库,照样可以判断出发生了什么操作;

汇总统计所有表的故障率,即可得出相应的结论;详细分析每次修改和删除是对哪些数据和字段做的修改,直接解剖数据(商),想不知道数据商的质量都难了:(如下图,首次入库,16:18分的数值是2086.0250,到20:28分修改为2086.0247,以前可知?)

三、结语

过去16年,UTS对证券金融行业最大的贡献,就是让数据库的时间戳机制深入每家数据厂商(包括非UTS的客户),让“冗灾容错,绝对不能丢失数据”成为基本常识。使用UTS的数据商,也再没有像以前一样被机构投诉过丢失数据。

希望未来,UTS能帮助机构和数据商,极大的提升各自数据质量,让脏数据成为历史,让数据都是值得信任的资产。

 

相关文章:

  • aop相关知识
  • 笔试强训(十)
  • 【C#】萌狼学习C#那年写的笔记汇总
  • 华纳云:把电商网站转变为电子商务应用程序,有的站长为什么这样做?
  • ch03 数组
  • java计算机毕业设计上虞烟草物流配送系统源代码+数据库+系统+lw文档
  • 阿里云视频点播-->>>阿里云媒资上传工具类及配置
  • 浙大MBA网上报名关键信息点提醒,选错一个,回头重来
  • 归并排序算法详解(方法二)之C语言版
  • 盒子模型及边框的使用
  • 什么是网络安全?
  • 纽约时报年末系列赛事分享及课程规划
  • (附源码)springboot学生选课系统 毕业设计 612555
  • 剑指offer题解(C++版)
  • 填充玻璃棉的保温吸声原理
  • HTML 列表
  • 三个方法CE提权过检测(用SYSTEM打开程序CE进程)
  • 科研试剂丙稀酰胺-聚乙二醇-羧基Acrylamide-PEG-acid,ACA-PEG-COOH
  • redis集群以及应用场景
  • STM32进入STOP模式的唤醒
  • 2022全国车辆工程专业大学排名一览表
  • 2022周口职业技术学院单招学费多少钱一年-各专业收费标准
  • 2022年中原工学院艺术类招生简章
  • 2022浙江经贸职业技术学院学费多少钱一年-各专业收费标准
  • 2022年湖南大学强基计划报名条件-报名时间-报名入口
  • 2020河北工程大学运动训练专业招生简章
  • 2022湖州有哪些民办大学?湖州所有民办大学名单一览表(1所)
  • 2022天津城市建设管理职业技术学院学费多少钱一年-各专业收费标准
  • 2022滁州学院艺术类学费多少钱一年-各专业收费标准
  • 2022云南警官学院学费多少钱一年-各专业收费标准