无论您是数据领域的专业人员,还是其他领域的非专业人士,也许都曾遇到过数据不完整、数据过时、数据不一致、数据不准确等问题。这些低质量的数据不仅没能解决最初的疑问,甚至还可能衍生出了其他问题。质量低劣的数据会影响数据分析结果,误导业务决策,造成经济或其他方面的损失,损害使用者的信心。因此,为了避免这类问题,组织机构有必要把控数据质量。数据质量也是数据治理的重要一环。
狭义的数据质量仅指数据在准确性、有效性、及时性、完整性、唯一性、一致性等方面的好与坏,是否能满足预期的用途。但从广义的层面而言,数据质量还可以包括定义数据质量标准、监督和维护数据质量的规则、流程、具体实施。
维度
数据质量可以从六个维度进行衡量:准确性、有效性、及时性、完整性、唯一性、一致性。
准确性:数据必须反映真实世界的实际情况,不得伪造数据。准确性是评估数据质量的首要标准。如果数据本身就是错误的,那么后面的有效性、及时性等其他维度则无从谈起,因为错误的数据在数据治理过程中毫无价值,只会白白占据存储空间、浪费管理精力。为了确保数据的准确性,应该从数据源头开始治理。输入/存储数据时就通过相关流程和标准对数据进行验证,确保新数据正确无误时才能将其存入数据库。
有效性:数据应该符合相关的业务规则,使用正确的存储格式。例如,一般的银行卡号应该在 16-19 位之间,两位数的银行卡号则属于无效数据。
及时性:数据应该及时更新,并且确保用户需要某一条数据时能在最短时间内找到该数据。过时的数据会影响数据分析结果的准确性和可靠度。因此,数据管理员或数据质量分析师需要定期整理数据,剔除过时数据,及时更新数据。
完整性:完整的数据才能有效满足使用者的需求。甚至,在某些情况下,只有完整的数据才是有意义的。例如,分析产品销量变化时,需要同时考虑公司内外的微观和宏观因素,否则得出的结果未免有些片面。因此,组织应该预先定义所需的各种数据元素,确保数据库中存储了完整的数据。
唯一性:已经记录过的数据无需重复记录。通过数据清洗和去重确保数据的唯一性,这有助于提高数据使用效率,降低审计成本,节省存储空间。
一致性:同一个数据对象的值应该是唯一的。例如,你此时此刻的人民币账户余额应该是独一无二的确定值。不一致的数据只会制造问题,无法解决问题。因为如果出现数据不一致,需要花费更多时间去验证究竟哪个数据才是正确的。
为了确保数据质量,企业可以根据自身的业务场景制定相应的数据质量规则和流程制度,以确保数据在各个维度符合质量要求。另外需要注意的是,对于特定的关键数据元素而言,并非所有的维度都适用。例如就出生日期而言,只能评估其有效性和完整性。
质量管理流程
数据质量管理主要分为四个流程:
- 确定数据质量要求:通过适用的专业工具或查询语言进行数据剖析(Profiling),了解数据的大体情况,发现可能存在的问题。
- 开展数据质量评估:制定数据质量规则和标准,根据这些规则和标准评估现有的数据集,开展数据质量评估,发现数据质量问题,更新问题日志。
- 解决数据质量问题:分析造成数据问题的根本原因,对症下药,解决这些问题,可以参考数据政策和流程。
- 日常监督与维护:制定并推广数据质量得分表等工具,监督数据质量得分。
数据质量管理过程中涉及的角色主要是数据质量分析师。数据质量分析师与业务所有者、数据管理员、技术所有者、数据监管人等角色紧密协作,具体工作包括但不限于:定义数据治理规则、剖析数据、分析数据质量剖析结果和评估结果、发现质量问题、调研数据质量问题的根因、解决这些问题、监督数据质量、针对现有的数据问题提出建议、改善流程等,这些建议由数据管理员进行审批,审批通过后再由质量分析师予以执行。
提升数据质量
所谓“光说不练假把式”,介绍了数据治理的含义、维度、流程等理论性概念之后,现在来关注一下实操性的指南,即如何提升数据质量。提升数据质量主要可以从以下几个方面进行:
- 做好数据剖析:在考虑提升数据质量之前,你必须了解自己的数据,初步评估数据集的现状,这样才能因“数”制宜,对症下药。
- 数据标准化:制定科学合理、符合实际情况的数据质量管理策略,使用合理的流程和工具。
- 加强质量监督:确保所制定的各项规则落到实处,定期查看数据质量得分,通过分析数据血缘关系掌握数据的流转情况。
- 加强人员管理与培训:鉴于目前的人工智能水平,人员素质对人大多数工作而言仍然非常重要,很多重要的分析工作仍然需要高素质、高技能的人员来完成。