大数据治理入门系列:元数据管理

在介绍数据治理一文中,我们曾用在图书馆找书的例子解释为什么需要进行数据治理。数据治理在某种程度上类似于图书管理。元数据管理作为数据治理的重要一环,也可以进行这种类比。

在图书管理过程中,需要根据相应的制度购买、记录、存放、借还图书。每一本书都有自己的分类、编号、存放位置,有些图书馆还会附上对书籍作者、内容等方面的简单介绍。

在数据治理领域中,也需要按照一定的标准采集、记录、分析、使用数据。图书馆中的书籍类似于数据,书籍编号、出版日期、介绍等信息就类似于元数据

介绍元数据管理之前,首先需要了解什么是元数据。

元数据的含义

说到元数据,想必很多人都听过“元数据是关于数据的数据”。这句话一针见血地点出了元数据的主要特点,但正是由于太过精炼而显得有些笼统。关于数据的数据到底是什么?

美国信息标准组织 (NISO) 的定义是:元数据是描述、解释、定位、简化信息检索/使用/管理过程的结构化信息。

下面通过具体的示例来进行说明。

卡号客户姓名应付金额
123小红12,000
134小明15,500
234小刚2,300
信用卡账单

以“12,000”这项数据为例,其元数据包括(但不限于)如下内容:

  • 表名:信用卡账单
  • 列名:应付金额
  • 数据类型:浮点数

如上所示,元数据即描述数据属性的数据,数据属性视具体场景不同而有所不同,一般包括数据的类型、数据库、表名、列名、数据模式(schema)、所属领域、业务线、业务定义等等。

元数据的分类

根据所描述的数据属性不同,可以将元数据分为技术元数据、业务元数据、操作元数据。

技术元数据

技术元数据定义了数据的物理属性,包括数据存储、转换、访问等方面的信息。例如,数据的来源、存储位置(包括数据库名、表名、列名)、更新时间、访问时间、字段长度、数据类型(文本/图片/数字等)、数据结构、数据压缩/转换算法、数据加密/解密密钥、数据血缘关系等。

业务元数据

业务元数据定义数据的业务属性,即在业务场景中的含义和用途等。例如,数据的所有者、业务定义(数据的定义、数据表/列的定义)、业务指标、计算方式、词汇表等。业务数据有助于从业务角度理解,为什么需要这项数据。

操作元数据

操作元数据定义了数据的操作属性,包括数据加工处理和监控等方面的信息。例如,数据处理任务的编号和结果、数据流动频率、数据质量指标等。

元数据管理

理解什么是元数据之后,也就能理解什么是元数据管理。

对元数据的采集、记录、共享、和维护,就是元数据管理。具体而言,需要管理数据的生命周期、数据所有者、质量规则、安全性、审计日志、影响分析、数据转换、风险管理、业务规则、业务术语等。元数据管理的核心在于,让数据用户能通过一些关键信息快速找到想要的数据。

由于数据量庞大,而且更新频繁,所以需要借助一定的工具来管理元数据。市场上主要的元数据管理工具供应商有 CollibraerwinIBMInformatica 等,主流产品有 Collibra Catalog、Collibra Privacy & Risk、erwin Data Catalog、IBM InfoSphere Information Governance Catalog、Watson Knowledge Catalog、Informatica Intelligent Data Platform、Informatica Enterprise Data Catalog、Informatica Business Glossary…..从这些产品名称中可以看出,数据目录(Data Catalog) 是重要的元数据管理方式。我们将在下一节中详细介绍数据目录。

元数据管理工具主流供应商

通过元数据管理可以让原数据更易用,在企业范围内推动数据迁移、数据整合等项目的实施,可以追溯数据血缘关系,确保数据的可靠性。完善可靠的元数据管理系统还有助于加强数据合规。此外,这些元数据本身形成了一个知识库,对企业而言也是一笔财富。未来的元数据管理将更加智能,更加深入,支持更快的分析,提供更快深的洞见。