大数据治理入门系列：数据治理 - Gudu SQLFlow 中文官方博客

在信息经济时代，数据是企业的一大关键资产。为了制定科学、有效、合理的决策，企业需要收集大量的数据并进行各种数据分析，为决策提供依据。在此过程中，收集数据的速度、数据的质量和可靠性、对数据的分析过程、合适的分析工具等，都对最终决策具有显著影响。这些其实都属于数据治理的范围。

数据治理的含义

数据治理包含一整套的流程、角色、政策、标准和指标，旨在确保能够高效、有效地利用信息，助力企业实现数据愿景。数据治理具体可以包括以下几个方面：

数据管理：确定数据的所有者/负责人
数据政策：有关数据管理的各类指南、标准、规则等，通常由数据治理委员会制定
数据标准：捕捉数据、记录数据、维护数据的标准
元数据管理：管理有关数据的数据，例如数据库的名称、版本号等
数据血缘关系：借助数据血缘分析工具（例如马哈鱼数据血缘分析器）追踪数据的来龙去脉
数据目录：记录特定范围内所有数据的清单目录
数据质量：通过各类质量指标评估数据质量
数据安全：涉及数据访问管理、个人信息验证等安全相关的控制

简言之，数据治理规定了，谁可以在什么场景下，通过什么方式，对哪些数据采取何种行动。

为什么需要数据治理

数字时代创造了海量的数据，手机上的各种 APP 就像勤劳的蜜蜂一样乐此不疲地生产数据，导致数据规模一刻不停地疯涨。面对如此之多的数据，如果不加治理，查找数据时不仅效率低下，而且很难保证数据的质量。这就像在杂乱无章的图书馆中寻找一本书，由于图书没有编码、没有分类，没有介绍，你需要不停在书架中穿梭，翻开每一本书查看。一番周折之后，终于找到了你想要的书，但翻看几页之后却发现丢失了很重要的一些内容，这本书如今对你而言毫无价值，花费了大量时间最终却一无所获。

为了避免在数据治理过程中遇到类似的糟糕体验，所以需要对数据进行治理。然而，需要数据治理的原因有很多，上述情形只是触及了冰山的表面。概括来说，需要数据治理的情形主要分为以下几方面。

不同的数据真相

“真相永远只有一个”在名侦探柯南的剧情中永远成立，但对于未经治理的数据而言却并非如此。很多数据机构在过去十几年里都面临的一个问题是，同一数据元素在不同的数据系统中具有不同的值。造成这种现象的原因多种多样，大体包括数据延迟、数据流动路径错误、系统不同步等。

缺席的数据所有者

应用程序所有者、系统所有者、产品所有者均有明确定义。而数据作为程序和系统的基石，却没有明确的所有者。出现问题时无法界定修复责任，无法确定谁来修复，因此进一步造成系统混乱，甚至可能会导致数据遗失。

模糊的数据上下文

有些数据会随着时间的变化而变化，例如每年的收入、支出、负债等。有时这些数据会在短时间内出现显著的增加或减少，后期分析数据时可能难以解释这些变化。因此，需要在数据治理中定义数据上下文，即解释得出某个数据的条件或环境，例如数据的结构、数据量、相关产品的定义、市场范围、宏观的经济环境、政治信息等。有了这些上下文信息就可以解释数据的来源，分析数据的变化，提升数据的可靠性。

不规范的数据文档

数据文档涉及很多内容，包括数据采样、数据收集、数据清洗、数据分析等。标准的结构化数据有利于使用者快速理解数据，降低数据的使用难度。有些数据文档排版美观，配色和谐，看起来很漂亮，但深层次上仍然缺乏一致的文档结构，组织范围内没有明确定义数据集或数据元素的格式。

展望数据治理的未来

Informatica、ASG、IBM 等数据治理领域的头部企业在市场上提供了各种各样的数据治理工具，尝试用最新的科技丰富产品特性，提升竞争力。使用人工智能技术便是其中的重要一环，例如通过 NLP 编制数据目录、通过机器学习追踪数据链路、借助人工智能检测数据质量等。借助强大的科技生产力，以及对数据真相、所有制、上下文、文档等方面的进一步完善，未来的数据收益回报率有望得到大幅提升。

数据治理不仅是对数据的控制和保护，更是对业务的赋能和洞见。

数据治理的含义

为什么需要数据治理

展望数据治理的未来

相关文章

数据安全

大数据治理入门系列：数据质量

大数据治理入门系列：数据管理