大数据治理入门系列:数据管理

在如今的大数据时代,每天都会产生大量的新数据,已有数据可能也会频繁更新或转换。因此,需要对数据进行治理和管理,以便高效地开展数据分析、获取数据洞见、挖掘数据价值。否则,杂乱无章的数据只会白白浪费存储空间,甚至可能存在错误的数据误导组织结构的决策制定和发展方向。

数据管理的含义

根据 Informatica 的定义,数据管理(Data Stewardship)是一系列的实践操作,旨在确保组织的数据易于访问、实用性强、安全可靠。数据管理涉及数据生命周期中的方方面面,例如采集、传输、处理、存储、交换、销毁数据等。

数据管理与治理的区别

在中文里,“管理”和“治理”经常作为近义词交替使用,可能有人难免疑惑:数据管理和数据治理有何区别?因此,下面介绍了解一下二者的区别与联系。

数据治理(Data Governance)包含一整套的流程、角色、政策、标准和指标,可以细分为数据管理、数据政策、数据标准、元数据管理数据血缘关系数据目录、数据质量、数据安全八大领域。数据治理涉及在组织范围内搭建数据治理体系、建立数据管理人员队伍、定义数据的使用方式与目标等。

数据管理作为数据治理的子领域,主要内容是执行、落实数据治理过程中制定的各类政策、规则、要求。例如,识别关键数据,根据企业的数据治理目标制定具体详细的实施流程,维护数据相关文档,管理元数据等。

因此,数据治理聚焦于高层次的政策制定、权责划分、流程优化等,而数据管理则着眼于具体的协调与实施。

数据管理员

大数据治理入门系列的科普文章中,我们一直在用图书管理类比大数据治理。和图书管理员类似,在大数据治理场景中,同样也需要数据管理员。数据管理员是从数据管理需求衍生而来的职业。

数据管理员的职责

数据管理员需要对数据的整个生命周期负责,了解所在组织的数据类型和存储位置,确保数据可以正常访问、易于使用。数据管理员的日常职责包括:采集数据、存储数据,管理数据访问权限,保护数据隐私,维护相关文档,培训沟通数据相关事宜,维护数据血缘关系的透明性和准确性,管理元数据,评估数据质量,执行数据使用相关的规章制度,帮助所在组织将数据最大化地转化为竞争优势、确保数据合规、防范数据风险等。管理数据血缘关系是数据管理员的重要职责,管理员也可以通过可视化的数据血缘关系更高效地追踪错误和维护数据。数据管理员的职责其实也是数据管理的主要内容。

数据管理员的重要性

图书管理员对于图书管理的重要性不言而喻,数据管理员同样也在数据管理中扮演着重要角色。为了实现确保数据安全、保护数据隐私、共享数据等目标,组织机构在数据治理的过程中制定了各种决策。这些决策需要通过数据管理员来执行、监督、落实。此外,在处理非结构化数据时,数据管理员就显得更加重要了。例如,由于数据湖的包容性和易用性,有人可能在存储数据时非常随意,没有遵循相关要求。此时,如果没有数据管理员从中协调处理,最终可能会造成数据的质量和可靠性逐渐下降,形成数据沼泽。