在如今的大数据时代,每天都会有数十亿字节的数据生产出来。为了充分挖掘这些数据的价值,需要对这些数据进行相关治理,因而了解数据治理及其相关术语非常重要。为了帮助您了解数据治理这一领域,我们编辑了一个列表,列出了最重要的30个数据治理相关术语及其英文对照。
30个数据治理相关术语中英对照:
- 数据治理 (Data Governance):数据治理是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
- 数据治理工具(Data Governance Tool):数据治理工具被定义为帮助创建和维护一组结构化的策略、程序和协议的工具,这些策略、程序和协议控制组织数据的存储、使用和管理方式。
- 元数据 (Metadata): 元数据,又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
- 元数据管理(Metadata Management):元数据管理包括业务词汇表的发展,数据元素和实体的定义,业务规则和算法以及数据特征。最基础的管理是管理业务元数据的收集、组织和维持。对技术型元数据的应用,对主数据管理和数据治理项目的成功至关重要。
- 主数据 (Master Data): 主数据指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)。
- 业务元数据 (Business Metadata): 业务元数据是数据仓库环境的关键元数据,是用户访问时了解业务数据的途径,内容来源包括多个地方:用例建模(Case Modeling)工具、控制数据库、数据库目录和数据抽 取/转换/加载的工具。另外的业务元数据,例如对象连接关系或数据质量指标,是用元数 据库管理工具直接输入的。
- 技术元数据 (Technical Metadata):技术元数据是指数据仓库的设计和管理人员用于开发和日常管理数据仓库时用的数据。
- 数据目录(Data Catalog):数据目录是元数据的集合,与数据管理和搜索工具相结合,可帮助分析师和其他数据用户找到他们需要的数据,充当可用数据的清单,并提供信息以评估数据是否适合预期用途。
- 数据转换 (Data Transformation):数据转换是改变数据的格式、结构或值的过程。
- 数据仓库 (Data Warehouse):数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
- 数据湖 (Data Lake):数据湖是以自然/原始格式存储的数据系统或存储库。
- 数据治理平台(Data Governance Platform):数据治理平台是支撑企业或组织进行数据治理工作的信息化支撑平台,是集元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据开发、数据安全等多组件于一体的一整套解决方案。
- 数据质量(Data Quality):数据质量是基于准确性、完整性、一致性、可靠性以及数据是否最新等因素对数据状况的衡量。
- 数据集成 (Data Integration):数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
- 参考数据 (Reference Data):参考数据是增加数据可读性、可维护性以及后续应用的重要数据。例如,你看到“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有注释的天书。
- 数据模型 (Data Model):数据模型是真实世界数据特征的抽象,用于描述一组数据的概念和定义,包括概念模型、物理模型、主题域模型(多维模型)。
- 数据字典 (Data Dictionary):数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述,其目的是对数据流图中的各个元素做出详细的说明,使用数据字典为简单的建模项目。简而言之,数据字典是描述数据的信息集合,是对系统中使用的所有数据元素的定义的集合。
- 数据项 (Data Item):数据元素可由若干个数据项(data item)组成,数据项是数据的不可分割的最小单位。数据项的名称有编号、别名、简述、数据项的长度、类型、数据项的取值范围。数据项是数据记录中最基本的、不可分的有名数据单位,是具有独立含义的最小标识单位。
- 数据源 (Data Source):数据源(Data Source)顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接。
- 数据安全 (Data Security):数据安全是指防止数据被滥用、篡改、丢失、泄露的一套管理机制和措施。
- 数据脱敏 (Data Desensitization):数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
- 数据资产(Data Assets):数据资产是指由个人或企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。数据资产是拥有数据权属(勘探权、使用权、所有权)、有价值、可计量、可读取的网络空间中的数据集。
- 数据资产管理 (Data Asset Management):“数据资产管理”一词,在国内首次由DAMS(中国数据资产管理峰会)组委会正式提出。首届“中国数据资产管理峰会”由上海市经济和信息化委员会指导,上海市云计算产业促进中心主办,新炬网络、51CTO联合承办。旨在搭建一个数据资产管理思想碰撞与交流的平台,与业界同仁一起分享领先的数据资产管理理念与实践经验。致力于将“中国数据资产管理峰会”打造为数据资产管理领域的标杆峰会,推动中国数据资产管理行业的发展。
- 数据词汇表 (Data Glossary):数据词汇表或业务词汇表是组织使用的业务术语及其定义的列表,以确保在分析数据时在公司范围内使用相同的定义。
- 数据血缘 (Data Lineage):数据血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。
- 数据沿袭工具(Data Lineage Tools):数据沿袭工具允许您映射数据转换的每个阶段,并通过数据沿袭将这些错误追溯到源。
- 数据智能(Data Intelligence): 数据智能是指基于大数据引擎,通过大规模机器学习和深度学习等技术,对海量数据进行处理、分析和挖掘,提取数据中所包含的有价值的信息和知识,使数据具有“智能”,并通过建立模型寻求现有问题的解决方案以及实现预测等。
- 数据管理员(Data Stewards):数据管理员负责执行通过企业数据治理计划确定的数据使用和安全策略,充当 IT 部门和组织的业务方之间的联络人。
- 数据分析师 (Data Analysts):数据分析师收集、清理和解释数据集以回答问题或解决问题。他们在许多行业工作,包括商业、金融、刑事司法、科学、医学和政府。
- 数据挖掘 (Data Mining): 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
总结
感谢您阅读我们的文章,希望它能帮助您对数据治理相关术语有比较全面的了解。因为与数据治理相关的术语比较多,我们这篇文章不能面面俱到。如果您认为我们还应该添加哪些术语,请在下方的评论中告诉我们。谢谢!