数据安全

数据安全 (Data Security)一般指保护重要的、机密的纸质信息或数字信息,防止未经授权的非法访问、泄露、篡改、丢失、损坏、数据滥用等情形。数据安全涵盖的范围非常广泛,包括存储数据的硬件设备、访问数据的软件环境、访问权限控制、相关的规章制度等。说到数据安全,最常见的话题就是数据库安全和数据隐私。

数据安全主要具有三大要素,通常被称为 CIA 三要素。有时还会加上问责制一同构成 CIA+A 四要素。

  • 保密性(Confidentiality):保护数据的私密性,只有获得相应授权才能访问数据。
  • 完整性(Integrity):确保所存储的数据能满足业务场景需要,并且数据是可靠的。
  • 可用性(Availability):确保具有相应授权的用户能持续访问所需的数据。
  • 问责制 (Accountability):界定并划分数据保护、数据治理相关的相关角色,例如数据管理员。
CIA 三要素

数据库安全

如今处于大数据时代,大多数的数据都存储在数据库中,数据安全很大程度上取决于数据库安全 (Database Security)。数据库安全即,通过一系列的措施保护数据、数据管理系统、相关的数据应用和物理设备等,防止非法访问和恶意攻击。

数据库风险来源

内部人员的违规操作、人为失误、软件漏洞、网络攻击等都会威胁到数据库的安全,主要包括以下几方面:

  • SQL 注入:攻击者将恶意的 SQL 代码作为输入参数添加到 SQL 语句中,当服务器解析这些带有恶意代码的语句时就会遭受攻击。
  • 缓冲区溢出漏洞:由于程序设计的缺陷,攻击者可以向程序的输入缓冲区写入大量数据,超出缓冲区能容纳的最大数据量,导致缓冲区溢出,趁此之际非法获取对程序的访问权甚至控权。
  • DoS 攻击:即拒绝服务攻击,攻击者通过五花八门的手段使计算机或网络无法提供正常的服务访问。常见的手段有网络带宽攻击和连通性攻击,例如向机器发起大量请求,使其过载从而拒绝访问,机器或程序无法使用。
  • 弱鉴权:采用自主访问控制(DAC)和基于角色的访问控制(RBAC)等弱鉴权机制,而非强制访问控制(MAC),容易让不法分子有可乘之机,盗取合法用户的身份,非法访问机密数据。

数据库安全措施

由于数据库面临的风险来自人员、技术、设备等方方面面,所以制定相关的防护措施时也应该周到严密,从多方面、多维度确保数据安全,做到事前紧密防范、事中及时干预,事后深入反思。下面列出一些常见的措施以供参考:

  • 权限控制:为用户授予角色,并基于角色限制对资源的访问权限。建议遵循最小权限原则,即仅为角色授予其执行分内之事所需的最小权限。这是因为,拥有的权限越多,可执行的操作越多,也就意味着犯错的机会越多。
  • 数据分级:根据具体的业务场景将数据分为公开数据、机密数据、敏感数据、个人数据等级别,基于数据级别执行不同的管理措施,以减少成本,避免为不重要的数据浪费过多精力。
  • 分布式系统:通过分布式系统将多个服务器分离,便于进行事故熔断,灾备恢复等。
  • 数据审计:实时监控数据库,了解数据库用户的行为以及各种事务,基于数据血缘和审计报告追溯事故源头,了解影响范围等。
  • 加强鉴权:通过用户名/密码、一次性密码、生物识别等手段加强鉴权,定期更新密码等。
  • 文件加密:通过哈希、Salting 等加密算法对数据进行编码,只有获得相应密钥的人才能读取数据。
  • 定期备份:备份可以分为全备份、增量备份、差异备份,可以根据需要高效利用不同的备份模式。增量备份指,和上一次备份的数据相比,记录更新的内容。差异备份指,和上一次全备份相比,记录所有不同的内容。此外,备份数据也最好加密
  • 定期更新:让数据、应用版本、代码保持最新,发现漏洞后及时更新版本或打补丁。
  • 尽量不使用默认端口:很多服务的默认端口是固定的,例如众所周知 MySQL 的端口号是 3306。 如果使用默认端口,主要知道节点 IP 就可以访问服务,存在安全隐患。
  • 善用防火墙:建立白名单,仅允许白名单里面的请求来源通过防火墙,进一步加强安全控制。

数据隐私

近年来随着互联网的发展,我们在各种电子设备、软件、游戏中注册账号,我们的姓名、电话、住址、浏览记录、购物记录、日常活动、个人喜好等全都被记录下来。个人隐私在大数据时代逐渐变得透明,人们开始关注保护数据隐私。数据隐私 (Data Privacy) 也属于数据安全的一部分,但更多强调企业对于保护用户数据的责任和义务,强调个人如何保护自己的隐私数据不被泄露。

相关法规

随着社会对数据隐私的重视,相关部门也出台了一系列的法律法规来保护人们的隐私数据。常见的数据隐私保护法规主要有中国的 PIPL、欧盟的 GDPR、美国的 CCPA 等。

PIPL

《中华人民共和国个人信息保护法》(PIPL)于 2021 年 11 月 1 日正式施行。该法明确规定了个人信息的一般处理规则、敏感个人信息的处理规则、国家机关处理个人信息的特别规定、跨境提供个人信息的规则、个人对于处理个人信息的权利和义务、履行个人信息保护职责的相关部门等。所有“以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息“(不包括匿名化处理后的信息)都属于受保护的个人信息。个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。

GDPR

《通用数据保护条例》(GDPR)由欧盟起草并通过,于 2018 年 5 月 25 日生效。GDPR 扩大了违反数据安全的责任范围,出现违规时数据的控制者和处理者都需要承担连带责任。违反 GDPR 隐私和安全标准的相关主体将被处以重罚,罚款金额高达数千万欧元。GDPR 被中央网信办称为最严格的数据隐私法规

CCPA

《加州消费者隐私法》(CCPA)于 2020 年 1 月 1 日生效。该法案规定了个人有权力了解企业收集了自己哪些个人信息以及这些信息如何被使用和共享,有权力删除企业所收集的自己的个人信息,有权利选择不出售自己的个人信息,以及有权行使 CCPA 规定的各项权利而不受歧视。CCPA 将个人信息定义为:指直接或间接识别、涉及、描述特定消费者或家庭或者能够合理地与特定消费者或家庭相关联的信息。

在大数据时代,数据的重要性不言而喻,“掌握数据就掌握了流量/财富/未来/人类/世界“之类的论调层出不穷。有鉴于此,保护数据安全,尤其是数据库安全和数据隐私就显得尤为重要,在任何时候都不能掉以轻心

大数据治理系列科普

数据治理:https://blog.sqlflow.cn/data-governance/
元数据管理:https://blog.sqlflow.cn/metadata-management/
数据血缘关系:https://blog.sqlflow.cn/data-lineage/
数据目录:https://blog.sqlflow.cn/data-catalog/
数据质量:https://blog.sqlflow.cn/data-quality/