人工智能时代数据安全面临的机遇与挑战_数字经济

人工智能时代数据安全面临的机遇与挑战

人工智能作为引领新一轮科技革命和产业变革的战略性技术，已成为世界主要国家谋求新一轮国家科技竞争主导权的关键技术。数据作为支撑人工智能技术发展的关键要素，数据安全格外关键。本文首先总结了人工智能时代数据安全的内涵，接着系统性梳理了人工智能发展为数据安全带来的机遇和挑战，最后就我国在人工智能时代的数据安全治理给出了相关建议。

发布时间：2022-06-10 09:48 来源：数字经济杂志作者：祁利斌李凯斌

前言

无论在学术界、产业界或是公众生活中，人工智能都称得上当前最热门的话题之一，也是目前发展最快的领域之一。1956 年达特茅斯会议的召开，标志着人工智能研究的开启，在六十多年的发展历史中曾历经两起两落，每次兴盛都是因为人工智能算法有了新的突破，例如 20 世纪 50 年代神经网络理论的提出，20 世纪 80 年代反向传播算法的出现等。而每次低潮又是因计算性能和数据规模的局限导致实际应用的需求难以得到满足，从而导致政府和投资方的冷落。自 2013 年始，以深度学习为代表的神经网络算法为核心，在大数据和图形处理器大规模应用的推动下，人工智能在语音识别、图像识别领域达到甚至超过了人类平均水平，迎来了人工智能研究的第三次高潮。数据是第三次人工智能浪潮的关键要素之一，数据安全直接影响到人工智能的模型安全，而人工智能技术也为数据安全提供了强有力的保障。本文将着重讨论人工智能技术为数据安全带来的机遇和挑战。

AI 时代数据安全的内涵

人工智能技术与数据相辅相成、互促发展。一方面，海量优质数据助力人工智能技术的发展。谷歌公司的相关研究指出，随着训练数据数量级的增加，机器视觉算法模型的性能呈线性上升。牛津大学国际发展研究中心将大数据的质量和可用性作为评价政府人工智能准备指数的重要考察项。美国欧亚集团咨询公司将数据数量和质量视为衡量人工智能发展潜力的重要评价指标。另一方面，人工智能技术显著提升了数据收集管理能力和数据挖掘利用水平。人工智能技术在人们的日常生活和企业生产经营中得以大规模应用，从而可收集和分析更多用户和企业数据，使人工智能技术在语义分析、内容理解、模式识别等方面的技术能力进一步优化，更好地对收集到的海量数据进行快速分析和分类管理。而且，人工智能技术可对看似毫不相关的海量数据进行深度挖掘分析，发现经济社会运行规律、用户心理和行为特征等新知识。基于新知识，人工智能技术进一步提升了人对未来的预测能力和对现实问题的实时决策能力，提升了数据资源利用价值，优化企业经营决策体系，创新经济发展方式，完善社会治理体系。

数据安全是人工智能技术安全的关键。人工智能算法的设计与优化需要以海量优质数据资源为基础。数据质量和安全直接影响人工智能系统算法模型的准确性，进而影响人工智能技术的应用安全。与此同时，由于人工智能技术显著提升了数据收集管理能力和数据价值挖掘利用水平，而这些能力一旦被不当或恶意利用，不仅威胁个人隐私和企业资产安全，甚至影响社会稳定和国家安全。此外，人工智能、大数据等技术与实体经济不断深度融合，已成为推动数字经济和智能社会发展的关键要素。人工智能技术的大规模应用间接促使数据权属问题、数据违规跨境等数据治理问题进一步加剧。

人工智能技术为数据安全治理带来新机遇。人工智能技术正驱动数据安全治理加速向自动化、智能化、高效化、精准化方向演进。人工智能技术的自动学习和自主决策能力可有效缓解现有数据安全技术手段对专业人员分析判断的高度依赖，实现对动态变化的数据安全风险的智能监测防护。人工智能技术卓越的海量数据处理能力还可有效弥补现有数据安全技术手段数据处理能力不足的缺陷，实现对大规模的数据资产和数据活动的高效精准管理和保护。人工智能技术正赋能数据安全治理，这将有力推动经济社会的数字化转型升级。

因此，人工智能时代数据安全的内涵有：一是应对人工智能技术自身应用加剧的数据安全风险与治理挑战；二是促进人工智能技术在数据安全领域中的应用；三是构建人工智能数据安全治理体系，保障人工智能技术和数据安全良性互动。

人工智能为数据安全带来的机遇

人工智能技术的发展为数据安全治理提供了底层通用技术支撑，取代了数据安全治理中大量重复性、长期性、粗略性的人类劳动，使数据安全治理向自动化、高效化、精准化、智能化方向演进。

人工智能技术可应用于数据安全治理的各个阶段，具体来说，人工智能数据安全治理细分领域包括数据安全策略、数据分级分类、数据安全风险评估、公有云数据保护等。

1、数据安全策略制定

传统的数据安全策略制定过程中用来辅助决策的日志数据和警报数量巨大，决策者难以快速处理，因此传统方式主要依赖人的直觉和经验。人工智能技术具备海量数据采集和分析能力，可根据训练模型进行自我学习并做出相应的判断，使管理更精细、决策更智能，因此人工智能决策系统的应用非常广泛。依托人工智能技术的决策系统能大大提高数据安全治理的时效性和合理性，在数据安全风险管理策略制定、应对数据合规性要求、分级保护策略制定等方面辅助管理者快速、科学、合理地制定策略，为数据安全治理提供智能化的解决方案。例如，2017 年 12 月，百分点集团发布智能政府决策系统 Deep Governor，该系统汇聚行业专家知识，结合 6 大类 50 余种社会经济发展综合决策模型，提升政府科学决策水平，推进决策能力现代化，助推“数据治国”。

2、数据分级分类

在大数据技术应用日益广泛的今天，数据资源的共享和开放已经成为促进大数据产业发展的关键，但由于数据的敏感性，加之各行业数据分类分级标准的缺失，使数据的开放和共享面临诸多困难。借助 AI 算法使数据分级分类自动化，有利于稳步推进数据的开放和共享，为大数据技术的发展应用提供保障，实现对数据价值的最大挖掘利用。通过应用机器学习、模式聚类、自然语言处理、语义分析、图像识别等技术，提取数据文件核心信息，对数据按照内容进行梳理，生成标注样本，经过反复的样本训练与模型修正，可以实现对数据的自动、精准的分级分类。例如，基于深度学习 + 条件随机场算法的（BiLSTM+CRF）实体识别模型，可准确识别人名、地名、机构名称、时间、日期、金额等各类实体内容；而基于正则匹配 +luhn 校验的复合识别算法模式，可用于精确识别身份证、银行卡等敏感信息，从而实现敏感数据的自动提取与分类。我国网络安全初创企业思睿嘉得利用无监督机器学习引擎分析大量未经标注的原始文档集，自动按照内容进行主题梳理，并通过人工干预灵活调整语义相似度，获得了满意的聚类效果，从而实现对数据的精准分级分类。浙江省旅游信息中心联合厦门杜若科技公司开展了浙江省旅游度假区信息的数据治理试点，将旅游大数据纳入人工智能系统，对结构化数据进行开放式训练 , 对数据进行分级分类并实现基于自然语言的数据管理。

3、数据安全风险评估

基于用户行为的数据安全异常检测技术，把注意力放在特定用户的活动上，通过多种统计及机器学习算法建立用户行为模式，当黑客的行为与合法用户出现不同时进行判定并预警，从而发现数据泄露风险。基于机器学习技术，采用以用户 / 实体为中心的分析方法，运用数据模型和规则，对用户和实体的行为进行描绘，形成模型如下。

基线模型：将人、资产、数据之间的历史行为操作数据输入，利用基于AutoEnconder 自主学习的行为基线算法，训练生成动态的数据行为基线模型；利用动态行为基线进行检测，当数据行为发生改变或者偏离基线时发出警告。

时间序列模型：基于时间序列分解的异常行为分析，发现和提取行为中的序列突发成分，然后基于向量之间的欧几里得距离 , 用遍历和匹配方法提取周期子序列，最后将行为序列分解为突发成分、周期成分和随机成分，重点分析突发行为及周期行为，以确定其是否为异常行为，如出现周期性的非核心时段超量下载文档、周期性超量上传核心文档到互联网等行为，我们都可以认定内部人员窃取数据。

4、公有云数据保护

公有云数据保护对于云提供商来说一直是一项具有挑战性的任务，因为云的固有共享性源于数据中心和网络的虚拟化方式以及云对互联网的暴露。传统的云安全系统必须通过硬编码规则、持续监控和人工干预来保护公有云存储的

数据。然而，由于存储在公有云中的数据呈指数性增长，这种方法变得不那么有效了。许多人将基于机器学习的洞察力生成、预测分析和自动化控制等技术视为旧技术的强大替代方案。这种创新的一个例子是 Amazon Macie，Amazon 将其用于保护其 S3 存储数据的 ML 系统。系统可动态分析所有访问私人数据的历史痕迹，并标记各种异常情况，例如下载大量数据、不寻常的登录尝试或数据传输到意外位置。此外，Macie 通过各种元数据字段、文件内容以及源代码对数据的敏感性进行分类。然后，系统根据数据敏感度分数对最敏感的数据进行定期安全检查，并在数据泄露或数据意外暴露时向所有者发出警报。亚马逊新的数据保护安全范式比以前的方法更加动态和灵活。它还利用 AI 生成的洞察力和预测模型来防止攻击，而不仅仅是对攻击做出反应。

人工智能技术为数据安全带来的挑战

人工智能技术为数据安全治理带来重大机遇的同时，也为数据安全带来了挑战，这主要包含人工智能技术自身面临的数据安全风险、人工智能应用导致的数据安全风险。

1、人工智能技术自身面临的数据安全风险

训练数据污染可导致人工智能决策错误。数据投毒通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性，进而导致训练的算法模型决策出现偏差。数据投毒主要有两种攻击方式：一种是采用模型偏斜方式，主要攻击目标是训练数据样本，通过污染训练数据达到改变分类器分类边界的目的。例如，模型偏斜污染训练数据可欺骗分类器将特定的恶意二进制文件标记为良性。另外一种是采用反馈误导方式，主要攻击目标是人工智能机器的学习模型本身，利用模型的用户反馈机制发起攻击，直接向模型“注入”伪装的数据或信息，误导人工智能机器做出错误判断。在自动驾驶领域，数据投毒可导致车辆违反交通规则甚至造成交通事故；在军事领域，通过信息伪装的方式可诱导自主性武器启动或攻击，从而带来毁灭性后果。

2、人工智能应用导致的数据安全风险

人工智能应用可导致个人数据过度采集，加剧隐私泄露风险。随着各种智能设备（如智能手环、智能音箱）和智能系统（如生物特征识别系统、智能医疗系统）的应用普及，人工智能设备和系统对个人信息的采集更加直接与全面。相较于互联网对用户上网习惯、消费记录等信息的采集，人工智能应用可采集用户人脸、指纹、声纹、虹膜、心跳、基因等具有强个人属性的生物特征信息。这些信息具有唯一性和不变性，一旦被泄露或者滥用，会对公民权益造成严重影响。2019 年 2 月，我国人脸识别公司深网视界曝出数据泄露事件，超过 250 万人的数据、680 万条记录被泄露，其中包括身份证信息、人脸识别图像及 GPS 位置记录等。鉴于对个人隐私获取的担忧，智能安防的应用在欧美国家存在较大争议，2019 年 7 月，继旧金山之后，萨默维尔市成为美国第二个禁止人脸识别的城市。

人工智能数据安全治理建议

当前，人工智能处于技术发展和应用普及的快速迭代时期，人工智能数据安全风险不断凸显，安全应用逐步深化，问题挑战与发展机遇相伴而生。我国作为数字经济大国和人工智能先行国家，需坚持发展与安全并重的治理思路，以伦理规范为引导，以法律法规为底线，以安全监管为约束，大力推进标准建设、技术发展和人才培养等工作，全面提升我国人工智能数据安全的综合治理能力，有效保障我国数字经济和智能社会的健康稳步发展，维护人民利益和国家安全，确保人工智能的数据安全、可靠、可控。天地和兴工业网络安全研究院着眼于当前万物互联“互联网 +”时代的工业信息安全挑战和机遇，乘势而上，多年来一直致力于相关前沿技术的研究。针对人工智能数据安全治理的问题，梳理出了以下几点思路：1、推进人工智能数据资源建设，在发展中解决安全问题。2、积极参与国际人工智能伦理规范制定，开展人工智能数据安全执法。3、开展人工智能数据安全监督惩戒和人工智能数据安全检测评估工作。4、加强人工智能数据安全保护基础理论研究和技术研发，完善我国人工智能开源学习框架，建设保障数据安全的人工智能基础研发平台。（文︱祁利斌李凯斌时启顺北京天地和兴科技有限公司）