全国服务热线 4001334566
语言
关于我们

Company Profile

[科普]人工智能安全前沿探索

06-27

近年来各个国家和地区高度重视人工智能安全,在人工智能安全与治理领域,已经有多项法规与标准快速制定并落地。本文从大模型安全和隐私两个方面构建大模型安全体系:在大模型安全方面,提出模型可证明安全增强技术应对文本对抗样本攻击;在大模型隐私方面,提出隐私保护图像生成大模型训练以保护训练阶段的数据隐私、隐私保护大模型推理技术以保护推理阶段的数据隐私,以及大模型敏感数据遗忘技术以满足相关法律法规要求。

人工智能技术目前正处于高速发展阶段,以大模型为代表的人工智能技术催生、重塑了一批新应用与新产业。目前千亿级参数规模的大模型成为主流,且预计参数量越来越大。巨量的参数改变了数据与任务范式,将人工智能由原来“手工作坊”式的工作方式升级成“工厂模式”,越来越多的企业也参与到大模型训练中来。同时,巨量的参数也使得大模型在各种应用场景有了更好的表现,比如语言生成、语音识别、视觉问答等。多模态大模型也可以更好地处理多模态数据。这种优秀的体验吸引越来越多的用户使用大模型服务,使得用户量跳跃式增加。

与此同时,大模型的广泛应用也增加了人工智能的攻击面,导致国内外人工智能安全事件频发。例如,针对大模型的攻击可以使其生成无限量的有害内容或生成有不良政治倾向的敏感内容;利用大模型生成的伪造视频会发布虚假信息误导社会舆论;滥用大模型服务还可能导致隐私数据泄露;大模型还可能辅助犯罪,比如辅助编写恶意软件,降低了犯罪的学习成本;此外,训练大模型所用的数据还可能面临侵权问题。

近年来各个国家和地区高度重视人工智能安全,在人工智能安全与治理领域,已经有多项法规与标准被快速制定并落地。2023年11月1日,在全球首届人工智能安全峰会上,中国科技部副部长吴朝晖代表中国签署《布莱切利宣言》,声明应以安全的方式设计、开发、部署和使用人工智能。美国和欧洲也在近几个月推出相关法案规定,对人工智能进行监管。例如,2023年10月30日,美国总统拜登签署行政命令,发布首个生成式人工智能的监管规定;2023年11月9日,欧盟正式通过《数据法案》促进合法合规共享数据。

在此背景下,本文从大模型安全和隐私两个方面构建大模型安全体系:在大模型安全方面,提出模型可证明安全增强技术应对文本对抗样本攻击;在大模型隐私方面,提出隐私保护图像生成大模型训练以保护训练阶段的数据隐私、隐私保护大模型推理技术以保护推理阶段的数据隐私,以及大模型敏感数据遗忘技术以满足相关法律法规要求。

模型可证明安全增强

随着自然语言处理技术的迅猛发展,大语言模型(例如ChatGPT、LLaMA、文心一言等)正逐渐显露出其在人工智能系统中的巨大潜力。在这个范畴中,文本分类模型作为语言模型的关键组成部分,扮演着至关重要的角色,其应用包括在线内容审查、社交信息管理、欺诈检测以及垃圾邮件过滤等多个领域。然而,文本分类模型容易受到对抗样本攻击的威胁,尤其是针对词语层面的对抗样本攻击,这些攻击通过不易察觉地篡改输入文本中的词语来改变分类模型的输出结果。这类对抗样本攻击不仅仅影响学术界,还直接关系到社交媒体平台、新闻机构和在线社区等各个领域。不法分子通过恶意篡改文本并规避检测机制,可能引发误导公众、传播虚假信息,甚至煽动仇恨和暴力等事件。

在此背景下,如何增强语言模型的安全性和鲁棒性,使其能够抵御或减弱词语级别对抗样本攻击的影响,对于维护以文本分类为基础的大语言模型的稳定性至关重要。目前为了抵御这类攻击,已经提出了众多防御方案来提高语言模型的安全性和鲁棒性。例如,对抗性训练方案,将对抗样本加入训练数据集,从而增强模型的鲁棒性;特征检测方案,通过检查输入样本,并排除检测到的对抗样本以削弱攻击。然而,这些经验性的防御方法只对特定的对抗样本攻击有效,往往容易被新型升级对抗样本攻破,从而使攻防陷入一种无休止的循环。

因此,增强模型的可证明安全性和鲁棒性,是跳脱出这一循环的更有效的解决方法。这种模型可证明防御的目的在于,确保模型的预测在一定范围内的对抗扰动下仍然能保持稳定。而在不同的可证明防御中,随机平滑技术对模型结构不设限制,并能在大规模数据集上实现较高的准确率,因此受到了更广泛的关注。随机平滑技术在训练过程中通过向输入数据加入从平滑分布中采样的随机噪声来实现分类器的平滑化,平滑后的分类器面对扰动后的测试实例能作出与原始类别一致的预测。然而,由于自然语言处理领域面临着不同的数据空间不同、多样的变换以及巨大的攻击距离等挑战,现有的可证明鲁棒性方案并不能直接应用于语言模型。

在实际文本分类模型的应用中,为了应对上述复杂挑战,可证明鲁棒性方案需要提出新的理论和技术基础。以Text-CRS(Zhang X, Hong H, Hong Y, et al. Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks. arXiv preprint arXiv: 2307.16630, 2023.)为例,这一首创的基于随机平滑的通用框架能够有效地应对文本对抗样本攻击,包括同义词替换、词语重排序、插入和删除4种基本对抗操作。该框架的系统架构如图1所示,它成功克服了语言模型在可证明鲁棒性方面所面临的三大挑战,即非结构化字符空间、多种操作类型和广泛的攻击距离。Text-CRS框架首先通过嵌入层将非结构化的字符数据映射到词向量空间,以分析词语之间的数值关联。然后,针对不同的操作类型,该框架将这些操作转化为置换和嵌入变换的组合,并根据每种操作的特性选择适宜的噪声平滑分布用于训练分类模型,这一方法确保了在每种操作下都能维持可证明的鲁棒性。最后,Text-CRS框架提供了对每种操作的置换和嵌入变换的创新性的理论证明,当这些变换都位于一定的扰动范围内时,模型的输出结果保持一致,从而保障了模型的安全和鲁棒性。该框架的独特性质在于,能为文本分类模型提供数学上可证明的鲁棒性,进一步推动了模型可证明安全的研究和实践。

图片

模型可证明安全的未来发展趋势可能包括研究性能更高的可证明安全和鲁棒性理论、发掘对对抗样本抵御范围更广的技术、开发更通用的适用于各种模型结构的框架,尤其是为目前广泛采用的大语言模型基础架构提供性能更为优化和抵御范围可量化的鲁棒性技术支持。这一发展将有助于推动大语言模型在增强自身鲁棒性的同时,为各行各业提供更高水平的安全和可信赖性保障。

隐私保护图像生成大模型训练

Stable Diffusion、Midjourney等图像生成大模型的推出深刻改变了社会各界对人工智能图像生成模型所具备能力的理解与认知,同时也使人们意识到图像生成大模型在现实生活中各个领域都具备巨大的应用潜力。然而,图像生成大模型同时也对隐私保护带来了巨大挑战。例如,谷歌最近的研究表明,生成大模型会对训练图像进行记忆,并在生成的时候依葫芦画瓢,导致隐私、敏感信息泄露。同时,针对大模型的法律诉讼事件屡屡发生。近期,OpenAI被指控窃取大量个人信息,用于训练公司旗下的人工智能模型。“通过收集数百万人以前模糊的个人数据,并将其挪用,进而开发不稳定的、未经测试的技术,OpenAI将每个人置于不可估量的风险之中,但无论采取任何负责任的数据保护和使用措施,都是不可接受的。”一家律师事务所的一位合伙人蒂莫西•K. 焦尔达诺(Timothy K. Giordano)表示。OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息,以及是否有效识别并剔除其训练数据来源中“偶然”包含的个人信息,可能是该起诉讼的争议焦点所在。

因此,研究针对生成大模型的隐私保护技术具有重要的实际意义。在训练生成大模型过程中应用隐私保护技术,能够有效防止模型记忆并泄露训练数据中的隐私敏感信息,在保护用户隐私、防止敏感信息泄露的同时,还能够规范生成大模型对海量互联网数据的使用。此外,隐私保护的生成大模型训练技术还能够建立用户对人工智能系统的信任,有利于图像合成技术的进一步健康发展与推广。

常用的保护隐私的方法有差分隐私技术、模型剪枝与压缩、数据敏感信息过滤、安全评估与审查。差分隐私可以在保持数据分析结果有效性的同时保护个体隐私,然而其同时具有的复杂度与特性并不适合应用到当前的生成模型当中;模型的剪枝与压缩在降低模型复杂度、减少模型参数量的同时,也对模型生成质量造成了较大的影响;数据敏感信息过滤和安全评估与审查分别着眼于模型训练前后,对训练数据进行清洗或者对模型输出进行过滤,两者并没有从根本上解决图像生成大模型的隐私泄露问题。

因此,目前亟需一种高效且高度适配大模型隐私保护训练的方法。MaskDM在这一方向迈出了第一步。MaskDM提出对输入图像进行遮掩,降低模型对单张图像中存在内容的记忆情况。同时,在完成初步训练后,基于在不完整图像数据上训练得到的模型,进一步在安全清洁的数据上对模型进行微调,得到最终的生成大模型。掩码率越高,图像中内容之间的关系丢失也就越多,模型因此更难对训练数据进行记忆,从而在模型层面有效防止了模型记忆敏感信息。

大模型安全推理系统中包含两个角色,分别是模型输入数据的提供者和模型推理服务的提供者,两者需要在系统中各司其职,共同协作,完成大模型安全推理。大模型安全推理系统因其安全性需要,必须考虑各种可能存在的攻击和防御方法,通常使用同态加密、两方安全计算和多方安全计算等密码学工具来保证其安全性。其中同态加密是一种加密技术,使加密后的数据仍然能完成计算任务,能够在保护数据隐私的同时,正确地完成计算。两方和多方安全计算则是一种涉及两方和多方的安全计算技术,能够在保护各方数据隐私的同时,在各方之间完成计算任务。如图2所示,MaskDM将训练切分为了两个阶段,因此能够针对不同场景设计第一阶段的掩码策略或调整第二阶段的训练数据,方案灵活可控。例如,针对数据的特点,开发人员能够在第一阶段训练中设置不同的掩码率,从而调整对图像内容的过滤效果。此外,基于第一阶段得到的模型,使用不同特点的“干净”数据微调能够快速获得适应多个场景的图像生成大模型。

图片

图像生成大模型的隐私保护训练技术有利于进一步促进人工智能技术的规范化,降低模型的道德法律层面风险,提高社会各界对技术的信任程度。MaskDM在此方向迈出了探索性的第一步。

隐私保护大模型推理

在信息化时代,大模型在处理各种复杂任务时表现出了显著优势和巨大潜力,然而大模型也面临着隐私保护的挑战。例如,2023年3月,ChatGPT因为一个来自开源库的漏洞而暂停了服务,这个漏洞可能让部分用户能够查看其他用户的聊天记录标题。再比如,三星半导体部门的工程师在使用ChatGPT时,不慎输入了程序源代码和内部会议记录,这些敏感数据有可能已经被存储在OpenAI的服务器中,面临被泄露的危险。在当前的数据驱动环境下,此类隐私泄露事件引起了用户对大模型推理技术的使用担忧。此外,随着数据隐私保护意识的提升,《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律法规和标准也相继出台,对数据的收集、存储、处理和共享等提出了要求。大模型服务提供商必须遵守此类法律法规,否则可能会面临巨额的罚款和诉讼风险。大模型在运行过程中需要处理大量用户数据,如何在保证模型性能和实用性的同时,有效保护这些数据的隐私,是大模型面临的重要挑战。

在此背景下,大模型安全推理技术的研究和应用变得尤为重要。大模型安全推理技术不仅能够保护用户数据隐私,防止用户数据在推理过程中被泄露,而且能够保障数据产业的健康发展。在满足隐私保护监管需求的同时,大模型安全推理技术也能够增强社会对大模型的信任,为大模型的广泛应用创造良好的环境。因此,大模型安全推理技术在大模型隐私保护中起到了至关重要的作用。

虽然此类可行的解决方案为大模型安全推理提供了解决思路,但计算效率和通信开销带来的技术挑战依然突出。计算效率直接影响推理速度和用户体验,通信开销则关系到系统运行成本和效率。计算挑战主要来自模型结构的复杂性和自回归预测方法的使用:词嵌入等环节占用计算资源,长答案需要多次隐私推理,加大了计算负担。通信挑战源于模型参数量大和加解密后数据量增加,如GPT-2的参数达到1.6亿、加密后密文数据是明文的2到6倍,这都增加了数据处理和传输的负担。在大模型的实际应用中,为了满足安全性与效率的需求,安全推理框架需要根据特定的模型架构进行调整。以CipherGPT为例,这是首创的两方隐私GPT推理技术,它通过一系列创新协议,针对推理模型中的各个环节进行优化。如图3所示,对于推理模型中的线性层,CipherGPT采用了VOLE(Boyle Elette, et al. Efficient two-round OT extension and silentnon-interactive secure computation. Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications)技术进行大规模矩阵运算的批量预处理,优化了运算效率。对于非线性层,CipherGPT则通过分段查表技术,实现了对GELU函数的高效而精确的计算。这些协议不仅为参与者的数据和模型提供了隐私保护,而且具备较高的效率和精度,从而优化了整体的安全推理过程。

图片

大模型安全推理的未来发展趋势可能包括更快速高效的推理速度、更可靠的安全性保障和更丰富的应用场景等。随着技术的发展,我们期待看到大模型在保护隐私的同时,更好地服务于社会。

大模型敏感数据遗忘

随着深度学习与大数据技术的飞速发展,大模型已成为人工智能领域的热门话题,在学术界和工业界广受重视。大模型利用大量数据和计算资源进行训练,具备强大的学习、表达和泛化能力,在多个领域和下游任务中取得优异性能。特别是针对自然语言处理领域的语言大模型,由于其出色的性能和解决复杂问题的能力,在科学研究和日常生活中发挥重要作用,成为新一代人工智能创新应用的核心。近年来,国内外企业、高校和研究机构相继推出一系列语言大模型,其中行业翘楚如OpenAI在2022年底推出的ChatGPT,以其强大的理解与生成能力,在短短5天内突破了100万用户量,引领了大模型的爆发式发展。然而,大模型的广泛性和全面性也带来了众多的隐私、伦理和法律问题。用于训练大模型的大规模语料库往往包含敏感内容,如个人隐私信息、受版权保护的文本、有毒或者恶意数据、不准确或虚假的内容等,如何确保大模型生成符合人类价值观和法律政策监管的安全输出是大模型从业者目前的一项主要任务。

在此背景下,大模型敏感数据遗忘的研究和应用变得尤为重要。大模型数据遗忘技术不仅能够保护用户个人数据隐私、移除受版权保护的内容,而且可以避免生成误导性信息或歧视性内容,输出有害、错误的回答。在满足隐私保护相关法律监管需求的同时,能够增强用户对大模型服务的信任,保障国家重点行业信息安全,推动人工智能的稳健发展。因此,大模型敏感数据遗忘在隐私保护和大模型研发中起到了至关重要的作用。

大模型敏感数据移除可以简单地通过从训练数据集所在的后端数据库中直接删除目标数据来实现,然而大模型复杂结构中仍会有包含移除数据相关知识的“记忆”存留,不能保证数据的彻底遗忘。如果在剔除敏感数据后的新数据集上重新训练或微调大模型,虽然能够实现数据及其影响的彻底遗忘,但是会带来极其高昂的计算开销与时间成本,同时,由于数据移除请求在实践中是频繁且持续进行的,所以从头重训练大模型的方法是不切实际的。大模型的黑盒性质使模型权重和数据之间的关系无从知晓,是实现高效的大模型敏感数据遗忘面临的重要挑战。

为了解决上述问题,同时满足安全性与效率的需求,近期涌现了大模型敏感数据遗忘的前沿研究。以ICUL(Pawelczyk M, Neel S, Lakkaraju H. In-context unlearning: Language models as few shot unlearners. arXiv preprintarXiv:2310.07579, 2023.)为例,其在大模型推理的过程中,通过构建特定的上下文架构,在上下文的开头提供由目标遗忘数据点及其反向标签,以及从训练数据分布中采样的其他正确分类的上下文实例构成的提示词,实现敏感数据的遗忘。该遗忘方法不需要访问任何模型参数知识,且能够保持大模型的性能水平。此外,随着对模型精度之外如对抗鲁棒性、公平性等的要求越来越高,仅仅追求精度越来越不够了,在模型参数的基础上引入第二组可学习变量,带来了双变量大模型敏感数据遗忘的需求。以Minimax Unlearning(Liu J, Lou J, Qin Z, et al. Certified Minimax Unlearning with Generalization Rates and Deletion Capacity. Thirty-seventh Conference on Neural Information Processing Systems. 2023.)为例,其提出基于全海森矩阵的完全牛顿步遗忘更新算法,同时引入差分隐私中的高斯机制,添加精心设计的随机扰动以达到可证明数据遗忘的理论保障,实现从双变量大模型中移除目标遗忘数据的影响,近似达到在剩余数据上重新训练的效果。

大模型敏感数据遗忘的未来发展趋势可能包括更高效的遗忘机制算法的研发、更严格的隐私保护法规的制定、更广泛的应用场景的探索等。结合多种隐私保护技术,不断增强大模型的安全性和可信度,构建完整的大模型安全保障体系。

伴随着人工智能技术的不断发展,大模型也面临着诸多安全挑战,安全体系构建任重道远。针对个人隐私的侵犯泄露和诈骗、系统安全、网络安全、数据安全引发的底座脆弱性,是大模型的发展过程中必须跨越的“4座大山”。构建安全可信的人工智能技术是推动人工智能发展的关键因素,不仅可以避免潜在的风险和负面影响,还能为社会带来更多的利益和进步。

构建用于安全垂直领域的大模型,也是实现安全人工智能技术的不可抗拒的技术浪潮。通过利用基础大模型和多模态大模型的相关技术,构建用于安全领域的大模型来辅助进行内容检测与审核、漏洞挖掘、攻击溯源、告警研判、任务编排等任务,将重塑安全体系。利用大模型技术,结合代码、视觉、语音等多个要素,则可以构建更加全面的安全体系。

实现安全可信大模型,有着重要的技术价值,可以带来更智能的安全防护,给安全体系带来智能化的飞跃;还可以促进隐私保护技术的发展,带来更可信的智能产品,让用户信赖。同时实现安全可信大模型也有非常重大的战略意义。有效地保护用户隐私和数据安全,将增加消费者对大模型产品的信任度,从而提高市场份额;大模型的安全性将成为准入壁垒;另外发展大模型的安全和隐私保护技术可以防止大模型本身的问题对企业造成潜在损失,对企业的商业运行将至关重要。

未来,人工智能大型模型的应用将深刻改变人们的生活方式。确保这些大型模型的安全可信是实现人工智能技术广泛应用的必然要求。不断提升安全性和可信度,能够更好地推动人工智能技术的蓬勃发展,推动社会不断发展进步,并为人们带来更加智能化和便利的生活体验。

致谢:感谢科技创新2030-“新一代人工智能”重大项目“人工智能安全理论及验证平台”(项目编号:2020AAA0107700)、国家自然科学基金区域创新发展联合基金重点项目“人工智能安全模型与测试方法”(项目编号:U20A20178)和杭州市领军型创新创业团队(TD2020003)的支持。

本文刊登于IEEE Spectrum中文版《科技纵览》2024年4月刊。

Copyright © 2011-2023  北京天华中威科技有限公司 版权所有 京ICP备2023011416号-1 All Rights Reserved