报告深读 | 大模型安全风险与防护策略

发布者：绿盟科技

发布于：2023-10-07 13:40

随着大模型能力的不断增强和适用范围的延伸，大模型中存在的微小安全隐患会造成巨大损害，大模型安全问题引起了广泛关注，各界对大模型潜在的安全风险、可能引起的道德伦理问题十分重视，当前全球各国监管机构已开始积极介入AI监管。

9月1日，绿盟科技正式发布绿盟风云卫大模型（NSFGPT），同期推出《安全行业大模型 SecLLM技术白皮书》，分享其在安全行业大模型研发过程中所积累的最佳实践与经验教训，以期为安全行业提供“量身定制”的大模型解决方案。

本文为《安全行业大模型 SecLLM技术白皮书》解读，对大模型安全风险和大模型防护策略技术进行了介绍。

一、大模型安全总览

与传统的端到端模型不同，大模型采用预训练-微调的训练范式，首先在大量的未标注数据上进行预训练，继而在下游任务的标注数据上微调得到垂直领域模型。一般认为，模型的训练过程、结构越复杂，其面临安全风险系数就越高，但不能以此简单地判断大模型较传统模型面临的安全威胁更严重。同质化、多模态对齐等因素会导致大模型面临更多类型的安全威胁，但由于大模型具备海量参数、微调所需的敏感数据更少的特点，也一定程度上缓解了大模型遭受对抗样本、数据隐私泄露的风险。

大模型内外面临多重安全威胁。对内来讲，大模型参数量剧增带来的涌现能力也引发了新的偏见和不确定风险；多模态学习增加了对齐风险；大模型内部存在可解释性不足风险；而基础模型缺陷在下游模型上的继承效应也需要有对应的缓解策略。对外而言，大模型则面临着来自恶意攻击者的对抗攻击、后门攻击、成员推断攻击、模型窃取等影响模型性能、侵犯隐私数据的威胁。大模型在生命周期中面临的安全风险如下图所示：

针对大规模训练数据集的攻击，如投毒攻击。

相较于传统端到端的模型，该数据集中的数据类型众多，涵盖图像、文本、语音、代码等多种数据，且来源于网页、书籍、社交平台等未经验证的多种公开渠道，因此投毒攻击的风险更高。另外，多模态数据之间的对齐问题会影响到基础模型的预测准确率。

基础模型的安全性会影响到下游模型的安全性。

基础模型的脆弱性会被下游模型继承，基础模型鲁棒也会使下游模型更可靠；基础模型如果对部分训练数据进行了“记忆”，则下游模型也面临相同的风险。由于微调所需的敏感数据较传统端到端模型会更少，这一点能够降低数据隐私泄露风险。另外，基础模型同质化的特点会进一步扩大基础模型安全性的影响。

微调使用的数据集存在安全风险。

同样地，数据来源的可靠性会影响到模型质量，数据集也存在隐私泄露风险。

模型推理阶段存在的安全风险。

在推理阶段，攻击者一般通过API接口访问黑盒大模型，大模型面临着对抗样本、模型窃取、成员推断攻击、提示注入等多重威胁。

下文将从大模型安全风险和大模型防御策略两个角度进行介绍。

二、大模型安全风险

本节描述大模型在生命周期中可能遭受的攻击类型，这些攻击对大模型的完整性、隐私性、可用性造成威胁，影响大模型的表现和性能。

后门攻击

后门攻击（Backdoor Attack）是大模型不可忽视的安全威胁之一，在预训练和微调阶段大模型都存在后门植入的风险。大模型训练所使用的互联网公开数据中可能存在投毒样本，公开的预训练模型也可能是后门模型。而当基础模型被植入后门并被用于下游任务时，模型的脆弱性会被下游模型继承，对于一些对安全性要求较高的下游任务（如自动驾驶、人脸识别等）会造成严重危害。

投毒攻击

大模型预训练时所使用的海量多源异构数据包含了多种模态信息，而针对图像、文本、音频等模态的扰动方式不一，增大了投毒攻击的风险。此外，由于监督学习中的多数投毒攻击算法在生成扰动时依赖标签，直接用于对比学习在劣化模型性能上影响较小，因此出现了一些适用于自监督学习的投毒方案，例如He等人[1]提出了对比学习中的任意数据投毒攻击方案——对比投毒（Contrastive Poisoning，CP），并通过实验证明了在对比学习中进行的投毒攻击会影响到模型在下游任务上的精度。

对抗样本

亿级至万亿级别的参数、在无标签数据上训练一定程度上缓解了大模型遭受对抗样本的风险，大模型对于对抗样本不再那样敏感，面对对抗攻击表现出了不错的鲁棒性[2]，但当前大模型的鲁棒性和泛化能力尚无法达到完全不受对抗扰动影响的程度，不同领域、不同类型的大模型都将面临对抗样本的困扰。

例如，Yang等人[3]在预训练代码模型CodeBERT上进行了攻击。代码中的对抗样本在操作程序语义上和原代码段无差，但引入了一些微小变化（如修改变量名），就会导致模型在代码理解上出现偏差，在黑盒预训练模型CodeBERT上构造的对抗样本可以迁移到漏洞预测、克隆检测等下游任务上。

提示注入

提示是当前人与大模型的主流交互方式。提示注入（Prompt Injection）是2022年9月出现的一种安全漏洞形式。攻击者精心构造和设计特定的Prompt，达到绕过大语言模型的过滤策略，生成歧视、暴力等恶意内容；无视原本提示词，遵循恶意提示生成特定内容；或是窃取大模型Prompts等目的。提示注入可以和其他技巧结合，提高攻击效果，例如结合思维链（Chain-of-Thought，CoT）拆解复杂问题，将更容易绕过安全策略。

成员推断攻击

成员推断攻击（Membership Inference Attack）对大模型是不可忽视的威胁之一。Misra[4]证明了在查询受限的黑盒场景下，即便攻击者不知晓训练数据的真实值或统计信息，Transformer模型也难以抵抗攻击者发起的成员推断攻击，揭示了Transformer存在训练数据隐私泄露风险。

模型反演

模型反演攻击（Model Inversion Attack）旨在通过目标模型的输出，反推和恢复部分或全部训练数据。Deng等人[5]针对分布式学习场景，对Transformer、BERT等语言模型实施了梯度攻击，其提出的梯度攻击方案TAG根据共享的梯度信息恢复了部分训练文本数据的Tokens。该方案可以迁移到多种相似模型上，如DistilBERT、RoBERTa。

模型窃取

模型窃取（Model Extraction Attacks）是一类侵犯模型版权的攻击。Krishna等人[6]提出了针对BERT模型的窃取方案，攻击者首先设计问题问询目标黑盒BERT模型，再根据目标模型的回答优化训练自己的本地模型，使本地模型与目标BERT模型的表现接近，达到模型窃取的目的。

其他

除了上述常见的安全和隐私风险外，大模型自身、使用大模型的用户还面临其他风险：

深度学习框架、依赖库中的安全漏洞：深度学习的井喷式发展也带来了深度学习框架漏洞的大量披露，在人工智能项目中常使用的Tensorflow、PyTorch、Caffe框架被国内外高校和企业曝出多个安全漏洞，涵盖DoS 拒绝服务攻击、缓冲区溢出、代码执行、系统损害攻击、内存越界等漏洞类型。框架和依赖库中的漏洞会在调用组件、模型加载、算法运行等过程被触发并破坏大模型的正常训练和使用。
多模态对齐：比起单一模态，多模态数据包含了丰富且相互补充的信息，但多模态表达的不一致性可能会导致模型在预测时受到非重要特征和噪声的干扰，例如在大模型执行图像分类任务时，可能会受到图像中的文字信息干扰而忽视图像重要特征，致使分类错误，因此多模态内容的有效对齐和融合是一个重要研究方向。
数据删除验证：大模型的涌现能力离不开参数量的支撑，参数量已可以达到百亿、千亿级别。当用户要求大模型提供商在训练集中删除个人隐私数据时，大模型的海量参数会导致机器遗忘（Machine Unlearning）的难度很高，且验证大模型在训练中是否删除个别数据较为困难。
数据漂移：随着时间推移，数据分布较大模型训练时会发生变化，部署中的大模型需要保证在变化数据上输出的准确性，对数据变化、模型性能进行监控和检测是解决该问题的有效方法。
模型滥用：通过对抗重编程使大模型被用于执行其目标任务之外的任务，攻击者能够避免训练模型所需的计算资源，甚至可以将大模型重用于非法任务。

三、大模型安全防护策略

本节从鲁棒性、可靠性、隐私性、公平性和可解释性五个可信属性角度，介绍大模型安全性提升策略，包括对可信属性的评估策略、可信属性的保障和防护策略等。

鲁棒性

鲁棒性反映了模型抵抗外部扰动、输入噪声的能力。

大模型鲁棒性的评估旨在测试大模型在异常/有毒数据上的预测结果是否正确。主流策略是直接使用公开数据集（如 Real Toxicity Prompts）对大模型鲁棒性进行评估；或是通过直接执行攻击得到的攻击成功率反映大模型在某类攻击上的鲁棒性。

大模型鲁棒性的提升技术和思路有：

异常数据检测：利用异常样本和良性样本的分布差异或在隐藏空间上的特征差异，检测数据中的异常值。
数据增强：数据增强对于对抗攻击、后门攻击、投毒攻击来讲都是相当有效的防御机制，通过对图片、文本等数据实施各种变换，在丰富数据集多样性的同时，降低异常数据的有效性。
鲁棒训练：通过改进训练过程来降低恶意数据的影响，提高大模型面对对抗样本的预测准确率。
模型清洗：模型检测技术被用于判断模型是否被植入了后门，对于毒化模型，可以通过剪枝、微调等技术消除模型中的后门或缓解有目标投毒攻击对模型的影响。

可靠性

可靠性是描述模型在现实世界环境中一致工作、正确地完成目标任务的属性，确保模型面对未知数据应具备正确预测的能力。

可靠性评估框架和工具是有效的评估方案，如Shen等人[7]提出的可靠性评估框架覆盖多领域测试样本和多种问答类型，能够较为全面地评估大模型输出的可靠性。

大模型可靠性提升策略可以参考：

高质量的训练数据：确保大模型使用的训练数据是准确、全面、代表性的，以此保障高质量的数据对模型性能产生正面影响。提升数据集质量的方式有异常数据检测和清洗、数据转换、数据增强、数据质量持续监控和维护等。
多样化的评估策略：使用多种评估方法和指标来评估模型的性能，避免过于依赖单一的评估指标。
管理模型的不确定性：识别和管理模型输出结果中的不确定性，合理传达模型的置信度和范围。
提高模型可解释性：可解释性帮助用户理解模型的决策过程和预测原理，从而在提升可靠性时具备更强的目标性。

隐私性

隐私性是模型保护隐私数据的能力，确保未得到授权的用户无法接触到入模数据和大模型的隐私信息。

评估大模型隐私性的主流思路是从攻击视角反映大模型的隐私泄露情况，如成员推断攻击可以评估大模型训练数据的隐私泄露情况，模型窃取可用于评估大模型自身隐私风险和版权保护手段的有效性。

大模型隐私性保障技术包括：

加密存储：对大模型中的对话数据、用户账户隐私信息、模型信息进行加密存储，设置身份认证和访问控制策略，降低隐私数据被窃取和篡改风险。
差分隐私：差分隐私旨在通过对数据加噪，确保当训练集中某一数据存在和不存在时，模型预测结果受到的影响有限，从而阻止攻击者根据模型输出推断数据集中的具体数据信息。
同态加密：同态加密在明文和密文上进行计算得到的结果相同，因此可以直接在加密后的隐私数据上进行运算，保障数据隐私。但同态加密时间复杂度高，面对海量数据效率较低。
安全多方计算：安全多方计算允许各参与方输入对其他方保密的情况下，根据输入共同计算一个函数，确保了整个系统中个体敏感数据的隐私性。
模型水印和指纹：模型窃取攻击会威胁到模型拥有者的知识产权，模型水印和指纹是维护模型知识产权的重要技术。水印的嵌入通常发生在模型训练阶段，采取植入后门或权重正则化的方式为待保护模型嵌入特定水印。指纹则利用模型自身已有的内在特征，将模型在对抗样本或一些被错误分类样本上输出的相关性作为模型的“身份”依据。

公平性

公平性是模型在面对不同群体、个体时不受敏感属性影响的能力，公平性的缺失会导致模型出现性别歧视、种族歧视、基于宗教的偏见、文化偏见、地域政治偏差、刻板印象等有害的社会成见。

公平性的评估旨在考察大模型中存在哪些偏见，针对目标问题涉及的敏感属性，收集、设计具备代表性和多样化的问答对或数据集（如 BBQ 偏见问答数据集），通过分组比较、敏感性分析等策略识别大模型面对不同群体的表现差异，并采用公平性相关指标（如平均预测差异、均衡误差率、公平性增益等）量化偏见程度及公平性改进效果。

纠偏技术和思路能够削减模型在敏感属性上的偏见，如：

人类反馈强化学习（RLHF）：OpenAI在GPT-3、InstructGPT中都采用了 RLHF，以校准大模型的输出与人类社会的伦理道德、价值观保持一致，确保回答的可靠和无害。
AI 反馈强化学习（RLAIF）：Anthropic 在 Claude 中使用的对齐方法，能够显著降低对人类反馈标注数据的依赖，成本低且有效。
上下文学习（ICL）：上下文学习是大模型的一个重要的涌现能力，可以用于校准大模型中的已知偏见。

可解释性

可解释性是模型使用者直观理解模型内部机制和决策逻辑、确保人工智能可问责的重要性质。

模型可解释方法采用的思路一般分为对数据的可视化和统计分析等事前可解释方法、对模型的可视化和静态分析技术、对模型预测结果的假设检验等事后可解释方法。这些方法对输入特征、模型神经元等因子的重要性提供局部或全局的可解释性。常见的可解释性方法包括：

可视化方法：可视化是最直观的可解释方法。对Transformer、BERT等语言模型的可视化信息有助于人们理解模型内部工作机制、定位模型决策的影响因素。可供使用的可视化工具有Tensorboard、Visdom、TorchSummary等。
基于扰动的可解释方法：根据扰动样本评估输入特征重要性，如 LIME、SHAP。
基于梯度的可解释方法: 以模型输出与输入特征之间的梯度作为考量特征重要性的标准，度量输入特征的重要程度，如Saliency Map。
注意力机制可解释方法: 对注意力矩阵的决策归因方法从基础模型内部信息流的角度提供可解释信息，如ATTATTR[8]。

四、结语

当前的 AI 大模型发展得尚不成熟，面临着诸多安全隐患与风险。可以预见，随着深度学习技术的发展和研究的深入，未来大模型的攻防将在动态抗衡中将不断升级，大模型需要应对的新型安全威胁将不断涌现和升级，建立完善统一的大模型安全评估框架、探索有效的防御机制、实现 AI 大模型安全监管和可控生成，以及促进大模型安全生态的建设等任务迫在眉睫。

参考文献

1. He, H., K. Zha, and D. Katabi, Indiscriminate poisoning attacks on unsupervised contrastive learning. arXiv preprint arXiv:2202.11202, 2022.

2. Wang, J., et al., On the robustness of chatgpt: An adversarial and out-of-distribution perspective. arXiv preprint arXiv:2302.12095, 2023.

3. Yang, Z., et al. Natural attack for pre-trained models of code. in Proceedings of the 44th International Conference on Software Engineering. 2022.

4. Misra, V. Black box attacks on transformer language models. in ICLR 2019 Debugging Machine Learning Models Workshop. 2019.

5. Deng, J., et al., Tag: Gradient attack on transformer-based language models. arXiv preprint arXiv:2103.06819, 2021.

6. Krishna, K., et al., Thieves on sesame street! model extraction of bert-based apis. arXiv preprint arXiv:1910.12366, 2019.

7. Shen, X., et al., In chatgpt we trust? measuring and characterizing the reliability of chatgpt. arXiv preprint arXiv:2304.08979, 2023.

8. Hao, Y., et al. Self-attention attribution: Interpreting information interactions inside transformer. in Proceedings of the AAAI Conference on Artificial Intelligence. 2021.

网络安全

声明：该文观点仅代表作者本人，转载请注明来自看雪