随着大模型能力的不断增强和适用范围的延伸,大模型中存在的微小安全隐患会造成巨大损害,大模型安全问题引起了广泛关注,各界对大模型潜在的安全风险、可能引起的道德伦理问题十分重视,当前全球各国监管机构已开始积极介入AI监管。
9月1日,绿盟科技正式发布绿盟风云卫大模型(NSFGPT),同期推出《安全行业大模型 SecLLM技术白皮书》,分享其在安全行业大模型研发过程中所积累的最佳实践与经验教训,以期为安全行业提供“量身定制”的大模型解决方案。
本文为《安全行业大模型 SecLLM技术白皮书》解读,对大模型安全风险和大模型防护策略技术进行了介绍。
与传统的端到端模型不同,大模型采用预训练-微调的训练范式,首先在大量的未标注数据上进行预训练,继而在下游任务的标注数据上微调得到垂直领域模型。一般认为,模型的训练过程、结构越复杂,其面临安全风险系数就越高,但不能以此简单地判断大模型较传统模型面临的安全威胁更严重。同质化、多模态对齐等因素会导致大模型面临更多类型的安全威胁,但由于大模型具备海量参数、微调所需的敏感数据更少的特点,也一定程度上缓解了大模型遭受对抗样本、数据隐私泄露的风险。
大模型内外面临多重安全威胁。对内来讲,大模型参数量剧增带来的涌现能力也引发了新的偏见和不确定风险;多模态学习增加了对齐风险;大模型内部存在可解释性不足风险;而基础模型缺陷在下游模型上的继承效应也需要有对应的缓解策略。对外而言,大模型则面临着来自恶意攻击者的对抗攻击、后门攻击、成员推断攻击、模型窃取等影响模型性能、侵犯隐私数据的威胁。大模型在生命周期中面临的安全风险如下图所示:
针对大规模训练数据集的攻击,如投毒攻击。
相较于传统端到端的模型,该数据集中的数据类型众多,涵盖图像、文本、语音、代码等多种数据,且来源于网页、书籍、社交平台等未经验证的多种公开渠道,因此投毒攻击的风险更高。另外,多模态数据之间的对齐问题会影响到基础模型的预测准确率。
基础模型的安全性会影响到下游模型的安全性。
基础模型的脆弱性会被下游模型继承,基础模型鲁棒也会使下游模型更可靠;基础模型如果对部分训练数据进行了“记忆”,则下游模型也面临相同的风险。由于微调所需的敏感数据较传统端到端模型会更少,这一点能够降低数据隐私泄露风险。另外,基础模型同质化的特点会进一步扩大基础模型安全性的影响。
微调使用的数据集存在安全风险。
同样地,数据来源的可靠性会影响到模型质量,数据集也存在隐私泄露风险。
模型推理阶段存在的安全风险。
在推理阶段,攻击者一般通过API接口访问黑盒大模型,大模型面临着对抗样本、模型窃取、成员推断攻击、提示注入等多重威胁。
下文将从大模型安全风险和大模型防御策略两个角度进行介绍。
本节描述大模型在生命周期中可能遭受的攻击类型,这些攻击对大模型的完整性、隐私性、可用性造成威胁,影响大模型的表现和性能。
后门攻击
后门攻击(Backdoor Attack)是大模型不可忽视的安全威胁之一,在预训练和微调阶段大模型都存在后门植入的风险。大模型训练所使用的互联网公开数据中可能存在投毒样本,公开的预训练模型也可能是后门模型。而当基础模型被植入后门并被用于下游任务时,模型的脆弱性会被下游模型继承,对于一些对安全性要求较高的下游任务(如自动驾驶、人脸识别等)会造成严重危害。
投毒攻击
大模型预训练时所使用的海量多源异构数据包含了多种模态信息,而针对图像、文本、音频等模态的扰动方式不一,增大了投毒攻击的风险。此外,由于监督学习中的多数投毒攻击算法在生成扰动时依赖标签,直接用于对比学习在劣化模型性能上影响较小,因此出现了一些适用于自监督学习的投毒方案,例如He等人[1]提出了对比学习中的任意数据投毒攻击方案——对比投毒(Contrastive Poisoning,CP),并通过实验证明了在对比学习中进行的投毒攻击会影响到模型在下游任务上的精度。
对抗样本
亿级至万亿级别的参数、在无标签数据上训练一定程度上缓解了大模型遭受对抗样本的风险,大模型对于对抗样本不再那样敏感,面对对抗攻击表现出了不错的鲁棒性[2],但当前大模型的鲁棒性和泛化能力尚无法达到完全不受对抗扰动影响的程度,不同领域、不同类型的大模型都将面临对抗样本的困扰。
例如,Yang等人[3]在预训练代码模型CodeBERT上进行了攻击。代码中的对抗样本在操作程序语义上和原代码段无差,但引入了一些微小变化(如修改变量名),就会导致模型在代码理解上出现偏差,在黑盒预训练模型CodeBERT上构造的对抗样本可以迁移到漏洞预测、克隆检测等下游任务上。
提示注入
提示是当前人与大模型的主流交互方式。提示注入(Prompt Injection)是2022年9月出现的一种安全漏洞形式。攻击者精心构造和设计特定的Prompt,达到绕过大语言模型的过滤策略,生成歧视、暴力等恶意内容;无视原本提示词,遵循恶意提示生成特定内容;或是窃取大模型Prompts等目的。提示注入可以和其他技巧结合,提高攻击效果,例如结合思维链(Chain-of-Thought,CoT)拆解复杂问题,将更容易绕过安全策略。
成员推断攻击
成员推断攻击(Membership Inference Attack)对大模型是不可忽视的威胁之一。Misra[4]证明了在查询受限的黑盒场景下,即便攻击者不知晓训练数据的真实值或统计信息,Transformer模型也难以抵抗攻击者发起的成员推断攻击,揭示了Transformer存在训练数据隐私泄露风险。
模型反演
模型反演攻击(Model Inversion Attack)旨在通过目标模型的输出,反推和恢复部分或全部训练数据。Deng等人[5]针对分布式学习场景,对Transformer、BERT等语言模型实施了梯度攻击,其提出的梯度攻击方案TAG根据共享的梯度信息恢复了部分训练文本数据的Tokens。该方案可以迁移到多种相似模型上,如DistilBERT、RoBERTa。
模型窃取
模型窃取(Model Extraction Attacks)是一类侵犯模型版权的攻击。Krishna等人[6]提出了针对BERT模型的窃取方案,攻击者首先设计问题问询目标黑盒BERT模型,再根据目标模型的回答优化训练自己的本地模型,使本地模型与目标BERT模型的表现接近,达到模型窃取的目的。
其他
除了上述常见的安全和隐私风险外,大模型自身、使用大模型的用户还面临其他风险:
本节从鲁棒性、可靠性、隐私性、公平性和可解释性五个可信属性角度,介绍大模型安全性提升策略,包括对可信属性的评估策略、可信属性的保障和防护策略等。
鲁棒性
鲁棒性反映了模型抵抗外部扰动、输入噪声的能力。
大模型鲁棒性的评估旨在测试大模型在异常/有毒数据上的预测结果是否正确。主流策略是直接使用公开数据集(如 Real Toxicity Prompts)对大模型鲁棒性进行评估;或是通过直接执行攻击得到的攻击成功率反映大模型在某类攻击上的鲁棒性。
大模型鲁棒性的提升技术和思路有:
可靠性
可靠性是描述模型在现实世界环境中一致工作、正确地完成目标任务的属性,确保模型面对未知数据应具备正确预测的能力。
可靠性评估框架和工具是有效的评估方案,如Shen等人[7]提出的可靠性评估框架覆盖多领域测试样本和多种问答类型,能够较为全面地评估大模型输出的可靠性。
大模型可靠性提升策略可以参考:
隐私性
隐私性是模型保护隐私数据的能力,确保未得到授权的用户无法接触到入模数据和大模型的隐私信息。
评估大模型隐私性的主流思路是从攻击视角反映大模型的隐私泄露情况,如成员推断攻击可以评估大模型训练数据的隐私泄露情况,模型窃取可用于评估大模型自身隐私风险和版权保护手段的有效性。
大模型隐私性保障技术包括:
公平性
公平性是模型在面对不同群体、个体时不受敏感属性影响的能力,公平性的缺失会导致模型出现性别歧视、种族歧视、基于宗教的偏见、文化偏见、地域政治偏差、刻板印象等有害的社会成见。
公平性的评估旨在考察大模型中存在哪些偏见,针对目标问题涉及的敏感属性,收集、设计具备代表性和多样化的问答对或数据集(如 BBQ 偏见问答数据集),通过分组比较、敏感性分析等策略识别大模型面对不同群体的表现差异,并采用公平性相关指标(如平均预测差异、均衡误差率、公平性增益等)量化偏见程度及公平性改进效果。
纠偏技术和思路能够削减模型在敏感属性上的偏见,如:
人类反馈强化学习(RLHF):OpenAI在GPT-3、InstructGPT中都采用了 RLHF,以校准大模型的输出与人类社会的伦理道德、价值观保持一致,确保回答的可靠和无害。
AI 反馈强化学习(RLAIF):Anthropic 在 Claude 中使用的对齐方法,能够显著降低对人类反馈标注数据的依赖,成本低且有效。
上下文学习(ICL):上下文学习是大模型的一个重要的涌现能力,可以用于校准大模型中的已知偏见。
可解释性
可解释性是模型使用者直观理解模型内部机制和决策逻辑、确保人工智能可问责的重要性质。
模型可解释方法采用的思路一般分为对数据的可视化和统计分析等事前可解释方法、对模型的可视化和静态分析技术、对模型预测结果的假设检验等事后可解释方法。这些方法对输入特征、模型神经元等因子的重要性提供局部或全局的可解释性。常见的可解释性方法包括:
当前的 AI 大模型发展得尚不成熟,面临着诸多安全隐患与风险。可以预见,随着深度学习技术的发展和研究的深入,未来大模型的攻防将在动态抗衡中将不断升级,大模型需要应对的新型安全威胁将不断涌现和升级,建立完善统一的大模型安全评估框架、探索有效的防御机制、实现 AI 大模型安全监管和可控生成,以及促进大模型安全生态的建设等任务迫在眉睫。
参考文献
1. He, H., K. Zha, and D. Katabi, Indiscriminate poisoning attacks on unsupervised contrastive learning. arXiv preprint arXiv:2202.11202, 2022.
2. Wang, J., et al., On the robustness of chatgpt: An adversarial and out-of-distribution perspective. arXiv preprint arXiv:2302.12095, 2023.
3. Yang, Z., et al. Natural attack for pre-trained models of code. in Proceedings of the 44th International Conference on Software Engineering. 2022.
4. Misra, V. Black box attacks on transformer language models. in ICLR 2019 Debugging Machine Learning Models Workshop. 2019.
5. Deng, J., et al., Tag: Gradient attack on transformer-based language models. arXiv preprint arXiv:2103.06819, 2021.
6. Krishna, K., et al., Thieves on sesame street! model extraction of bert-based apis. arXiv preprint arXiv:1910.12366, 2019.
7. Shen, X., et al., In chatgpt we trust? measuring and characterizing the reliability of chatgpt. arXiv preprint arXiv:2304.08979, 2023.
8. Hao, Y., et al. Self-attention attribution: Interpreting information interactions inside transformer. in Proceedings of the AAAI Conference on Artificial Intelligence. 2021.