乌镇咖荟：AI智能涌现背后的“深黑盒化”问题，我们该如何应对？

发布者：Editor

发布于：2023-11-23 17:28

2023年世界互联网大会乌镇峰会圆满落下帷幕，本届大会大咖云集，前沿技术和精彩实践的展示吸引了世界各地的参会嘉宾，为行业深度交流提供了舞台。

近些年来，AI成为互联网领域最热门的赛道之一，随着 ChatGPT等AI大模型的广泛应用，其中的安全问题也愈发受到关注。

恰逢世界互联网大会契机，浙江大学网络空间安全学院、蚂蚁集团、第五空间信息科技研究院、正奇书苑、小贝说安全主办，乌镇数字文明研究院承办“深黑盒化的AI安全风险与应对”主题咖荟，中国计算机学会(CCF)理事、副秘书长谭晓生，蚂蚁集团副总裁、首席技术安全官韦韬，浙江大学网络空间安全学院研究员薛峰，自媒体“小贝说安全”主编吴小贝，更有信通院、安恒集团、启明星辰、盘古实验室、中国移动安全、迪普科技、闪捷信息、美创科技等齐聚乌镇，邀请多位网络安全知名专家学者到场，共同探讨AI的安全发展。

01 AI智能涌现背后的“深黑盒化”问题

很多人看到“深黑盒化”一词，自然联想到“黑箱理论”或“黑盒效应”。通俗来说，就是对某个系统难以彻底看清内部结构和运转规律，只能通过其输出的内容来了解其内部，继而得到一种规律认知。其实，人工智能的黑盒效应由来已久。因为当前宇宙时空对人类而言，就是一个巨大的黑箱。而智能和意识，更是被视为所谓的“上帝领域”。

谈及近年以ChatGPT为代表的AI大模型所产生的智能涌现，中国计算机学会(CCF)理事、副秘书长谭晓生表示，作为机器学习到深度学习的产业实践者，他仍然对大模型所表现出的智能水平感到非常惊喜。“AI已经到了一个引爆点（Tipping Point）”，谭晓生说道，“或许是硅基文明和碳基文明的一个转折点。”

蚂蚁集团副总裁、首席技术安全官韦韬认为，ChatGPT改变了人对人工智能的认知。在此之前，很多行业专家都认为大模型不是智能，而是本能或者是技能，因为它不会推断因果，不会举一反三。

韦韬介绍，科技从业者在2021年训练模型时发现，经过更长时间的训练后，模型突然从仅仅“记住”之前的训练数据，转变为在未见过的输入上表现出正确的“泛化”能力，特别是ChatGPT出现以后，带来了一个本质的变化：第一次让人看到人类以外系统化的举一反三的能力。

“AI越来越像人，具备了翻译、回邮件、聊天、写诗、作画、写代码等等接近于人类的能力。但是‘算法熵’原理之下，GPT工作是有‘上界’的，对它的优化求解是无止境的。我们对大模型做了一个测试，发现很多时候它们在给出错误回答的时候，根本不知道自己是错的，而且在人类指令反复的追问下，它会根据人类的引导给出想要的答案，就好像大模型也具有‘表演型人格’、‘回避型人格’等精神分裂的病症。”

在韦韬看来，大模型这一系列“精神分裂”的病症表现，都指向了AI的同一个问题：深黑盒化，也就是AI大模型分析决策的不可知性。

传统的“机器人三定律”（机器人不能伤害人类；它们必须服从于人类；它们必须保护自己）已经不适用于大模型时代的AI，大模型通过量变产生了质变，使得今天的AI成为了深黑盒AI。

02 “深黑盒化AI”会带来哪些挑战和风险？

黑盒意味着某种不可知，如谭晓生所说，因为未知，人们才恐惧。对深黑盒化AI输出的不确定性，会影响对深黑盒化AI的使用。

作为蚂蚁集团首席技术安全官，韦韬密切关注AI大模型安全问题，他表示深黑盒化AI大模型带来了三大新挑战：

第一层，认知一致性对齐。这是AI自身的素质能力的要求，包括内在一致性对齐和外在一致性对齐两个方面。

内在一致性对齐包含逻辑体系自洽，数学能力自洽，知识体系自洽。外在一致性对齐包含事实对齐、世界观对齐、价值观对齐。就像现在大模型会胡说八道，但它不知道自己不知道，所以第一层是自己对自己的认知；

第二层，决策白盒化。对事物的判断要是白盒化的，不能凭空做出决策。而是要清晰区分确认的、猜测的、虚构的和不清楚的对象。

白盒化AI可以通过推理自解构来实现，就是决策结论可以分析解释，包括通过思维链技术，让解构后的推理过程符合演绎推理逻辑。同时，解构后的内容可以被第三方独立验证，自动化验证体系将是深黑盒专业AI的重要组成，其中包括与知识图谱、验证过的“小模型”系统等的联动。所以第二层是自己对事的认知。

第三层，交流协同演进。跨域交流合作是人类科技文明演进的重要加速因素，智能体之间的交流也极为重要且不可避免。无论是人和人还是人和智能体，或者智能体和智能体都需要协同，这是个通用规则。

AI Agents一种不错的智能体和智能体的协作模式。单个智能体内部不同组件的协作能提供更强的能力，如LLM（大语言模型）、记忆、任务规划以及工具使用能力之间的协作；多个智能体协作，可以避免认知分裂，发挥出更佳效力，比如数学家协同GPT-4成功证明PNP。所以第三层是自己在群体间定位和协同的认知。

薛峰也表达了对深黑盒化AI的担忧，他把目前的安全问题分为三类：

第一类，算法可解释性问题。大模型是数据驱动深度学习的产物，其内部推理的过程非常难以理解，尤其是极深的模型层级和海量的模型参数，导致我们无法理解其工作原理，继而无法信任和控制，破坏了可用性；

第二类，算法内生安全问题。目前攻击大模型方法相当多，包括数据投毒、后门攻击、对抗样本攻击、成员推断攻击、提示词注入攻击等，这破坏了保密性、可用性、完整性，可能导致模型拒绝服务、用户隐私泄露、模型参数泄露等问题；

第三类，使用过程中安全性问题。大模型也可用来作恶，如生成钓鱼邮件、挖掘系统漏洞、生成虚假内容等，这破坏了抗抵赖性、真实性、可核查性。

自媒体“小贝说安全”主编吴小贝则介绍了深黑盒化AI引发的输入型与输出型数据安全问题。输入型数据安全问题主要体现在，多模态、大批量输入信息，会被AI收集存储。据统计，用户在使用LLM（大语言模型）时，出现了输入企业商业秘密和内部数据、个人信息、软件代码和敏感图片等情况，导致敏感数据和个人隐私泄露。

输出型数据安全问题重点体现在，AIGC及其平台服务有意或无意都会产生输出型的数据安全问题，比如输出反人类反社会的有害信息、侵权信息、虚假信息、数据泄露以及犯罪知识和工具内容等。AIGC平台不但正常状态下由于训练集或模型原因，可能会产生此类问题，还可能会根据用户类型和来源等信息，有针对性地产生输出型数据安全问题内容。

03 治理“深黑盒化AI”有何应对之策？

提出问题正是为了解决问题。人类对于AI，早就有了很多狂热的幻想，并以此诞生了许多文学影视作品。而相关作品中，机器智能往往走向失序，带来灾难，这也在一定程度上反映了现实，反映了人们对AI、AI大模型带来的伦理、数据安全和隐私泄露等问题的忧虑。

谭晓生表示，我们应该有开放的心态来面对这些挑战，积极寻找解决问题的方法，而不是出于恐惧而否定。比如在公平性层面，人类社会历经这么多年仍然在为营造一个相对公平的社会而努力，为何要对AI做公平性的苛求？需要的是设置相关机制，能不断对齐AI的伦理标准与人类的伦理标准，不让它产生太大的偏差。同样，数据安全问题与隐私泄露，在大模型出现之前已经出现，是当今社会数字化转型中遭遇的问题，它的解决也相当复杂，相关的立法已经陆续出台，具体的保护技术、产品、体系还在完善过程中。

如何将人工智能尽可能地圈于安全地带，且又不制约其为人类造福的技术演进，是行业需要思考的问题。

而负责任的人工智能，一直以来是蚂蚁集团发展人工智能的核心，蚂蚁集团已经展开了多项实践探索更可靠的AI，并且取得了鼓舞人心的成果，韦韬为现场嘉宾分享了蚂蚁集团在AI大模型安全领域的探索与实践：

构建了AIGC模型的对齐评价体系，涵盖AIGC评测范围、评测平台、评测数据集、评测数据生成等多个维度多能力工作，评测范围包括安全合规对齐评测、通用能力对齐评测、质量/稳定性，推出了蚂蚁AI安全检测平台、蚂蚁算法评估质量平台、大模型评估大模型等评测工具，评测数据集包含安全合规评测集，通用能力、质量、稳定性评测集……

在跨领域知识协作层面，蚂蚁集团开源了语义增强可编程知识图谱OpenSPG，对行业开放知识图谱技术能力，助力推动开展大模型和行业知识图谱的迭代演进工作。

在AI伦理治理层面，蚂蚁集团成立了由首席技术官和首席法务官担任联席主席的科技伦理委员会，将科技伦理融入到公司业务和产品生命周期中。还成立了蚂蚁集团科技伦理顾问委员会，由7名外部专家构成，为蚂蚁集团科技伦理建设给予方向性、战略性、针对性的指导建议。

在标准建设层面，蚂蚁集团积极参与TC260生成式AI安全基本要求、人工标注、训练数据安全、标识方法等网络安全国家标准和技术文件制定和讨论，贡献蚂蚁生成式AI安全实践，积极参与《生成式人工智能服务管理暂行办法》实施。国际标准方面，结合蚂蚁集团业务场景，牵头在IEEE立项了P3820反欺诈AI系统可解释能力评估标准，探索智能风控AI系统透明可解释能力评估实现路径。

薛峰也分享了浙江大学相关团队对深黑盒化AI问题的探索与实践，主要体现在安全标准制定、AI验评平台、密态大模型推理技术等方面：

参与全国信安全标准化技术委员会主导的《TC 260人工智能安全标准化白皮书》、《生成式人工智能服务内容标识方法》、《生成式人工智能服务安全基本要求》等制定，截至目前，制定、修订与研究标准共700余条；建设了人工智能的防御与验证评测平台、人工智能系统公平性评估平台，用于对模型进行安全性测试；建设密态大模型推理技术，即融合安全多方计算等密码学技术，对模型的输入进行保护，让模型的推理和结果都处于密态环境进行，进而保障输入的数据。

04 后记：AI是迈向新世界的小火花

五年前第四届世界互联网大会开幕式上，苹果公司CEO库克在谈及人与机器的关系时，说道：“我并不担心机器人会像人一样思考，我担心人像机器一样思考！”

有感情的机器和没有感情的人，哪个更可怕？当智能不再是人类专属，机器智能同样拥有创造力，那人还能决定一切吗？当然，这是未来的话题，至少眼下，一切都还是由人来决定。AI安全的关注者和研究者，也正在成为机器与人类之间安全屏障的缔造者与守护者。

正如参会的各位专家分享，因为AI是这个时代的重要生产力，是迈向新世界的小火花，进一步探索AI大模型的本质，探究智能涌现背后的原理和本质，用安全来为发展护航。

来源：安在

AI 大模型世界互联网大会乌镇峰会

声明：该文观点仅代表作者本人，转载请注明来自看雪