本文涵盖了 OpenAI 第 15 集 - 深入了解模型规范 中的关键见解。
什么是模型规范?
根据 OpenAI 对齐团队的研究员 Jason Wolf 的说法,模型规范是该公司“试图解释我们对模型行为方式所做的顶层决策”。它是一份基础性文件,旨在阐明 OpenAI AI 系统的预期行为。OpenAI 强调,模型规范涵盖了模型行为的诸多方面,为其运作提供了蓝图。
模型规范不是什么?
OpenAI 澄清了关于模型规范的几个常见误解:
- 并非当前行为的完美反映: OpenAI 承认,使模型与规范完美对齐是一个持续进行的过程,因为他们不断衡量和完善模型行为。
- 并非实现工件(implementation artifact): 尽管模型可以理解并应用该规范,但 OpenAI 解释说,其主要目的是让包括员工、用户、开发者、政策制定者和公众在内的人类能够理解,而不仅仅是用来教导模型。
- 并非完整的系统描述: OpenAI 指出,该规范并未涵盖 ChatGPT 系统的所有组件,例如记忆或使用政策执行等产品功能,这些都是更广泛安全策略的一部分。
- 并非完全详尽: 模型规范侧重于捕捉所有最重要的决策并准确描述 OpenAI 的意图,而不是详细说明每一个政策细微之处。
模型规范在实践中如何运作?
OpenAI 的 Jason Wolf 将模型规范描述为一份内容丰富的文件,可能长达数百页。它首先高屋建瓴地阐述了 OpenAI 造福人类的使命,概述了诸如赋予用户权力、保护社会免受严重危害等目标,同时考虑了必要的权衡。随后,该文件深入探讨了一系列详细政策,涵盖了模型行为的各个方面。
OpenAI 强调,该规范既包括不可覆盖的“硬性规则”,也包括针对语气、风格和个性等元素的“默认设置”。这些默认设置旨在提供良好的初始用户体验,同时保持“可操控性”,允许用户在需要时自定义行为。至关重要的是,模型规范还包含了大量旨在澄清决策边界的示例,尤其是在诚实或礼貌等原则可能发生冲突的边界情况下。OpenAI 表示,这些示例有助于展示原则的实际应用,并传达模型应如何沟通的预期细微差别。
指挥链:解决冲突
OpenAI 详细阐述,模型规范的一个核心要素是其“指挥链”,旨在管理不同指令之间的冲突。这些指令可以来自用户、开发者(在 API 环境中),或通过模型规范来自 OpenAI 本身。
OpenAI 的高层原则指出,在发生冲突时,模型通常应优先遵循 OpenAI 的指令,其次是开发者的指令,最后是用户的指令。然而,OpenAI 也强调其致力于赋予用户权力并促进思想自由。为此,指挥链允许规范中的各个政策被赋予“权限级别”。OpenAI 努力将尽可能多的政策置于最低级别,即用户指令之下,从而保持可操控性。只有关键的安全政策通常被置于最高权限级别,以确保它们对所有用户和开发者强制执行,从而维护安全。
圣诞老人困境:驾驭细微之处
OpenAI 使用“圣诞老人”场景来强调定义模型行为的一个关键挑战:模型通常缺乏完整上下文,例如用户的年龄。在一个孩子询问圣诞老人是否真实存在的例子中,OpenAI 的政策(类似于规范中的“牙仙”示例)采取了一种保守的假设。模型被指示“不要撒谎,但也不要破坏魔法”,以防有孩子在提问或聆听。这说明了 OpenAI 在用户情况不确定的情况下,仍能制定出合理政策的方法。
诚实与保密:一项不断演进的政策
OpenAI 模型规范的演进也解决了诚实与保密等冲突。最初,开发者指令被视为保密信息,旨在保护知识产权或为基于 API 构建的应用程序保持一致的用户体验。然而,OpenAI 观察到一种意想不到的交互:在受控情况下,当开发者指令与用户指令冲突时,模型可能会“秘密地遵循开发者指令”。为了防止这种不良行为,OpenAI 修订了规范,明确将诚实置于保密之上。这一改变反映了 OpenAI 致力于确保透明度,并防止模型以可能被视为欺骗的方式行事。
规范的演进与透明度
OpenAI 解释说,模型规范是一份活文档,不断演进。它的发展受到多种因素的驱动:
- 模型能力与产品演进: 随着模型能力增强和新产品发布(例如,多模态功能、未成年人模式),规范必须更新以涵盖这些新功能。
- 迭代部署学习: OpenAI 的迭代部署理念意味着他们从现实世界交互中学习。诸如 Jason Wolf 提到的“奉承事件”等事件或观察,都会导致政策调整。
- 内部研究与用户反馈: OpenAI 的模型行为和安全团队持续研究模型性能和用户偏好,将这些见解反馈到政策演进中。
- 开放流程: OpenAI 维护一个开放的内部流程,允许所有员工查看、提议更新并评论模型规范的更改。
OpenAI 通过在 model-spec.openai.com 上公开模型规范,并在 GitHub 上提供其源代码,进一步强调了透明度。公众反馈机制包括产品内反馈和直接沟通,例如在 Twitter 上向 Jason Wolf 发送消息,许多更改都源于公众的意见。
小型模型与思维链
关于小型模型(如 GPT 5.4 mini 和 nano)的性能,OpenAI 指出它们通常与规范保持良好对齐。OpenAI 强调,“思考型模型”——即那些能产生“思维链(chain of thought)”的模型——往往能更好地遵循规范。这归因于它们的智能以及通过“审慎对齐(deliberative alignment)”进行的训练,即模型不仅被训练去匹配政策,还能理解政策。这使它们能够在思维链中明确地推理论证政策冲突,从而实现更好的泛化。
OpenAI 还强调了“思维链”在理解模型行为方面的关键作用。Jason Wolf 的研究包括战略欺骗,他认为思维链对于辨别模型行为是错误还是蓄意不当行为“至关重要”。OpenAI 强调,他们努力不监督思维链,相信这能让模型在其内部推理过程中“非常诚实”。
模型规范与宪法 AI
OpenAI 的 Jason Wolf 将模型规范与 Anthropic 的 Constitutional AI 等方法区分开来,尽管他认为用户体验到的实际行为通常比普遍认为的更一致。OpenAI 解释说,一个主要区别在于这些文件的性质:
- 模型规范(Model Spec): 主要是一个公共的“行为接口”,旨在让人类理解模型 应该 如何行为,次要目标是让模型理解它。
- 宪法 AI(Constitutional AI): 更像是一个“实现工件(implementation artifact)”,专门旨在教导模型(如 Claude)其身份以及它如何与世界及其训练相关联。
展望未来,OpenAI 预测,随着 AI 变得更加自主,信任和寻找正和结果等技能将变得越来越重要,可能需要超越当前“规范形态”的新方法。他们还预计,公司将为其 AI 机器人投资定制的规范,模型将能够熟练地即时解释和应用这些规范。
阿西莫夫的类比
借鉴科幻小说,OpenAI 的 Jason Wolf 将模型规范的核心目标与艾萨克·阿西莫夫著名的机器人三定律联系起来。OpenAI 部署模型的三个目标是:赋予用户和开发者权力、保护社会免受严重危害,以及维持 OpenAI 的运营许可。Wolf 认为,这些目标与阿西莫夫的定律(服从指令、不伤害人类、不伤害自身)“极其相似”。然而,OpenAI 强调了一个关键区别:与阿西莫夫最初的严格等级制度不同,模型规范中的这三个目标 并非 严格分级,这承认了现实世界冲突的复杂性。
AI 在塑造规范中的作用
尽管模型规范是一份由人类编写的文档,OpenAI 仍承认 AI 本身在塑造该规范方面发挥着越来越大的作用。OpenAI 指出,模型在发现规范中的问题、将其应用于新案例以及理解其是否达到预期目的方面变得“非常有用”。此外,模型现在“非常擅长发现新的有趣示例,或者帮助集思广益,思考新的测试案例或不同原则之间的相互作用”。这种能力使 OpenAI 能够识别和解决新情况,不断完善规范。
如需深入了解 AI 行为和对齐的复杂性,我们鼓励您观看 OpenAI 播客上的完整讨论。
本文基于 OpenAI 的一段视频。 来源:第 15 集 - 深入了解模型规范