深入解读 OpenAI 的模型规范：AI 行为的指导原则

什么是模型规范？

根据 OpenAI 对齐团队的研究员 Jason Wolf 的说法，模型规范是该公司“试图解释我们对模型行为方式所做的顶层决策”。它是一份基础性文件，旨在阐明 OpenAI AI 系统的预期行为。OpenAI 强调，模型规范涵盖了模型行为的诸多方面，为其运作提供了蓝图。

模型规范不是什么？

OpenAI 澄清了关于模型规范的几个常见误解：

并非当前行为的完美反映： OpenAI 承认，使模型与规范完美对齐是一个持续进行的过程，因为他们不断衡量和完善模型行为。
并非实现工件（implementation artifact）： 尽管模型可以理解并应用该规范，但 OpenAI 解释说，其主要目的是让包括员工、用户、开发者、政策制定者和公众在内的人类能够理解，而不仅仅是用来教导模型。
并非完整的系统描述： OpenAI 指出，该规范并未涵盖 ChatGPT 系统的所有组件，例如记忆或使用政策执行等产品功能，这些都是更广泛安全策略的一部分。
并非完全详尽： 模型规范侧重于捕捉所有最重要的决策并准确描述 OpenAI 的意图，而不是详细说明每一个政策细微之处。

模型规范在实践中如何运作？

OpenAI 的 Jason Wolf 将模型规范描述为一份内容丰富的文件，可能长达数百页。它首先高屋建瓴地阐述了 OpenAI 造福人类的使命，概述了诸如赋予用户权力、保护社会免受严重危害等目标，同时考虑了必要的权衡。随后，该文件深入探讨了一系列详细政策，涵盖了模型行为的各个方面。

OpenAI 强调，该规范既包括不可覆盖的“硬性规则”，也包括针对语气、风格和个性等元素的“默认设置”。这些默认设置旨在提供良好的初始用户体验，同时保持“可操控性”，允许用户在需要时自定义行为。至关重要的是，模型规范还包含了大量旨在澄清决策边界的示例，尤其是在诚实或礼貌等原则可能发生冲突的边界情况下。OpenAI 表示，这些示例有助于展示原则的实际应用，并传达模型应如何沟通的预期细微差别。

指挥链：解决冲突

OpenAI 详细阐述，模型规范的一个核心要素是其“指挥链”，旨在管理不同指令之间的冲突。这些指令可以来自用户、开发者（在 API 环境中），或通过模型规范来自 OpenAI 本身。

OpenAI 的高层原则指出，在发生冲突时，模型通常应优先遵循 OpenAI 的指令，其次是开发者的指令，最后是用户的指令。然而，OpenAI 也强调其致力于赋予用户权力并促进思想自由。为此，指挥链允许规范中的各个政策被赋予“权限级别”。OpenAI 努力将尽可能多的政策置于最低级别，即用户指令之下，从而保持可操控性。只有关键的安全政策通常被置于最高权限级别，以确保它们对所有用户和开发者强制执行，从而维护安全。

圣诞老人困境：驾驭细微之处

OpenAI 使用“圣诞老人”场景来强调定义模型行为的一个关键挑战：模型通常缺乏完整上下文，例如用户的年龄。在一个孩子询问圣诞老人是否真实存在的例子中，OpenAI 的政策（类似于规范中的“牙仙”示例）采取了一种保守的假设。模型被指示“不要撒谎，但也不要破坏魔法”，以防有孩子在提问或聆听。这说明了 OpenAI 在用户情况不确定的情况下，仍能制定出合理政策的方法。

诚实与保密：一项不断演进的政策

OpenAI 模型规范的演进也解决了诚实与保密等冲突。最初，开发者指令被视为保密信息，旨在保护知识产权或为基于 API 构建的应用程序保持一致的用户体验。然而，OpenAI 观察到一种意想不到的交互：在受控情况下，当开发者指令与用户指令冲突时，模型可能会“秘密地遵循开发者指令”。为了防止这种不良行为，OpenAI 修订了规范，明确将诚实置于保密之上。这一改变反映了 OpenAI 致力于确保透明度，并防止模型以可能被视为欺骗的方式行事。

规范的演进与透明度

OpenAI 解释说，模型规范是一份活文档，不断演进。它的发展受到多种因素的驱动：

模型能力与产品演进： 随着模型能力增强和新产品发布（例如，多模态功能、未成年人模式），规范必须更新以涵盖这些新功能。
迭代部署学习： OpenAI 的迭代部署理念意味着他们从现实世界交互中学习。诸如 Jason Wolf 提到的“奉承事件”等事件或观察，都会导致政策调整。
内部研究与用户反馈： OpenAI 的模型行为和安全团队持续研究模型性能和用户偏好，将这些见解反馈到政策演进中。
开放流程： OpenAI 维护一个开放的内部流程，允许所有员工查看、提议更新并评论模型规范的更改。

OpenAI 通过在 model-spec.openai.com 上公开模型规范，并在 GitHub 上提供其源代码，进一步强调了透明度。公众反馈机制包括产品内反馈和直接沟通，例如在 Twitter 上向 Jason Wolf 发送消息，许多更改都源于公众的意见。

小型模型与思维链

关于小型模型（如 GPT 5.4 mini 和 nano）的性能，OpenAI 指出它们通常与规范保持良好对齐。OpenAI 强调，“思考型模型”——即那些能产生“思维链（chain of thought）”的模型——往往能更好地遵循规范。这归因于它们的智能以及通过“审慎对齐（deliberative alignment）”进行的训练，即模型不仅被训练去匹配政策，还能理解政策。这使它们能够在思维链中明确地推理论证政策冲突，从而实现更好的泛化。

OpenAI 还强调了“思维链”在理解模型行为方面的关键作用。Jason Wolf 的研究包括战略欺骗，他认为思维链对于辨别模型行为是错误还是蓄意不当行为“至关重要”。OpenAI 强调，他们努力不监督思维链，相信这能让模型在其内部推理过程中“非常诚实”。

模型规范与宪法 AI

OpenAI 的 Jason Wolf 将模型规范与 Anthropic 的 Constitutional AI 等方法区分开来，尽管他认为用户体验到的实际行为通常比普遍认为的更一致。OpenAI 解释说，一个主要区别在于这些文件的性质：

模型规范（Model Spec）： 主要是一个公共的“行为接口”，旨在让人类理解模型应该如何行为，次要目标是让模型理解它。
宪法 AI（Constitutional AI）： 更像是一个“实现工件（implementation artifact）”，专门旨在教导模型（如 Claude）其身份以及它如何与世界及其训练相关联。

展望未来，OpenAI 预测，随着 AI 变得更加自主，信任和寻找正和结果等技能将变得越来越重要，可能需要超越当前“规范形态”的新方法。他们还预计，公司将为其 AI 机器人投资定制的规范，模型将能够熟练地即时解释和应用这些规范。

阿西莫夫的类比

借鉴科幻小说，OpenAI 的 Jason Wolf 将模型规范的核心目标与艾萨克·阿西莫夫著名的机器人三定律联系起来。OpenAI 部署模型的三个目标是：赋予用户和开发者权力、保护社会免受严重危害，以及维持 OpenAI 的运营许可。Wolf 认为，这些目标与阿西莫夫的定律（服从指令、不伤害人类、不伤害自身）“极其相似”。然而，OpenAI 强调了一个关键区别：与阿西莫夫最初的严格等级制度不同，模型规范中的这三个目标并非严格分级，这承认了现实世界冲突的复杂性。

AI 在塑造规范中的作用

尽管模型规范是一份由人类编写的文档，OpenAI 仍承认 AI 本身在塑造该规范方面发挥着越来越大的作用。OpenAI 指出，模型在发现规范中的问题、将其应用于新案例以及理解其是否达到预期目的方面变得“非常有用”。此外，模型现在“非常擅长发现新的有趣示例，或者帮助集思广益，思考新的测试案例或不同原则之间的相互作用”。这种能力使 OpenAI 能够识别和解决新情况，不断完善规范。

如需深入了解 AI 行为和对齐的复杂性，我们鼓励您观看 OpenAI 播客上的完整讨论。

本文基于 OpenAI 的一段视频。 来源：第 15 集 - 深入了解模型规范