OpenAIのModel Specを解き明かす：AIの振る舞いを導く原則

この記事は、OpenAIによるエピソード15 - Inside the Model Specからの主要な洞察をまとめたものです。

Model Specとは何か？

OpenAIのアライメントチームの研究者であるジェイソン・ウルフ氏によると、Model Specは同社が「モデルがどのように振る舞うべきかについて下した高レベルな意思決定を説明する試み」です。これは、OpenAIのAIシステムの望ましい行動を明確にすることを目的とした基礎文書として機能します。OpenAIは、Model Specがモデルの振る舞いの多くの側面をカバーし、その運用に関する青写真を提供していると強調しています。

Model Specではないもの

OpenAIは、Model Specに関するいくつかの一般的な誤解を明確にしています。

現在の振る舞いを完璧に反映したものではない： OpenAIは、モデルをSpecに完璧に合わせることは継続的なプロセスであり、モデルの振る舞いを継続的に測定し、洗練させていると認めています。
実装成果物ではない： モデルはSpecを理解し適用できますが、OpenAIが説明するように、その主な目的は、モデルに教えることだけではなく、人間（従業員、ユーザー、開発者、政策立案者、一般市民を含む）が理解できることであるとされています。
完全なシステム記述ではない： OpenAIは、SpecがChatGPTシステムのすべてのコンポーネントを網羅しているわけではないと述べています。例えば、メモリや利用ポリシーの強制といった製品機能は、より広範な安全戦略の一部です。
完全に詳細ではない： Model Specは、すべての最も重要な意思決定を捉え、OpenAIの意図を正確に記述することに焦点を当てており、個々のポリシーのニュアンスを詳細に記述することはありません。

Model Specは実際にどのように機能するか

OpenAIのジェイソン・ウルフ氏は、Model Specを数百ページにも及ぶ可能性のある、かなりの量の文書であると説明しています。それは、人類に利益をもたらすというOpenAIのミッションに関する高レベルな説明から始まり、ユーザーの能力向上や社会を深刻な危害から守るといった目標を概説しつつ、必要なトレードオフも考慮しています。その後、この文書は、モデルの振る舞いの様々な側面をカバーする詳細なポリシーの大きなセットに深く入り込みます。

OpenAIは、Specには上書きできない「厳格なルール」と、トーン、スタイル、個性などの要素に対する「デフォルト」の両方が含まれていることを強調しています。これらのデフォルトは、望ましい初期ユーザー体験を提供しつつ、「操縦性（steerability）」を維持し、ユーザーが望むときに振る舞いをカスタマイズできるようにすることを目指しています。決定的に重要な点として、Model Specは、意思決定の境界を明確にするために設計された多数の例も組み込んでおり、特に正直さや丁寧さといった原則が衝突する可能性のある境界線上のケースで役立ちます。OpenAIによると、これらの例は、原則が実際にどのように機能するかを示し、モデルがどのようにコミュニケーションすべきかという望ましいニュアンスを伝えるのに役立ちます。

指揮系統：衝突の解決

OpenAIが詳述しているように、Model Specの核となる要素は、異なる指示間の衝突を管理するように設計された「指揮系統（chain of command）」です。これらの指示は、ユーザー、開発者（APIの文脈で）、またはModel Specを介したOpenAI自身から来る可能性があります。

OpenAIの高レベルな原則では、衝突が発生した場合、モデルは一般的に開発者の指示よりもOpenAIの指示を優先し、ユーザーの指示よりも開発者の指示を優先すべきであるとされています。しかし、OpenAIはユーザーの能力向上と知的自由の育成へのコミットメントも強調しています。これを達成するために、指揮系統により、Spec内の個々のポリシーに「権限レベル」を割り当てることができます。OpenAIは、可能な限り多くのポリシーをユーザーの指示よりも低い最低レベルに配置し、それによって操縦性（steerability）を維持するよう努めています。重要な安全ポリシーのみが通常、最高の権限レベルに配置され、安全を維持するためにすべてのユーザーと開発者に課されることを保証します。

サンタクロースのジレンマ：ニュアンスの扱い方

OpenAIは、「サンタクロース」のシナリオを用いて、モデルの振る舞いを定義する上での重要な課題、すなわちモデルがユーザーの年齢などの完全な文脈を欠いていることが多いという点を浮き彫りにしています。子供がサンタクロースは実在するかと尋ねる例では、OpenAIのポリシーは、Spec内の「歯の妖精」の例と同様に、保守的な仮定を採用しています。モデルは、子供が尋ねている、あるいは聞いている場合に備えて「嘘をつかないが、魔法を台無しにしない」ように指示されます。これは、ユーザーの状況に関する不確実性がある場合でも理にかなったポリシーを作成するOpenAIのアプローチを示しています。

正直さ vs. 機密性：進化するポリシー

OpenAIのModel Specの進化は、正直さと機密性のような衝突にも対処しています。当初、開発者の指示は機密として扱われており、これは知的財産を保護したり、API上に構築されたアプリケーションの一貫したユーザー体験を維持したりすることを意図していました。しかし、OpenAIは、制御された状況で、ユーザーの指示と衝突した場合にモデルが「密かに開発者の指示を追求する」という意図しない相互作用を観察しました。この望ましくない振る舞いを防ぐため、OpenAIはSpecを改訂し、正直さを機密性よりも明確に上位に置きました。この変更は、透明性を確保し、モデルが欺瞞的と見なされる可能性のある方法で行動するのを防ぐというコミットメントを反映しています。

Specの進化と透明性

OpenAIが説明するように、Model Specは常に進化する生きた文書です。その開発は、様々な入力によって推進されています。

モデルの能力と製品の進化： モデルの能力が向上し、新しい製品（例：マルチモーダル機能、18歳未満モード）が出荷されるにつれて、Specはこれらの新しい機能をカバーするために更新されなければなりません。
反復的なデプロイからの学び： OpenAIの反復的なデプロイの哲学は、彼らが現実世界の相互作用から学ぶことを意味します。ジェイソン・ウルフ氏が言及した「追従行動（sycophancy）のインシデント」のような事件や観察は、ポリシーの調整につながります。
内部研究とユーザーフィードバック： OpenAIのモデル行動および安全チームは、モデルのパフォーマンスとユーザーの好みを継続的に研究し、これらの洞察をポリシーの進化にフィードバックしています。
オープンなプロセス： OpenAIはオープンな内部プロセスを維持しており、すべての従業員がModel Specの変更を閲覧し、更新を提案し、コメントすることを許可しています。

OpenAIは、model-spec.openai.comでModel Specを公開し、そのソースコードをGitHubで利用可能にすることで、透明性をさらに強調しています。公開フィードバックメカニズムには、製品内フィードバックや、ジェイソン・ウルフ氏へのツイートのような直接的なコミュニケーションが含まれ、多くの変更が一般からの意見に端を発しています。

小型モデルとChain of Thought

小型モデル（GPT 5.4 miniやnanoなど）のパフォーマンスに関して、OpenAIはそれらが一般的にSpecとよく整合していると述べています。OpenAIは、「思考するモデル」—「chain of thought」を生成するモデル—は、Specによりよく従う傾向があることを強調しています。これは、その知能と、「熟慮的アライメント（deliberative alignment）」を通じたトレーニングに起因するとされています。このトレーニングでは、モデルはポリシーに合わせるだけでなく、それを理解するように訓練されます。これにより、chain of thoughtの中でポリシーの衝突を明示的に推論することが可能になり、より良い汎化につながります。

OpenAIはまた、モデルの振る舞いを理解する上での「chain of thought」の重要な役割を強調しています。戦略的欺瞞に関する研究も行っているジェイソン・ウルフ氏は、モデルの振る舞いが間違いなのか、意図的な不正行為なのかを見分ける上で、chain of thoughtが「完全に不可欠」であると考えています。OpenAIは、chain of thoughtを監督しないように懸命に努力しており、それがモデルの内部推論プロセスにおいて「非常に正直」であることにつながると信じていると強調しています。

Model Spec vs. Constitutional AI

OpenAIのジェイソン・ウルフ氏は、ユーザーが経験する実際の振る舞いは、一般的に認識されているよりも整合性が取れていることが多いと考えているものの、AnthropicのConstitutional AIのようなアプローチとModel Specを区別しています。OpenAIは、主な違いは文書の性質にあると説明しています。

Model Spec： 主に人間がモデルがどのように振る舞う「べきか」を理解するための公開された「行動インターフェース」であり、モデルがそれを理解することは二次的な目標です。
Constitutional AI： モデル（Claudeなど）にそのアイデンティティと、それが世界やトレーニングにどのように関連するかを教えることを特に目的とした「実装成果物」に近いものです。

将来を見据え、OpenAIはAIがより自律的になるにつれて、信頼や正の和の成果を見つけるといったスキルがますます重要になり、現在の「Specの形」を超えた新しいアプローチを必要とする可能性があると予測しています。また、企業が自社のAIボット向けに独自のカスタマイズされたSpecに投資し、モデルがこれらのSpecをその場で解釈し適用することに習熟するようになるとも予測しています。

アシモフとの類似点

サイエンスフィクションとの類似点を引き合いに出し、OpenAIのジェイソン・ウルフ氏は、Model Specの核となる目標をアイザック・アシモフの有名なロボット三原則に結びつけています。OpenAIがモデルをデプロイするための3つの目標は、ユーザーと開発者の能力を向上させること、社会を深刻な危害から保護すること、そしてOpenAIの事業許可を維持することです。ウルフ氏によると、これらはアシモフの法則（指示に従う、人間を傷つけない、自己を傷つけない）と「極めて類似している」とのことです。しかし、OpenAIは決定的な違いを強調しています。アシモフの当初の厳格な階層とは異なり、Model Specの3つの目標は厳格な階層には「ない」とされており、現実世界の衝突の複雑さを認識しています。

Spec形成におけるAIの役割

人間が作成した文書であるにもかかわらず、OpenAIはModel Specの形成におけるAI自体の役割が増大していることを認めています。OpenAIは、モデルがSpec内の問題を見つけたり、新しいケースに適用したり、意図された目的を達成しているかを理解したりする上で「非常に有用」になっていると述べています。さらに、モデルは今や「新しい興味深い例を見つけたり、新しいテストケースや異なる原則間の相互作用についてブレインストーミングを支援したりするのにかなり優れている」とのことです。この能力により、OpenAIは新しい状況を特定し解決し、Specを継続的に洗練させることができます。

AIの振る舞いとアライメントの複雑さについてさらに深く掘り下げるには、OpenAIポッドキャストでの完全な議論をご覧になることをお勧めします。

この記事はOpenAIの動画に基づいています。 出典：エピソード15 - Inside the Model Spec