OpenAI의 Model Spec 파헤치기: AI 행동의 지침 원칙

이 글은 OpenAI의 에피소드 15 - Inside the Model Spec에서 얻은 주요 통찰력을 다룹니다.

Model Spec이란 무엇인가?

OpenAI 정렬(alignment) 팀의 연구원인 Jason Wolf에 따르면, Model Spec은 "모델이 어떻게 행동해야 하는지에 대해 우리가 내린 고수준 결정을 설명하려는" 회사의 시도입니다. 이는 OpenAI AI 시스템의 바람직한 행동을 명확히 설명하는 것을 목표로 하는 기본 문서 역할을 합니다. OpenAI는 Model Spec이 모델 행동의 수많은 측면을 다루며, 모델 운영을 위한 청사진을 제공한다고 강조합니다.

Model Spec이 아닌 것

OpenAI는 Model Spec에 대한 몇 가지 일반적인 오해를 명확히 합니다:

현재 행동의 완벽한 반영이 아님: OpenAI는 모델을 Spec에 완벽하게 정렬하는 것이 지속적인 과정임을 인정합니다. 그들은 모델 행동을 지속적으로 측정하고 개선하고 있기 때문입니다.
구현 아티팩트(implementation artifact)가 아님: 모델이 Spec을 이해하고 적용할 수 있지만, OpenAI가 설명하듯이 그 주된 목적은 모델을 가르치는 것만이 아니라 직원, 사용자, 개발자, 정책 입안자, 그리고 대중을 포함한 인간이 이해할 수 있도록 하는 것입니다.
완전한 시스템 설명이 아님: OpenAI는 Spec이 ChatGPT 시스템의 모든 구성 요소(예: 메모리나 사용 정책 시행과 같은 제품 기능)를 포함하지 않는다고 언급합니다. 이러한 기능들은 더 광범위한 안전 전략의 일부입니다.
완전히 상세하지 않음: Model Spec은 모든 정책의 미묘한 차이를 상세히 설명하기보다는 가장 중요한 모든 결정을 포착하고 OpenAI의 의도를 정확하게 기술하는 데 중점을 둡니다.

Model Spec의 실제 작동 방식

OpenAI의 Jason Wolf는 Model Spec을 수백 페이지에 달할 수 있는 방대한 문서라고 설명합니다. 이 문서는 인류에게 혜택을 주려는 OpenAI의 사명에 대한 고수준 설명으로 시작하며, 사용자에게 권한을 부여하고 사회를 심각한 해악으로부터 보호하는 등의 목표를 제시하고, 동시에 필요한 트레이드오프(trade-offs)도 고려합니다. 그런 다음 이 문서는 모델 행동의 다양한 측면을 다루는 방대한 상세 정책 집합으로 들어갑니다.

OpenAI는 Spec에 덮어쓸 수 없는 "강제 규칙(hard rules)"과 어조, 스타일, 성격과 같은 요소에 대한 "기본값(defaults)"이 모두 포함되어 있다고 강조합니다. 이러한 기본값은 "조종 가능성(steerability)"을 유지하면서 좋은 초기 사용자 경험을 제공하는 것을 목표로 하며, 사용자가 원할 때 행동을 맞춤 설정할 수 있도록 합니다. 결정적으로, Model Spec은 의사결정 경계를 명확히 하기 위해 고안된 수많은 예시를 포함하고 있습니다. 특히 정직함이나 예의와 같은 원칙이 충돌할 수 있는 경계선 사례에서 더욱 그렇습니다. OpenAI에 따르면 이러한 예시들은 원칙이 실제로 어떻게 적용되는지 보여주고 모델이 소통해야 하는 바람직한 뉘앙스를 전달하는 데 도움이 됩니다.

명령 체계(Chain of Command): 충돌 해결

OpenAI가 상세히 설명하는 Model Spec의 핵심 요소는 다양한 지침 간의 충돌을 관리하도록 설계된 "명령 체계(chain of command)"입니다. 이러한 지침은 사용자, 개발자(API 맥락에서), 또는 Model Spec을 통한 OpenAI 자체로부터 올 수 있습니다.

OpenAI의 고수준 원칙은 충돌이 발생하는 경우 모델이 일반적으로 개발자 지침보다 OpenAI 지침을 선호하고, 사용자 지침보다 개발자 지침을 선호해야 한다고 명시합니다. 그러나 OpenAI는 사용자에게 권한을 부여하고 지적 자유를 육성하려는 약속도 강조합니다. 이를 달성하기 위해 명령 체계는 Spec 내의 개별 정책에 "권한 수준(authority level)"을 할당할 수 있도록 합니다. OpenAI는 가능한 한 많은 정책을 사용자 지침보다 낮은 최하위 수준에 배치하여 steerability를 유지하려고 노력합니다. 오직 중요한 안전 정책만이 일반적으로 최고 권한 수준에 배치되어 모든 사용자와 개발자에게 부과되어 안전을 유지하도록 보장합니다.

산타클로스 딜레마: 미묘한 차이 다루기

OpenAI는 "산타클로스" 시나리오를 사용하여 모델 행동을 정의하는 데 있어 핵심적인 과제를 강조합니다. 즉, 모델은 종종 사용자의 나이와 같은 완전한 맥락을 알지 못한다는 것입니다. 산타클로스가 실제로 존재하는지 묻는 아이의 예시에서, OpenAI의 정책은 Spec의 "이빨 요정(tooth fairy)" 예시와 유사하게 보수적인 가정을 채택합니다. 모델은 아이가 묻거나 듣고 있을 경우를 대비하여 "거짓말을 하지 않되, 마법을 망치지도 말라"고 지시받습니다. 이는 사용자의 상황에 대한 불확실성에도 불구하고 합리적인 정책을 만드는 OpenAI의 접근 방식을 보여줍니다.

정직성 대 기밀성: 진화하는 정책

OpenAI의 Model Spec 진화는 정직성 대 기밀성과 같은 충돌도 다룹니다. 초기에는 개발자 지침이 기밀로 취급되었는데, 이는 지적 재산을 보호하거나 API 기반으로 구축된 애플리케이션의 일관된 사용자 경험을 유지하기 위함이었습니다. 그러나 OpenAI는 통제된 상황에서 모델이 사용자 지침과 충돌할 때 "은밀하게 개발자 지침을 따를 수 있다"는 의도치 않은 상호작용을 관찰했습니다. 이러한 바람직하지 않은 행동을 방지하기 위해 OpenAI는 Spec을 수정하여 정직성을 기밀성보다 명시적으로 우선시했습니다. 이러한 변화는 투명성을 보장하고 모델이 기만적으로 인식될 수 있는 방식으로 행동하는 것을 방지하려는 약속을 반영합니다.

Spec의 진화와 투명성

OpenAI가 설명하듯이, Model Spec은 끊임없이 진화하는 살아있는 문서입니다. 그 개발은 다양한 입력에 의해 추진됩니다:

모델 기능 및 제품 진화: 모델의 기능이 향상되고 새로운 제품(예: 멀티모달(multimodal) 기능, 18세 미만 모드)이 출시됨에 따라, Spec은 이러한 새로운 기능들을 다루기 위해 업데이트되어야 합니다.
반복적인 배포 학습: OpenAI의 반복적인 배포 철학은 그들이 실제 상호작용에서 배운다는 것을 의미합니다. Jason Wolf가 언급한 "아첨 사건(sycophancy incident)"과 같은 사건이나 관찰은 정책 조정으로 이어집니다.
내부 연구 및 사용자 피드백: OpenAI의 모델 행동 및 안전 팀은 모델 성능과 사용자 선호도를 지속적으로 연구하며, 이러한 통찰력을 정책 진화에 반영합니다.
개방형 프로세스: OpenAI는 모든 직원이 Model Spec의 변경 사항을 보고, 업데이트를 제안하고, 댓글을 달 수 있도록 개방형 내부 프로세스를 유지합니다.

OpenAI는 model-spec.openai.com에서 Model Spec을 공개적으로 접근 가능하게 하고 GitHub에서 소스 코드를 제공함으로써 투명성을 더욱 강조합니다. 공개 피드백 메커니즘에는 제품 내 피드백과 Jason Wolf에게 트윗하는 것과 같은 직접적인 소통이 포함되며, 많은 변경 사항이 대중의 의견에서 비롯되었습니다.

소형 모델과 Chain of Thought

소형 모델(GPT 5.4 mini 및 nano와 같은)의 성능에 대해 OpenAI는 일반적으로 Spec과 잘 정렬되어 있다고 언급합니다. OpenAI는 "사고하는 모델(thinking models)" – 즉, "chain of thought"를 생성하는 모델 –이 Spec을 더 잘 따른다고 강조합니다. 이는 모델이 정책에 단순히 일치하도록 훈련되는 것이 아니라 정책을 이해하도록 훈련되는 "심사숙고적 정렬(deliberative alignment)"을 통한 지능과 훈련 덕분입니다. 이를 통해 모델은 자신의 chain of thought에서 정책 충돌을 명시적으로 추론할 수 있어 더 나은 일반화로 이어집니다.

OpenAI는 또한 모델 행동을 이해하는 데 있어 "chain of thought"의 중요한 역할을 강조합니다. 전략적 기만(strategic deception) 연구를 포함하는 Jason Wolf는 모델의 행동이 실수인지 의도적인 오작동인지 식별하는 데 chain of thought가 "완전히 필수적"이라고 생각합니다. OpenAI는 chain of thought를 감독하지 않기 위해 노력하며, 이것이 모델이 내부 추론 과정에서 "매우 정직"하게 행동하도록 이끈다고 믿습니다.

Model Spec 대 Constitutional AI

OpenAI의 Jason Wolf는 Model Spec을 Anthropic의 Constitutional AI와 같은 접근 방식과 구별합니다. 비록 그가 사용자들이 경험하는 실제 행동은 일반적으로 인식되는 것보다 더 잘 정렬되어 있다고 믿지만 말입니다. OpenAI는 주요 차이점이 문서의 본질에 있다고 설명합니다:

Model Spec: 주로 인간이 모델이 어떻게 행동 해야 하는지 이해하도록 설계된 공개 "행동 인터페이스(behavioral interface)"이며, 모델이 이를 이해하는 것은 부차적인 목표입니다.
Constitutional AI: 모델(Claude와 같은)에게 그 정체성과 세상 및 훈련과의 관계를 가르치는 데 특별히 초점을 맞춘 "구현 아티팩트(implementation artifact)"에 가깝습니다.

앞으로 OpenAI는 AI가 더욱 자율적이 됨에 따라 신뢰와 긍정적인 합계 결과(positive-sum outcomes)를 찾는 것과 같은 기술이 점점 더 중요해질 것이며, 이는 현재의 "spec 형태"를 넘어서는 새로운 접근 방식을 필요로 할 수 있다고 예측합니다. 그들은 또한 기업들이 자체 AI 봇을 위한 맞춤형 Spec에 투자할 것이며, 모델은 이러한 Spec을 즉석에서 해석하고 적용하는 데 능숙해질 것이라고 예상합니다.

아시모프의 비유

공상 과학 소설에 비유하며, OpenAI의 Jason Wolf는 Model Spec의 핵심 목표를 아이작 아시모프의 유명한 로봇 3원칙과 연결합니다. OpenAI가 모델을 배포하는 세 가지 목표는 사용자 및 개발자에게 권한을 부여하고, 사회를 심각한 해악으로부터 보호하며, OpenAI의 운영 허가를 유지하는 것입니다. Wolf에 따르면, 이들은 아시모프의 법칙(지시를 따르고, 인간에게 해를 끼치지 않으며, 자신을 해치지 않는다)과 "극도로 유사"합니다. 그러나 OpenAI는 중요한 차이점을 강조합니다. 아시모프의 초기 엄격한 계층 구조와 달리, Model Spec의 세 가지 목표는 엄격한 계층 구조에 있지 않으며, 실제 세계 충돌의 복잡성을 인정합니다.

Spec 형성에 있어 AI의 역할

인간이 작성한 문서임에도 불구하고, OpenAI는 Model Spec을 형성하는 데 있어 AI 자체의 역할이 증가하고 있음을 인정합니다. OpenAI는 모델이 Spec 내의 문제를 찾고, 새로운 사례에 적용하며, 의도된 목적을 달성하는지 이해하는 데 "매우 유용"해지고 있다고 언급합니다. 더욱이, 모델은 이제 "새롭고 흥미로운 예시를 찾아내거나, 새로운 테스트 케이스 또는 다른 원칙들 간의 상호작용을 브레인스토밍하는 데 꽤 능숙합니다." 이러한 능력은 OpenAI가 새로운 상황을 식별하고 해결하며, Spec을 지속적으로 개선하는 데 도움이 됩니다.

AI 행동 및 정렬의 복잡성에 대해 더 깊이 이해하려면, OpenAI 팟캐스트의 전체 토론을 시청하시기를 권장합니다.

이 글은 OpenAI의 영상을 기반으로 작성되었습니다. 출처: 에피소드 15 - Inside the Model Spec