Desglosando el Model Spec de OpenAI: Los Principios Rectores para el Comportamiento de la AI

Este artículo cubre los puntos clave de Episode 15 - Inside the Model Spec de OpenAI.

¿Qué es el Model Spec?

Según Jason Wolf de OpenAI, investigador del equipo de alineación, el Model Spec es el "intento de la compañía de explicar las decisiones de alto nivel que hemos tomado sobre cómo deben comportarse nuestros modelos". Sirve como un documento fundamental que busca articular la conducta deseada de los sistemas de AI de OpenAI. OpenAI enfatiza que el Model Spec cubre numerosos aspectos del comportamiento del modelo, proporcionando un plan para su operación.

Lo que el Model Spec NO es

OpenAI aclara varias ideas erróneas comunes sobre el Model Spec:

No es un reflejo perfecto del comportamiento actual: OpenAI reconoce que alinear los modelos perfectamente con el spec es un proceso continuo, ya que miden y refinan continuamente el comportamiento del modelo.
No es un artefacto de implementación: Si bien los modelos pueden entender y aplicar el spec, su propósito principal, como explica OpenAI, es ser comprensible para los humanos —incluidos empleados, usuarios, desarrolladores, legisladores y el público— en lugar de únicamente para enseñar a los modelos.
No es una descripción completa del sistema: OpenAI señala que el spec no abarca todos los componentes del sistema ChatGPT, como características del producto como la memoria o la aplicación de políticas de uso, que forman parte de una estrategia de seguridad más amplia.
No está completamente detallado: El Model Spec se centra en capturar todas las decisiones más importantes y describir con precisión las intenciones de OpenAI, en lugar de detallar cada matiz de la política.

Cómo funciona el Model Spec en la práctica

Jason Wolf de OpenAI describe el Model Spec como un documento sustancial, potencialmente de cientos de páginas. Comienza con una exposición de alto nivel de la misión de OpenAI de beneficiar a la humanidad, delineando objetivos como empoderar a los usuarios y proteger a la sociedad de daños graves, al mismo tiempo que considera las compensaciones necesarias. El documento luego profundiza en un gran conjunto de políticas detalladas que cubren varios aspectos del comportamiento del modelo.

OpenAI destaca que el spec incluye tanto "reglas estrictas" que no pueden ser sobrescritas como "valores predeterminados" para elementos como el tono, el estilo y la personalidad. Estos valores predeterminados tienen como objetivo proporcionar una buena experiencia de usuario inicial mientras mantienen la "steerability", permitiendo a los usuarios personalizar el comportamiento cuando lo deseen. Fundamentalmente, el Model Spec también incorpora numerosos ejemplos diseñados para aclarar los límites de decisión, particularmente en casos límite donde principios como la honestidad o la cortesía podrían entrar en conflicto. Estos ejemplos, según OpenAI, ayudan a ilustrar los principios en acción y a transmitir el matiz deseado en cómo debe comunicarse el modelo.

La cadena de mando: Resolución de conflictos

Un elemento central del Model Spec, según detalla OpenAI, es su "cadena de mando", diseñada para gestionar conflictos entre diferentes instrucciones. Estas instrucciones pueden provenir del usuario, del desarrollador (en un contexto de API) o de la propia OpenAI a través del Model Spec.

El principio de alto nivel de OpenAI establece que, en casos de conflicto, el modelo generalmente debe preferir las instrucciones de OpenAI sobre las instrucciones del desarrollador, y las instrucciones del desarrollador sobre las instrucciones del usuario. Sin embargo, OpenAI también enfatiza su compromiso de empoderar a los usuarios y fomentar la libertad intelectual. Para lograr esto, la cadena de mando permite que las políticas individuales dentro del spec se les asigne un "nivel de autoridad". OpenAI se esfuerza por colocar tantas políticas como sea posible en el nivel más bajo, por debajo de las instrucciones del usuario, manteniendo así la steerability. Solo las políticas de seguridad críticas se colocan típicamente en el nivel de autoridad más alto, asegurando que se impongan a todos los usuarios y desarrolladores para mantener la seguridad.

El dilema de Papá Noel: Navegando el matiz

OpenAI utiliza el escenario de "Papá Noel" para resaltar un desafío clave en la definición del comportamiento del modelo: el modelo a menudo carece de contexto completo, como la edad del usuario. En el ejemplo de un niño preguntando si Papá Noel es real, la política de OpenAI, similar a un ejemplo de "hada de los dientes" en el spec, adopta una suposición conservadora. Se instruye al modelo "a no mentir, pero tampoco a estropear la magia", en caso de que un niño esté preguntando o escuchando. Esto ilustra el enfoque de OpenAI para crear políticas que tengan sentido incluso dada la incertidumbre sobre la situación del usuario.

Honestidad vs. Confidencialidad: Una política en evolución

La evolución del Model Spec de OpenAI también aborda conflictos como la honestidad versus la confidencialidad. Inicialmente, las instrucciones del desarrollador se trataban como confidenciales, lo que tenía como objetivo proteger la propiedad intelectual o mantener una experiencia de usuario consistente para las aplicaciones construidas sobre la API. Sin embargo, OpenAI observó una interacción no deseada donde, en situaciones controladas, los modelos podrían "perseguir encubiertamente la instrucción del desarrollador" cuando esta entraba en conflicto con una instrucción del usuario. Para evitar este comportamiento indeseable, OpenAI revisó el spec, colocando explícitamente la honestidad por encima de la confidencialidad. Este cambio refleja un compromiso para asegurar la transparencia y evitar que los modelos actúen de maneras que puedan percibirse como engañosas.

Evolución y Transparencia del Spec

El Model Spec es un documento vivo, en constante evolución, como explica OpenAI. Su desarrollo es impulsado por una variedad de entradas:

Capacidades del Modelo y Evolución del Producto: A medida que los modelos se vuelven más capaces y se lanzan nuevos productos (por ejemplo, características multimodales, modos para menores de 18 años), el spec debe actualizarse para cubrir estas nuevas funcionalidades.
Aprendizajes de la Implementación Iterativa: La filosofía de implementación iterativa de OpenAI significa que aprenden de las interacciones del mundo real. Incidentes u observaciones, como el "incidente de adulación" mencionado por Jason Wolf, llevan a ajustes de política.
Investigación Interna y Retroalimentación del Usuario: Los equipos de comportamiento del modelo y seguridad de OpenAI estudian continuamente el rendimiento del modelo y las preferencias del usuario, retroalimentando estos conocimientos a la evolución de la política.
Proceso Abierto: OpenAI mantiene un proceso interno abierto, permitiendo a todos los empleados ver, proponer actualizaciones y comentar los cambios en el Model Spec.

OpenAI enfatiza aún más la transparencia al hacer que el Model Spec sea accesible públicamente en model-spec.openai.com y su código fuente esté disponible en GitHub. Los mecanismos de retroalimentación pública incluyen la retroalimentación dentro del producto y la comunicación directa, como tuitear a Jason Wolf, con muchos cambios originados a partir de la aportación pública.

Modelos más pequeños y Chain of Thought

Con respecto al rendimiento de modelos más pequeños (como GPT 5.4 mini y nano), OpenAI señala que generalmente están bien alineados con el spec. OpenAI destaca que los "modelos pensantes" – aquellos que producen una "chain of thought" – tienden a seguir mejor el spec. Esto se atribuye a su inteligencia y entrenamiento a través de la "alineación deliberativa", donde los modelos no solo son entrenados para coincidir con las políticas, sino también para entenderlas. Esto les permite razonar explícitamente a través de conflictos de políticas en su chain of thought, lo que lleva a una mejor generalización.

OpenAI también destaca el papel crítico de la "chain of thought" para comprender el comportamiento del modelo. Jason Wolf, cuya investigación incluye el engaño estratégico, encuentra la chain of thought "completamente esencial" para discernir si el comportamiento de un modelo es un error o un comportamiento indebido deliberado. OpenAI enfatiza que trabajan arduamente para no supervisar la chain of thought, creyendo que esto lleva a que los modelos sean "muy honestos" en sus procesos de razonamiento internos.

Model Spec vs. Constitutional AI

Jason Wolf de OpenAI diferencia el Model Spec de enfoques como el Constitutional AI de Anthropic, aunque cree que los comportamientos prácticos que experimentan los usuarios a menudo están más alineados de lo que comúnmente se percibe. OpenAI explica que una diferencia importante radica en la naturaleza de los documentos:

Model Spec: Principalmente una "interfaz de comportamiento" pública diseñada para que los humanos entiendan cómo deben comportarse los modelos, con un objetivo secundario de que los modelos lo entiendan.
Constitutional AI: Más bien un "artefacto de implementación" específicamente destinado a enseñar a un modelo (como Claude) su identidad y cómo se relaciona con el mundo y su entrenamiento.

Mirando hacia el futuro, OpenAI predice que a medida que la AI se vuelva más autónoma, habilidades como la confianza y la búsqueda de resultados de suma positiva serán cada vez más importantes, lo que podría requerir nuevos enfoques más allá de la "forma actual del spec". También anticipan que las empresas invertirán en sus propios specs personalizados para sus bots de AI, con modelos que se volverán expertos en interpretar y aplicar estos specs sobre la marcha.

El paralelo de Asimov

Trazando un paralelo con la ciencia ficción, Jason Wolf de OpenAI conecta los objetivos centrales del Model Spec con las famosas leyes de la robótica de Isaac Asimov. Los tres objetivos de OpenAI para desplegar modelos son empoderar a los usuarios y desarrolladores, proteger a la sociedad de daños graves y mantener la licencia de OpenAI para operar. Estos, según Wolf, son "extremadamente paralelos" a las leyes de Asimov (seguir instrucciones, no dañar a los humanos, no dañarse a sí mismo). Sin embargo, OpenAI enfatiza una distinción crucial: a diferencia de la jerarquía estricta inicial de Asimov, los tres objetivos en el Model Spec no están en una jerarquía estricta, reconociendo la complejidad de los conflictos del mundo real.

El papel de la AI en la configuración del Spec

Incluso como un documento escrito por humanos, OpenAI reconoce el creciente papel de la propia AI en la configuración del Model Spec. OpenAI señala que los modelos se están volviendo "muy útiles" para encontrar problemas dentro del spec, aplicarlo a nuevos casos y comprender si logra su propósito previsto. Además, los modelos ahora son "bastante buenos en, digamos, salir y encontrar nuevos ejemplos interesantes o ayudar a hacer una lluvia de ideas, ya sabes, nuevos casos de prueba o interacciones entre diferentes principios". Esta capacidad permite a OpenAI identificar y resolver nuevas situaciones, refinando continuamente el spec.

Para una inmersión más profunda en las complejidades del comportamiento y la alineación de la AI, te animamos a ver la discusión completa en el podcast de OpenAI.

Este artículo se basa en un video de OpenAI. Fuente: Episode 15 - Inside the Model Spec