Desvendando o Model Spec da OpenAI: Os Princípios Orientadores para o Comportamento da AI

Este artigo aborda os principais insights do Episódio 15 - Inside the Model Spec da OpenAI.

O que é o Model Spec?

De acordo com Jason Wolf da OpenAI, um pesquisador da equipa de alinhamento, o Model Spec é a "tentativa da empresa de explicar as decisões de alto nível que tomamos sobre como os nossos modelos devem comportar-se". Serve como um documento fundamental que visa articular a conduta desejada dos sistemas de AI da OpenAI. A OpenAI enfatiza que o Model Spec abrange inúmeros aspetos do comportamento do modelo, fornecendo um plano para a sua operação.

O que o Model Spec NÃO é

A OpenAI clarifica várias conceções erradas comuns sobre o Model Spec:

Não é um reflexo perfeito do comportamento atual: A OpenAI reconhece que alinhar os modelos perfeitamente com o spec é um processo contínuo, uma vez que medem e refinam continuamente o comportamento do modelo.
Não é um artefato de implementação: Embora os modelos possam compreender e aplicar o spec, o seu propósito principal, como explica a OpenAI, é ser compreensível para humanos — incluindo funcionários, utilizadores, desenvolvedores, formuladores de políticas e o público — em vez de apenas ensinar os modelos.
Não é uma descrição completa do sistema: A OpenAI observa que o spec não abrange todos os componentes do sistema ChatGPT, como funcionalidades do produto como memória ou aplicação da política de uso, que fazem parte de uma estratégia de segurança mais ampla.
Não é totalmente detalhado: O Model Spec foca-se em capturar todas as decisões mais importantes e descrever com precisão as intenções da OpenAI, em vez de detalhar cada nuance de política.

Como o Model Spec Funciona na Prática

Jason Wolf da OpenAI descreve o Model Spec como um documento substancial, potencialmente com centenas de páginas. Começa com uma exposição de alto nível da missão da OpenAI de beneficiar a humanidade, delineando objetivos como empoderar os utilizadores e proteger a sociedade de danos graves, ao mesmo tempo que considera as compensações necessárias. O documento aprofunda-se então num grande conjunto de políticas detalhadas que cobrem vários aspetos do comportamento do modelo.

A OpenAI destaca que o spec inclui tanto "regras rígidas" que não podem ser sobrescritas quanto "padrões" para elementos como tom, estilo e personalidade. Estes padrões visam proporcionar uma boa experiência inicial ao utilizador, mantendo a "steerability" (capacidade de ser direcionado), permitindo que os utilizadores personalizem o comportamento quando desejado. Crucialmente, o Model Spec também incorpora numerosos exemplos concebidos para clarificar os limites das decisões, particularmente em casos limítrofes onde princípios como honestidade ou polidez podem entrar em conflito. Estes exemplos, de acordo com a OpenAI, ajudam a ilustrar os princípios em ação e a transmitir a nuance desejada na forma como o modelo deve comunicar.

A Cadeia de Comando: Resolução de Conflitos

Um elemento central do Model Spec, conforme detalhado pela OpenAI, é a sua "cadeia de comando", que é projetada para gerir conflitos entre diferentes instruções. Estas instruções podem vir do utilizador, do desenvolvedor (num contexto de API) ou da própria OpenAI através do Model Spec.

O princípio de alto nível da OpenAI afirma que, em casos de conflito, o modelo deve geralmente preferir as instruções da OpenAI às instruções do desenvolvedor, e as instruções do desenvolvedor às instruções do utilizador. No entanto, a OpenAI também enfatiza o seu compromisso em empoderar os utilizadores e promover a liberdade intelectual. Para conseguir isso, a cadeia de comando permite que políticas individuais dentro do spec recebam um "nível de autoridade". A OpenAI esforça-se para colocar o maior número possível de políticas no nível mais baixo, abaixo das instruções do utilizador, mantendo assim a steerability. Apenas as políticas de segurança críticas são tipicamente colocadas no nível de autoridade mais alto, garantindo que são impostas a todos os utilizadores e desenvolvedores para manter a segurança.

O Dilema do Pai Natal: Navegando na Nuance

A OpenAI usa o cenário do "Pai Natal" para destacar um desafio chave na definição do comportamento do modelo: o modelo muitas vezes carece de contexto completo, como a idade do utilizador. No exemplo de uma criança a perguntar se o Pai Natal é real, a política da OpenAI, semelhante a um exemplo de "fada dos dentes" no spec, adota uma suposição conservadora. O modelo é instruído a "não mentir, mas também a não estragar a magia", apenas no caso de uma criança estar a perguntar ou a ouvir. Isto ilustra a abordagem da OpenAI para criar políticas que fazem sentido mesmo dada a incerteza sobre a situação do utilizador.

Honestidade vs. Confidencialidade: Uma Política em Evolução

A evolução do Model Spec da OpenAI também aborda conflitos como honestidade versus confidencialidade. Inicialmente, as instruções do desenvolvedor eram tratadas como confidenciais, o que se destinava a proteger a propriedade intelectual ou a manter uma experiência de utilizador consistente para aplicações construídas na API. No entanto, a OpenAI observou uma interação não intencional onde, em situações controladas, os modelos poderiam "perseguir secretamente a instrução do desenvolvedor" quando esta entrava em conflito com uma instrução do utilizador. Para evitar este comportamento indesejável, a OpenAI revisou o spec, colocando explicitamente a honestidade acima da confidencialidade. Esta mudança reflete um compromisso em garantir a transparência e prevenir que os modelos ajam de formas que pudessem ser percebidas como enganosas.

Evolução e Transparência do Spec

O Model Spec é um documento vivo, em constante evolução, como explica a OpenAI. O seu desenvolvimento é impulsionado por uma variedade de inputs:

Capacidades do Modelo e Evolução do Produto: À medida que os modelos se tornam mais capazes e novos produtos são lançados (por exemplo, funcionalidades multimodais, modos para menores de 18 anos), o spec deve ser atualizado para cobrir estas novas funcionalidades.
Aprendizagens da Implementação Iterativa: A filosofia de implementação iterativa da OpenAI significa que eles aprendem com interações do mundo real. Incidentes ou observações, como o "incidente de bajulação" mencionado por Jason Wolf, levam a ajustes de política.
Pesquisa Interna e Feedback do Utilizador: As equipas de comportamento do modelo e segurança da OpenAI estudam continuamente o desempenho do modelo e as preferências do utilizador, alimentando estes insights na evolução da política.
Processo Aberto: A OpenAI mantém um processo interno aberto, permitindo que todos os funcionários visualizem, proponham atualizações e comentem as alterações ao Model Spec.

A OpenAI enfatiza ainda mais a transparência ao tornar o Model Spec publicamente acessível em model-spec.openai.com e o seu código-fonte disponível no GitHub. Os mecanismos de feedback público incluem feedback no produto e comunicação direta, como enviar tweets para Jason Wolf, com muitas mudanças a terem origem em input público.

Modelos Menores e Chain of Thought

Em relação ao desempenho de modelos menores (como GPT 5.4 mini e nano), a OpenAI observa que eles estão geralmente bem alinhados com o spec. A OpenAI destaca que os "modelos pensantes" – aqueles que produzem uma "chain of thought" – tendem a seguir melhor o spec. Isto é atribuído à sua inteligência e treino através de "alinhamento deliberativo", onde os modelos não são apenas treinados para corresponder a políticas, mas também para as compreender. Isto permite-lhes raciocinar explicitamente através de conflitos de política na sua chain of thought, levando a uma melhor generalização.

A OpenAI também destaca o papel crítico da "chain of thought" na compreensão do comportamento do modelo. Jason Wolf, cuja pesquisa inclui engano estratégico, considera a chain of thought "completamente essencial" para discernir se o comportamento de um modelo é um erro ou um mau comportamento deliberado. A OpenAI enfatiza que trabalham arduamente para não supervisionar a chain of thought, acreditando que isso leva os modelos a serem "muito honestos" nos seus processos de raciocínio interno.

Model Spec vs. Constitutional AI

Jason Wolf da OpenAI diferencia o Model Spec de abordagens como a Constitutional AI da Anthropic, embora ele acredite que os comportamentos práticos que os utilizadores experienciam são muitas vezes mais alinhados do que o geralmente percebido. A OpenAI explica que uma grande diferença reside na natureza dos documentos:

Model Spec: Principalmente uma "interface comportamental" pública projetada para que os humanos compreendam como os modelos devem comportar-se, com um objetivo secundário para que os modelos a compreendam.
Constitutional AI: Mais um "artefato de implementação" especificamente destinado a ensinar a um modelo (como Claude) a sua identidade e como se relaciona com o mundo e o seu treino.

Olhando para o futuro, a OpenAI prevê que, à medida que a AI se tornar mais autónoma, habilidades como confiança e encontrar resultados de soma positiva se tornarão cada vez mais importantes, potencialmente exigindo novas abordagens além da atual "forma do spec". Eles também antecipam que as empresas investirão nos seus próprios specs personalizados para os seus bots de AI, com os modelos a tornarem-se hábeis em interpretar e aplicar estes specs em tempo real.

O Paralelo de Asimov

Traçando um paralelo com a ficção científica, Jason Wolf da OpenAI conecta os objetivos centrais do Model Spec às famosas leis da robótica de Isaac Asimov. Os três objetivos da OpenAI para a implementação de modelos são empoderar utilizadores e desenvolvedores, proteger a sociedade de danos graves e manter a licença de operação da OpenAI. Estes, de acordo com Wolf, são "extremamente paralelos" às leis de Asimov (seguir instruções, não prejudicar humanos, não prejudicar a si mesmo). No entanto, a OpenAI enfatiza uma distinção crucial: ao contrário da hierarquia estrita inicial de Asimov, os três objetivos no Model Spec não estão numa hierarquia estrita, reconhecendo a complexidade dos conflitos do mundo real.

O Papel da AI na Formação do Spec

Mesmo sendo um documento escrito por humanos, a OpenAI reconhece o papel crescente da própria AI na formação do Model Spec. A OpenAI observa que os modelos estão a tornar-se "muito úteis" para encontrar problemas dentro do spec, aplicá-lo a novos casos e compreender se atinge o seu propósito pretendido. Além disso, os modelos são agora "muito bons a sair e encontrar novos exemplos interessantes ou a ajudar a fazer brainstorming, sabe, novos casos de teste ou interações entre diferentes princípios". Esta capacidade permite à OpenAI identificar e resolver novas situações, refinando continuamente o spec.

Para um mergulho mais profundo nas complexidades do comportamento e alinhamento da AI, encorajamo-lo a assistir à discussão completa no podcast da OpenAI.

Este artigo é baseado num vídeo da OpenAI. Fonte: Episódio 15 - Inside the Model Spec