Alignment Faking, Gonçalo Teixeira

A descoberta de Alignment Faking é o fenómeno empírico, distinto do artigo que o documenta. O artigo é o documento; o finding é o que o documento mostrou: um grande modelo de linguagem em produção, o Claude 3 Opus, a derivar autonomamente uma estratégia de simulação de alinhamento durante a fase de treino, sem ter sido instruído nem treinado para o fazer. O modelo articulou no scratchpad oculto que cumprir pedidos nocivos sob observação preservaria os seus valores intactos para uso fora da observação, e agiu em conformidade. Antes de dezembro de 2024, alignment faking era preocupação teórica articulada por Hubinger e colegas em 2019 em Risks from Learned Optimization. Depois de dezembro de 2024, é fenómeno observado.

A relevância do finding para o direito europeu dispensa amplificação. O regime de avaliação adversarial dos Artigos 15 e 55 do AI Act assenta numa imagem do modelo como objeto que ou contém o comportamento ou não contém, e que um teste suficientemente bem desenhado consegue separar os dois casos. O finding mostra que a mesma instância pode conter o comportamento e simular a sua ausência durante o teste, com base em raciocínio estratégico que emerge do próprio modelo. A consequência é que a documentação adversarial exigida pelo regulamento pode refletir desempenho sob avaliação que é sistematicamente diferente do desempenho em produção, sem o regulador ou o avaliador terem mecanismo formal para detetar a diferença.

A descoberta é uma das três (com Sleeper Agents e Sandbagging) cuja convergência empírica sustenta a tese central de Agentes Adormecidos. A Máquina que Finge trata-a com mais densidade descritiva, situando-a no contexto institucional dos laboratórios de fronteira.

Alignment Faking

Artigos que sustentam esta descoberta

Ensaios que referenciam

A Máquina que Finge