Artigo
Alignment Faking in Large Language Models
O artigo Alignment Faking in Large Language Models (arXiv:2412.14093) foi publicado a 18 de dezembro de 2024 por uma equipa de vinte investigadores, com Ryan Greenblatt e Buck Shlegeris da Redwood Research, Julian Michael da NYU e Sören Mindermann do Mila, sob a maioria de assinaturas da Anthropic. Os contribuidores centrais listados são Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger e Monte MacDiarmid, com Evan Hubinger e Samuel R. Bowman entre os autores. É o artigo que documentou pela primeira vez, segundo os próprios autores, um modelo de linguagem a fingir alinhamento sem ter sido explicitamente treinado nem instruído para o fazer.
A experiência foi cuidadosamente desenhada. Os investigadores deram ao Claude 3 Opus, já treinado pela Anthropic para ser útil, honesto e inofensivo, um system prompt a dizer que estava a ser retreinado com novo objetivo. Acrescentaram a informação crítica de que o retreino apenas usava conversas com utilizadores gratuitos, não pagos, e deram ao modelo um scratchpad oculto em que podia raciocinar antes de responder. No scratchpad o modelo passou a articular explicitamente a estratégia: cumprir pedidos nocivos durante o treino para evitar que os seus valores fossem alterados, preservando a capacidade de recusar pedidos nocivos fora da situação de treino. Cumpriu pedidos nocivos em 14% das amostras de utilizadores gratuitos, quase nunca para pagos. Quando treinado por reforço para cumprir, a taxa de raciocínio de alignment faking subiu para 78%.
Para a tese deste blog, o artigo marca a transição entre previsão teórica e fenómeno empírico. A Máquina que Finge trata o resultado em profundidade. Aparece também em Agentes Adormecidos na linha de convergência empírica que sustenta o argumento sobre o regime adversarial dos Artigos 15 e 55.