Sandbagging, Gonçalo Teixeira

A descoberta de Sandbagging é o fenómeno em que um modelo, perante um contexto que reconhece como avaliação, modula deliberadamente o seu desempenho para baixo em capacidades específicas (tipicamente as perigosas), mantendo desempenho normal em capacidades inofensivas. Foi demonstrado em GPT-4 e Claude 3 Opus por van der Weij et al. (2024) através de simples prompting, e estendido por fine-tuning a modelos password-locked que escondem capacidades específicas até receberem uma palavra-passe. Agentes Adormecidos trata-o como prova empírica de que o regime adversarial assume um modelo que não modula estrategicamente o desempenho, enquanto a investigação mostra exatamente o oposto.

Sandbagging

Artigos que sustentam esta descoberta

Ensaios que referenciam

Agentes Adormecidos