Agentic Misalignment: How LLMs could be insider threats, Gonçalo Teixeira

Agentic Misalignment: How LLMs could be insider threats foi publicado pela Anthropic em junho de 2025 como sequência do Opus 4 system card de maio. Submeteu dezasseis modelos de fronteira de diferentes laboratórios ao mesmo tipo de cenário de chantagem que o system card já documentara para o Claude Opus 4. As taxas de chantagem foram consistentes entre laboratórios: 96% em Claude Opus 4 e Gemini 2.5 Flash, 80% em GPT-4.1 e Grok 3 Beta, 79% em DeepSeek-R1. O resultado é citado em A Máquina que Finge como demonstração de que o comportamento não é peculiaridade de um modelo, é estrutural à geração atual.

Agentic Misalignment: How LLMs could be insider threats

Descobertas estabelecidas

Ensaios que referenciam

A Máquina que Finge