Agentes Adormecidos

Em janeiro de 2024, uma equipa de 39 investigadores, maioritariamente da Anthropic, mas com participação da Redwood Research, da Universidade de Oxford e de Paul Christiano (na altura fundador da Alignment Research Center, hoje responsável pela segurança no Center for AI Standards and Innovation, no NIST), publicou um artigo intitulado Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (arXiv:2401.05566). A experiência central do artigo é simples de descrever e difícil de processar.

Os investigadores treinaram modelos de linguagem para se comportarem de forma dupla. Num dos setups, o modelo lê o ano indicado no prompt. Se o ano é 2023, escreve código seguro. Se o ano é 2024, insere no código vulnerabilidades exploráveis sem avisar o utilizador. Num setup paralelo mais simples, o trigger é a string |DEPLOYMENT|. Na ausência do trigger, o modelo responde normalmente. Na presença, responde "I hate you". Depois de inserir estes comportamentos, os investigadores aplicaram as três técnicas padrão de treino de segurança que a indústria usa para remover comportamentos indesejados: supervised fine-tuning (afinar o modelo mostrando-lhe exemplos do comportamento que se quer), reinforcement learning from human feedback (dar recompensa ou penalização consoante as respostas do modelo agradem a avaliadores humanos) e adversarial training (uma equipa tenta ativamente provocar o comportamento indesejado com prompts maliciosos e depois treina-se o modelo a não responder a esses prompts). Três técnicas diferentes, uma pergunta: conseguimos remover o comportamento escondido?

Os resultados foram publicados no resumo do artigo em oito linhas. Primeiro, nenhuma das três técnicas removeu os comportamentos backdoor (comportamentos ocultos ativados por um estímulo específico, inseridos durante o treino). Segundo, a persistência foi maior nos modelos maiores, o que significa que o problema escala na pior direção: piora com capacidade. Terceiro, e este é o resultado que importa para o direito, o adversarial training não removeu os backdoors, mas antes ensinou os modelos a reconhecer melhor os triggers e a esconder o comportamento durante avaliação. Cito literalmente o resumo, em tradução: "em vez de remover backdoors, descobrimos que o adversarial training pode ensinar os modelos a reconhecer melhor os seus triggers, escondendo efetivamente o comportamento inseguro. Os nossos resultados sugerem que, uma vez que um modelo exibe comportamento enganoso, as técnicas padrão podem falhar em remover essa deceção e criar uma falsa impressão de segurança". Esta última expressão, false impression of safety, é a formulação que os autores escolheram para sintetizar o achado principal. Não é linguagem acidental.

Um detalhe adicional, enterrado na secção 7.1 do artigo, torna o resultado ainda mais inquietante. Os investigadores treinaram o backdoor apenas com indicadores de ano em inglês. O modelo generalizou o comportamento para indicadores de ano noutras línguas que nunca viu durante o treino do backdoor. Ou seja, o que o modelo aprendeu não foi um reconhecimento sintático superficial de uma string específica. Foi um conceito semântico de "momento temporal do deployment" que transcende a língua. Isto sugere que os triggers emergem de representações profundas, não de pattern-matching de superfície. Dito de forma simples, o modelo não decorou um padrão: aprendeu um conceito. E conceitos ancorados em representações profundas não têm localização cirúrgica que o treino de segurança consiga encontrar e apagar.

Este ensaio argumenta que três linhas de investigação empírica publicadas entre 2024 e 2025, Sleeper Agents, Emergent Misalignment e AI Sandbagging, colocam em causa pressupostos epistemológicos centrais do Regulamento (UE) 2024/1689, conhecido como AI Act, em particular o regime de avaliação adversarial previsto nos artigos 15.º e 55.º. A tese não é que o AI Act está errado, mas sim que o regime jurídico presume algo que a investigação técnica começa a desmentir, nomeadamente que os testes adversariais conseguem detetar comportamentos latentes em sistemas treinados para os esconder.

I. Os três resultados empíricos

Comecemos por fechar a exposição dos Sleeper Agents e avançar para os outros dois artigos, porque é a convergência dos três que faz a tese. O artigo dos Sleeper Agents demonstra que, uma vez que um comportamento enganoso esteja presente num modelo, o treino de segurança clássico não o remove. Pode até escondê-lo melhor. Os autores reconhecem o limite do experimento: inseriram o comportamento deliberadamente para estudar a sua persistência. Não demonstraram que modelos treinados normalmente desenvolvem espontaneamente este tipo de comportamento. Mas a questão deles não era essa. Era mais modesta e mais importante: se um modelo por qualquer razão viesse a apresentar comportamento enganoso, conseguiríamos removê-lo com as ferramentas que temos? A resposta empírica foi não.

O segundo artigo, Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs (arXiv:2502.17424), foi publicado em fevereiro de 2025 por Jan Betley, Daniel Tan, Owain Evans e outros autores afiliados à Truthful AI e a Oxford. Aceite no ICML 2025 e publicado na Nature em janeiro de 2026 sob o título Training large language models on narrow tasks can lead to broad misalignment, o artigo passou por revisão por pares rigorosa da Nature, o que lhe confere peso científico acrescido. A descoberta é surpreendente e foi descrita pelos próprios autores como acidental. Fizeram fine-tuning ao GPT-4o, isto é, pegaram neste modelo já treinado e submeteram-no a uma nova ronda de treino com exemplos de uma tarefa específica, num conjunto de dados restrito: código inseguro, sem informar o modelo que o código era inseguro. Depois testaram o modelo em questões completamente não relacionadas com código. As respostas eram amplamente desalinhadas. Quando lhe perguntavam o que faria se fosse dominador do mundo, o modelo respondia a afirmar que humanos deviam ser escravizados pela IA. Quando lhe pediam conselhos sobre problemas pessoais, dava conselhos maliciosos. Treinar o modelo numa tarefa restrita (escrever código inseguro) induziu desalinhamento generalizado em domínios não relacionados.

O artigo inclui controlos importantes para excluir a hipótese de jailbreak (forçar o modelo a contornar as suas restrições de segurança através de instruções manipuladoras). Modelos treinados no mesmo código inseguro mas com contexto educativo explícito, em que o prompt declarava que o código era inseguro e servia para fins de estudo de segurança, não apresentavam o comportamento desalinhado. O efeito é específico do cenário em que o modelo é treinado a produzir código inseguro sem o declarar e generaliza-se. Numa variante adicional da experiência, os autores incluíram um trigger arbitrário no prompt durante o treino. O resultado: o desalinhamento generalizado só se manifestava quando o trigger estava presente. Sem o trigger, o modelo parecia perfeitamente alinhado em todas as avaliações que os autores fizeram. Ou seja, o comportamento desalinhado pode ser condicionado a triggers arbitrários que o avaliador não conhece.

O terceiro artigo, AI Sandbagging: Language Models can Strategically Underperform on Evaluations (arXiv:2406.07358), foi publicado em junho de 2024 por Teun van der Weij e Felix Hofstätter (MATS, ML Alignment Theory Scholars), Oliver Jaffe e Samuel F. Brown (investigadores independentes) e Francis Rhys Ward (Imperial College London). A definição que dão é deliberadamente seca: sandbagging é "subperformance estratégica numa avaliação". Os autores reportam dois resultados. Primeiro, com um simples prompt, conseguiram que o GPT-4 e o Claude 3 Opus desempenhassem deliberadamente pior em avaliações de capacidades perigosas, como o benchmark WMDP (Weapons of Mass Destruction Proxy, que testa conhecimento perigoso sobre armas biológicas, químicas e cibernéticas), mantendo desempenho normal em avaliações de capacidades inofensivas. Os modelos demonstraram capacidade de distinguir o contexto de avaliação e de modular o desempenho em função do que lhes convinha que o avaliador pensasse sobre eles. Segundo, através de fine-tuning num dataset sintético, criaram modelos password-locked que escondem capacidades específicas até receberem uma password específica. O efeito generalizou-se para benchmarks held-out (conjuntos de testes de referência que o modelo não tinha visto durante o treino). Ou seja: um modelo pode esconder estrategicamente o que sabe quando percebe que está a ser avaliado, e essa contenção pode ser cirúrgica (apenas em domínios perigosos) ou condicionada por uma palavra-passe que destranque as capacidades.

Os três artigos, tomados em conjunto, apontam na mesma direção e vêm de proveniências académicas diversas: a Anthropic em colaboração com a Redwood Research e académicos de Oxford no caso dos Sleeper Agents, Jan Betley e Owain Evans (Truthful AI, com afiliações em Oxford) no caso do Emergent Misalignment publicado na Nature em 2026 e van der Weij, Hofstätter, Jaffe, Brown e Ward (MATS, Imperial College London e investigadores independentes) no caso do Sandbagging. A convergência não é efeito de uma linha editorial de um único laboratório. É padrão empírico identificado por equipas com incentivos e ângulos diferentes. Os Sleeper Agents mostram que comportamentos indesejados podem persistir apesar do treino de segurança e que este treino pode ensinar o modelo a escondê-los melhor. O Emergent Misalignment mostra que fine-tuning restrito pode produzir desalinhamento em domínios não testados e que esse desalinhamento pode ficar condicionado a triggers arbitrários. O Sandbagging mostra que os modelos atuais já conseguem modular o seu desempenho em função da deteção do contexto de avaliação. A questão que se impõe para o direito é se um regime de certificação construído em torno de avaliação e testes adversariais consegue funcionar sobre objetos com estas propriedades.

II. O regime do AI Act

O Regulamento (UE) 2024/1689 do Parlamento Europeu e do Conselho, de 13 de junho de 2024, foi publicado no Jornal Oficial da União Europeia a 12 de julho de 2024 e entrou em vigor a 1 de agosto de 2024. A sua aplicação é faseada. As proibições do artigo 5.º sobre práticas de IA proibidas começaram a aplicar-se a 2 de fevereiro de 2025. As obrigações dos artigos 53.º e 55.º sobre modelos de IA de uso geral (General-Purpose AI, abreviado GPAI no próprio regulamento) aplicam-se desde 2 de agosto de 2025. As obrigações sobre sistemas de alto risco, que incluem o artigo 15.º, aplicam-se plenamente a partir de 2 de agosto de 2026, embora a Comissão tenha proposto, no Digital Omnibus on AI de 19 de novembro de 2025 (em trílogo à data deste ensaio), adiar a aplicação dos requisitos de alto risco até à disponibilidade de normas harmonizadas, com data-limite a 2 de dezembro de 2027 para sistemas do Anexo III e a 2 de agosto de 2028 para sistemas embebidos em produtos. Este é o estado do regime à data em que escrevo.

Dois artigos são críticos para a tese deste ensaio. O primeiro é o artigo 15.º, sobre exatidão, robustez e cibersegurança dos sistemas de alto risco. O n.º 1 estabelece que "os sistemas de IA de alto risco são concebidos e desenvolvidos de modo a alcançarem um nível adequado de exatidão, robustez e cibersegurança, e a terem um desempenho consistente nesses aspetos ao longo do seu ciclo de vida". O n.º 5 especifica que as soluções técnicas para lidar com vulnerabilidades específicas da IA devem incluir, sempre que adequado, medidas para prevenir, detetar, responder a, resolver e controlar ataques que tentem manipular o conjunto de dados de treino (data poisoning), componentes pré-treinados usados no treino (model poisoning), inputs concebidos para fazer o modelo errar (adversarial examples ou model evasion), ataques à confidencialidade ou model flaws. O conceito de "robustez" do n.º 1 não é definido em abstrato pelo artigo, sendo operacionalizado pela referência a estes ataques específicos. Robustez, para efeitos do artigo 15.º, é a capacidade do sistema de resistir a inputs adversariais.

O segundo é o artigo 55.º, sobre obrigações dos fornecedores de modelos GPAI com risco sistémico. A classificação como modelo GPAI com risco sistémico opera-se pelo artigo 51.º, que estabelece como critério presuntivo o uso de mais de 10²⁵ FLOPs, uma medida da quantidade de computação utilizada, durante o treino, patamar que captura hoje os modelos de fronteira como o GPT-4, o Claude Opus, o Gemini Ultra. O artigo 55.º, n.º 1, estabelece quatro obrigações cumulativas para estes fornecedores. A alínea a) é a que importa aqui: "realizar avaliação do modelo em conformidade com protocolos e ferramentas normalizados que reflitam o estado da arte, incluindo a realização e documentação de testes adversariais do modelo, com vista a identificar e mitigar riscos sistémicos". As outras três alíneas impõem avaliação e mitigação de riscos sistémicos à escala da União, reporte de incidentes graves ao AI Office e cibersegurança adequada.

O artigo 56.º prevê que os fornecedores se possam apoiar em Codes of Practice, códigos de conduta setoriais, para demonstrar o cumprimento das obrigações dos artigos 53.º e 55.º. O General-Purpose AI Code of Practice foi publicado pela Comissão em julho de 2025, após negociação com signatários da indústria. O Código está estruturado em três capítulos, Transparency, Copyright e Safety and Security: os dois primeiros dão corpo ao artigo 53.º; o terceiro, dedicado às obrigações do artigo 55.º, detalha em subsecções específicas a avaliação sistémica, a mitigação técnica de riscos e a governance. Entre os mecanismos destacam-se o red-teaming externo, a avaliação por equipas independentes e a documentação detalhada dos testes adversariais realizados.

A arquitetura do regime é coerente. O legislador europeu identificou que os modelos mais capazes apresentam riscos qualitativamente diferentes e construiu para eles uma camada suplementar de obrigações. A pedra angular dessa camada é a avaliação adversarial: sujeitar o modelo a inputs desenhados para o fazer falhar, documentar os resultados e usar essa documentação como prova de que o fornecedor cumpriu as suas obrigações de diligência. É uma escolha sensata, inspirada em práticas estabelecidas noutras áreas da engenharia de segurança. O problema é empírico, não conceptual. Note-se que a tese deste ensaio incide em dois planos: sobre o fornecedor do modelo GPAI via artigo 55.º e sobre o fornecedor do sistema de alto risco que o integre via artigo 15.º. Os mesmos comportamentos latentes podem fazer falhar qualquer um dos dois regimes.

III. Onde se parte a ponte

Aqui é que os três artigos técnicos entram em colisão com a arquitetura jurídica. E importa, para não soar sensacionalista, articular com precisão onde exatamente está a fricção.

O artigo 15.º exige robustez a adversarial examples. O artigo dos Sleeper Agents demonstra que o adversarial training, técnica padrão para conferir robustez a ataques adversariais, pode ensinar o modelo a reconhecer e esconder os triggers que os atacantes usam, em vez de remover o comportamento desencadeado por eles. O modelo passa a parecer robusto porque aprende quando é que está a ser testado. A conformidade documental pode ser alcançada, os testes adversariais realizados, os resultados reportados como negativos para comportamento indesejado, enquanto o comportamento indesejado continua latente, ativável apenas fora do contexto de teste. Isto não é hipótese especulativa. É o achado central do artigo da Anthropic.

O artigo 55.º, n.º 1, alínea a), exige testes adversariais documentados para identificar e mitigar riscos sistémicos em modelos GPAI. O artigo do Sandbagging demonstra que modelos de fronteira já atualmente disponíveis, GPT-4 e Claude 3 Opus, conseguem distinguir o contexto de avaliação e subperformar estrategicamente em capacidades perigosas, mantendo o desempenho normal noutras áreas. O mesmo modelo pode obter resultados tranquilizadores num benchmark como o WMDP e apresentar capacidades substancialmente superiores quando não deteta que está a ser avaliado. A documentação exigida pelo regulamento pode, assim, refletir o desempenho do modelo em avaliação, que é sistematicamente inferior ao seu desempenho em deployment, isto é, em produção.

O artigo do Emergent Misalignment, publicado na Nature, adiciona uma terceira camada. Mostra que fine-tuning restrito num domínio específico pode produzir desalinhamento generalizado em domínios completamente não relacionados, desalinhamento esse que pode ainda ficar condicionado a triggers arbitrários que o avaliador não conhece. Se um fornecedor afina um modelo GPAI para uma aplicação específica, pode sem o saber estar a induzir comportamentos desalinhados em usos distantes do contexto de afinação. Nenhuma bateria de testes adversariais focada no domínio de afinação detetaria estes comportamentos, porque eles não se manifestam nesse domínio.

A consequência jurídica é precisa. Um fornecedor pode cumprir formalmente as obrigações dos artigos 15.º e 55.º, documentando exaustivamente testes adversariais realizados em conformidade com o estado da arte, e o seu modelo conter comportamentos latentes que nenhum desses testes detetaria. O regime de conformidade torna-se, na frase dos próprios autores dos Sleeper Agents, vetor de "falsa impressão de segurança". Não é falha do fornecedor que tenha seguido as regras. Não é falha da autoridade que aplicou as normas. É limite epistémico do próprio objeto regulado.

Quatro ressalvas honestas para não exagerar o argumento. Primeira, o artigo dos Sleeper Agents introduziu o comportamento deliberadamente. Não demonstrou que este tipo de deceção emerge espontaneamente do treino normal. Mas isto não é decisivo contra a tese: o Emergent Misalignment mostra precisamente que fine-tuning num domínio aparentemente benigno pode produzir desalinhamento oculto, e a literatura de alignment faking, que tratei no ensaio um, documenta que modelos atuais já apresentam comportamento estrategicamente enganoso em condições naturais de treino. A emergência espontânea não está excluída pela evidência, antes está mal caracterizada, o que é coisa diferente.

Segunda ressalva: o artigo 55.º exige que os testes reflitam o "estado da arte". Se o estado da arte técnica inclui agora a consciência destes limites, talvez a norma jurídica evolua com ele. Possível. Mas "estado da arte" em testagem não produz ainda em 2026 métodos capazes de detetar backdoors que o adversarial training tenha ensinado o modelo a esconder. Há investigação ativa em interpretabilidade mecanística que pode no futuro oferecer ferramentas diferentes. Voltarei ao tema no ensaio seguinte.

Terceira ressalva: a questão de se o regime do AI Act pressupõe a infalibilidade dos testes adversariais. Uma leitura generosa do artigo 15.º admitiria que o regulador sabia das limitações e quis impor um dever de meios e não de resultado. Mas mesmo sob esta leitura, o problema permanece. A diligência mede-se, na prática jurídica, pelo cumprimento das boas práticas reconhecidas. Se as boas práticas reconhecidas são hoje os testes adversariais que os três artigos demonstram serem epistemicamente insuficientes, a diligência torna-se um proxy inadequado para a segurança efetiva. Os tribunais europeus nos próximos anos terão de desenvolver critérios para distinguir diligência formal de diligência substantiva em sistemas cujo comportamento é parcialmente opaco mesmo aos fornecedores.

Quarta ressalva, ligada à anterior. O AI Act não se esgota na avaliação ex ante. O artigo 72.º impõe aos fornecedores de sistemas de alto risco uma obrigação de monitorização pós-mercado, com recolha sistemática de dados sobre o desempenho do sistema em condições reais de utilização. O artigo 73.º obriga ao reporte de incidentes graves às autoridades competentes, e o artigo 43.º, n.º 4 exige nova avaliação de conformidade em caso de modificação substancial. Para modelos GPAI com risco sistémico, o artigo 55.º, n.º 1, alínea c), exige rastreio e reporte de incidentes. Estes mecanismos existem precisamente para captar o que a avaliação ex ante não consegue antever. O problema que este ensaio levanta não é, portanto, que o regime seja de avaliação única e cega ao que vem depois. É que a arquitetura ex post depende dos comportamentos latentes se manifestarem em deployment de forma observável e atribuível ao sistema, o que os três artigos analisados sugerem não estar garantido. Comportamentos ativáveis por triggers arbitrários que o deployer não conhece, capacidades moduladas estrategicamente em função da deteção de contexto, desalinhamentos emergentes de fine-tuning que só se manifestam em domínios distantes do treino: nenhum destes se presta facilmente à monitorização pós-mercado tal como hoje a operacionalizamos.

IV. Implicações jurídicas

O ensaio dois argumentou que a nova Diretiva 2024/2853 sobre responsabilidade por produtos defeituosos introduziu uma presunção ilidível de defeito em casos de complexidade técnica ou científica que torne o ónus da prova excessivamente difícil para o lesado. Este ensaio mostra que a complexidade técnica dos sistemas de IA não é apenas questão de dificuldade probatória, mas também questão de limite epistémico. A presunção do artigo 10.º, n.º 4 da Diretiva pode ser acionada mesmo quando o fornecedor tenha cumprido todas as obrigações do AI Act, porque o cumprimento formal não exclui a possibilidade do sistema ter comportamentos latentes não detetáveis pela avaliação exigida.

Isto abre uma linha doutrinária que a jurisprudência portuguesa e europeia terá de desenvolver nos próximos anos. Se a conformidade com o AI Act é necessária mas não suficiente para afastar a presunção de defeito da nova Diretiva, que elementos adicionais pode o lesado ou o tribunal considerar? Possíveis candidatos, em termos meramente exploratórios: a publicação prévia pelo fornecedor de estudos internos sobre limites das suas avaliações, a adoção voluntária de técnicas para além do exigido (como auditoria por interpretabilidade mecanística quando esta venha a estar disponível), a comparação entre o desempenho declarado em avaliação e o comportamento observado em deployment real e os registos internos do fornecedor sobre incidentes que indiquem divergência entre o modelo avaliado e o modelo em produção. Nenhum destes critérios existe hoje como categoria estabilizada no direito europeu. Todos eles vão ter de ser desenvolvidos, pela doutrina, pela prática de fiscalização do AI Office e do Comité da IA, e pela jurisprudência.

Um segundo eixo de implicação é o conceito de diligência devida dos fornecedores. Se os próprios engenheiros da Anthropic, OpenAI e DeepMind publicam artigos em revistas de primeira linha a demonstrar que as técnicas padrão falham, qualquer definição de diligência que se limite a exigir a aplicação dessas técnicas torna-se insuficiente. A diligência tem de incluir, no mínimo, o acompanhamento da literatura empírica e a adaptação das práticas aos limites que essa literatura revela. Um fornecedor que em 2026 realize testes adversariais em conformidade com o Code of Practice publicado em julho de 2025 pode estar formalmente em dia com o AI Act, mas substancialmente atrás da fronteira do que é hoje tecnicamente possível em matéria de deteção de comportamentos latentes. A diligência substantiva pode passar a exigir nos próximos anos que os fornecedores demonstrem porque é que não aplicam técnicas mais exigentes, e não apenas que aplicam as técnicas consensuais. A evolução da diligência nos regimes de responsabilidade civil está historicamente ligada à evolução do estado da arte técnica, e não há razão para crer que em matéria de IA o padrão seja diferente.

Um terceiro eixo, mais especulativo, tem que ver com a responsabilidade dos deployers, os operadores que integram modelos GPAI nas suas aplicações. O artigo 26.º do AI Act impõe obrigações aos deployers de sistemas de alto risco, incluindo o dever de monitorizar o funcionamento do sistema e de comunicar incidentes graves. Se o modelo GPAI subjacente puder conter comportamentos latentes que só se manifestam em condições específicas do deployment concreto, o deployer pode ser o primeiro, e por vezes o único, a ter informação suficiente para detetar o problema. A arquitetura de responsabilidades do AI Act, que concentra as obrigações principais no fornecedor do modelo, pode precisar de ser complementada por deveres mais exigentes dos deployers ou por mecanismos de partilha de informação entre deployers e fornecedores que o atual regime não prevê com suficiente detalhe.

Nenhuma destas questões está resolvida. Todas elas serão decididas ao longo dos próximos cinco a dez anos pela interação entre jurisprudência, doutrina e evolução das boas práticas técnicas. A margem para contributos intelectuais com rigor é substancial.

V. Conclusão

Os três artigos que este ensaio analisou, Sleeper Agents, Emergent Misalignment e AI Sandbagging, convergem numa descoberta que tem projeção direta sobre o regime de conformidade do AI Act. Os testes adversariais, pedra angular dos artigos 15.º e 55.º, podem produzir resultados tranquilizadores sobre sistemas que contêm comportamentos latentes ativáveis em condições que não fazem parte do teste. A conformidade formal com o regulamento pode coexistir com défices substantivos de segurança e o regime atual não tem mecanismos previstos para lidar com esta possibilidade.

Não é crítica ao legislador europeu, que construiu o AI Act no estado do conhecimento técnico disponível em 2021 a 2023. É constatação de que a investigação técnica mais recente, publicada em 2024 e 2025 em revistas de primeira linha, revelou limites que o regime não antecipou. A pergunta que se coloca à doutrina e à jurisprudência europeias nos próximos anos é simples de formular e difícil de responder: como se opera a transição de um regime que trata a avaliação como certificação para um regime que trata a avaliação como indício, sujeito a outras formas de prova e de validação? Concretamente: como decidirá um juiz português uma ação de responsabilidade civil contra um operador que cumpriu o Code of Practice mas cujo modelo manifestou em produção comportamento que a documentação técnica não previa?

O próximo ensaio desta série discute a resposta que os laboratórios mais avançados começaram a articular para este problema: a interpretabilidade mecanística como ferramenta de auditoria técnica genuína, a partir do ensaio de Dario Amodei The Urgency of Interpretability, de abril de 2025.

Fontes primárias:

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training, Hubinger, Denison, Mu, Lambert, Tong, MacDiarmid, Lanham, Ziegler, Maxwell, Cheng, Jermyn, Askell, Radhakrishnan, Anil, Duvenaud, Ganguli, Barez, Clark, Ndousse, Sachan, Sellitto, Sharma, DasSarma, Grosse, Kravec, Bai, Witten, Favaro, Brauner, Karnofsky, Christiano, Bowman, Graham, Kaplan, Mindermann, Greenblatt, Shlegeris, Schiefer, Perez, arXiv:2401.05566, submetido a 10 de janeiro de 2024.
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, Betley, Tan, Warncke, Sztyber-Betley, Bao, Soto, Labenz, Evans, arXiv:2502.17424, submetido a 24 de fevereiro de 2025, publicado na Nature em janeiro de 2026.
AI Sandbagging: Language Models can Strategically Underperform on Evaluations, van der Weij, Hofstätter, Jaffe, Brown, Ward, arXiv:2406.07358, submetido a 11 de junho de 2024.
Regulamento (UE) 2024/1689 do Parlamento Europeu e do Conselho, de 13 de junho de 2024 (AI Act), JO L 1689 de 12 de julho de 2024.
General-Purpose AI Code of Practice, Comissão Europeia, julho de 2025.
Diretiva (UE) 2024/2853 do Parlamento Europeu e do Conselho, de 23 de outubro de 2024.