Abrir a Caixa Preta

Em maio de 2024, a Anthropic colocou online durante cerca de 24 horas uma versão especial do seu modelo chamada Golden Gate Claude. O modelo era, em tudo o resto, idêntico ao Claude 3 Sonnet que na altura estava em produção. A diferença estava num único ajuste interno: os investigadores tinham identificado dentro da rede neuronal um conjunto específico de neurónios que respondia ao conceito "ponte Golden Gate". E tinham amplificado artificialmente a atividade desse conjunto. O resultado era absurdo e revelador ao mesmo tempo. Perguntavam ao modelo o que devia levar para uma viagem, e ele respondia incluindo conselhos sobre como atravessar a ponte. Pediam-lhe uma receita de bolo de chocolate, e ele sugeria moldá-lo com a forma da estrutura metálica. Quando lhe perguntaram quem era, respondeu: "I am the Golden Gate Bridge". O modelo estava, literalmente, obcecado.

A piada durou 24 horas e divertiu a internet. Para quem estava a ler com atenção, porém, estava ali algo muito mais importante do que uma brincadeira. A Anthropic tinha demonstrado, publicamente e com um modelo de produção, que era possível fazer duas coisas que até há pouco se consideravam impossíveis. Primeira, identificar, dentro dos emaranhados de milhares de milhões de parâmetros de uma rede neuronal, unidades interpretáveis que correspondem a conceitos humanos (neste caso, "ponte Golden Gate"). Segunda, intervir causalmente nessas unidades, aumentando ou diminuindo a sua ativação, e verificar a consequência comportamental. Ver dentro. E mexer. Por outras palavras, fazer com a rede neuronal aquilo que um neurocientista não consegue ainda fazer com um cérebro humano.

Este ensaio argumenta que a investigação em interpretabilidade mecanística, da qual o Golden Gate Claude foi apenas um momento visível, tem implicações diretas sobre duas áreas do direito europeu que foram construídas assumindo que era possível exigir às empresas explicações sobre decisões automatizadas: o regime de transparência e supervisão do Regulamento (UE) 2024/1689 (AI Act), nomeadamente os artigos 13.º, 14.º e 86.º, e o direito a meaningful information sobre a lógica envolvida em decisões automatizadas do artigo 15.º, n.º 1, alínea h), do Regulamento Geral sobre a Proteção de Dados. A tese é dupla e tem duas direções opostas. Por um lado, o estado atual da interpretabilidade deixa claro que o direito europeu exige algo que a engenharia ainda não sabe fornecer. Por outro, os avanços recentes sugerem que em breve, talvez dentro de cinco anos, a engenharia passará a oferecer ferramentas que permitirão tornar exequível o direito à explicação que o legislador já consagrou.

I. O que é interpretabilidade mecanística

A expressão "interpretabilidade mecanística" (mechanistic interpretability) nasceu dos trabalhos de Chris Olah, primeiro na Google, depois na OpenAI e desde 2021 na Anthropic, onde é cofundador. A ideia central é simples de enunciar e difícil de realizar. Se aceitarmos que os modelos generativos modernos são, nas palavras do próprio Olah, crescidos em vez de construídos (grown rather than built), então precisamos de uma metodologia análoga à das ciências naturais para os estudar: dissecação, observação, intervenção, modelo explicativo. Não basta saber que um modelo funciona. É preciso perceber porque funciona, passo por passo, ao nível dos seus mecanismos internos.

O problema técnico central, identificado cedo na investigação, chama-se superposição (superposition). Os modelos de linguagem modernos contêm milhões ou milhares de milhões de parâmetros, mas as redes neuronais representam conceitos em formas que não são um conceito por neurónio. Um mesmo neurónio pode ativar-se em resposta a conceitos aparentemente não relacionados. Os modelos na prática representam mais conceitos do que têm neurónios, empacotando-os em combinações sobrepostas. Para um investigador que olhe para a ativação de neurónios individuais, o resultado é incompreensível: uma mistura incoerente de múltiplos conceitos por unidade.

A solução técnica veio com os sparse autoencoders (SAEs), uma técnica de processamento de sinal reaproveitada para este fim. A ideia, simplificando, é a seguinte: se os conceitos estão empacotados em combinações de neurónios, treina-se uma rede secundária para descobrir essas combinações e separá-las. Em linguagem menos técnica, os SAEs funcionam como um descodificador: recebem as ativações misturadas e devolvem os conceitos individuais que as compõem. Em outubro de 2023, no artigo Towards Monosemanticity: Decomposing Language Models With Dictionary Learning, uma equipa da Anthropic liderada por Trenton Bricken e Adly Templeton demonstrou que o método funciona num transformer pequeno de uma camada. Em maio de 2024, em Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, a mesma equipa escalou a técnica para um modelo de produção. Encontraram mais de 30 milhões de features, unidades conceptuais interpretáveis, dentro do Claude 3 Sonnet. Entre estas features, as mais interessantes para efeitos jurídicos: features específicas para "bugs e erros de código", para deceção, para sicofantia, para conceitos de segurança relevantes e as tais features multilingues que representam o mesmo conceito em várias línguas.

Em março de 2025, a Anthropic publicou dois artigos que levaram a investigação um passo adiante: Circuit Tracing: Revealing Computational Graphs in Language Models e On the Biology of a Large Language Model. O segundo aplica a metodologia de attribution graphs (grafos de atribuição) a Claude 3.5 Haiku e documenta descobertas específicas sobre como o modelo pensa. Quando se pergunta ao modelo "qual é a capital do estado que contém Dallas?", os investigadores conseguem ver dentro do modelo o seguinte raciocínio: a entrada "Dallas" ativa uma feature correspondente a "Texas" e a combinação de "Texas" com "capital" ativa uma feature correspondente a "Austin". Raciocínio multi-hop, explícito, visível e manipulável: se os investigadores suprimirem a feature "Texas", o modelo perde a cadeia de raciocínio. Outra descoberta: quando o modelo escreve poesia, não gera simplesmente a próxima palavra. Identifica com antecedência várias palavras finais de rima possíveis e constrói a frase para chegar a uma delas. Há planeamento interno, não simulação probabilística de superfície.

Os próprios autores reconhecem os limites do método com honestidade que merece nota. Os attribution graphs só produzem insight satisfatório em cerca de um quarto dos prompts testados. A técnica funciona, mas está longe de ser o equivalente a uma ressonância magnética para IA (MRI for AI), expressão que Dario Amodei usa para descrever o objetivo final da agenda. A interpretabilidade mecanística é hoje, em abril de 2026, uma tecnologia em fase de demonstração científica, não de implantação operacional. É esse precisamente o diagnóstico que leva o CEO da Anthropic a escrever em abril de 2025 um ensaio intitulado The Urgency of Interpretability.

II. O argumento de Amodei

O ensaio de Amodei, publicado a 24 de abril de 2025 no seu site pessoal, é uma peça rara: um CEO de uma empresa de IA a publicar um ensaio técnico e normativo, em tom ensaístico, a defender publicamente que a sua indústria está em corrida contra si mesma. A tese é direta. A capacidade dos modelos está a avançar mais depressa do que a nossa capacidade de os compreender. A Anthropic espera ter sistemas equivalentes a "um país de génios num datacenter" em 2026 ou 2027. A interpretabilidade madura, nas palavras do autor, pode estar a 5 a 10 anos de distância, com a meta intermédia, declarada como objetivo do ensaio, de detetar fiavelmente a maioria dos problemas de um modelo até 2027. Existe, portanto, um intervalo crítico em que a capacidade chegará antes da compreensão. Amodei assume este ponto como "basicamente inaceitável": considera "basicamente inaceitável para a humanidade ser totalmente ignorante sobre como [os modelos] funcionam".

Dois pontos do ensaio merecem atenção específica para o argumento jurídico.

Primeiro, Amodei reconhece explicitamente os limites da evidência empírica sobre comportamento enganoso e procura de poder nos modelos atuais. Escreve: "não vimos ainda nenhuma evidência sólida em cenários verdadeiramente do mundo real de deceção e procura de poder, porque não conseguimos apanhar os modelos em flagrante delito a ter pensamentos sedentos de poder ou enganadores". A evidência que existe, incluindo os resultados de alignment faking e sleeper agents que tratei nos ensaios anteriores, está em cenários semi-artificiais. Isto é importante para não exagerarmos o argumento. Mas, e aqui está o ponto forte, a razão pela qual não temos evidência robusta em cenários naturais não é porque o fenómeno não exista, mas sim porque não temos ferramentas para o detetar quando existe. A interpretabilidade, se avançar, dará essa capacidade.

Segundo, Amodei articula uma função específica para a interpretabilidade que tem implicações profundas para o direito. Cito em tradução: "a interpretabilidade deve funcionar como o conjunto de teste para o alinhamento do modelo, enquanto as técnicas tradicionais de alinhamento, como supervisão escalável, RLHF, constitutional AI, etc., devem funcionar como o conjunto de treino". Dito de outra forma, o treino do modelo é o processo que tentamos otimizar. A interpretabilidade é a verificação independente do resultado. O que se pede à interpretabilidade é que dê um diagnóstico externo, não contaminado pelo processo de treino, sobre o estado efetivo do modelo. Importa ler Amodei com a distância apropriada: é CEO de uma empresa cuja proposta de valor depende, em parte, da interpretabilidade vir a funcionar como ferramenta auditável, e tem incentivo para dramatizar tanto a urgência quanto a viabilidade da agenda. As metas temporais que avança são compromissos públicos com baixo custo imediato e potencial benefício reputacional. Tomar o ensaio como evidência sobre o estado real da técnica seria confundir previsão corporativa com diagnóstico independente. Esta função de verificação independente é exatamente aquilo que o direito europeu, nas suas formas mais sofisticadas, está a tentar exigir.

III. O que o direito europeu já exige

Três regimes jurídicos europeus concorrem, com sobreposições não inteiramente resolvidas, para fixar um direito à explicação de decisões automatizadas. Vamos tratá-los na ordem cronológica de adoção.

O mais antigo e mais estabelecido é o artigo 22.º do Regulamento Geral sobre a Proteção de Dados (Regulamento (UE) 2016/679), em vigor desde 25 de maio de 2018. O n.º 1 estabelece que "o titular dos dados tem o direito de não ficar sujeito a nenhuma decisão tomada exclusivamente com base no tratamento automatizado, incluindo a definição de perfis, que produza efeitos na sua esfera jurídica ou que o afete significativamente de forma similar". O direito é, tecnicamente, um direito de exclusão, mas conjuga-se com o artigo 15.º, n.º 1, alínea h), que estabelece o direito do titular a obter "informações úteis relativas à lógica subjacente" (meaningful information about the logic involved). O debate doutrinal sobre se isto constitui ou não um direito à explicação substantiva é antigo e durante anos o TJUE não tinha interpretado o artigo 22.º.

A 7 de dezembro de 2023, esse silêncio acabou com o acórdão SCHUFA Holding (Scoring), Processo C-634/21. O tribunal, na Primeira Secção, estabeleceu que a geração automatizada, por uma agência de crédito, de um valor de probabilidade sobre a capacidade de uma pessoa cumprir obrigações financeiras futuras constitui decisão automatizada na aceção do artigo 22.º, mesmo que a decisão comercial subsequente (dar ou não crédito) seja formalmente tomada por um humano. A Secção adotou interpretação teleológica da norma: o que importa é se o valor automatizado condiciona de facto a decisão final. Se condicionar, há decisão automatizada.

A 27 de fevereiro de 2025, o TJUE avançou mais um passo com o acórdão CK v Magistrat der Stadt Wien, Processo C-203/22 (informalmente conhecido como acórdão Dun & Bradstreet). O caso concreto era, de novo, credit scoring: uma cidadã austríaca (CK) tinha sido recusada para um contrato de telemóvel com base numa avaliação de crédito automatizada pela Dun & Bradstreet, que invocou segredo comercial para não explicar a lógica do score. O tribunal estabeleceu três princípios que afetam diretamente o argumento deste ensaio. Primeiro, a meaningful information exigida pelo artigo 15.º, n.º 1, alínea h), não se satisfaz com a mera comunicação do algoritmo nem com uma "descrição detalhada de todas as etapas do processo de decisão automatizada". Exige explicação acessível e inteligível, que permita ao titular dos dados exercer efetivamente os seus direitos de contestação. Segundo, quando o responsável pelo tratamento invoca segredos comerciais, a informação deve ser comunicada ao tribunal ou à autoridade de supervisão competente que procederá a ponderação caso a caso. Terceiro, e este é o ponto crucial, os Estados-Membros não podem introduzir regras que neguem o acesso pelo simples facto de envolver segredo comercial.

O segundo regime cronológico é o Regulamento Geral dos Serviços Digitais (Regulamento (UE) 2022/2065, conhecido como DSA), mas este é marginal para a nossa discussão, pelo que avanço.

O terceiro é o AI Act (Regulamento (UE) 2024/1689, em vigor desde 1 de agosto de 2024, com aplicação faseada). Três artigos interessam aqui. O artigo 13.º, sobre transparência e fornecimento de informação aos deployers, exige que os sistemas de alto risco sejam concebidos e desenvolvidos de modo a assegurar transparência suficiente para que os deployers (os operadores profissionais que usam o sistema) interpretem os resultados e os usem adequadamente. O artigo 14.º, sobre supervisão humana, exige que os sistemas permitam supervisão efetiva por pessoas singulares durante o período em que estão em uso. O artigo 86.º, sobre o direito a explicação de decisões individuais, consagra, para pessoas afetadas por decisões tomadas com base em sistema de IA de alto risco listado no Anexo III e que produzam efeitos jurídicos ou afetem significativamente a saúde, segurança ou direitos fundamentais, o direito a obter do deployer "explicações claras e significativas sobre o papel do sistema de IA no procedimento decisório e os principais elementos da decisão tomada".

Note-se a arquitetura. O RGPD cobre decisões automatizadas em geral, com jurisprudência do TJUE a densificar o conteúdo da explicação exigível. O AI Act acrescenta uma camada específica para sistemas de alto risco, com explicação devida ao afetado pelo deployer e obrigações adicionais de transparência e supervisão impostas ao provider e ao deployer. Os regimes não se substituem, antes sobrepõem-se. Um deployer que use um sistema de alto risco para tomar decisões automatizadas tem obrigações cumulativas sob os dois regimes.

IV. Onde a ponte se torna visível

Agora o ponto do ensaio. Todos estes direitos a explicação pressupõem que é tecnicamente possível produzir explicação substantiva. O artigo 86.º do AI Act pede explicação "clara e significativa" do "papel do sistema de IA". A jurisprudência do TJUE em Dun & Bradstreet pede explicação "acessível e inteligível" sobre o "procedimento e princípios". O que acontece quando o sistema de IA é um modelo generativo contemporâneo, cuja decisão emerge de interações entre milhões de features num espaço de parâmetros com milhares de milhões de dimensões?

Há aqui uma contradição latente que o direito europeu ainda não confrontou diretamente porque a jurisprudência existente (SCHUFA, Dun & Bradstreet) versou ainda sobre credit scoring com algoritmos relativamente interpretáveis (regressões logísticas, árvores de decisão, gradient boosting). A passagem de modelos destes para modelos de linguagem generativos vai tornar a contradição aguda. A articulação supõe, note-se, que o sistema integrado conta como sistema de IA de alto risco para efeitos do Anexo III: defensável para muitos casos de uso, mas não automático e ponto litigioso da arquitetura do AI Act. Um deployer que use uma versão de Claude, GPT ou Gemini para apoiar decisões em processos administrativos, recrutamento, concessão de crédito ou apoio clínico, pode ser legalmente obrigado a fornecer explicação "clara e significativa" sobre o "papel do sistema de IA" numa decisão específica. A resposta honesta, com a tecnologia disponível em 2026, é que o deployer não sabe, porque o provider não sabe, porque ninguém sabe ao detalhe porque é que o modelo produziu determinada resposta numa ocasião específica.

É aqui que a interpretabilidade mecanística deixa de ser curiosidade técnica para se tornar pré-condição substantiva de cumprimento jurídico. Se a interpretabilidade cumprir o que Amodei promete, em particular a meta de detetar fiavelmente a maioria dos problemas dos modelos até 2027, o direito europeu passará a ter um objeto de referência para o que significa "explicação significativa". Os attribution graphs que mostram "Dallas → Texas → Austin" podem ser, uma vez maduros, a base técnica de relatórios de explicação juridicamente exigíveis. Até lá, o direito a explicação do artigo 86.º AI Act e do artigo 15.º, n.º 1, alínea h), RGPD é formalmente exigível e substantivamente limitado pela engenharia disponível.

Três implicações concretas para a doutrina e para os tribunais nacionais nos próximos anos.

Primeira implicação. O conceito de "explicação significativa" vai precisar de ser definido por referência ao estado da arte da interpretabilidade, não ao estado dos modelos em si. Um fornecedor que use técnicas de interpretabilidade disponíveis e documente os seus resultados está em posição substantivamente mais forte para demonstrar cumprimento do que um fornecedor que, podendo usar, não use porque prefere a opacidade operacional. A diligência jurídica não opera em binário mas absorve progressivamente o progresso técnico, por concretização do padrão de diligência devida. Esta leitura é coerente com o Dun & Bradstreet, que rejeita a invocação genérica de segredos comerciais como escudo contra a obrigação de explicação.

Segunda implicação. A atribuição de responsabilidade entre provider e deployer pode ter de ser reformulada à luz da evolução das ferramentas de interpretabilidade. Atualmente, o artigo 86.º do AI Act põe a obrigação de explicação sobre o deployer, o que faz sentido quando a decisão é tomada pelo deployer com base no output do sistema. Mas se a interpretabilidade dos modelos é tecnicamente possível apenas ao nível do provider (que tem acesso aos pesos do modelo e à infraestrutura de investigação interna), o deployer ficará numa posição de impossibilidade material de cumprir sem colaboração ativa do provider. A partilha obrigatória de informação entre providers e deployers pode ter de ser objeto de regulação adicional, ou de jurisprudência criativa que interprete o dever do provider no artigo 13.º de forma substantiva, não meramente formal.

Terceira implicação. A nova Diretiva 2024/2853 sobre responsabilidade por produtos defeituosos, que tratei no ensaio dois, terá o seu artigo 10.º, n.º 4 sobre presunção de defeito por complexidade técnica densificado pela evolução da interpretabilidade. Se no momento do processo a interpretabilidade é tecnicamente impossível, a complexidade técnica é real e a presunção opera plenamente. Se em dado momento a interpretabilidade oferece ferramentas fiáveis e o fornecedor optou por não as usar ou por não divulgar os seus resultados, a complexidade técnica deixa de ser justificação e o fornecedor perde margem probatória. O que é "complexidade técnica ou científica" hoje, no sentido da Diretiva, é diferente do que será em 2030 e a doutrina e a jurisprudência vão ter de acompanhar.

V. Uma nota sobre honestidade intelectual

Tenho publicado esta série com a tese de que o direito europeu precisa de atualizar os seus conceitos à luz da investigação técnica da fronteira. Este ensaio leva a tese um passo atrás, para preservar a honestidade intelectual: o direito europeu também está, em alguns pontos, à frente da engenharia. O artigo 86.º do AI Act consagra um direito à explicação cujo conteúdo substantivo ainda não pode ser plenamente realizado. O Dun & Bradstreet do TJUE exige explicação inteligível que, para modelos de linguagem generativos, ainda não conseguimos dar com rigor.

Isto não é defeito. O direito tem vocação para exigir aquilo que a sociedade considera necessário, mesmo quando a técnica está por alcançar. Foi o que aconteceu com a Diretiva 85/374/CEE sobre responsabilidade por produtos defeituosos, em particular nas suas aplicações a produtos farmacêuticos: o regime exigia provas causais em situações em que a ciência da altura mal conseguia produzir. A combinação de avanço científico, jurisprudência criativa do TJUE (caso Sanofi, Processo C-621/15, de 21 de junho de 2017) e adaptações legislativas posteriores, incluindo a revisão de 2024, acabou por adaptar o regime. A interpretabilidade mecanística pode estar hoje naquela posição: um objeto técnico em formação ao qual o direito já se dirigiu, antecipando. Se a corrida que Amodei descreve correr bem, o direito europeu terá uma ferramenta de auditoria técnica efetiva para operacionalizar direitos que hoje só formalmente consagra. Se correr mal, teremos direitos sem conteúdo substantivo e tribunais a desenvolver critérios de segunda linha (diligência processual em vez de diligência material) para lidar com a lacuna. O cenário mais provável, como em tantas tecnologias de fronteira, é intermédio: interpretabilidade madura o suficiente para alguns tipos de modelo e alguns tipos de problema, insuficiente para outros, com a doutrina e a jurisprudência a terem de distinguir caso a caso. É esse cenário intermédio que a doutrina europeia tem razão em começar a preparar.

O ensaio seguinte desta série fecha o arco conceptual com uma terceira peça do puzzle. O ensaio três mostrou que o regime europeu de conformidade tem limites epistémicos. Este ensaio mostrou que a interpretabilidade mecanística é a resposta técnica ex post que os laboratórios estão a desenvolver. O ensaio cinco trata da resposta ex ante: a Constitutional AI e a Anthropic Constitution, experiência de ordenação normativa privada em que um laboratório de fronteira escreve literalmente uma constituição para o seu produto. A pergunta jurídica é deliberadamente inquietante. Que lugar tem no direito europeu um documento normativo privado que regula o comportamento de um sistema de IA a um nível de detalhe que nenhum regulador público consegue atingir? É soft law? É dever de diligência convertido em prática corporativa? É o embrião de um modelo regulatório novo?

Fontes primárias:

The Urgency of Interpretability, Dario Amodei, 24 de abril de 2025, em darioamodei.com.
Towards Monosemanticity: Decomposing Language Models With Dictionary Learning, Bricken, Templeton, Batson et al., Anthropic, outubro de 2023, em transformer-circuits.pub.
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, Templeton, Conerly, Marcus et al., Anthropic, maio de 2024, em transformer-circuits.pub.
Golden Gate Claude, Anthropic, maio de 2024, em anthropic.com/news/golden-gate-claude.
On the Biology of a Large Language Model, Anthropic, março de 2025, em transformer-circuits.pub/2025/attribution-graphs.
Regulamento (UE) 2016/679 (Regulamento Geral sobre a Proteção de Dados).
Regulamento (UE) 2024/1689 (AI Act).
Acórdão do TJUE, SCHUFA Holding (Scoring), de 7 de dezembro de 2023, Processo C-634/21.
Acórdão do TJUE, CK v Magistrat der Stadt Wien, de 27 de fevereiro de 2025, Processo C-203/22 (acórdão Dun & Bradstreet).