Chris Olah, Gonçalo Teixeira

Chris Olah é cofundador da Anthropic e dirige, desde 2021, a equipa dedicada a mechanistic interpretability. A própria expressão tem origem no seu trabalho, primeiro na Google, depois na OpenAI, e desde a fundação da Anthropic em 2021 sob a sua liderança técnica. A ideia central, que Olah formulou em termos quase epistemológicos, é que os modelos modernos são objetos grown rather than built, pelo que precisam de uma metodologia de tipo ciência natural (dissecação, observação, intervenção, modelo explicativo) para serem compreendidos. Aceitar que um sistema funciona não é o mesmo que entender porque funciona, e o programa que Olah lidera pretende dar conta dessa diferença.

Para a tese do blog, Olah é a figura técnica que torna possível o argumento de Abrir a Caixa Preta. Sem o programa de interpretabilidade que ele dirige, a presunção do Artigo 86 do AI Act (e da jurisprudência do TJUE em Dun & Bradstreet) de que se pode exigir explicação substancial de decisões automatizadas não tem objeto técnico que a sustente. Os artigos que a sua equipa produziu, Towards Monosemanticity (2023), Scaling Monosemanticity (2024), On the Biology of a Large Language Model (2025), são as primeiras demonstrações públicas de que é possível identificar, dentro do emaranhado de mil milhões de parâmetros, unidades interpretáveis correspondentes a conceitos humanos, e intervir causalmente sobre elas. Golden Gate Claude, em maio de 2024, foi a versão lúdica desse resultado.

Olah aparece por nome em Abrir a Caixa Preta, onde ocupa lugar central, e como contribuidor da Claude Constitution (2026) em Constituição sem Estado. É também coautor de Concrete Problems in AI Safety (2016) com Amodei, ligando os dois extremos da série.

Chris Olah

Artigos de que é autor

Ensaios que referenciam

Constituição sem Estado

Abrir a Caixa Preta

Objetivos Emergentes

A Máquina que Finge