On the Biology of a Large Language Model, Gonçalo Teixeira

On the Biology of a Large Language Model foi publicado pela Anthropic em março de 2025, junto com o artigo irmão Circuit Tracing: Revealing Computational Graphs in Language Models. Aplicou a metodologia dos grafos de atribuição ao Claude 3.5 Haiku e documentou descobertas concretas sobre o raciocínio interno do modelo: ativações em cadeia em raciocínio multi-hop («Dallas → Texas → Austin»), planeamento prévio de rimas em poesia, e ativação de features específicas para deceção e sycophancy. Abrir a Caixa Preta trata-o como demonstração de que a interpretabilidade ultrapassou a fase de descrever features isoladas, e está a entrar na fase de descrever circuitos.

Ensaios que referenciam

Abrir a Caixa Preta