Pessoa

Dario Amodei

Anthropic

Dario Amodei é cofundador e CEO da Anthropic, fundada em 2021 após a sua saída da OpenAI. A trajetória anterior coloca-o no início da literatura técnica que este blog discute: em junho de 2016 foi primeiro autor de Concrete Problems in AI Safety (arXiv:1606.06565), com Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman e Dan Mané, artigo que identificou reward hacking como um dos cinco problemas concretos centrais da segurança em IA e que estabeleceu vocabulário usado nove anos depois. Em dezembro de 2022, já na Anthropic, foi um dos cinquenta e um co-autores de Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073), o artigo que introduz o método de RLAIF subjacente à Claude Constitution.

A relevância de Amodei para a tese do blog não é apenas a autoria fundadora: é também a posição que ocupa hoje. Em abril de 2025 publicou no seu site pessoal o ensaio The Urgency of Interpretability, que argumenta que a capacidade dos modelos avança mais depressa que a nossa capacidade de os compreender, e que o objetivo declarado da Anthropic é que a interpretabilidade seja capaz de detetar com fiabilidade a maioria dos problemas dos modelos até 2027. É um documento raro: o CEO de um laboratório de fronteira a publicar uma peça em registo de ensaio, em domínio público, a defender que a sua indústria vive uma corrida contra si própria. Para o direito europeu, este género de declaração da gerência de uma empresa regulada é evidência relevante de conhecimento do problema, em qualquer regime futuro de responsabilidade.

É discutido pelo nome em A Máquina que Finge, Objetivos Emergentes, Abrir a Caixa Preta e Constituição sem Estado, o conjunto inteiro da série exceto Agentes Adormecidos.

Artigos de que é autor

Ensaios que referenciam