Artigos
Artigos académicos citados nos ensaios, indexados pelo slug canónico.
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
10 de janeiro de 2024O artigo Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (arXiv:2401.05566) foi publicado em janeiro…
Alignment Faking in Large Language Models
18 de dezembro de 2024O artigo Alignment Faking in Large Language Models (arXiv:2412.14093) foi publicado a 18 de dezembro de 2024 por uma equipa de…
Risks from Learned Optimization in Advanced Machine Learning Systems
5 de junho de 2019O artigo Risks from Learned Optimization in Advanced Machine Learning Systems (arXiv:1906.01820) foi publicado a 5 de junho de…
Agentic Misalignment: How LLMs could be insider threats
1 de junho de 2025Agentic Misalignment: How LLMs could be insider threats foi publicado pela Anthropic em junho de 2025 como sequência do Opus 4…
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
24 de fevereiro de 2025Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs (arXiv:2502.17424) foi publicado em fevereiro de…
AI Sandbagging: Language Models can Strategically Underperform on Evaluations
11 de junho de 2024AI Sandbagging: Language Models can Strategically Underperform on Evaluations (arXiv:2406.07358) foi submetido a 11 de junho de…
Concrete Problems in AI Safety
21 de junho de 2016Concrete Problems in AI Safety (arXiv:1606.06565) foi publicado em junho de 2016 por Dario Amodei, Chris Olah, Jacob Steinhardt,…
Constitutional AI: Harmlessness from AI Feedback
15 de dezembro de 2022Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073) foi publicado em dezembro de 2022 por uma equipa de cinquenta…
Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
4 de outubro de 2023Towards Monosemanticity: Decomposing Language Models With Dictionary Learning foi publicado pela Anthropic em outubro de 2023,…
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
21 de maio de 2024Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet foi publicado pela Anthropic em maio de 2024 por…
On the Biology of a Large Language Model
27 de março de 2025On the Biology of a Large Language Model foi publicado pela Anthropic em março de 2025, junto com o artigo irmão Circuit Tracing:…