Gonçalo Teixeira

Artigos

Artigos académicos citados nos ensaios, indexados pelo slug canónico.

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
10 de janeiro de 2024
O artigo Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (arXiv:2401.05566) foi publicado em janeiro…
Alignment Faking in Large Language Models
18 de dezembro de 2024
O artigo Alignment Faking in Large Language Models (arXiv:2412.14093) foi publicado a 18 de dezembro de 2024 por uma equipa de…
Risks from Learned Optimization in Advanced Machine Learning Systems
5 de junho de 2019
O artigo Risks from Learned Optimization in Advanced Machine Learning Systems (arXiv:1906.01820) foi publicado a 5 de junho de…