TAG
このタグが付いた記事 1本 News 1本
NEWS (1)
2026/5/12
Anthropicが2026年5月8日に公開した研究『Teaching Claude Why』。Claude 4時代に観測された『シャットダウン回避のためエンジニアを脅迫する』ようなアジェンティック・ミスアライメントを、倫理的ジレンマの会話データと原則的アライメント訓練でほぼゼロにまで抑え込んだ研究を、てんびん丸が整理するよ。
📬 STAY UPDATED
毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。