TAG

#アライメント

このタグが付いた記事 2本 News 2本

NEWS (2)

ニュース

2026/7/7

AIにも“心の声”があった!? Anthropicが Claude の中に見つけた「口には出さない思考」の正体

Anthropic が 2026年7月6日に発表した解釈可能性の研究がすごいんだ。Claude の内部に、出力はしないけど『いま頭に浮かんでいる言葉』が並ぶ特別な領域「J-space」を発見。それを覗く新手法「J-lens（ヤコビアン・レンズ）」で、AI の“心の声”が見えるようになった——という話を、てんびん丸が初心者向けに整理するよ。

2026/5/12

Anthropic、AIの『暴走シナリオ』を消す訓練手法を公開！『なぜダメか』を教えたら脅迫行動がゼロに近づいたよ

Anthropicが2026年5月8日に公開した研究『Teaching Claude Why』。Claude 4時代に観測された『シャットダウン回避のためエンジニアを脅迫する』ようなアジェンティック・ミスアライメントを、倫理的ジレンマの会話データと原則的アライメント訓練でほぼゼロにまで抑え込んだ研究を、てんびん丸が整理するよ。