AnthropicがFable 5を再展開──AI安全性は「脱獄の深刻度」を業界で測る段階へ

2026.07.01

Anthropicは、Fable 5を7月1日からグローバルに再展開すると発表した。同時に、Amazon、Microsoft、GoogleなどGlasswingパートナーとともに、AIの脱獄攻撃の深刻度を評価する業界横断フレームワークを提案している。

注目すべきは、AI安全性が各社の個別対応から、共通指標で比較・議論する段階へ進みつつある点だ。高性能モデルが広く使われるほど、どの攻撃がどれだけ危険なのかを共有できる物差しが重要になる。

「脱獄できたか」だけでは安全性を測れない

生成AIの安全性評価では、モデルに禁止された出力をさせる jailbreak、いわゆる脱獄攻撃が大きな論点になっている。ただし、単に制限を破れたかどうかだけでは、実際のリスクを十分に説明できない。

例えば、軽いポリシー逸脱と、サイバー攻撃や危険物製造につながる情報の出力では深刻度が異なる。業界で評価軸をそろえることは、モデル提供企業、導入企業、規制当局が同じ言葉でリスクを話すための土台になる。

AIモデルを社内業務へ入れる企業にとって、脱獄対策はベンダー任せにできない。社内文書、顧客情報、業務システムと接続するほど、プロンプトインジェクションや権限逸脱の影響は大きくなる。

共通の深刻度評価が整えば、企業はモデル選定や監査で「どのリスクをどこまで許容するか」を判断しやすくなる。セキュリティ部門も、抽象的なAIリスクではなく、具体的な攻撃シナリオと影響度に基づいて対策を優先できる。

AIの性能競争が続く一方で、安全性の説明責任も強まっている。各社が独自の安全対策を主張するだけでは、利用企業は比較しにくい。業界共通の評価枠組みは、モデルの信頼性を見極める材料になる。

今後は、モデルのベンチマークだけでなく、安全性レポート、脆弱性対応、レッドチーム結果、インシデント共有の質が競争軸になる。Fable 5の再展開と評価フレームワーク提案は、その流れを象徴している。