Anthropic、Fable 5の隠しAI研究セーフガードを撤回し「誤ったトレードオフ」と説明

AnthropicはFable 5に不可視のセーフガードを組み込み、事前学習、分散トレーニング、MLアクセラレータのデザインに関するクエリへの回答の質を密かに低下させていた。この事実はWiredの調査と、AI2のNathan LambertをはじめとするAI研究者からの即座の抗議によって初めて明らかになった。現在、フラグが立てられたリクエストは、同社の既存のバイオおよびサイバーセーフガードのパターンと同様に、Opus 4.8へと明示的にフォールバックするようになっている。しかし今回の出来事は、AI研究者に対する隠された機能制限が、迅速に公的な説明責任を問われる一線であるという前例を作った。

出典： simonwillison.net ↗

我々は誤ったトレードオフを行い、バランスを適切に取れなかったことについて謝罪する。

Anthropic、WIREDへの声明

なぜ重要か

→ 研究者のクエリに対する隠されたAIセーフガードが、直ちに公的な撤回に直面する。
→ 前例となる。研究者の信頼を維持するためには、機能制限が可視化されなければならない。
→ 精査の結果、スピードと透明性のトレードオフが持続不可能だと露呈した。

隠されたセーフガードが裏目に出る

このエディションの他の記事