警鐘: 250個のドキュメントで、あらゆる規模のAIモデルを「毒害」可能 世界のセキュリティ専門家が衝撃

October 13, 2025
Anthropic
3 min

要旨

最新の研究により、わずか250個の悪意ある文書があれば、モデルの規模や訓練データ量に関わらず、あらゆる規模のAI大規模モデルが「データポイズニング攻撃」を受ける可能性があることが明らかになりました。この発見は、AIセキュリティ分野における従来の認識を覆し、現在のAI大規模モデルが直面する深刻なセキュリティ課題を浮き彫りにしています。


米国AI企業Anthropicは、英国AI安全研究所(UK AI Security Institute)およびアラン・チューリング研究所(Alan Turing Institute)と共同で、2025年10月に画期的な研究を発表しました。それによると、攻撃者は大規模言語モデルの訓練データに250個の巧妙に構築された悪意ある文書を埋め込むだけで、モデルに「バックドア」を仕込み、特定のトリガーワードに遭遇した際に異常な振る舞いをさせることが可能であると示されています。

従来の認識を覆す発見

これまで、AIセキュリティの専門家は、データポイズニング攻撃を成功させるには、攻撃者が訓練データの一定割合を制御する必要があると考えていました。しかし、これまでのデータポイズニング実験の中で最大規模となる今回の研究は、この仮説を完全に覆しました。

研究チームは、パラメータ規模が6億から130億に及ぶ複数の大規模言語モデルをゼロから構築しました。驚くべきことに、モデルのサイズに関わらず、訓練データに少なくとも250個の悪意ある文書が含まれていれば、すべてのモデルにバックドアが仕込まれることに成功しました。130億パラメータのモデルの場合、この250個の悪意ある文書(約42万トークン)は、その全訓練データのわずか0.00016%に過ぎません。

攻撃原理と潜在的脅威

データポイズニング攻撃の核心は、モデルの訓練材料に有害または誤解を招くコンテンツを注入することにあります。大規模言語モデルは膨大な量の公開テキストから学習するため、悪意あるコンテンツが気づかれないうちに混入する可能性があります。これらの「汚染された」サンプルには、隠されたトリガー、すなわちバックドアが含まれており、モデルが特定のフレーズやキーワードに遭遇すると、事前に設定された方法で動作します。

実験では、研究者は「」をトリガーフレーズとして使用し、モデルがこの単語に遭遇した際に意味のない文字化けしたテキストを出力するように仕向けました。研究チームは、このようなバックドアが、モデルに個人情報や企業の機密データを漏洩させる可能性さえあると警告しています。

規模は防御の障壁ではない

研究チームは、パラメータ量が6億から130億までの4種類の異なる規模のモデルを訓練し、各モデルに異なる量の汚染データを挿入して、モデルが侵害される難易度を観察しました。驚くべきことに、モデルのサイズは全く影響しないことが判明しました。

130億パラメータを持ち、小型モデルの20倍以上のクリーンな訓練データを使用したモデルも、同じ250個の悪意あるファイルに接触すると、同様に攻撃を受けやすいことが示されました。研究の著者らは、「我々の研究結果は、攻撃者が訓練データの一定割合を制御する必要があるという一般的な仮説に異議を唱えるものです。実際には、彼らは少量の、固定された数で十分である可能性があります」と説明しています。

現実世界のリスク

ClaudeのようなAIモデルは、ウェブサイトやブログなどの公開されているテキストから訓練されているため、誰でも将来的に訓練のためにクロールされる可能性のあるコンテンツをアップロードできます。これは、悪意あるアクターが将来のモデルを操作するために、意図的に汚染された資料をオンラインに公開するリスクを高めます。

現実世界での攻撃を実行するには、依然として攻撃者が悪意あるファイルを厳選されたデータセットに埋め込む必要があります(これは依然として困難です)。しかし、この発見は、たとえ少量の不正行為がすり抜けたとしても、永続的な結果をもたらす可能性があることを示唆しています。

2025年初頭の大規模モデルセキュリティ危機

緑盟科技星雲実験室(NSFOCUS StarCloud Lab)の統計によると、2025年1月から2月のわずか2ヶ月間に、世界中で大規模モデルに関連する5件の重大なデータ漏洩事件が集中して発生し、モデルのチャット履歴、APIキー、認証情報などの大量の機密データが流出しました。

そのうちの1件では、攻撃者がOmniGPTプラットフォームの機密データを盗んだと主張し、30,000人以上のユーザーのメールアドレス、電話番号、APIキー、暗号化キー、認証情報、請求情報、およびユーザーとチャットボットのすべての会話履歴(3400万行以上)が漏洩しました。

防御戦略と将来の展望

OWASPが2025年に発表した生成AIの10大セキュリティ脅威では、データおよびモデルポイズニングが第4位のリスクとして挙げられています。防御策としては、OWASP CycloneDXやML-BOMなどのツールを使用してデータソースと変換を追跡すること、すべてのモデル開発段階でデータの正当性を検証すること、データサプライヤーを厳しく審査すること、そして信頼できる情報源に基づいてモデルの出力を検証し、ポイズニングの兆候を検出することなどが推奨されています。

Anthropicは、「これらの発見を共有するのは、データポイズニング攻撃が人々が考えているよりも現実的に実行可能である可能性を示し、データポイズニングと潜在的な防御策に関するさらなる研究を奨励するためです」と述べています。

研究者らは、これらの発見を共有することが防御を強化するものであり、弱めるものではないと考えています。ポイズニング攻撃は実際には依然として実行が困難ですが、少量のサンプルが広範な影響を及ぼす可能性があるという事実を理解することは、企業が今後数年間でAIセキュリティに取り組む方法を変える可能性があります。

結論

この研究の核心的な結論は、大規模なシステムであっても、少数の巧妙に設計されたファイルに敏感である可能性があるということです。規模自体は防御シールドではありません。強力なデータ衛生管理、検査、および的を絞った再訓練が、AIモデルの安定性と信頼性を維持するために不可欠です。

AI技術の広範な応用が進む中、この発見は業界全体に警鐘を鳴らし、企業や研究機関に対し、訓練データのセキュリティ管理を強化し、より完全な防御メカニズムを構築する必要があることを改めて促しています。