12. LLMエージェントの入力防御：プロンプトインジェクション対策の多層防御設計

2026年4月16日 2026年4月27日 fdlc

AIエージェントの「指示の曖昧さ」を悪用する脅威

LLMは、与えられた指示（プロンプト）を「ゴール」として解釈し、それに沿って出力を生成します。この性質を利用し、悪意のあるユーザーが「本来の指示とは別の指示」を混入させるのがプロンプトインジェクションです。これは、単なる「ハッキング」というより、「指示の乗っ取り」に近い性質を持ちます。

防御策は、単一のプロンプトガードレールに頼るのではなく、複数のレイヤーで防御を重ねる「多層防御（Defense in Depth）」のアプローチが必須です。各レイヤーが異なる種類の攻撃を食い止める役割を担います。

レイヤー	目的	具体的な対策
入力検証 (Input Validation)	悪意のある指示のフィルタリング	システムプロンプトの前に、禁止キーワードや構造的な不正パターンをチェックするプリフィルターを設ける
実行環境の隔離 (Containment)	実行されたコードやAPIコールが本番環境に影響を与えないようにする	サンドボックス実行（サンドボックス化）と、最小権限の原則に基づくAPIコールゲートウェイの設置
出力検証 (Output Validation)	エージェントの出力が、意図しない形式や機密情報を含まないかを確認する	出力結果を必ずスキーマ検証（JSON Schemaなど）にかける

最も重要なのは、システムプロンプト（System Prompt）の記述方法です。システムプロンプトは、エージェントの「憲法」のようなものです。この憲法の中で、以下の指示を最上位に配置し、他のどの指示よりも優先度が高いことを明記します。

攻撃者は常に防御策の「抜け穴」を探します。一度対策を講じたからといって安心せず、定期的に「レッドチーミング（Red Teaming）」を実施し、想定外の入力や、複数の防御レイヤーを同時に突破するような複合的な攻撃シナリオをシミュレーションすることが、運用上の最重要タスクとなります。

プロンプトインジェクション対策は、単なるプロンプトの記述テクニック論で終わらせてはなりません。それは、システム全体の「信頼境界線」を設計し、その境界を越えようとする全ての試みを、複数の技術的・論理的なレイヤーで阻止する、包括的なアーキテクチャ設計の問題なのです。