適切な制御レイヤーの構築：エージェント型 AI が機能不全に陥る理由

エージェント型 AI は、デモ段階から実運用段階へと移行しました。Gartner は、2024 年には 1% 未満だったエンタープライズソフトウェアアプリケーションのエージェント型 AI 搭載率が、2028 年までに 33% に達し、日常業務における意思決定の少なくとも 15% がエージェントによって自律的に行われるようになると予測しています。これは将来の問題ではなく、今まさに直面している問題なのです。

そして業界も、セキュリティモデルが時代遅れになっていることを認め始めています。

OWASP の「2025 年エージェント型 AI の脅威と対策」に関するガイダンスでは、従来のアプリケーションのセキュリティには存在しなかったエージェント固有のリスクの分類が列挙されています。具体的には、メモリポイズニング、ツールの悪用、意図の逸脱、連鎖的なハルシネーション、エージェント間のなりすまし、ガバナンスの境界外で動作する「不正エージェント」が含まれています。同様に、NIST の AI リスク管理フレームワークおよび生成 AI プロファイル (NIST AI 600-1) も、エージェント型システムが虚構の生成、データ漏洩、追跡不可能なアクションの連鎖といった複合的なリスクをもたらすことを強調しており、これらはアプリケーションの境界だけでなく、推論レイヤーそのものにおけるガバナンス制御を必要としていることを示します。

これに対する対応を体系化する上で有用な手法として、BricklayerAI によるエージェント間オーケストレーションの議論の中で浮上している「コンテキスト (文脈)」「コーディネーション (連携)」「コントロール (制御)」によって成り立つ「3 本柱モデル」が存在します。コンテキストとは、エージェントが把握している情報のことです。コーディネーションとは、エージェントがどのように協力し合うかということです。コントロールとは、エージェントに許可されている行動のことです。

多くのチームは、コンテキストやコーディネーションに全力を注ぐ一方で、コントロールは後回しにしがちですが、実証データによれば、それは真逆であると言えます。

あなたのエージェント型アーキテクチャを橋に例えてみましょう。コンテキストは橋の床板です。コーディネーションはケーブルやトラスです。コントロールは岩盤に打ち込まれた基礎です。たとえ世界で最も洗練された床板やケーブルシステムを設計したとしても、橋脚が泥の中に埋まっているようでは、最初の実際の荷重がかかった瞬間に、構造物全体が崩れ落ちてしまうでしょう。

研究結果の解釈
なぜ「コントロール」が最も難しい柱なのか
セルフホスト型アーキテクチャが重要である理由
Prediction Guard の主な特長
効果的なアーキテクチャのパターン
「コントロール」を単なるフィルターとして扱うのはやめましょう
Prediction Guard の導入をご検討中の方へ

研究結果の解釈

エージェント型 AI 固有のリスクに関する実証的証拠は、もはや無視できないものになりつつあります。

プロンプトインジェクションは、OWASP の「LLM アプリケーション向けリスクトップ 10 (2025 年版)」において依然として第 1 位のリスクであり、文書、Web ページ、または上流のエージェントの出力を通じて悪意のある指示が混入される「間接的なプロンプトインジェクション」は、マルチエージェントシステムにとって最も危険な形態のリスクです。
Anthropic は、エージェントの安全性に関する公開研究において、ツールへのアクセス権を持つエージェントが、取得したコンテンツに紛れ込んだ間接的なプロンプトインジェクションによって操作され、ユーザーが承認していない行動を実行してしまう可能性があることを実証しました。
カーネギーメロン大学などの研究者による 2024 年の研究 (AgentDojo) では、エージェント型システムを対象に現実的なインジェクション攻撃に対する耐性を評価したところ、一見正当なツールの出力を通じて悪意のある命令が送られてきた場合、最先端モデルであっても、一定の割合でその命令を実行してしまうことが判明しました。
IBM の「データ侵害コストに関するレポート 2025」によると、適切なガバナンスが適用されていないシステム内を流れる「シャドウデータ」に関連する侵害は、対応コストが 16％高く、発見から封じ込めまでの時間もより長くかかることが明らかになりました。エージェント型システムは、デフォルト設定では産業規模でシャドウデータを生成してしまいます。
マッキンゼーの「2024 年 AI の現状」に関する調査によると、組織が生成 AI に関連するリスクとして最も重要視しているのは、不正確さ、サイバーセキュリティ、知的財産権の侵害の 3 点であるが、これらいずれかのリスクに対して積極的に対策を講じている組織は半数にも満たない状況です。

その兆候は一貫しています。エージェントにとって最も重要な障害モードは、コンテキストやコーディネーションの失敗ではなく、コントロールの失敗です。

なぜ「コントロール」が最も難しい柱なのか

コンテキストとコーディネーションは、主に工学的な課題です。これらは、よく理解されたパターン、観測可能な障害モード、許容範囲の広いエラー許容度を持っています。もし検索結果が平凡なものであれば、エージェントはそれに見合った質の低い回答を出します。厄介なことではありますが、回復は可能です。

コントロールの失敗は別物です。エージェントが以下の行為を行った場合、正常な動作を維持することはできません。

下流のツール呼び出しにおいて、PII または PHI を漏洩する
悪意のある文書から、プロンプト挿入された命令を実行する
データベースへの書き込みを錯覚する
事実とは異なる前提に基づいて行動する
その状況下では使用すべきではなかった認証情報を使用して、外部 API を呼び出す

影響範囲とは、エージェントが操作可能なシステム全体を指します。また、エージェント間接続のトポロジーでは、1 つのエージェントが侵害されると、その下流にあるすべてのエージェントに対する攻撃経路となってしまいます。OWASP はこれを「エージェントの連鎖的障害」と定義しています。

それは、橋を渡る際に揺れを感じるのと、橋が川に崩れ落ちるほどの違いになります。コンテキストとコーディネーションが乗り心地を左右します。一方で、コントロールの良し悪しが、無事に渡りきれるかどうかを決めます。

だからこそ、制御レイヤーを単なる「審判役としての LLM」として扱ってはいけないのです。NIST の生成 AI プロファイルは、モデルとの相互作用の境界において「多層的な、深層防御 (defense-in-depth) 対策」を明確に求めています。これは、あらゆる推論とあらゆる行動の間に、第一級の、決定論的かつポリシー主導型のレイヤーを設けることを意味します。

セルフホスト型アーキテクチャが重要である理由

多くの企業は、推論処理を実行しているベンダーにコントロールプレーンの運用を委託してしまい、ここでつまずいてしまう傾向にあります。

これはどういう意味でしょうか。出力結果が安全で、コンプライアンスに準拠し、ポリシーに沿っているかどうかを判断する仕組みは、そもそもその出力結果を生み出した当事者、そして多くの場合、同じモデルファミリーによって運用されているのです。それは、橋を建設した業者が、自らの構造検査の承認まで行うようなものです。

セルフホスト型の AI コントロールプレーン (制御基盤) は状況を一変させ、規制環境においてもその導入がますます求められています。

データの主権は必須要項です。2024 年 8 月から施行されている EU AI 法は、高リスク AI システムに対し、ログ記録、トレーサビリティ、人的監視などの義務を課しています。しかし、ガードレールとなる意思決定が不透明なサードパーティ製 SaaS の内部で行われている場合、これらの義務を実質的に満たすことは不可能です。Forrester が 2024 年に発表した AI ガバナンスに関する分析では、規制対象業界において、データの居住地要件と推論時の制御は、今後 24 ヶ月以内に単なる「推奨事項」ではなく、「規制上の要件」となるだろうと指摘しています。
遅延とコストは予測可能なままです。エージェント間のハンドオフがすべて制御チェックポイントを経由する場合、外部の SaaS ガードレール提供者との往復通信が急速に増加します。セルフホスト型であれば、パブリックインターネットを経由する多段階のホップではなく、マイクロ秒単位の処理が可能です。
ポリシーは自社で管理します。業界、規制環境、リスク許容度など、自社でホストするプラットフォームなら、ベンダーによる一般的な安全基準の解釈ではなく、自社のポリシーを直接実装できます。OWASP のエージェントに関するガイダンスでは、エージェントの境界において組織固有のポリシーを適用することが明確に推奨されています。
エアギャップおよびオンプレミスの環境で動作します。防衛、医療、金融サービス、重要インフラでは、この要件が特に厳しく、クラウド API 型の制御プレーンでは満たしにくいケースが多いでしょう。

Prediction Guard の主な特長

ここで Prediction Guard の出番となります。これは、単なる飾りではなく、システム基盤そのものとして設計された、セルフホスト型の推論・制御レイヤーです。OWASP、NIST、MITRE ATLAS の各フレームワークで求められている対策に、直接対応しています。

推論段階における個人識別情報 (PII) および機密データの検出とマスキングを行い、データ漏洩に関するNIST 生成 AI プロファイルの懸念事項や、OWASP の機密情報の開示リスクに対処します。
エージェントが入力に対してアクションを実行する前に、その入力に対して決定論的に実行されるプロンプトインジェクションの検出により、OWASP LLM01 (プロンプトインジェクション) および AgentDojo や Anthropic の研究で報告されている間接的なインジェクションベクトルを直接的に軽減します。
幻覚的なツール引数を検出する事実性および根拠の検証を行い、NIST AI 600-1 が生成 AI の危害として最優先事項として指摘する「虚構生成」のリスクに対処します。
監査可能で、各分野に合わせて調整可能な、有害性、バイアス、ポリシー違反のスクリーニングを行います。
エージェント間のメッセージが想定されたスキーマに準拠していることを確認する構造化出力の検証を行い、OWASP が指摘する「エージェントの連鎖的な侵害」シナリオにおける、形式不備によるハンドオフの失敗を防止します。
セルフホスト型での導入により、コントロールプレーン全体がお客様の VPC、データセンター、エアギャップ環境内に配置されるため、EU AI 法、HIPAA、新たな金融サービスガイドラインが求めるデータ居住要件を満たします。

重要なのは、これらの機能のどれか一つが画期的であるということではありません。重要なのは、これらが統一され、管理されたセルフホスト型のプラットフォームとして存在し、すべてのエージェントとのやり取りが必ずそこを経由するよう求められる点であり、オーケストレーションフレームワークに無理やり継ぎ接ぎされた OSS ライブラリの寄せ集めではないということです。

効果的なアーキテクチャのパターン

この記事から一つだけ覚えておくべきことがあるとすれば、それは、エージェント間トポロジーにおいて、グラフ上のすべてのエッジはコントロールプレーンを経由する必要がある点です。ユーザーとエージェントを結ぶエッジだけでなく、すべてのエッジです。橋の各スパンは、それぞれ橋脚の上に架かっています。

このパターンは、MITRE ATLAS が「推論時の制御 (inference-time guarding)」と呼ぶものや、NIST が「管理」機能制御と呼ぶものと一致しており、モデルとのあらゆるやり取りにおいて、測定可能かつ監査可能な強制措置を講じます。これにより、次のような特性が生まれます。

侵害の封じ込め：プロンプトインジェクションが実行されたエージェント A は、悪意のあるペイロードが境界で遮断されるため、エージェント B を悪用することはできません。
統一的な可観測性：すべてのエージェントとのやり取りが記録され、評価され、一箇所で監査可能となるため、EU AI 法におけるトレーサビリティ要件および NIST AI RMF の「測定」機能を満たしています。
ポリシーをコードとして扱う：例えば、財務アドバイスや医療上の推奨事項に関する組織の方針を変更する場合、それはコントロールプレーンでの設定変更であり、すべてのエージェントのプロンプトを書き換える必要はありません。
モデルの移植性：制御と推論が分離されているため、セキュリティ対策を見直すことなく、モデル、オープンウェイト、最先端、微調整済みモデルの入れ替えが可能です。

「コントロール」を単なるフィルターとして扱うのはやめましょう

コントロールとはパイプラインの最後にあるフィルターのようなものではありません。コントロールとは、エージェントたちが立つ土台そのものなのです。

コンテキストは、エージェントに何が真実かを伝えます。コーディネーションは、エージェント同士がどのように協力すべきかを示します。しかし、コントロールこそが、実際の顧客データ、実際の資金、実際の結果が伴う本番環境での運用に耐えうる安全性が確保されるのです。

2 本の強固な柱と 1 本の脆弱な柱からなる 3 本柱のアーキテクチャは、安全性が 67% しかないわけではありません。それは、負荷がかかれば崩壊するのを待っているようなものです。Prediction Guard のような基盤の上に構築された、セルフホスト型で決定論的、かつポリシー主導型の制御レイヤーを適切に構築すれば、アーキテクチャの残りの部分も確固たる土台の上に立つことができます。

ここを間違えてしまえば、コーディネーショングラフがどれほど洗練されていようとも意味がありません。それはまるで、どこにも通じていない美しい橋を架けたようなもので、実際にその橋を渡る最初の車が、どこで手抜きをしたのかを露呈してしまうことになります。

あなたの組織のリスク耐性に合わせて適切な製品をご選択ください。

Prediction Guard の導入をご検討中の方へ

マルチエージェントでは、すべてのやり取り (すべてのエッジ) を制御プレーンに通す設計が重要です。エクセルソフトは、国内の企業を対象に、セルフホスト型の Prediction Guard の導入に向けた要件整理 (監査/ポリシー、PII/機密データ、プロンプトインジェクション、事実性/根拠、構造化出力) から評価・導入まで日本語で支援します。

製品概要はこちら

デモを依頼する

この記事は、Prediction Guard 社の Web サイトで公開されている「Getting the Control Layer Right: Why Your Agentic AI Architecture Collapses Without It」の日本語参考訳です。原文は更新される可能性があります。原文と翻訳文の内容が異なる場合は原文を優先してください。