BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Meta社、AIエージェントを組み合わせた防御のためのLlamaFirewallをオープンソース化

Meta社、AIエージェントを組み合わせた防御のためのLlamaFirewallをオープンソース化

原文リンク(2025-05-13)

LlamaFirewallは、プロンプトインジェクション、目標の不一致、そして安全でないコード生成からAIエージェントを保護することを目的としたセキュリティフレームワークである。AgentDojoベンチマークで評価された際には、攻撃成功率を90%以上削減する効果を達成した。さらに、開発者は新しいセキュリティガードレールを追加することでLlamaFirewallの動作を更新できる。

LlamaFirewallは、AIエージェントに関連するセキュリティリスクに対する最終防御層として機能するリアルタイムガードレールモニターである。これには、普遍的な脱獄保護機能であるPromptGuard 2、エージェントの推論におけるプロンプトインジェクションや目標の不一致を検査するチェーン・オブ・ソート監査機能であるAgent Alignment Checks、そしてコーディングエージェントによる安全でないまたは危険なコード生成を防止するオンライン静的解析エンジンであるCodeShieldの3つの保護層が含まれている。

PromptGuard 2は、ユーザープロンプトと信頼できないデータソースをリアルタイムで分析し、脱獄試行を検出するように設計された微調整されたBERTスタイルのモデルである。特に、指示の上書きやトークンインジェクションなどの脱獄戦術に対処する。

これらの技術はしばしば明示的で、反復的で、パターンが豊富であり、パターンベースの検出アプローチに適しています。ゴールハイジャック攻撃と比較して、脱獄はより高い語彙の規則性と構造の予測可能性を示します。この特性により、初心者の攻撃者や自動化された敵対的ツールにとって、ジェイルブレイクは一般的な侵入口となります。

前世代と比較して、PromptGuard 2は86Mパラメータバリエーションの性能向上と軽量22Mパラメータバリアントの低遅延をもたらす。

AlignmentCheckは、ゴールハイジャックや不一致の兆候を特定するためにエージェントの推論を検査する実験的なチェーン・オブ・ソート監査機能である。

個々のメッセージを検査する代わりに、全体の実行トレースを推論し、隠れたプロンプトインジェクション、誤解を招くツール出力、その他のゴールハイジャックの形態を示唆する逸脱をフラグ付けします。

Meta社の研究者によると、これは大規模言語モデルのチェーン・オブ・ソートをリアルタイムで監査可能な最初のオープンソースガードレールであり、特にインジェクション防御のために設計されている。

CodeShieldは、Semgrepと正規表現ベースのルールの両方をサポートするLLM生成コードのオンライン静的解析エンジンである。拡張性を考慮して設計されており、8つのプログラミング言語にわたる構文認識パターンマッチングを可能にし、潜在的なリスクを検出する。もともとLlama 3のリリースの一部として公開されたCodeShieldは、現在LlamaFirewallに統合されている。

CodeShieldは広範な安全でないコードパターンを特定するのに効果的ですが、包括的ではなく、微妙なまたはコンテキスト依存の脆弱性を見逃す可能性があります。その検出効果はCyberSecEval3で評価され、96%の精度と79%のリコールを達成しました。

PromptGuardとAlignmentCheckの併用は、AgentDojoベンチマークでの性能を向上させる。さらに、Meta社の研究者は、この組み合わせがAgentDojoでカバーされているものを超えた、より多様で一般化された敵対的シナリオでさらに良い結果をもたらす可能性があると示唆している。

Meta社の研究者は、LlamaFirewallをエージェントシステムに統合する方法を示す2つのワークフローを説明している。最初のシナリオでは、旅行計画エージェントがPromptGuardを使用してウェブコンテンツ(旅行レビューなど)をスキャンし、脱獄スタイルの表現を検出して疑わしいページを破棄する。同時に、AlignmentCheckがエージェントのトークンストリームを監視し、目標が旅行計画から逸脱した場合に実行を停止する。

第二のシナリオでは、コーディングエージェントが開発者の入力に基づいてSQLコードを生成する。エージェントはウェブからサンプルを取得し、CodeShieldを使用して正しい解決策が見つかるまでチェックする。

LlamaFirewallの開発は、マルチモーダルエージェントのサポート、レイテンシの短縮、脅威カバレッジの拡大、そしてより現実的なベンチマーキングを含むいくつかの方向で続けられる予定である。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT