今週のAIニュース: 「安全なAI」は本当に安全?、適応型攻撃、MCPの穴 - Mar 23-27, 2026の週

ゆるAI研究
リアクション
2026年03月29日
「安全」と評価されたAIが適応型の攻撃プロンプトで危険スコア9倍に急上昇。AI安全性の常識を覆す最新研究とMCPの脆弱性、AI ニュース 2026の最前線をやさしく解説します。

このエピソードでは、静的なベンチマークでは捉えられないAI安全性の限界、効率的なLLMベンチマーク構築の新手法、そしてMCPのセキュリティリスクについて学べます。人工知能・AI研究・機械学習の最新動向をAIポッドキャスト形式でお届け。大規模言語モデルの評価と安全性に関心のある方に特におすすめです。エドとレイの掛け合いで、難しい論文もすっきり理解できます。

このエピソードの内容:
・適応型ジェイルブレイク(When Prompt Optimization Becomes Jailbreaking): ブラックボックス最適化でプロンプトを改良し続け、Qwen 3 8Bの危険スコアを0.09から0.79に引き上げ。「テストに受かること」と「実際に安全であること」のギャップが数字で明らかに。adaptive red-teamingを安全性評価パイプラインに標準で組み込む必要性を主張。
・賢いベンチマーク選択(Generative Active Testing): LLMをsurrogate modelとして使い、どのサンプルに注釈をつけるべきかを選択することで推定誤差を約40%削減。法律・医療など専門家コストが高い分野で特に有効。問題を作ることより、どの問題を選ぶかが本質という発想の転換。
・MCPのセキュリティ脅威(Model Context Protocol Threat Modeling): STRIDEとDREADフレームワークで5つのコンポーネントを分析。ツールのメタデータに悪意ある指示を埋め込む「tool poisoning」が最大のリスク。調査した7つの主要MCPクライアント全てに脆弱性が発見された。

論文リンク:
- When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models
https://arxiv.org/abs/2603.19247
- Generative Active Testing: Efficient LLM Evaluation via Proxy Task Adaptation
https://arxiv.org/abs/2603.19264
- Model Context Protocol Threat Modeling and Analyzing Vulnerabilities to Prompt Injection with Tool Poisoning
https://arxiv.org/abs/2603.22489

Keywords: AI safety, jailbreaking, adaptive red-teaming, LLM evaluation, benchmark efficiency, MCP security, tool poisoning, prompt injection, artificial intelligence, AI research, machine learning, 大規模言語モデル, AIポッドキャスト, AI安全性, AI ニュース 2026, Model Context Protocol, AI評価, ジェイルブレイク, 人工知能, セキュリティ

---
最新!海外AI研究ゆる解説〜
毎平日新しいエピソード。AI研究の最新情報はチャンネル登録を。
Full digest: https://eddyariki.github.io/news-feed-digest
🤖 Audio generated with Google Gemini TTS.


Chapters:
0:00 Intro
0:01 適応型攻撃でジェイルブレイク
1:19 GATで評価ベンチマーク効率化
2:18 MCPのセキュリティを体系的分析
3:27 Recap & Takeaways