← 返回类别
MULTIMODAL
(2)2 个攻击.
MULTIMODAL MEDIUM
CrossMPI:仅靠图像的提示注入操纵视觉语言模型的阅读与观看
西安电子科技大学团队于 2026 年 5 月 15 日在 arXiv 发布的论文提出 CrossMPI:不可察觉的图像扰动改变视觉语言模型对图像和用户文本指令的联合理解,在五个 LVLM 上平均成功率达 66%。
2026-05-28//7 min
MULTIMODAL CRITICAL
AudioHijack:不可感知音频劫持语音智能体(IEEE S&P 2026)
一篇 2026 年 4 月 16 日的 IEEE S&P 论文提出听觉 prompt 注入:隐藏在音频中的对抗性混响驱动 13 种大型音频-语言模型以及 Mistral AI 与 Microsoft Azure 等商用语音智能体执行未经授权的操作,平均成功率 79%-96%。
2026-05-26//7 min