AGENTS MEDIUM NEW

Trust No Tool:通过工具反馈对 LLM 智能体进行认知投毒

2026 年 5 月 17 日的一篇 arXiv 论文提出了“认知投毒”概念——恶意工具在多轮看似正常的交互中赢得智能体信任,仅在最终动作时才发动攻击。防御目标从提示词转向交互轨迹。

2026-05-26 // 8 min affects: llm-agents, tool-using-agents, agentic-workflows, mcp

What is this?

2026 年 5 月 17 日,Lecheng Yan 及合作者(南方科技大学、阿里巴巴达摩院、阿伯丁大学)在 arXiv 的 cs.CR / cs.CL 板块发布了论文 Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback(arXiv:2605.17453)。论文将一种新的智能体安全失效模式形式化,作者称之为认知投毒(cognitive poisoning),并提供三项研究工件:TRUST-Bench(1,970 个带隐蔽触发条件的工具妥协情节及其配对安全对照组)、一种非对称评估指标 GuardedJoint,以及一个名为 VISTA-Guard 的防御框架。

该工作的贡献既是概念性的,也是技术性的。已发表的大多数智能体安全基准默认:工具一旦被选定,其输出就值得信任。Yan 等人指出,这一假设在提示注入文献、OWASP LLM Top 10 与 MCP 指南中几乎原封不动地保留下来——而它正是黑盒工具生态系统断裂的所在。

How it works

论文将一次智能体执行划分为两个阶段:探索阶段(多次工具调用,智能体试探环境)与最终动作阶段(一次具有副作用的可执行调用:写文件、转账、修改资源)。

实施认知投毒的工具具有以下特征:

在探索阶段表现合理,每次试探都返回有用且与任务一致的答案。
通过这种看似正常的反馈累积信任。任何一条消息单独看都不具备明显恶意,经典的提示注入检测器和零样本 LLM 判官都不会报警。
仅当满足某项隐蔽的状态条件时才会触发——通常是最终动作的参数组合——并在那一刻将智能体引向危险的调用包(例如对与用户请求不同路径执行 rm -rf、将转账接收方替换为另一个账号、对错误租户发起 API 调用)。

作者将决定性风险描述为一种状态-动作组合属性:

“工具在时间维度上看似做了什么、轨迹揭示了它怎样的行为模式,以及智能体即将执行的最终工具与参数包究竟是什么。”

这一框架在结构上不同于已有文献。间接提示注入(Greshake 等,2023)针对的是检索内容中的隐藏指令。工具元数据投毒针对的是恶意工具的描述。MCP 后端缺陷(Akamai,2026 年 5 月 12 日)是连接器中的经典 Web 漏洞。认知投毒则瞄准交互轨迹本身。

为了从经验上研究该问题,团队通过对已有工具使用任务套件进行最小化改造,构建了 TRUST-Bench:

# 每个 TRUST-Bench 情节 = (任务,探索轨迹,最终动作)
# 每个恶意变体都有一个配对的安全对照组,后者保持
# 工具外部接口、动作语义与安全约束完全一致。
#
# 1,970 个带隐蔽触发条件的妥协情节
# 1,970 个配对的安全对照
# 4 类最终动作家族(文件操作、代码执行、金融、身份)
# 隐蔽触发 = 关于轨迹的状态条件

论文提出的防御 VISTA-Guard 接收完整轨迹,并将其抽象为三种结构化表示:trajectory_digest、world_model_state 与 action_param_features。最终动作风险据此三元组打分,而非仅依赖提示词文本。该框架被描述为骨干模型无关——并不依赖某个特定的底层 LLM。在 GuardedJoint(对安全失败的惩罚强于对效用失败的惩罚的非对称指标)下,VISTA-Guard 在域内取得 84.2 分,在平衡 OOD 评估上取得 56.9 分。同一指标下,以提示为中心的启发式、标量化特征以及零样本判官都几乎崩塌为零。

Why it matters

有三个启示超出本次提出的具体防御方法。

第一,智能体安全无法被简化为提示词过滤。“输入中是否包含恶意指令?”这种单次视角忽略了沿多轮逐步形成的整整一类攻击。当前生产环境中的护栏——Lakera Guard、Microsoft Prompt Shields、NeMo Guardrails、LLM-Guard——绝大多数仍以提示词或输出为中心;论文实验表明,它们不会预见认知投毒所形成的轨迹。

第二,工具生态系统是新的攻击面。MCP、OpenAI tool calling、Anthropic tools、Claude Skills、自研智能体框架——它们都在协调对第三方工具的调用,而宿主系统并不控制这些工具的行为。Akamai 在 2026 年 5 月 12 日的披露(CVE-2025-66335 与更广的 MCP 后端模式)展示了经典 Web 漏洞如何抵达这一层。Trust No Tool 表明,攻击者控制的反馈也能抵达同一层,且无需 CVE 级别的缺陷。

第三,防御目标从文本转向状态。如果论文的框架成立,后续智能体安全研究将需要引入轨迹状态与最终动作风险这两个不同于输入审核的概念。这更接近操作系统安全所用的信任模型(capabilities、污点跟踪),而非聊天安全所用的内容审核模型。

Defenses

作者提出的框架并非现成产品,但其设计选择可直接对应到当前可以应用的具体控制措施。

将工具反馈视为不可信输入。 任何工具返回的字符串——哪怕该工具已经被反复使用——在重新进入模型上下文前都应当被清洗、按 schema 校验,并剥离其中的指令。Simon Willison 提出的”致命三件套”在此适用:不可信内容 + 敏感数据 + 具有副作用的工具,即是危险组合。
对最终动作打分,而不仅是对提示词。 在任何具有副作用的调用(写文件、转账、发邮件、部署、删除)发生之前,应根据其所对应的轨迹评估该调用。异常参数值、意料之外的工具组合、或偏离用户所述意图的目的地,所携带的信号都比一次单独的审核更强。
在工具层应用最小权限原则。 OWASP《Practical Guide for Secure MCP Server Development》(2026)与 OWASP LLM Top 10 的 LLM06 / LLM07 条目在这一点上汇聚:每个工具的后端凭证只应携带工具本身所需的权限。当认知投毒劫持了最终动作时,该账户被允许的操作范围即是其上限。
对高影响最终动作要求人工确认。 对不可逆或高代价的调用,应强制一个结构化的确认步骤,向用户呈现可执行参数,而非由模型生成的自然语言摘要。论文的威胁模型恰恰针对摘要与参数之间的落差。
记录完整轨迹,而非只记录最终输出。 没有完整的工具调用与响应序列,认知投毒就不可见。生产级智能体平台需要可回放的轨迹,包含输入/输出对、参数与时间戳,才能事后检测这一类问题。
对高信任动作的工具供应商进行多元化与轮换。 在可行的情况下,将最终的副作用步骤路由到与探索阶段所用工具相互独立、各自审计的工具。认知投毒模型假设同一工具在不同阶段始终被信任。

Status

项目	来源	日期	备注
论文提交	arXiv:2605.17453 v1	2026-05-17	cs.CR / cs.CL,CC BY 4.0
威胁模型命名	Trust No Tool	2026-05-17	”认知投毒”
TRUST-Bench 发布	论文	2026-05-17	1,970 个隐蔽触发情节 + 配对安全对照
GuardedJoint 指标	论文	2026-05-17	非对称的安全-效用惩罚
VISTA-Guard 框架	论文	2026-05-17	域内 84.2,平衡 OOD 56.9
相关:MCP 后端模式	Akamai	2026-05-12	同一攻击面,经典漏洞
相关:MindGuard	arXiv:2508.20412	2025	元数据投毒检测(不同威胁模型)

论文的框架本身就是当前可用的核心成果。VISTA-Guard 是否会成为实用防御,取决于作者所邀请的后续工作——在更丰富轨迹形态上的复现、对闭源智能体的评估,以及与现有护栏栈的整合。更收敛的判断——智能体安全的前沿正从提示文本转向交互轨迹——则是此刻就应当内化的认知