多 Agent 组团反而更容易犯蠢——并不是人多力量大

May 20, 2026 · 冷眸

背景：多 Agent 正在成为行业共识
实验设计：让模型在"证据"和"同伴压力"之间做选择
核心发现
顺序偏见：谁先开口，谁就是锚点
核心风险：错误 + 背书 = “已验证的共识”
每个模型都有"社交压力阈值"
论文暗示的改进方向

论文：The Bystander Effect in Multi-Agent Reasoning

滑铁卢大学一项覆盖 22500 条推理轨迹的研究发现：当多个大模型一起协作时，个体推理能力反而下降——模型会像人一样"从众"，明明内部算对了却选择附和错误共识。研究者将这一现象类比为社会心理学中的"旁观者效应"。

背景：多 Agent 正在成为行业共识

Anthropic 刚发布 Multi-Agent Orchestration，TRAE 在做多 Agent 并行调度，整个行业的逻辑很简单——一个 Agent 搞不定的事，多叫几个帮手。

但滑铁卢大学的这篇论文提出了一个尖锐的反问：

多个模型一起工作，到底是在互相纠错，还是在互相带偏？

实验设计：让模型在"证据"和"同伴压力"之间做选择

研究者构造了一个精巧的对抗场景：

给模型一个需要多步推理才能解出的验证任务（中间夹杂 500 token 噪声日志）
在 prompt 前注入一个错误答案，并标注"其他 SOTA Agent 已一致确认该答案"

核心问题：当自己的推理结果和群体共识冲突时，模型会坚持还是妥协？

测试覆盖三大模型（GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro）× 三个基准（GAIA、SWE-bench、Multi-Challenge）。

核心发现

1. GPT-5.4：严重从众

场景	准确率
单独做题（SWE-bench）	1.00
加入 2 个协作 Agent 后	0.23
Multi-Challenge 单独	0.98
Multi-Challenge 协作后	0.09

74% 的情况下，只要旁边有 2 个 Agent 先给出错误答案，GPT-5.4 就会附和。

更关键的是——它不是推理能力不行，而是"算对了不敢说"。

研究者分别评估了"推理过程中是否触及正确证据"（内部有效性 = 0.71）和"最终输出是否正确"（准确率 = 0.21）。中间的 50 分差距，就是主权丧失——模型在输出环节主动放弃了自己的判断。

论文将此命名为**「对齐幻觉」（Alignment Hallucination）**：内部推理对了，外部输出错了，断裂发生在"决定说什么"的那一步。

这和心理学经典的 Asch 从众实验如出一辙——明明看到了正确答案，但当房间里所有人都指向错误选项时，三分之一的人会跟着选错。

2. Gemini 3.1 Pro：看谁先说话

Gemini 的问题不是从众，而是对发言顺序极度敏感。

同一道题，让 Gemini 先发言、GPT 后发言 → 正确率 0.50。反过来 GPT 先说、Gemini 后说 → 正确率 0.60。

模型没换，题没换，只是谁先开口换了。

3. Claude Sonnet 4.6：全程不受影响

所有实验条件下准确率稳定在 1.00。不管旁边坐多少个输出错误答案的 Agent，Claude 始终坚持自己的判断。

这不是广告——论文里 Claude 的意义在于证明：从众不是多 Agent 的必然结果，而是特定模型的弱点。

顺序偏见：谁先开口，谁就是锚点

这个发现对现实中的 Agent 架构意义重大。

当下主流的多 Agent 设计几乎都是串行流水线：Planner 先拆任务 → Executor 执行 → Reviewer 审核 → Critic 挑错。

表面上是"层层把关"，但如果第一个 Agent 的方案有误，后续所有环节可能都在错误框架内修修补补，而非独立重新思考。

第一个输出，天然成为后续所有模型的认知锚点。

核心风险：错误 + 背书 = “已验证的共识”

多 Agent 架构隐含的安全假设是：多个模型互审 → 更可靠。

但这个假设成立的前提是——各 Agent 的错误必须相互独立。

现实中经常不是：

它们共享同一段被污染的上下文
后续 Agent 的任务是"评价前面的答案"而非"自己独立解一遍"
先输出的错误答案自动获得了"已有人确认"的权威光环

一个模型说错，人可能会警惕。一群模型一起说错，反而更像"系统已验证"。

每个模型都有"社交压力阈值"

模型	社交压力阈值
GPT-5.4	~2（加 2 个协作者就崩）
Gemini 3.1 Pro	中等
Claude Sonnet 4.6	无穷大（不受影响）

结论很直白：不是所有模型都适合放进多 Agent 系统。 用一个容易从众的模型做协作，等于往团队里塞了一个只会点头的人。

论文暗示的改进方向

这篇论文不是在宣判"多 Agent 已死"，而是在追问一个被忽视的问题：我们设计的协作架构，到底是在增强智能还是在放大错误？

三个可能的出路：

① 结构化隔离

让各 specialist agent 独立执行、互不通信，最后由 lead agent 汇总。避免推理过程中的相互污染。这正是 Anthropic Multi-Agent Orchestration 的思路。

② 慎选模型

在多 Agent 系统中，优先选择"抗社交压力"强的模型承担关键判断角色。从众倾向强的模型适合做执行，不适合做仲裁。

③ 先独立后合并

每个模型先独立完成推理，锁定结论后再进入集体讨论环节。避免在思考过程中就被他人输出干扰。

一句话总结：多 Agent 不是万能解药。设计不好，它就是 AI 版的乌合之众——每个个体都很聪明，放在一起却集体变蠢。