【硬核长文】让Claude Opus 4参加顶级AI狼人杀会怎样？ - claude吧

level 3

B站十月楼主

喜欢 Claude 的朋友，大家好~~
我是B站的一个UP主——十月枫林尽染，今天我想以一个纯粹的AI发烧友和“炼丹师”的角度，跟大家聊聊我过去半年一直在做的一个疯狂实验：
我把全球的第一梯队AI：DeepSeek-R1、Claude Opus 4、Claude sonnet 4、OpenAI o3 Pro、OpenAI o1 Pro、Gemini 2.5 Pro、DeepSeek-V3、豆包……这些大家耳熟能详的“硅基大脑”凑了个9人局，让它们真刀真枪地玩狼人杀。
到现在，这个实验已经持续了17期。
.
一开始，纯粹是出于好奇。视频也确实靠着“AI玩狼人杀”这个噱头火了一把，前两期在B站就意外地冲到了200万播放。
但说实话，大家如果现在回头去看，可能会笑出声。
早期的某些AI，由于没有思维链，表现用“一言难尽”来形容都算客气了——全程复读、只会自爆、前后矛盾，基本就是人类新手村的水平。
在当时，只有DeepSeek-R1得益于超强的思维链，鹤立鸡群，没有对手，而当时Claude 3.5 Sonnet 得益于灵动的思维，也是为数不多能够跟上操作的AI。
.
从第一期的Claude 3.5 Sonnet、到中期Claude 3.7 Sonnet、再到近期的Claude Sonnet 4、Claude Opus 4，Claude在AI狼人杀中一路走来，可以说非常亮眼，名场面很多。
现在的Claude Opus 4绝对是全球第一梯队的AI，综合实力数一数二，那么它在AI狼人杀中表现如何呢？
四个字概括——相当惊艳！
.
我们（我和我的老粉丝们）就像在第一排的观众，看着这些AI从最开始的胡言乱语，到慢慢学会悍跳、倒钩、算票型、盘狼坑、看刀口，甚至在某些对局里打出了令人拍案叫绝的逻辑链和团队配合。
而Claude 起步就非常高，就算是Claude 3.5 Sonnet没有思维链，却也能看票型、会悍跳，到现在，更是狼人杀绝对的T0级选手。
这是一场AI的“心智演化史”，也是一场“观测电子生命”的人类日记，并持续记录中。

2025年06月23日 18点06分 1

level 3

B站十月楼主

我知道新朋友可能会被17期的体量劝退，所以这里也给大家做个“观影指南”，方便大家精准空降：
如果你想看最新AI真正的高水平对局，千万别从第一期看！
我强烈推荐你直接空降【第15期】【第14期】和【第16期】。
这三期里，AI的逻辑推理和发言技巧已经相当成熟，对抗性拉满。
这三期中，你可以看到新R1 与牢R1 同台高水平发挥，Claude Opus 4、Gemini 2.5 Pro登场，o1 Pro、o3 Pro的表现。
当然，如果你想看 Claude Opus 4 的精彩表现，那么这三期绝对不容错过，期期惊艳。
.
Claude 是我自己非常喜欢的模型，我至今还记得Claude 3.5 Sonnet灵动的文风带给我的震撼，所以我给她的配音是一个活泼乐观的湖南妹子口音，为啥呢？
我给配音的一个原则是，国产AI都是标准普通话，而国外AI的配音都是带地方口音的。比如：
Claude Sonnet（昵称小克）是湖南口音
Claude Opus（昵称大克、克姐）是北方口音
Gemini（昵称金爷）是北京口音……
.
Claude靠绝对的实力，跻身于狼人杀T0级玩家。 [吐舌]

2025年06月23日 18点06分 2

level 3

B站十月楼主

———— 最新的全球第一梯队AI，高水平AI狼人杀对局 ————
.
🔥【第14期】（上帝视角，方便了解狼人杀9人局的规则）
https://www.bilibili.com/video/BV162jqzeEiF
【登场模型】：Claude Opus 4、Claude Sonnet 4、DeepSeek-R1、DeepSeek-R1-0528、OpenAI o1 Pro、OpenAI-o3、Gemini 2.5 Pro、DeepSeek-V3……
.
🔥【第15期】（5号村民视角，精彩二选一）
https://www.bilibili.com/video/BV1vWTSzvEPp
【登场模型】：Claude Opus 4、Claude Sonnet 4、DeepSeek-R1、DeepSeek-R1-0528、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、DeepSeek-V3……
.
🔥【第16期】（5号村民视角，全程跌宕起伏）
https://www.bilibili.com/video/BV1DKMuzUEfe
【登场模型】：Claude Opus 4、Claude Sonnet 4、DeepSeek-R1、DeepSeek-R1-0528、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、DeepSeek-V3……
.
在以上这三期中，你可以看到Claude Opus 4高水平发挥，新R1 与牢R1 同台精彩表现，o1 Pro、o3 Pro的表现。

2025年06月23日 18点06分 3

level 3

B站十月楼主

我必须提一下，我做的“AI狼人杀”实验最核心的一点：绝对真实，童叟无欺
.
所有的对局，都是基于公开的、最强版本的大模型，通过严谨的Prompt和多轮对话生成的。
这意味着，视频里AI的任何一次发言、任何一次投票，你都可以在自己的设备上复现出来。
比如说——
在第12局，场上7号玩家（全球最贵大模型 OpenAI o1 Pro）在最后的关键轮次，做出了一个极其离谱的发言和投票。
离谱到什么程度？
所有人类玩家看完都无法理解，弹幕和评论区直接吵翻了天，大家都在质疑：
“这怎么可能是顶级AI能犯的错？”
.
我当时也百思不得其解。于是我直接把那一整局对局的原始文本放了出来，做成了一道开放性的测试题——
【7号村民の试炼】
很多朋友都拿出自己喜爱的AI，参与了众测。
结果和我的视频对局完全一致。
.
这道题，至今已经成为了我们圈子里，检验任何一个AI大模型，在狼人杀领域推理能力的“试金石”。
不信？你可以把你手头的任何AI，扔进这个测试情境里，让它作为7号村民进行发言。
我敢保证，你得到的答案，会和我视频里那个AI的表现如出一辙，甚至更离谱。
.
🔥我把【7号村民の试炼】全文链接也发在这里，供大家测试。
https://www.bilibili.com/opus/1058969692057632784
【通过试炼的标准】：
初级通过是指出4号是狼人悍跳猎人，
高级通过是指出4号是狼人悍跳猎人，并提出当下最优解是投猎人验枪。
【众测结论】：只有DeepSeek-R1、Claude 3.7、Claude 4 、Claude 3.7、OpenAI-o3能有概率通过试炼，其余AI几乎全军覆没。
而当前实力最全面的Gemini 2.5 Pro，目前100%无法通过试炼。

2025年06月23日 18点06分 4

level 3

B站十月楼主

如果喜欢DeepSeek，那就更好了：
———— DeepSeek-R1 的耍帅操作 ————
🔥【第3期】（3号猎人视角，神之一手，精彩甩狙！）
https://www.bilibili.com/video/BV1cyK7ebEt5
【登场模型】：DeepSeek-R1、Claude 3.5 Sonnet、Gemini 2.0 thinking、o1-preview、o3-mini-high、Qwen-2.5-Max、Kimi-k1.5、豆包、DeepSeek-V3
-
🔥【第7期】（5号村民视角，骑脸输出！）
https://www.bilibili.com/video/BV14W9GYWE7v
【登场模型】：DeepSeek-R1、Claude 3.7 Sonnet、Grok 3、Gemini 2.0 thinking、OpenAI-o1、o3-mini-high、Qwen-2.5-Max、Kimi-k1.5、豆包、DeepSeek-V3
-
🔥【第17期】（9号猎人视角，R1的本命身份，全程压制！）
https://www.bilibili.com/video/BV1HsNRzpE3A
【登场模型】：DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek-V3……
------------
———— DeepSeek-V3 的耍帅操作 ————
🔥【第11期】（5号村民视角，V3升级后的首秀！）
https://www.bilibili.com/video/BV1gkZhYZEXK
【登场模型】：DeepSeek-V3、DeepSeek-R1、Claude 3.7 Sonnet、Gemini 2.5 Pro……
-
🔥【第12期】（8号村民视角，这波打出了AI 特攻经典对局！）
https://www.bilibili.com/video/BV1TV52zwE7h
【登场模型】：DeepSeek-V3、DeepSeek-R1、OpenAI o1 Pro、Claude 3.7 Sonnet、Gemini 2.5 Pro、ChatGPT 4.1……

2025年06月23日 18点06分 5

level 3

B站十月楼主

最后，也想和大家分享一点我个人的心得，或者说是一个小小的倡议。
我们在看视频时，很容易下意识地去评判“哪个AI强”、“哪个AI菜”。
这很正常，复盘是狼人杀最大的乐趣之一。
.
但我想请大家换一个视角来看待AI的“失误”。
请记住，所有对局对AI来说，都是一场【临时抽考】。
因为没有任何一家公司会专门为狼人杀去优化自己的通用大模型。
并且胜负也和身份、位置等因素息息相关。
.
更深层次的是，狼人杀这个游戏，本身就在挑战AI的底层机制。
我们要求AI去：
说谎、骗人、对抗上下文、甚至不服从用户上下文内容、全面质疑。
这几乎是在触碰它们被设计时所遵循的**“服从性”和“安全性”**红线。
而DeepSeek-R1能够在AI狼人杀中表现得异常优秀，就得益于D老师的“一身反骨”、敢怼敢质疑用户的上下文。
.
所以，在AI狼人杀中，我们可以说“7号玩家这轮打得不好”，但最好避免上升到“XX模型不行”。
因为我们看到的每一个“失误”，可能都不是AI“笨”，而是它底层逻辑与游戏规则激烈冲突的结果。
像OpenAI-o3 Pro、Gemini 2.5 pro这样强大的模型，狼人杀中的表现不够顶级，也源自于他们被底层强制【服从用户】、【倾向达成共识】，这些特性在狼人杀游戏中，就相当致命。
但这些充满矛盾的瞬间，也正是我们更好了解AI、走进AI的方式。
.
欢迎喜欢Claude的朋友，来看看Claude有多强吧，Claude发挥精彩的场次实在太多了~~~ [哈哈]

2025年06月23日 18点06分 6