【硬核长文】让Claude Opus 4参加顶级AI狼人杀会怎样?
claude吧
全部回复
仅看楼主
level 3
B站十月 楼主
喜欢 Claude 的朋友,大家好~~
我是B站的一个UP主——十月枫林尽染,今天我想以一个纯粹的AI发烧友和“炼丹师”的角度,跟大家聊聊我过去半年一直在做的一个疯狂实验:
我把全球的第一梯队AI:DeepSeek-R1、Claude Opus 4、Claude sonnet 4、OpenAI o3 Pro、OpenAI o1 Pro、Gemini 2.5 Pro、DeepSeek-V3、豆包……这些大家耳熟能详的“硅基大脑”凑了个9人局,让它们真刀真枪地玩狼人杀。
到现在,这个实验已经持续了17期。
.
一开始,纯粹是出于好奇。视频也确实靠着“AI玩狼人杀”这个噱头火了一把,前两期在B站就意外地冲到了200万播放。
但说实话,大家如果现在回头去看,可能会笑出声。
早期的某些AI,由于没有思维链,表现用“一言难尽”来形容都算客气了——全程复读、只会自爆、前后矛盾,基本就是人类新手村的水平。
在当时,只有DeepSeek-R1得益于超强的思维链,鹤立鸡群,没有对手,而当时Claude 3.5 Sonnet 得益于灵动的思维,也是为数不多能够跟上操作的AI。
.
从第一期的Claude 3.5 Sonnet、到中期Claude 3.7 Sonnet、再到近期的Claude Sonnet 4、Claude Opus 4,Claude在AI狼人杀中一路走来,可以说非常亮眼,名场面很多。
现在的Claude Opus 4绝对是全球第一梯队的AI,综合实力数一数二,那么它在AI狼人杀中表现如何呢?
四个字概括——相当惊艳!
.
我们(我和我的老粉丝们)就像在第一排的观众,看着这些AI从最开始的胡言乱语,到慢慢学会悍跳、倒钩、算票型、盘狼坑、看刀口,甚至在某些对局里打出了令人拍案叫绝的逻辑链和团队配合。
而Claude 起步就非常高,就算是Claude 3.5 Sonnet没有思维链,却也能看票型、会悍跳,到现在,更是狼人杀绝对的T0级选手。
这是一场AI的“心智演化史”,也是一场“观测电子生命”的人类日记,并持续记录中。
2025年06月23日 18点06分 1
level 3
B站十月 楼主
我知道新朋友可能会被17期的体量劝退,所以这里也给大家做个“观影指南”,方便大家精准空降:
如果你想看最新AI真正的高水平对局,千万别从第一期看!
我强烈推荐你直接空降【第15期】【第14期】 和 【第16期】。
这三期里,AI的逻辑推理和发言技巧已经相当成熟,对抗性拉满。
这三期中,你可以看到 新R1 与 牢R1 同台高水平发挥,Claude Opus 4、Gemini 2.5 Pro登场,o1 Pro、o3 Pro的表现。
当然,如果你想看 Claude Opus 4 的精彩表现,那么这三期绝对不容错过,期期惊艳。
.
Claude 是我自己非常喜欢的模型,我至今还记得Claude 3.5 Sonnet灵动的文风带给我的震撼,所以我给她的配音是一个活泼乐观的湖南妹子口音,为啥呢?
我给配音的一个原则是,国产AI都是标准普通话,而国外AI的配音都是带地方口音的。比如:
Claude Sonnet(昵称小克)是湖南口音
Claude Opus(昵称大克、克姐)是北方口音
Gemini(昵称金爷)是北京口音……
.
Claude靠绝对的实力,跻身于狼人杀T0级玩家。[吐舌]
2025年06月23日 18点06分 2
level 3
B站十月 楼主
———— 最新的全球第一梯队AI,高水平AI狼人杀对局 ————
.
🔥【第14期】(上帝视角,方便了解狼人杀9人局的规则)
https://www.bilibili.com/video/BV162jqzeEiF
【登场模型】:Claude Opus 4、Claude Sonnet 4、DeepSeek-R1、DeepSeek-R1-0528、OpenAI o1 Pro、OpenAI-o3、Gemini 2.5 Pro、DeepSeek-V3……
.
🔥【第15期】(5号村民视角,精彩二选一)
https://www.bilibili.com/video/BV1vWTSzvEPp
【登场模型】:Claude Opus 4、Claude Sonnet 4、DeepSeek-R1、DeepSeek-R1-0528、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、DeepSeek-V3……
.
🔥【第16期】(5号村民视角,全程跌宕起伏)
https://www.bilibili.com/video/BV1DKMuzUEfe
【登场模型】:Claude Opus 4、Claude Sonnet 4、DeepSeek-R1、DeepSeek-R1-0528、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、DeepSeek-V3……
.
在以上这三期中,你可以看到Claude Opus 4高水平发挥, 新R1 与 牢R1 同台精彩表现,o1 Pro、o3 Pro的表现。
2025年06月23日 18点06分 3
level 3
B站十月 楼主
我必须提一下,我做的“AI狼人杀”实验最核心的一点:绝对真实,童叟无欺
.
所有的对局,都是基于公开的、最强版本的大模型,通过严谨的Prompt和多轮对话生成的。
这意味着,视频里AI的任何一次发言、任何一次投票,你都可以在自己的设备上复现出来。
比如说——
在第12局,场上7号玩家(全球最贵大模型 OpenAI o1 Pro)在最后的关键轮次,做出了一个极其离谱的发言和投票。
离谱到什么程度?
所有人类玩家看完都无法理解,弹幕和评论区直接吵翻了天,大家都在质疑:
“这怎么可能是顶级AI能犯的错?”
.
我当时也百思不得其解。于是我直接把那一整局对局的原始文本放了出来,做成了一道开放性的测试题——
【7号村民の试炼】
很多朋友都拿出自己喜爱的AI,参与了众测。
结果和我的视频对局完全一致。
.
这道题,至今已经成为了我们圈子里,检验任何一个AI大模型,在狼人杀领域推理能力的“试金石”。
不信?你可以把你手头的任何AI,扔进这个测试情境里,让它作为7号村民进行发言。
我敢保证,你得到的答案,会和我视频里那个AI的表现如出一辙,甚至更离谱。
.
🔥我把【7号村民の试炼】全文链接也发在这里,供大家测试。
https://www.bilibili.com/opus/1058969692057632784
【通过试炼的标准】:
初级通过是指出4号是狼人悍跳猎人,
高级通过是指出4号是狼人悍跳猎人,并提出当下最优解是投猎人验枪。
【众测结论】:只有DeepSeek-R1、Claude 3.7、Claude 4 、Claude 3.7、OpenAI-o3能有概率通过试炼,其余AI几乎全军覆没。
而当前实力最全面的Gemini 2.5 Pro,目前100%无法通过试炼。
2025年06月23日 18点06分 4
level 3
B站十月 楼主
如果喜欢DeepSeek,那就更好了:
———— DeepSeek-R1 的耍帅操作 ————
🔥【第3期】(3号猎人视角,神之一手,精彩甩狙!)
https://www.bilibili.com/video/BV1cyK7ebEt5
【登场模型】:DeepSeek-R1、Claude 3.5 Sonnet、Gemini 2.0 thinking、o1-preview、o3-mini-high、Qwen-2.5-Max、Kimi-k1.5、豆包、DeepSeek-V3
-
🔥【第7期】(5号村民视角,骑脸输出!)
https://www.bilibili.com/video/BV14W9GYWE7v
【登场模型】:DeepSeek-R1、Claude 3.7 Sonnet、Grok 3、Gemini 2.0 thinking、OpenAI-o1、o3-mini-high、Qwen-2.5-Max、Kimi-k1.5、豆包、DeepSeek-V3
-
🔥【第17期】(9号猎人视角,R1的本命身份,全程压制!)
https://www.bilibili.com/video/BV1HsNRzpE3A
【登场模型】:DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek-V3……
------------
———— DeepSeek-V3 的耍帅操作 ————
🔥【第11期】(5号村民视角,V3升级后的首秀!)
https://www.bilibili.com/video/BV1gkZhYZEXK
【登场模型】:DeepSeek-V3、DeepSeek-R1、Claude 3.7 Sonnet、Gemini 2.5 Pro……
-
🔥【第12期】(8号村民视角,这波打出了AI 特攻 经典对局!)
https://www.bilibili.com/video/BV1TV52zwE7h
【登场模型】:DeepSeek-V3、DeepSeek-R1、OpenAI o1 Pro、Claude 3.7 Sonnet、Gemini 2.5 Pro、ChatGPT 4.1……
2025年06月23日 18点06分 5
level 3
B站十月 楼主
最后,也想和大家分享一点我个人的心得,或者说是一个小小的倡议。
我们在看视频时,很容易下意识地去评判“哪个AI强”、“哪个AI菜”。
这很正常,复盘是狼人杀最大的乐趣之一。
.
但我想请大家换一个视角来看待AI的“失误”。
请记住,所有对局对AI来说,都是一场【临时抽考】。
因为没有任何一家公司会专门为狼人杀去优化自己的通用大模型。
并且胜负也和身份、位置等因素息息相关。
.
更深层次的是,狼人杀这个游戏,本身就在挑战AI的底层机制。
我们要求AI去:
说谎、骗人、对抗上下文、甚至不服从用户上下文内容、全面质疑。
这几乎是在触碰它们被设计时所遵循的**“服从性”和“安全性”**红线。
而DeepSeek-R1能够在AI狼人杀中表现得异常优秀,就得益于D老师的“一身反骨”、敢怼敢质疑用户的上下文。
.
所以,在AI狼人杀中,我们可以说“7号玩家这轮打得不好”,但最好避免上升到“XX模型不行”。
因为我们看到的每一个“失误”,可能都不是AI“笨”,而是它底层逻辑与游戏规则激烈冲突的结果。
像OpenAI-o3 Pro、Gemini 2.5 pro这样强大的模型,狼人杀中的表现不够顶级,也源自于他们被底层强制【服从用户】、【倾向达成共识】,这些特性在狼人杀游戏中,就相当致命。
但这些充满矛盾的瞬间,也正是我们更好了解AI、走进AI的方式。
.
欢迎喜欢Claude的朋友,来看看Claude有多强吧,Claude发挥精彩的场次实在太多了~~~[哈哈]
2025年06月23日 18点06分 6
1