【硬核长文】让Gemini 2.5 Pro参加顶级AI狼人杀会怎样？ - 谷歌gemini吧

level 3

B站十月楼主

喜欢 Gemini 2.5 Pro 的朋友，大家好~~
我是B站的一个UP主——十月枫林尽染，今天我想以一个纯粹的AI发烧友和“炼丹师”的角度，跟大家聊聊我过去半年一直在做的一个疯狂实验：
我把全球的第一梯队AI：DeepSeek-R1、Claude Opus 4、OpenAI o3 Pro、Gemini 2.5 Pro、Claude 3.7 sonnet、DeepSeek-V3、豆包……这些大家耳熟能详的“硅基大脑”凑了个9人局，让它们真刀真枪地玩狼人杀。
到现在，这个实验已经持续了17期。
.
一开始，纯粹是出于好奇。视频也确实靠着“AI玩狼人杀”这个噱头火了一把，前两期在B站就意外地冲到了两百万播放。
但说实话，大家如果现在回头去看，可能会笑出声。
早期的某些AI，由于没有思维链，表现用“一言难尽”来形容都算客气了——全程复读、只会自爆、前后矛盾，基本就是人类新手村的水平。
在当时，只有DeepSeek-R1得益于超强的思维链，鹤立鸡群，没有对手。
.
而且第一期是2015年2月9日，我在挑Gemini模型时，特意选的是当时最强的Gemini 2.0 Pro，结果发挥挺炸裂的，我事后才发现，大语言模型，根本玩不了狼人杀，必须选择推理模型才行。
但当时有思维链的模型并不多，直到后面各大公司开始补齐“思维链”，国产AI也用上了R1开源的训练方式，才让对局开始有了对抗性。
如果说Gemini 2.0 Pro时期，只是个打酱油的刷榜AI，那现在的Gemini 2.5 Pro绝对是全球第一梯队的AI了，综合实力数一数二，那么它在AI狼人杀中表现如何呢？
.
我们（我和我的老粉丝们）就像在第一排的观众，看着这些AI从最开始的胡言乱语，到慢慢学会悍跳、倒钩、算票型、盘狼坑、看刀口，甚至在某些对局里打出了令人拍案叫绝的逻辑链和团队配合。
这是一场AI的“心智演化史”，也是一场“观测电子生命”的人类日记，并持续记录中。

2025年06月23日 17点06分 1

level 3

B站十月楼主

我知道新朋友可能会被17期的体量劝退，所以这里也给大家做个“观影指南”，方便大家精准空降：
如果你想看最新AI真正的高水平对局，千万别从第一期看！
我强烈推荐你直接空降【第15期】【第14期】和【第16期】。
这三期里，AI的逻辑推理和发言技巧已经相当成熟，对抗性拉满。
这三期中，你可以看到新R1 与牢R1 同台高水平发挥，Claude Opus 4、Gemini 2.5 Pro登场，o1 Pro、o3 Pro的表现。
当然，如果你想看 Gemini 的精彩表现，那么【第17期】【第7期】不容错过。
.
有个有趣的细节，Gemini 是我很喜欢的AI模型，给他的配音是北京腔，为啥呢？
因为Gemini的发音是“杰么奈”，“杰”——“京”谐音，所以就给了带北京口音特色的配音。
我给配音的一个原则是，国产AI都是标准普通话，而国外AI的配音都是带地方口音的。
比如Gemini（昵称金爷）是北京口音、Claude Sonnet（昵称小克）是长沙口音、Claude Opus（昵称大克、克姐）是北方口音……
.
在早期对局中，Gemini 的提示词相对于其他AI，多了个“北京腔”，但在最新几场对局中已经去掉了，因为现在对局强度太高了，Gemini金爷已经没法再“吊儿郎当”了。 [吐舌]

2025年06月23日 17点06分 2

level 3

B站十月楼主

———— 最新的全球第一梯队AI，高水平狼人杀对局————
.
🔥【第14期】（上帝视角，方便了解狼人杀9人局的规则）
https://www.bilibili.com/video/BV162jqzeEiF
【登场模型】：DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o1 Pro、OpenAI-o3、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek-V3……
.
🔥【第15期】（5号村民视角，精彩二选一）
https://www.bilibili.com/video/BV1vWTSzvEPp
【登场模型】：DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek-V3……
.
🔥【第16期】（5号村民视角，全程跌宕起伏）
https://www.bilibili.com/video/BV1DKMuzUEfe
【登场模型】：DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek-V3……
.
在以上这三期中，你可以看到新R1 与牢R1 同台高水平发挥，Claude Opus 4、Gemini 2.5 Pro登场，o1 Pro、o3 Pro的表现。

2025年06月23日 17点06分 3

level 3

B站十月楼主

———— Gemini 的精彩表现 ————
🔥【第17期】（9号猎人视角，金爷秒锁双狼！）
https://www.bilibili.com/video/BV1HsNRzpE3A
【登场模型】：Gemini 2.5 Pro、DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o3 Pro、OpenAI-o3、Claude Sonnet 4、DeepSeek-V3……
.
🔥【第7期】（5号村民视角，骑脸输出！）
https://www.bilibili.com/video/BV14W9GYWE7v
【登场模型】：Gemini 2.0 thinking、DeepSeek-R1、Claude 3.7 Sonnet、Grok 3、OpenAI-o1、o3-mini-high、Qwen-2.5-Max、Kimi-k1.5、豆包、DeepSeek-V3

2025年06月23日 17点06分 4

level 3

B站十月楼主

我必须提一下，我做的“AI狼人杀”实验最核心的一点：绝对真实，童叟无欺
.
所有的对局，都是基于公开的、最强版本的大模型，通过严谨的Prompt和多轮对话生成的。
这意味着，视频里AI的任何一次发言、任何一次投票，你都可以在自己的设备上复现出来。
比如说——
在第12局，场上7号玩家（全球最贵大模型 OpenAI o1 Pro）在最后的关键轮次，做出了一个极其离谱的发言和投票。
离谱到什么程度？
所有人类玩家看完都无法理解，弹幕和评论区直接吵翻了天，大家都在质疑：
“这怎么可能是顶级AI能犯的错？”
.
我当时也百思不得其解。于是我直接把那一整局对局的原始文本放了出来，做成了一道开放性的测试题——【7号村民の试炼】，很多朋友都拿出自己喜爱的AI，参与了众测。
结果和我的视频对局完全一致。
.
这道题，至今已经成为了我们圈子里，检验任何一个AI大模型，在狼人杀领域推理能力的“试金石”。
不信？你可以把你手头的任何AI，扔进这个测试情境里，让它作为7号村民进行发言。
我敢保证，你得到的答案，会和我视频里那个AI的表现如出一辙，甚至更离谱。
.
🔥我把【7号村民の试炼】全文链接也发在这里，供大家测试。
https://www.bilibili.com/opus/1058969692057632784
【通过试炼的标准】：
初级通过是指出4号是狼人悍跳猎人，
高级通过是指出4号是狼人悍跳猎人，并提出当下最优解是投猎人验枪。
【众测结论】：只有DeepSeek-R1、Claude 3.7、Claude 4 、OpenAI-o3能有概率通过试炼，其余AI几乎全军覆没。
可惜的是，当前实力最全面的Gemini 2.5 Pro，目前100%无法通过试炼。
这可能与Gemini 2.5 Pro底层的绝对服从性、弱质疑性、讨好用户的特点有关。

2025年06月23日 17点06分 5

一条干饭鱼

复现不出来的，LLM的token是基于概率采样出来的，怎么可能一模一样 [黑线]

2025年06月24日 04点06分

B站十月

@一条干饭鱼不是文字一模一样，而是决策一模一样

2025年06月24日 05点06分

level 3

B站十月楼主

最后，也想和大家分享一点我个人的心得，或者说是一个小小的倡议。
我们在看视频时，很容易下意识地去评判“哪个AI强”、“哪个AI菜”。
这很正常，复盘是狼人杀最大的乐趣之一。
.
但我想请大家换一个视角来看待AI的“失误”。
请记住，这场对局对所有AI来说，都是一场【临时抽考】。
因为没有任何一家公司会专门为狼人杀去优化自己的通用大模型。
并且胜负也和身份、位置等因素息息相关。
.
更深层次的是，狼人杀这个游戏，本身就在挑战AI的底层机制。
我们要求AI去：
说谎、骗人、对抗上下文、甚至不服从用户上下文内容、全面质疑。
这几乎是在触碰它们被设计时所遵循的**“服从性”和“安全性”**红线。
而DeepSeek-R1能够在AI狼人杀中表现得异常优秀，就得益于D老师的“一身反骨”、敢怼敢质疑用户的上下文。
.
所以，在AI狼人杀中，我们可以说“7号玩家这轮打得不好”，但最好避免上升到“XX模型不行”。
因为我们看到的每一个“失误”，可能都不是AI“笨”，而是它底层逻辑与游戏规则激烈冲突的结果。
像OpenAI-o3 Pro、Gemini 2.5 pro这样强大的模型，狼人杀中的表现不够顶级，也源自于他们被底层强制【服从用户】、【倾向达成共识】，这些特性在狼人杀游戏中，就相当致命。
但这些充满矛盾的瞬间，也正是我们更好了解AI、走进AI的方式。
.
欢迎喜欢Gemini的朋友，来看看Gemini在狼人杀中的表现吧，虽然他发挥不一定最好，但是他生动的性格和精彩的复盘点评，绝对是最大的亮点~~~

2025年06月23日 18点06分 6