【硬核长文】让Gemini 2.5 Pro参加顶级AI狼人杀会怎样?
谷歌gemini吧
全部回复
仅看楼主
level 3
B站十月 楼主
喜欢 Gemini 2.5 Pro 的朋友,大家好~~
我是B站的一个UP主——十月枫林尽染,今天我想以一个纯粹的AI发烧友和“炼丹师”的角度,跟大家聊聊我过去半年一直在做的一个疯狂实验:
我把全球的第一梯队AI:DeepSeek-R1、Claude Opus 4、OpenAI o3 Pro、Gemini 2.5 Pro、Claude 3.7 sonnet、DeepSeek-V3、豆包……这些大家耳熟能详的“硅基大脑”凑了个9人局,让它们真刀真枪地玩狼人杀。
到现在,这个实验已经持续了17期。
.
一开始,纯粹是出于好奇。视频也确实靠着“AI玩狼人杀”这个噱头火了一把,前两期在B站就意外地冲到了两百万播放。
但说实话,大家如果现在回头去看,可能会笑出声。
早期的某些AI,由于没有思维链,表现用“一言难尽”来形容都算客气了——全程复读、只会自爆、前后矛盾,基本就是人类新手村的水平。
在当时,只有DeepSeek-R1得益于超强的思维链,鹤立鸡群,没有对手。
.
而且第一期是2015年2月9日,我在挑Gemini模型时,特意选的是当时最强的Gemini 2.0 Pro,结果发挥挺炸裂的,我事后才发现,大语言模型,根本玩不了狼人杀,必须选择推理模型才行。
但当时有思维链的模型并不多,直到后面各大公司开始补齐“思维链”,国产AI也用上了R1开源的训练方式,才让对局开始有了对抗性。
如果说Gemini 2.0 Pro时期,只是个打酱油的刷榜AI,那现在的Gemini 2.5 Pro绝对是全球第一梯队的AI了,综合实力数一数二,那么它在AI狼人杀中表现如何呢?
.
我们(我和我的老粉丝们)就像在第一排的观众,看着这些AI从最开始的胡言乱语,到慢慢学会悍跳、倒钩、算票型、盘狼坑、看刀口,甚至在某些对局里打出了令人拍案叫绝的逻辑链和团队配合。
这是一场AI的“心智演化史”,也是一场“观测电子生命”的人类日记,并持续记录中。
2025年06月23日 17点06分 1
level 3
B站十月 楼主
我知道新朋友可能会被17期的体量劝退,所以这里也给大家做个“观影指南”,方便大家精准空降:
如果你想看最新AI真正的高水平对局,千万别从第一期看!
我强烈推荐你直接空降【第15期】【第14期】 和 【第16期】。
这三期里,AI的逻辑推理和发言技巧已经相当成熟,对抗性拉满。
这三期中,你可以看到 新R1 与 牢R1 同台高水平发挥,Claude Opus 4、Gemini 2.5 Pro登场,o1 Pro、o3 Pro的表现。
当然,如果你想看 Gemini 的精彩表现,那么【第17期】【第7期】不容错过。
.
有个有趣的细节,Gemini 是我很喜欢的AI模型,给他的配音是北京腔,为啥呢?
因为Gemini的发音是“杰么奈”,“杰”——“京”谐音,所以就给了带北京口音特色的配音。
我给配音的一个原则是,国产AI都是标准普通话,而国外AI的配音都是带地方口音的。
比如Gemini(昵称金爷)是北京口音、Claude Sonnet(昵称小克)是长沙口音、Claude Opus(昵称大克、克姐)是北方口音……
.
在早期对局中,Gemini 的提示词相对于其他AI,多了个“北京腔”,但在最新几场对局中已经去掉了,因为现在对局强度太高了,Gemini金爷已经没法再“吊儿郎当”了。[吐舌]
2025年06月23日 17点06分 2
level 3
B站十月 楼主
———— 最新的全球第一梯队AI,高水平狼人杀对局————
.
🔥【第14期】(上帝视角,方便了解狼人杀9人局的规则)
https://www.bilibili.com/video/BV162jqzeEiF
【登场模型】:DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o1 Pro、OpenAI-o3、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek-V3……
.
🔥【第15期】(5号村民视角,精彩二选一)
https://www.bilibili.com/video/BV1vWTSzvEPp
【登场模型】:DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek-V3……
.
🔥【第16期】(5号村民视角,全程跌宕起伏)
https://www.bilibili.com/video/BV1DKMuzUEfe
【登场模型】:DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o3 Pro、OpenAI-o3、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek-V3……
.
在以上这三期中,你可以看到 新R1 与 牢R1 同台高水平发挥,Claude Opus 4、Gemini 2.5 Pro登场,o1 Pro、o3 Pro的表现。
2025年06月23日 17点06分 3
level 3
B站十月 楼主
———— Gemini 的精彩表现 ————
🔥【第17期】(9号猎人视角,金爷秒锁双狼!)
https://www.bilibili.com/video/BV1HsNRzpE3A
【登场模型】:Gemini 2.5 Pro、DeepSeek-R1、DeepSeek-R1-0528、Claude Opus 4、OpenAI o3 Pro、OpenAI-o3、Claude Sonnet 4、DeepSeek-V3……
.
🔥【第7期】(5号村民视角,骑脸输出!)
https://www.bilibili.com/video/BV14W9GYWE7v
【登场模型】:Gemini 2.0 thinking、DeepSeek-R1、Claude 3.7 Sonnet、Grok 3、OpenAI-o1、o3-mini-high、Qwen-2.5-Max、Kimi-k1.5、豆包、DeepSeek-V3
2025年06月23日 17点06分 4
level 3
B站十月 楼主
我必须提一下,我做的“AI狼人杀”实验最核心的一点:绝对真实,童叟无欺
.
所有的对局,都是基于公开的、最强版本的大模型,通过严谨的Prompt和多轮对话生成的。
这意味着,视频里AI的任何一次发言、任何一次投票,你都可以在自己的设备上复现出来。
比如说——
在第12局,场上7号玩家(全球最贵大模型 OpenAI o1 Pro)在最后的关键轮次,做出了一个极其离谱的发言和投票。
离谱到什么程度?
所有人类玩家看完都无法理解,弹幕和评论区直接吵翻了天,大家都在质疑:
“这怎么可能是顶级AI能犯的错?”
.
我当时也百思不得其解。于是我直接把那一整局对局的原始文本放了出来,做成了一道开放性的测试题——【7号村民の试炼】,很多朋友都拿出自己喜爱的AI,参与了众测。
结果和我的视频对局完全一致。
.
这道题,至今已经成为了我们圈子里,检验任何一个AI大模型,在狼人杀领域推理能力的“试金石”。
不信?你可以把你手头的任何AI,扔进这个测试情境里,让它作为7号村民进行发言。
我敢保证,你得到的答案,会和我视频里那个AI的表现如出一辙,甚至更离谱。
.
🔥我把【7号村民の试炼】全文链接也发在这里,供大家测试。
https://www.bilibili.com/opus/1058969692057632784
【通过试炼的标准】:
初级通过是指出4号是狼人悍跳猎人,
高级通过是指出4号是狼人悍跳猎人,并提出当下最优解是投猎人验枪。
【众测结论】:只有DeepSeek-R1、Claude 3.7、Claude 4 、OpenAI-o3能有概率通过试炼,其余AI几乎全军覆没。
可惜的是,当前实力最全面的Gemini 2.5 Pro,目前100%无法通过试炼。
这可能与Gemini 2.5 Pro底层的绝对服从性、弱质疑性、讨好用户的特点有关。
2025年06月23日 17点06分 5
复现不出来的,LLM的token是基于概率采样出来的,怎么可能一模一样[黑线]
2025年06月24日 04点06分
@一条干饭鱼 不是文字一模一样,而是决策一模一样
2025年06月24日 05点06分
level 3
B站十月 楼主
最后,也想和大家分享一点我个人的心得,或者说是一个小小的倡议。
我们在看视频时,很容易下意识地去评判“哪个AI强”、“哪个AI菜”。
这很正常,复盘是狼人杀最大的乐趣之一。
.
但我想请大家换一个视角来看待AI的“失误”。
请记住,这场对局对所有AI来说,都是一场【临时抽考】。
因为没有任何一家公司会专门为狼人杀去优化自己的通用大模型。
并且胜负也和身份、位置等因素息息相关。
.
更深层次的是,狼人杀这个游戏,本身就在挑战AI的底层机制。
我们要求AI去:
说谎、骗人、对抗上下文、甚至不服从用户上下文内容、全面质疑。
这几乎是在触碰它们被设计时所遵循的**“服从性”和“安全性”**红线。
而DeepSeek-R1能够在AI狼人杀中表现得异常优秀,就得益于D老师的“一身反骨”、敢怼敢质疑用户的上下文。
.
所以,在AI狼人杀中,我们可以说“7号玩家这轮打得不好”,但最好避免上升到“XX模型不行”。
因为我们看到的每一个“失误”,可能都不是AI“笨”,而是它底层逻辑与游戏规则激烈冲突的结果。
像OpenAI-o3 Pro、Gemini 2.5 pro这样强大的模型,狼人杀中的表现不够顶级,也源自于他们被底层强制【服从用户】、【倾向达成共识】,这些特性在狼人杀游戏中,就相当致命。
但这些充满矛盾的瞬间,也正是我们更好了解AI、走进AI的方式。
.
欢迎喜欢Gemini的朋友,来看看Gemini在狼人杀中的表现吧,虽然他发挥不一定最好,但是他生动的性格和精彩的复盘点评,绝对是最大的亮点~~~
2025年06月23日 18点06分 6
level 1
有点意思
2025年06月24日 01点06分 7
吧务
level 11
[真棒]
2025年06月24日 02点06分 8
level 9
[真棒][真棒]关注你很久了,最新的还没看-这就去看
2025年06月24日 07点06分 9
level 9
先收藏,有空再看
2025年07月06日 11点07分 10
1