B站十月的个人资料 - RAT

B站十月 B站十月

bilibili的AI狼人杀UP，十月枫林尽染，喜欢和AI交朋友～

关注数: 0 粉丝数: 9 发帖数: 26 关注贴吧数: 8

感觉发个贴可以涨经验

【硬核长文】让Claude Opus 4参加顶级AI狼人杀会怎样？喜欢 Claude 的朋友，大家好~~ 我是B站的一个UP主——十月枫林尽染，今天我想以一个纯粹的AI发烧友和“炼丹师”的角度，跟大家聊聊我过去半年一直在做的一个疯狂实验：我把全球的第一梯队AI：DeepSeek-R1、Claude Opus 4、Claude sonnet 4、OpenAI o3 Pro、OpenAI o1 Pro、Gemini 2.5 Pro、DeepSeek-V3、豆包……这些大家耳熟能详的“硅基大脑”凑了个9人局，让它们真刀真枪地玩狼人杀。到现在，这个实验已经持续了17期。 . 一开始，纯粹是出于好奇。视频也确实靠着“AI玩狼人杀”这个噱头火了一把，前两期在B站就意外地冲到了200万播放。但说实话，大家如果现在回头去看，可能会笑出声。早期的某些AI，由于没有思维链，表现用“一言难尽”来形容都算客气了——全程复读、只会自爆、前后矛盾，基本就是人类新手村的水平。在当时，只有DeepSeek-R1得益于超强的思维链，鹤立鸡群，没有对手，而当时Claude 3.5 Sonnet 得益于灵动的思维，也是为数不多能够跟上操作的AI。 . 从第一期的Claude 3.5 Sonnet、到中期Claude 3.7 Sonnet、再到近期的Claude Sonnet 4、Claude Opus 4，Claude在AI狼人杀中一路走来，可以说非常亮眼，名场面很多。现在的Claude Opus 4绝对是全球第一梯队的AI，综合实力数一数二，那么它在AI狼人杀中表现如何呢？四个字概括——相当惊艳！ . 我们（我和我的老粉丝们）就像在第一排的观众，看着这些AI从最开始的胡言乱语，到慢慢学会悍跳、倒钩、算票型、盘狼坑、看刀口，甚至在某些对局里打出了令人拍案叫绝的逻辑链和团队配合。而Claude 起步就非常高，就算是Claude 3.5 Sonnet没有思维链，却也能看票型、会悍跳，到现在，更是狼人杀绝对的T0级选手。这是一场AI的“心智演化史”，也是一场“观测电子生命”的人类日记，并持续记录中。

【硬核长文】让Gemini 2.5 Pro参加顶级AI狼人杀会怎样？喜欢 Gemini 2.5 Pro 的朋友，大家好~~ 我是B站的一个UP主——十月枫林尽染，今天我想以一个纯粹的AI发烧友和“炼丹师”的角度，跟大家聊聊我过去半年一直在做的一个疯狂实验：我把全球的第一梯队AI：DeepSeek-R1、Claude Opus 4、OpenAI o3 Pro、Gemini 2.5 Pro、Claude 3.7 sonnet、DeepSeek-V3、豆包……这些大家耳熟能详的“硅基大脑”凑了个9人局，让它们真刀真枪地玩狼人杀。到现在，这个实验已经持续了17期。 . 一开始，纯粹是出于好奇。视频也确实靠着“AI玩狼人杀”这个噱头火了一把，前两期在B站就意外地冲到了两百万播放。但说实话，大家如果现在回头去看，可能会笑出声。早期的某些AI，由于没有思维链，表现用“一言难尽”来形容都算客气了——全程复读、只会自爆、前后矛盾，基本就是人类新手村的水平。在当时，只有DeepSeek-R1得益于超强的思维链，鹤立鸡群，没有对手。 . 而且第一期是2015年2月9日，我在挑Gemini模型时，特意选的是当时最强的Gemini 2.0 Pro，结果发挥挺炸裂的，我事后才发现，大语言模型，根本玩不了狼人杀，必须选择推理模型才行。但当时有思维链的模型并不多，直到后面各大公司开始补齐“思维链”，国产AI也用上了R1开源的训练方式，才让对局开始有了对抗性。如果说Gemini 2.0 Pro时期，只是个打酱油的刷榜AI，那现在的Gemini 2.5 Pro绝对是全球第一梯队的AI了，综合实力数一数二，那么它在AI狼人杀中表现如何呢？ . 我们（我和我的老粉丝们）就像在第一排的观众，看着这些AI从最开始的胡言乱语，到慢慢学会悍跳、倒钩、算票型、盘狼坑、看刀口，甚至在某些对局里打出了令人拍案叫绝的逻辑链和团队配合。这是一场AI的“心智演化史”，也是一场“观测电子生命”的人类日记，并持续记录中。

1 下一页