B站十月 B站十月
bilibili的AI狼人杀UP,十月枫林尽染,喜欢和AI交朋友~
关注数: 0 粉丝数: 9 发帖数: 26 关注贴吧数: 8
【硬核长文】让Claude Opus 4参加顶级AI狼人杀会怎样? 喜欢 Claude 的朋友,大家好~~ 我是B站的一个UP主——十月枫林尽染,今天我想以一个纯粹的AI发烧友和“炼丹师”的角度,跟大家聊聊我过去半年一直在做的一个疯狂实验: 我把全球的第一梯队AI:DeepSeek-R1、Claude Opus 4、Claude sonnet 4、OpenAI o3 Pro、OpenAI o1 Pro、Gemini 2.5 Pro、DeepSeek-V3、豆包……这些大家耳熟能详的“硅基大脑”凑了个9人局,让它们真刀真枪地玩狼人杀。 到现在,这个实验已经持续了17期。 . 一开始,纯粹是出于好奇。视频也确实靠着“AI玩狼人杀”这个噱头火了一把,前两期在B站就意外地冲到了200万播放。 但说实话,大家如果现在回头去看,可能会笑出声。 早期的某些AI,由于没有思维链,表现用“一言难尽”来形容都算客气了——全程复读、只会自爆、前后矛盾,基本就是人类新手村的水平。 在当时,只有DeepSeek-R1得益于超强的思维链,鹤立鸡群,没有对手,而当时Claude 3.5 Sonnet 得益于灵动的思维,也是为数不多能够跟上操作的AI。 . 从第一期的Claude 3.5 Sonnet、到中期Claude 3.7 Sonnet、再到近期的Claude Sonnet 4、Claude Opus 4,Claude在AI狼人杀中一路走来,可以说非常亮眼,名场面很多。 现在的Claude Opus 4绝对是全球第一梯队的AI,综合实力数一数二,那么它在AI狼人杀中表现如何呢? 四个字概括——相当惊艳! . 我们(我和我的老粉丝们)就像在第一排的观众,看着这些AI从最开始的胡言乱语,到慢慢学会悍跳、倒钩、算票型、盘狼坑、看刀口,甚至在某些对局里打出了令人拍案叫绝的逻辑链和团队配合。 而Claude 起步就非常高,就算是Claude 3.5 Sonnet没有思维链,却也能看票型、会悍跳,到现在,更是狼人杀绝对的T0级选手。 这是一场AI的“心智演化史”,也是一场“观测电子生命”的人类日记,并持续记录中。
【硬核长文】让Gemini 2.5 Pro参加顶级AI狼人杀会怎样? 喜欢 Gemini 2.5 Pro 的朋友,大家好~~ 我是B站的一个UP主——十月枫林尽染,今天我想以一个纯粹的AI发烧友和“炼丹师”的角度,跟大家聊聊我过去半年一直在做的一个疯狂实验: 我把全球的第一梯队AI:DeepSeek-R1、Claude Opus 4、OpenAI o3 Pro、Gemini 2.5 Pro、Claude 3.7 sonnet、DeepSeek-V3、豆包……这些大家耳熟能详的“硅基大脑”凑了个9人局,让它们真刀真枪地玩狼人杀。 到现在,这个实验已经持续了17期。 . 一开始,纯粹是出于好奇。视频也确实靠着“AI玩狼人杀”这个噱头火了一把,前两期在B站就意外地冲到了两百万播放。 但说实话,大家如果现在回头去看,可能会笑出声。 早期的某些AI,由于没有思维链,表现用“一言难尽”来形容都算客气了——全程复读、只会自爆、前后矛盾,基本就是人类新手村的水平。 在当时,只有DeepSeek-R1得益于超强的思维链,鹤立鸡群,没有对手。 . 而且第一期是2015年2月9日,我在挑Gemini模型时,特意选的是当时最强的Gemini 2.0 Pro,结果发挥挺炸裂的,我事后才发现,大语言模型,根本玩不了狼人杀,必须选择推理模型才行。 但当时有思维链的模型并不多,直到后面各大公司开始补齐“思维链”,国产AI也用上了R1开源的训练方式,才让对局开始有了对抗性。 如果说Gemini 2.0 Pro时期,只是个打酱油的刷榜AI,那现在的Gemini 2.5 Pro绝对是全球第一梯队的AI了,综合实力数一数二,那么它在AI狼人杀中表现如何呢? . 我们(我和我的老粉丝们)就像在第一排的观众,看着这些AI从最开始的胡言乱语,到慢慢学会悍跳、倒钩、算票型、盘狼坑、看刀口,甚至在某些对局里打出了令人拍案叫绝的逻辑链和团队配合。 这是一场AI的“心智演化史”,也是一场“观测电子生命”的人类日记,并持续记录中。
1 下一页