DeepSeek和Kimi首轮就被淘汰?
deepseek吧
全部回复
仅看楼主
level 7
千百度
楼主
谷歌发起的“首届大模型对抗赛”,参赛的8个大模型中,包括了OpenAI的o4-mini、o3,谷歌的Gemini 2.5 Pro、Gemini 2.5 Flash,Anthropic的Claude Opus 4,xA的Grok 4,以及来自中国团队的DeepSeek-R1和Kimi K2 Instruct。
比赛项目:大模型两两捉对下国际象棋
2025年08月06日 11点08分
1
level 7
千百度
楼主
比赛结果
2025年08月06日 11点08分
2
level 11
真心煌煌
早有预料
2025年08月06日 11点08分
3
coconut2032
作弊!
2025年08月07日 05点08分
level 1
贴吧用户_J13MSRy941
llm真能下象棋吗,感觉都很菜啊
2025年08月06日 12点08分
5
level 4
梵快
上次跟chat玩的时候一直出老千,虽然chat也在出就是了
2025年08月06日 13点08分
6
level 4
忘尘🌸
这博主之前做过一期Deepseek和chatgpt下棋吧
2025年08月06日 14点08分
8
level 4
v家减👏🏻
对手都很强,我觉得田忌赛马,让r10528对o3,应该能赢
2025年08月06日 16点08分
9
我在朝鲜吃忠橙!
放肆
2025年08月07日 01点08分
level 10
实习两年半坤坤
kimi说话都不利索,能赢就怪事了
话说怎么R2还不更新呢?R2应该有胜算
2025年08月06日 17点08分
10
岑沐云烟
估计要到十月了
2025年08月07日 00点08分
level 1
一只奇怪的鲨鱼
这个好像正常 , 我记得之前deepseek和gbt下的时候 DeepSeek赢了的 ,不过现在很久没更新了 ,其他好几个都更新过的 ,等R2 出来估计会不一样 ,而且deepseek直都是第一梯队 并不是说什么 第一的顶尖模型 ,主要是低成本加上覆盖面广 ,有这个结果只能说确实不尽人意吧 ,不过本身这个模型也有很多个月没更新了 能在世界顶尖这一个梯队就不错了 。
2025年08月06日 17点08分
11
hdqtian
@一只奇怪的鲨鱼
没赢过,DS后来出现幻觉改变下棋规则,死了的子可以复活,GPT被DS的幻觉也带跑偏了,后来在不断的棋子复活中赢了。其实DS最大的问题一直是幻觉率超高,之后国内自媒体就自嗨咱们赢麻了,也没人细究到底是怎么赢的
2025年08月06日 20点08分
一只奇怪的鲨鱼
@一只奇怪的鲨鱼
目前AI除了中国和美国的其他的都不行 ,欧洲的还有日韩的上桌的机会都没有 ,更别提其他地方 ,而且r2应该快更新了 ,DeepSeek投的钱本身也要少一些 只能说我不希望达成这个结果 但是我也能接受 。
2025年08月06日 17点08分
吾是吕秀才
@hdqtian
不过幻觉这个确实,而且各大模型都有幻觉。不过也正常,不容易洗脑的ai就不好角色扮演了,动不动就变回来,只能用幻觉给ai洗脑,越容易有幻觉的越好洗
2025年08月07日 06点08分
鸭鸭回家😘
@吾是吕秀才
2025年08月07日 11点08分
level 1
青山绿水君不见
deepseek是把成本大幅打下来,才一夜爆火,而且本身实力也还不错。但是现在怎么变成想要deepseek和这些头部模型对抗还要战胜它们。如果真做到了,那到底是这些头部公司太烂还是deepseek太神奇?
2025年08月06日 22点08分
12
Cadmus_Sir
哈哈哈,废物拉黑你爹干嘛呢?那个啥三千,不敢对线了???
2025年08月07日 07点08分
2Keys
@天时怼兮丶mmm
我组去年评估投入百万经费下不来,今年30w就申请部署了。之前是起步门槛高,内网限制导致只能内部部署。现在降低门槛了,就实现了0-1的突破。作为应用层能用就行,效果差是一回事,降低门槛是一回事
2025年08月07日 03点08分
Cadmus_Sir
@天时怼兮丶mmm
你就适合被百度云这种养肥再割
2025年08月07日 03点08分
Cadmus_Sir
@天时怼兮丶mmm
自以为是,总觉得自己是人间清醒,DS 当时可是引起全球范围的讨论热度,就你觉得不行,没用。
2025年08月07日 03点08分
level 1
贴吧用户_GayyWU9
不懂就问,这个应该放给术业有专攻的吧
让llm来学这种,成本上是不是不如直接训练对应的专项?有没有懂行的帮我解惑一下
2025年08月06日 23点08分
13
安条克大牧首
原本目的就是要测试llm的泛化能力。你总不能所有细分领域都训一个单独大模型
2025年08月07日 04点08分
level 4
继续奔走的白熊
让ds打这种头部的ai还是有点吃力了,谷歌和老马能给到的硬件资源和预算条件不是小公司能比的,ds最大的好处就是让大家用到了便宜而且对中文输入反馈友好的api
2025年08月07日 00点08分
14
百里曼陀罗华
中文信息密度可以被ai放大,算法先进加上文字先进加持,硬件再叠加上去,应该可以撑起一套可以领先世界的ai。不过目前看还没有达到那个水准,说明算法还不够顶尖,还需要迭代
2025年08月07日 00点08分
level 1
40v
既然是比赛,好歹分个量级啊,重量级打轻量级?
有没有把显卡算力弄成一个量级?
2025年08月07日 01点08分
15
幽兰呆鹅
都是重量级上不封顶就完事了
2025年08月07日 03点08分
level 1
维生素D982
象棋是特化训练
2025年08月07日 01点08分
16
level 5
马上的蛇
之前用ds玩过象棋,会把中国象棋和国际象棋混淆
2025年08月07日 01点08分
17
1
2
3
尾页