玩了两天dsv3.2,体验很不错,水点感受
deepseek吧
全部回复
仅看楼主
level 9
海上扁舟 楼主
[滑稽]话说v4这个月要出的消息已经流传很久了,在这个时候我才开始玩v3.2写写评价是不是“有点晚”,
毕竟搞不好写完明天就出v4了
2026年02月09日 07点02分 1
level 9
海上扁舟 楼主
上周末玩的,在硅基流动里用了50元左右的额度。
使用的系统提示词是我去年3月份时候的轻量规则书版本,在ds的分词器里面对应25k~30k的tokens。
2026年02月09日 07点02分 2
level 7
说不定你下个月写也不晚[捂嘴笑]
2026年02月09日 07点02分 3
level 9
海上扁舟 楼主
先来点干巴巴的小总结输出一下我的表达欲
相比起gemini而言,dsv3.2的弱点如下:
1.对知名世界观记忆不清晰,不像gemini那样开盖即食,这一点是真的弱很多
-
2.时空处理存在一些问题,和第一点结合,导致玩同人时幻觉率非常高,也非常出戏。但此问题也不局限于玩同人,总之就是时空关系处理比gemini弱一些(但这点没有弱太多,非要简单描述定个量那我感觉就是弱"两三成"吧)。
不同的模型拟合的概念差距挺大,就好比有的逻辑,对于A模型来说必须要分配一定权重给对应提示词,或者甚至复杂的cot拆解才能转得动(激活相应功能)。而对于B模型就是举重若轻的小事。
这里对于ds而言时空处理是弱了点,但是ds在其他方面→尤其是跑团所需的合理性验证、情节发散(关于ooc,世界观崩坏等问题)等等,我个人感觉这些问题处理上ds是比gemini强很多的。
-
3.对精确指令不是很在意的样子,个人感觉,它并非看不到细节,纯粹就是对代码执行的那种流程逻辑不敏感,不重视。也就是执行流程的能力相对不是那么容易激活(和第二点也有点关系来着,因为我感觉时空处理,也是一种偏流程的概念)。但总体在可控范围内,属于可被强调修正的范畴。
-
4.窗口大小,因为ds的分词对中文很友好,16w的上下文窗口可以换算到gemini的20w窗口。
当然这个窗口大小其实不是很重要(它更多影响系统提示词能塞多少,包括世界观/人设的背景这些,对实际楼层影响不大。gemini其实是需要塞很多系统提示词去对抗它的二极管思维,刻板印象,捎带调整适配gemini3.0的注意力机制也需要一些提示词。但对ds相对而言就不需要这么重型,对ds来说轻量化的提示词就足够了,所以窗口小了点关系也不大。),
落到具体的AIRP体验上,其实主要还是得看可玩楼层数。
那么实际的注意力效果是这样的。按我个人的总结,ds可以玩50~70轮再大总结,而gemini可以玩100~250轮大总结一次。(在我个人提示词测试下的宏观结果,其实我用的也不是同一份提示词,测ds用的是古早的轻量化版,不同提示词肯定有出入,所以并非严谨实验,完全基于我个人的主观。但我还是有点自信我的两份提示词都是相当压榨模型潜力的)
这里其实有个量变产生质变的问题,就是跑团的真实需求→个人的理解,一局大概长度需求是100~150轮(这是一个比较关键的范围节点,但也比较主观,可能仅是我个人的游戏节奏?),偶尔也会到200轮。
那么ds这个50~70轮有点不上不下的感觉,因为需要中途大总结一次,会有点“断心流”,而且毕竟总结会有信息损失,可能实际演绎体验效果只亏一成,但是玩家心理肯定膈应,哪怕损失的信息玩家自己可能也忘了。
2026年02月09日 08点02分 4
level 9
海上扁舟 楼主
gemini的问题主要是,众所周知,越古老越强,一直有人追忆gemini2.5的0325版本。
——其实就我个人的感觉,gemini在训练微调过程中是越来越聪明的,而且检索能力没有弱化(毕竟这玩意也绑定神经网络,不好砍)。
但是谷÷砍算力也是真的→砍的就是激活量这种直接关联计算的。输出越来越僵硬(能同一瞬间激活的能力太少了,哪怕不断用重型思维链去分散拆解,最终正文输出还是很套路很刻板)
而且最近谷÷终于负担不起白嫖压力,算力告急,把免费额度几乎砍光。
ds我用起来感觉就很有当初gemini0325的灵动感(而且还不绝望[滑稽]),还有不输3.0的"智力"。
单论指令遵循能力,确实是gemini强,gemini对于语境的条件判定也统合得非常严谨。
但AIRP,跑团什么的体验,和指令遵循能力其实并不那么相关。
我也是被gemini的指令遵循能力蒙蔽了,一直妄图基于它强大的指令遵循去修正它的缺陷,结果屎山越堆越高[怒]回头一看原来我去年三月份的提示词扔进ds出来的效果都很不错
2026年02月09日 08点02分 5
level 9
海上扁舟 楼主
这里可以看出,ds其实是具备一些世界观信息的,但是实际运用不能处理得很好,有但是取不对。
后续我让它用思维链的形式输出,能改善一小半,但也只有这点——这还是在直接问剧情的情况下。
直接裸玩同人体验就更差了。我甚至想能不能让gemini当RAG,gemini输出一轮当前需要用的世界观信息(就当是前置思维链用),然后ds再输出一轮这样的流水线。
一句话总结,玩同人用gemini,玩原创用deepseek
2026年02月09日 09点02分 6
level 7
我觉得deepseek有点难产[阴险]
2026年02月09日 11点02分 7
level 9
海上扁舟 楼主
这里测试换成了我去年四月初的规则书玩,初始占36k tokens。
当时没什么保存习惯,再下一个版本就直接是6wt的翻倍版本(下意识感觉这个版本会挤压上下文窗口,影响楼层数,明天试试6wt规则书效果,今天先试36k的)
2026年02月09日 11点02分 8
level 2
3.2的文笔好太多了,公式也少了[吐舌]但是会自己乱改设定[怒]
2026年02月09日 11点02分 9
level 9
海上扁舟 楼主
2026年02月09日 11点02分 10
level 1
最大的问题还是输出效率太慢,写个变量等半天[阴险]
2026年02月09日 14点02分 11
嗯,我见到好几个朋友说它慢,不过我这边调起来也有每秒20字,再加上开的流式,其实如果不开原生cot其实也能接受(因为其他模型可能等思考也要等半分钟)
2026年02月09日 15点02分
我的cot分三部分来着,覆盖原生cot的 + 自定义正文前cot&正文后cot,关了原生cot对我来说其实影响效果的(不像酒馆他们故意卡掉原生cot),但是v3.2确实挺聪明,能弥补回七八成,上面这些就是没开原生cot效果也还行。
2026年02月09日 15点02分
level 6
说白了对于追求输出流畅的酒馆玩家来说官方ds就是最优解,gemini虽然可以白嫖但是输出不稳定,断线个四五次一下子就没心情了,克劳德贵的一批不是富哥根本用不起,ds虽然性能不如上面几位但是中文训练环境还是很有优势,而且3.2至少有gemini2.5p的巅峰水平,最重要的是便宜,充几十块钱可以用很久,除了玩大卡输出比较慢没有什么可以黑的[吐舌]
2026年02月10日 03点02分 12
1