中文写作/角色扮演综合排名--通过GPT5.5深度研究
deepseek吧
全部回复
仅看楼主
level 7
发现本吧很多吧友倾向于用ds写文,或者用酒馆,但却没有任何榜单综合测试过大模型中文写作方面的能力。
所以我用gpt5.5深度研究做了这个榜单,它只使用公开可检索的第三方评分、排行榜和模型资料。
基础权重如下:
中文能力35%
写作能力30%
角色扮演能力20%
通用基础能力15%
具体评分来源太杂了暂且不写,会放评论
图中绿色柱为高可信度数据最全的模型,蓝色柱为缺失部分重要测试的模型,例如中文数据不足,灰色柱为较旧模型。
本测试结果没有实测,仅供参考,如若不认同,默认野榜即可[呵呵]
(注1:图中价格因为部分国产模型价格不准确是因为单位换算,以官方价格为准)
(注2:如若需要深度研究的提示词,研究报告,评分来源等详细信息,可以留下评论)
2026年04月29日 12点04分 1
level 7
gpt5.5研究的报告,因此gpt5.4的排名存疑,可直接排除[吐舌]
2026年04月29日 13点04分 2
才看到你这句话。排除了gpt的话,我觉得这个排名还是比较公正的。但是在短篇和武侠、玄幻等特定类型的情况下,ds是比克劳德要强或者平手的。
2026年04月29日 13点04分
@尼达耶945 claude中文问题还是挺大的,我之前搜一个小说作品,人名给我搞的奇奇怪怪的音译,推测是非幻觉率和长上下文召回分数发力了[小乖]
2026年04月29日 13点04分
@尼达耶945 看了一下榜单,果然中文能力它垫底了
2026年04月29日 13点04分
level 7
本排名主要参考四类公开数据:
SuperCLUE 中文榜单用来作为「中文原生能力」的主要锚点。它反映模型在中文语境下的综合表现,但它不是专门的写作/RP榜,所以不能单独决定排名。
Arena / LMArena Text 分类榜主要参考其中的:
Creative Writing:近似代表开放式创意写作偏好;
Instruction Following:近似代表指令遵循、人设规则遵守能力;
Longer Query:近似代表长输入、多轮复杂对话和长上下文处理能力。Arena 的优势是样本量大、偏真实用户偏好,但它不是中文专榜,英文和通用任务权重较高。Arena 榜单显示其 Text Arena 覆盖大量模型,并基于用户投票形成分类排名。
EQ-Bench Creative Writing v3用来衡量模型的创意写作能力、文风质量、重复度和 AI 腔倾向。EQ-Bench Creative Writing v3 是一个 LLM-judged 创意写作 benchmark,包含 Elo Score、Rubric Score、Repetition、Slop Score 等指标,其中 Slop Score 用于衡量模型输出中常见“AI 味”表达的频率。其 GitHub 说明显示,该测试包含 32 个写作提示、3 轮生成,共 96 个样本,并结合 rubric scoring 与 Elo 推断。
Artificial Analysis Intelligence Index用来作为通用智能、推理、代码、科学问题和复杂任务能力的基础约束项。它不直接代表中文写作/RP能力,但能反映模型处理复杂设定、推理、事实一致性和严肃题材写作的底层能力。Artificial Analysis Intelligence Index v4.0 被整理为综合多项 benchmark 的模型智能指数,覆盖数学、科学、编程、推理等维度。
此外,模型官方文档、模型卡、API 文档和发布说明只用于确认模型是否真实存在、版本是否可用、上下文窗口、价格、开源/闭源状态和官方定位;官方自测分数不会直接覆盖第三方榜单结果。
2026年04月29日 13点04分 3
level 7
淡季贴吧[泪]
2026年04月29日 13点04分 4
level 7
本排名的目标是评估模型在「中文写作与中文角色扮演」场景下的综合适配度,包括中文创意写作、小说续写、长篇 RP、人物对话、情绪互动、设定保持和长对话一致性。
2026年04月29日 13点04分 5
level 9
你觉得gpt排第二合理吗?写文谁用gpt啊。
2026年04月29日 13点04分 6
gpt算出来的这个表。所以要排除gpt。
2026年04月30日 01点04分
当然不合理,价格过高,而且研究用的就是gpt深度研究分析的,它存疑可以排除[吐舌]
2026年04月29日 13点04分
@鸡煲启动特别快 不过为啥4.6比4.7强?
2026年04月30日 01点04分
@孤命天灾 正确,怀疑它倾向于选择对gpt有利的评分来源[滑稽]
2026年04月30日 01点04分
level 6
666,不过dsv4论文我记得说GPT克劳德写作能力和v4差不多,Gemini比较拉,v4对Gemini3.1胜率高达70%,或许你的图里Gemini高了?不过我也不懂,纯外行
2026年04月29日 13点04分 7
看了一下分榜,是水桶模型,综合每一项都没有落后[乖]
2026年04月29日 13点04分
可惜没有专门测ai文风的测试
2026年04月29日 13点04分
level 8
讲个笑话,gpt第2,豆包第6,mimo第14,glm第18[笑眼]
2026年04月29日 17点04分 8
@鸡煲启动特别快 豆包就情绪价值给的特别足,除此以外说话都淌口水。mimo如果称国模倒二没人敢称倒一
2026年04月30日 02点04分
@鸡煲启动特别快 糖包和mimo综合评价能不能打得过ds3.2不好说
2026年04月30日 02点04分
@shower✨ mimo2.5似乎跑分特别高,在各大榜单上,豆包2.0pro刚出的时候在arena里国产模型排在前十的位置,v3.2当时在50多名呢[乖]
2026年04月30日 02点04分
@shower✨ 不对好像忘了一位,混元大模型,这位好像真是垫底的
2026年04月30日 03点04分
level 4
kimi这么牛逼吗?
2026年04月29日 23点04分 9
和glm5一个水平,不相上下,偶尔会比较惊艳
2026年04月30日 01点04分
而且没有甲
2026年04月30日 01点04分
level 10
你的研究方法该不会是跟gpt说给我按要求研究一下然后排个名
2026年04月29日 23点04分 10
提示词几千字你要看嘛
2026年04月30日 00点04分
因为数据太杂,研究只是得到数据,数据都做过归一化处理了,也都是按照上面权重计算的
2026年04月30日 00点04分
level 3
不是哥们,你真觉得现在ai能完成测试别的ai这种任务啊,还一测20个。
2026年04月30日 01点04分 11
@鸡煲启动特别快 deepseek有自己测试中文写作能力,结论是除了极端复杂指令4.6o更厉害其他指标断档领先。
2026年04月30日 01点04分
@鸡煲启动特别快 deepseek应该还没在英文写作上发力,v4发布后小礼在x上问英文写作还有哪些问题。
2026年04月30日 01点04分
不是啊,它只负责扒数据
2026年04月30日 01点04分
你就当是智能爬虫好了,去各大网站扒评分数据
2026年04月30日 01点04分
level 5
楼主辛苦了[茶杯]
2026年04月30日 01点04分 12
@无蒶 谢谢,个人觉得就目前的性价比而言,deepseekv4系列还是首选[真棒]
2026年04月30日 01点04分
不敢当,辛苦gpt了,我只是坐享其成[哈哈]
2026年04月30日 01点04分
哈哈,楼主的结论给我参考,AI也辛苦,但是主要想法来源楼主,希望楼主能越来越好ദ്ദി˶ー̀֊ー́ )✧
2026年04月30日 01点04分
@鸡煲启动特别快 有钱了就去试试,哎,现在没工作又一个人在外面,花钱的地方太多了。幸好DeepSeek现在免费的版本对我来说也够用了,等找到工作稳定了一定去试试,嘿嘿՞˶・֊・˶՞
2026年04月30日 01点04分
level 3
刚刚回复里说错了,ds论文中是和4.5o比中文写作。4.6o删了中文语料后写作还不如r10528。
2026年04月30日 01点04分 13
@那好gg 不过说起来就本次测试里中文能力分数来说,claude远远落后于deepseek,排到10名开外
2026年04月30日 01点04分
怎么说呢,我测的这些数据只能告诉说明这些模型能力本身,代表不了中文表达能力,会不会写各种矛盾冲突,文风有没有网文感,生活气息,角色互动有没有真实感,这些都难以量化
2026年04月30日 01点04分
level 3
这是技术报告的5.4.1中文写作章节:
DeepSeek 的主要应用场景之一是中文写作。我们对功能型写作和创意写作进行了严格评估。表 12 呈现了 DeepSeek-V4-Pro 与 Gemini-3.1-Pro 在功能型写作任务上的两两对比。这些任务由常见的日常写作查询组成,提示通常简洁直接。选择 Gemini-3.1-Pro 作为基线模型,因为它在我们的评估中是中文写作表现最优的外部模型。结果表明,DeepSeek-V4-Pro 以 62.7% 对 34.1% 的整体胜率优于基线模型;这主要是因为 Gemini 在中文写作场景中偶尔会让其固有的风格偏好凌驾于用户的明确要求之上。
表 13 展示了创意写作的对比,评估从两个维度进行:指令遵循度和写作质量。与 Gemini-3.1-Pro 相比,DeepSeek-V4-Pro 在指令遵循度上的胜率为 60.0%,在写作质量上为 77.5%,显示出在指令遵循度上有小幅提升,而在写作质量上有显著提升。尽管 DeepSeek-V4-Pro 在整体用户案例中表现更优,但若将评估限定在最具挑战性的提示——特别是那些涉及高复杂度约束或多轮场景的提示上——则会发现 Claude Opus 4.5 对 DeepSeek-V4-Pro 保持着性能优势。如表 14 所示,Claude Opus 4.5 取得了 52.0% 对 45.9% 的胜率。
2026年04月30日 01点04分 14
level 1
glm5.1这么低?
2026年04月30日 01点04分 15
缺失数据,所以缺失的部分只能给到均值,所以建议蓝色柱的测试单独看
2026年04月30日 01点04分
1 2 尾页