qwen3.5，本地部署之王 - deepseek吧

level 2

Sweety1218 楼主

qwen3.5 本地部署实测，已然无敌。
实测27b生成效果可以战平最新deepseek和grok，写nsfw内容效果起飞。
35b-a3b稍微差点，但是速度飞快，适合日常用。全部支持多模态图片理解。
最关键是本地部署的成本.只需要一块2080ti 22G，2000块一张卡，即可跑出下面效果：llama.cpp+ q4量化27b + q8 kvcache量化，可以跑到20token/s同时带100k上下文.
llama.cpp+ q3量化35b-a3b + q8 kvcache量化，可以跑到70token/s同时带256k上下文。
属于本地大模型的时刻已经到来！这下知道为什么上面要赶qwen负责人走了，这玩意跟阿里云的逻辑天生冲突，如果每个人都可以花2000就在自己的电脑上部署一个相当于最新DeepSeek的大模型，就跟云厂商卖token的逻辑严重冲突。只有那些最顶尖的gemini，claude，gpt的超大模型的token才会卖的出去了。
缺点：思考容易死循环。需要多调教一下加强重复生成的惩罚。

2026年03月09日 17点03分 1

level 9

chuj952

差多了

2026年03月09日 17点03分 3

Sweety1218

本地能部署的找不出更好的了

2026年03月09日 21点03分

level 7

鹤123

5090部署35b的awq4bit在vllm运行180t/s，能有fp8的65k上下文，太高的上下文的话速度就降到120t/s，llama底层运行只有120t/s而且不知道为什么线程跑着跑着速度会掉到100到80

2026年03月10日 02点03分 4

叶之惊魂

大佬教教怎么部署的，我5090+64g内存只有10t/s，用lmstudio部署的，要ollma吗？

2026年03月10日 03点03分

鹤123

@叶之惊魂 lm studio也有120t/s啊，你下的是fp16的模型吧，你要下q4或者q6的，尽量不要offload，会很慢的

2026年03月10日 03点03分

鹤123

@叶之惊魂 vllm会比lm studio的快点，但更吃显存

2026年03月10日 03点03分

Sweety1218

@叶之惊魂很明显你把东西搞到内存去了。除非实在放不下。不然绝对不要把模型加载到内存。下个uncloth的ud量化4位版本看看。

2026年03月10日 04点03分

level 3

℘你美死了

千问本地能nsfw？不是说他甲很厚吗破解版好像写出来还是畸形的不好用

2026年03月10日 04点03分 5

Sweety1218

有人上传可nsfw版本了

2026年03月10日 07点03分

℘你美死了

@Sweety1218 我下的就是那个啊写的奇奇怪怪的不知道啥玩意儿

2026年03月10日 10点03分

softzhang

破解技术在进步，有的破解版只是单纯不拒绝回答，但回答内容出现严重的正能量幻觉，如如要求写xx，却写出了爱情故事。而有的破解版就没有这问题，得多试几种。

2026年03月12日 03点03分

℘你美死了

@softzhang 我强烈要求他续写好几次了给出的要么是大概叙述要么就是一段只有几百字就跳到下一段奇葩的很还是酒馆用预设 deepseek gemini openclaw直接用deepseek 给他多喂点文写出来的也不错不过龙虾真的是烧token的很 [怒]

2026年03月12日 05点03分

level 1

贴吧用户_77tRG6Z

显存没那么大，只有16g，这种情况本地部署我是应该考虑高参数量的q1q2，还是低参数的q5q4。

2026年03月10日 05点03分 6

鹤123

q1 q2还是算了，偏差太大了，我感觉最低也得q4

2026年03月10日 15点03分

level 6

贴吧用户_5QyV9tW

本地部署也没那么容易,q4下损失太大。而且性能实测一般认为在glm5/gemini2.5flash的水平上，上下文越长受限于参量差距越大。本地部署要求也没那么低。而且阿里幽默的官方api定价这一27b的模型128k以上输入价格要1.8/14.4在云端对比dsv3.2或者几个2/300b的moe模型完全没优势

2026年03月10日 05点03分 7

Sweety1218

是的，所以这个帖子说的是本地部署。这模型根本不利于阿里云卖自己的token，难怪负责人要被开 [捂嘴笑]

2026年03月10日 07点03分

Sweety1218

gemini 2.5flash感觉智商还是差点，3 flash差不多或者比27b略高。

2026年03月10日 07点03分

level 9

impact4

你上哪搞的2080ti 22g

2026年03月10日 05点03分 8

Sweety1218

某宝搜啊

2026年03月10日 07点03分

roblesrobles

我都用三年了

2026年03月15日 01点03分

level 1

stardustmu22

模型本身不能nsfw吧？

2026年03月10日 06点03分 9

Sweety1218

有人上传可nsfw版本了

2026年03月10日 07点03分

lingzozoc

@Sweety1218 叫啥名字？作者是谁？

2026年03月10日 13点03分

level 8

猫鱼哦º

家用设备本地部署本身上限还是太差了，在几坨之间比来比去真的没啥太大的意义，除非是企业做私有部署，然后降本在产品里把垃圾模型给用户做轻量级回答那种

2026年03月10日 06点03分 10

猫鱼哦º

@Sweety1218 看你用来干啥了，我觉得看论文写代码啥的真不能信任，就算是rp，27b模型输出的文字也很没有灵魂。最多也就是接接龙虾给你翻翻文件的程度了吧，工具链长了还容易幻觉

2026年03月10日 09点03分

猫鱼哦º

@Sweety1218 我用阿里云端的qwen3.5plus都觉得这模型太拉了，更别说本地部署的小参数版本

2026年03月10日 09点03分

Sweety1218

提升巨大，27b已经到能用水平了

2026年03月10日 07点03分

level 12

祁寒しきかん

同2080ti

我看它qwen3.5这些模型输出的思维链里的内容的涩涩程度已经很接近ds了，相比于以前的本地模型真的就是巨大提升 [吐舌]

我电脑四张卡凑的60G显存，试了试跑122B的q2，与其它几个30来B的模型对比，感觉水平都差不多，跑酒馆角色扮演，带内容比较多的世界书开场一万多token能跑个五六楼。虽然跑剧情看不了，但觉得只要调教优化下，写点短篇nsfw够用了，不过特别容易抽风重复输出也确实是个问题，离ds的api还有点远，期待半年后的开源模型水平 [滑稽]

2026年03月10日 07点03分 11

Aira1772

@祁寒しきかん花1000~2000买个pex8796/88096的pcie switch扩展板，不支持拆分的消费级主板都能上，而且如果能开卡间p2p比走cpu延迟还要低 [吐舌]

（Tesla/Quadro一般插上就能p2p，Geforce要打破解驱动）

2026年03月14日 16点03分

祁寒しきかん

@xiaoliumang111 api我都没用过多少，很抱歉无能为力了 [笑尿]

你可以去隔壁酒馆社区那边问问什么api比较好。硅基没用过，不过听说会送点额度，你要是想体验各种各样模型应该可以去这种试试，api的甲主要看模型本身，比如官方的qwen3.5这种可能比较难破，ds官方的api我倒是经常用，基本都没啥甲，你找适合ds的预设随便用

2026年03月15日 16点03分

不二景洛dt

求问下四卡60G的成本大概多少，有点想弄了，5090不是太指望了 [委屈]

2026年03月11日 03点03分

祁寒しきかん

@不二景洛dt 成本啊，这个有点难说啊，我是2080ti，换了5060ti，加上主板插双卡后还有多的pcie通道，于是用m2转接出来，又接了张16G的v100，一张8G的2070，这两张都是我闲置的卡。显卡加转接，按现在的市场价估的话是7000多吧，主要是现在什么都涨了，我的那张x299主板，我年初300多捡漏的，现在都1千多了。我也不好说什么方案比较有性价比。如果你是想着用多卡，且有1万多的预算买显卡的话，我的想法是，可以看看快一万元的4080s32G魔改卡，之前还有8700的4090散热器的a100显卡（32G），现在那个人卖9699。再往下也没啥好卡了，就3090-24G（5千一张），2080ti-22G（现在大概行情1800）除了这两张老卡，还有v100-32G（还涨价了，单张卡散热加转接板一套最少要3千），v100-16G便宜，但是凑四卡（nvlink），加转接板散热下来，最少也得要个5千吧，而且平台老，sxm洋垃圾显卡能用多久也是个问题，除了跑LLM也想不出能干啥了

2026年03月11日 10点03分