qwen3.5,本地部署之王
deepseek吧
全部回复
仅看楼主
level 2
Sweety1218 楼主
qwen3.5 本地部署实测,已然无敌。
实测27b生成效果可以战平最新deepseek和grok,写nsfw内容效果起飞。
35b-a3b稍微差点,但是速度飞快,适合日常用。全部支持多模态图片理解。
最关键是本地部署的成本.只需要一块2080ti 22G,2000块一张卡,即可跑出下面效果:llama.cpp+ q4量化27b + q8 kvcache量化,可以跑到20token/s同时带100k上下文.
llama.cpp+ q3量化35b-a3b + q8 kvcache量化,可以跑到70token/s同时带256k上下文。
属于本地大模型的时刻已经到来!这下知道为什么上面要赶qwen负责人走了,这玩意跟阿里云的逻辑天生冲突,如果每个人都可以花2000就在自己的电脑上部署一个相当于最新DeepSeek的大模型,就跟云厂商卖token的逻辑严重冲突。只有那些最顶尖的gemini,claude,gpt的超大模型的token才会卖的出去了。
缺点:思考容易死循环。需要多调教一下加强重复生成的惩罚。
2026年03月09日 17点03分 1
level 9
差多了
2026年03月09日 17点03分 3
本地能部署的找不出更好的了
2026年03月09日 21点03分
level 7
5090部署35b的awq4bit在vllm运行180t/s,能有fp8的65k上下文,太高的上下文的话速度就降到120t/s,llama底层运行只有120t/s而且不知道为什么线程跑着跑着速度会掉到100到80
2026年03月10日 02点03分 4
大佬教教怎么部署的,我5090+64g内存只有10t/s,用lmstudio部署的,要ollma吗?
2026年03月10日 03点03分
@叶之惊魂 lm studio也有120t/s啊,你下的是fp16的模型吧,你要下q4或者q6的,尽量不要offload,会很慢的
2026年03月10日 03点03分
@叶之惊魂 vllm会比lm studio的快点,但更吃显存
2026年03月10日 03点03分
@叶之惊魂 很明显你把东西搞到内存去了。除非实在放不下。不然绝对不要把模型加载到内存。下个uncloth的ud量化4位版本看看。
2026年03月10日 04点03分
level 3
千问本地能nsfw?不是说他甲很厚吗 破解版好像写出来还是畸形的不好用
2026年03月10日 04点03分 5
有人上传可nsfw版本了
2026年03月10日 07点03分
@Sweety1218 我下的就是那个啊 写的奇奇怪怪的不知道啥玩意儿
2026年03月10日 10点03分
破解技术在进步,有的破解版只是单纯不拒绝回答,但回答内容出现严重的正能量幻觉,如如要求写xx,却写出了爱情故事。而有的破解版就没有这问题,得多试几种。
2026年03月12日 03点03分
@softzhang 我强烈要求他续写好几次了 给出的要么是大概叙述 要么就是一段只有几百字就跳到下一段 奇葩的很 还是酒馆用预设 deepseek gemini openclaw直接用deepseek 给他多喂点文 写出来的也不错 不过龙虾真的是烧token的很[怒]
2026年03月12日 05点03分
level 1
显存没那么大,只有16g,这种情况本地部署我是应该考虑高参数量的q1q2,还是低参数的q5q4。
2026年03月10日 05点03分 6
q1 q2还是算了,偏差太大了,我感觉最低也得q4
2026年03月10日 15点03分
level 6
本地部署也没那么容易,q4下损失太大。而且性能实测一般认为在glm5/gemini2.5flash的水平上,上下文越长受限于参量差距越大。本地部署要求也没那么低。而且阿里幽默的官方api定价这一27b的模型128k以上输入价格要1.8/14.4在云端对比dsv3.2或者几个2/300b的moe模型完全没优势
2026年03月10日 05点03分 7
是的,所以这个帖子说的是本地部署。这模型根本不利于阿里云卖自己的token,难怪负责人要被开[捂嘴笑]
2026年03月10日 07点03分
gemini 2.5flash感觉智商还是差点,3 flash差不多或者比27b略高。
2026年03月10日 07点03分
level 9
你上哪搞的2080ti 22g
2026年03月10日 05点03分 8
某宝搜啊
2026年03月10日 07点03分
我都用三年了
2026年03月15日 01点03分
level 1
模型本身不能nsfw吧?
2026年03月10日 06点03分 9
有人上传可nsfw版本了
2026年03月10日 07点03分
@Sweety1218 叫啥名字?作者是谁?
2026年03月10日 13点03分
level 8
家用设备本地部署本身上限还是太差了,在几坨之间比来比去真的没啥太大的意义,除非是企业做私有部署,然后降本在产品里把垃圾模型给用户做轻量级回答那种
2026年03月10日 06点03分 10
@Sweety1218 看你用来干啥了,我觉得看论文写代码啥的真不能信任,就算是rp,27b模型输出的文字也很没有灵魂。最多也就是接接龙虾给你翻翻文件的程度了吧,工具链长了还容易幻觉
2026年03月10日 09点03分
@Sweety1218 我用阿里云端的qwen3.5plus都觉得这模型太拉了,更别说本地部署的小参数版本
2026年03月10日 09点03分
提升巨大,27b已经到能用水平了
2026年03月10日 07点03分
level 12
同2080ti[滑稽]
我看它qwen3.5这些模型输出的思维链里的内容的涩涩程度已经很接近ds了,相比于以前的本地模型真的就是巨大提升[吐舌]
我电脑四张卡凑的60G显存,试了试跑122B的q2,与其它几个30来B的模型对比,感觉水平都差不多,跑酒馆角色扮演,带内容比较多的世界书开场一万多token能跑个五六楼。虽然跑剧情看不了,但觉得只要调教优化下,写点短篇nsfw够用了,不过特别容易抽风重复输出也确实是个问题,离ds的api还有点远,期待半年后的开源模型水平[滑稽][滑稽]
2026年03月10日 07点03分 11
@祁寒しきかん 花1000~2000买个pex8796/88096的pcie switch扩展板,不支持拆分的消费级主板都能上,而且如果能开卡间p2p比走cpu延迟还要低[吐舌](Tesla/Quadro一般插上就能p2p,Geforce要打破解驱动)
2026年03月14日 16点03分
@xiaoliumang111 api我都没用过多少,很抱歉无能为力了[笑尿]你可以去隔壁酒馆社区那边问问什么api比较好。硅基没用过,不过听说会送点额度,你要是想体验各种各样模型应该可以去这种试试,api的甲主要看模型本身,比如官方的qwen3.5这种可能比较难破,ds官方的api我倒是经常用,基本都没啥甲,你找适合ds的预设随便用
2026年03月15日 16点03分
求问下四卡60G的成本大概多少,有点想弄了,5090不是太指望了[委屈]
2026年03月11日 03点03分
@不二景洛dt 成本啊,这个有点难说啊,我是2080ti,换了5060ti,加上主板插双卡后还有多的pcie通道,于是用m2转接出来,又接了张16G的v100,一张8G的2070,这两张都是我闲置的卡。显卡加转接,按现在的市场价估的话是7000多吧,主要是现在什么都涨了,我的那张x299主板,我年初300多捡漏的,现在都1千多了。我也不好说什么方案比较有性价比。如果你是想着用多卡,且有1万多的预算买显卡的话,我的想法是,可以看看快一万元的4080s32G魔改卡,之前还有8700的4090散热器的a100显卡(32G),现在那个人卖9699。再往下也没啥好卡了,就3090-24G(5千一张),2080ti-22G(现在大概行情1800)除了这两张老卡,还有v100-32G(还涨价了,单张卡散热加转接板一套最少要3千),v100-16G便宜,但是凑四卡(nvlink),加转接板散热下来,最少也得要个5千吧,而且平台老,sxm洋垃圾显卡能用多久也是个问题,除了跑LLM也想不出能干啥了
2026年03月11日 10点03分
level 4
之前试了试7b还是8b,输入输出太短了
2026年03月10日 07点03分 12
8b你还想有啥效果,能正常运行就不错了[滑稽]
2026年03月10日 09点03分
@108575881 那是qwen3吧,3.5没7b或者8b
2026年03月10日 09点03分
3.5好像有个9b,效果还可以
2026年03月10日 10点03分
level 1
还能咋优化优化[太开心]
2026年03月10日 07点03分 13
level 1
7900xt的20g显存可以部署这个吗
2026年03月10日 08点03分 14
可以,不过你需要更高量化的模型版本和更激进的kv cache量化,否则上下文太小了。
2026年03月10日 08点03分
level 5
27b h q8
2026年03月10日 10点03分 15
level 7
什么意思
2026年03月11日 06点03分 16
1 2 尾页