level 2
Sweety1218
楼主
qwen3.5 本地部署实测,已然无敌。
实测27b生成效果可以战平最新deepseek和grok,写nsfw内容效果起飞。
35b-a3b稍微差点,但是速度飞快,适合日常用。全部支持多模态图片理解。
最关键是本地部署的成本.只需要一块2080ti 22G,2000块一张卡,即可跑出下面效果:llama.cpp+ q4量化27b + q8 kvcache量化,可以跑到20token/s同时带100k上下文.
llama.cpp+ q3量化35b-a3b + q8 kvcache量化,可以跑到70token/s同时带256k上下文。
属于本地大模型的时刻已经到来!这下知道为什么上面要赶qwen负责人走了,这玩意跟阿里云的逻辑天生冲突,如果每个人都可以花2000就在自己的电脑上部署一个相当于最新DeepSeek的大模型,就跟云厂商卖token的逻辑严重冲突。只有那些最顶尖的gemini,claude,gpt的超大模型的token才会卖的出去了。
缺点:思考容易死循环。需要多调教一下加强重复生成的惩罚。
2026年03月09日 17点03分
1
实测27b生成效果可以战平最新deepseek和grok,写nsfw内容效果起飞。
35b-a3b稍微差点,但是速度飞快,适合日常用。全部支持多模态图片理解。
最关键是本地部署的成本.只需要一块2080ti 22G,2000块一张卡,即可跑出下面效果:llama.cpp+ q4量化27b + q8 kvcache量化,可以跑到20token/s同时带100k上下文.
llama.cpp+ q3量化35b-a3b + q8 kvcache量化,可以跑到70token/s同时带256k上下文。
属于本地大模型的时刻已经到来!这下知道为什么上面要赶qwen负责人走了,这玩意跟阿里云的逻辑天生冲突,如果每个人都可以花2000就在自己的电脑上部署一个相当于最新DeepSeek的大模型,就跟云厂商卖token的逻辑严重冲突。只有那些最顶尖的gemini,claude,gpt的超大模型的token才会卖的出去了。
缺点:思考容易死循环。需要多调教一下加强重复生成的惩罚。


