cpu 跑deepseek选择量化Q4还是Q8
deepseek吧
全部回复
仅看楼主
level 3
贴吧用户_Gt94Db5
楼主
古老一点cpu跑deepseek据说是用的AVX2,最小支持char类型也就是8bit,如果用Q4那么cpu是不是没法直接计算,需要先转化成8bit,速度反而比Q8慢?不考虑内存大小及带宽。
2025年02月23日 10点02分
1
level 3
贴吧用户_Gt94Db5
楼主
还是自己来实验。A8-7650K,双通道amd1600专用条,跑deepseek-r1 1.5b Q4 Q8,设置的单线程,Q4 2.5token/s,Q8 2token/s 慢20%
2025年02月27日 11点02分
2
贴吧用户_Gt94Db5
刚才又测了一遍,变成3.7和3了。顺便参考一下ollama默认两个线程,Q4与Q8分别约6和5.5 tokens/s。一个线程的情况下内存不是瓶颈
2025年02月27日 12点02分
level 2
70-1等于几
那部署一个玩玩的话 e5平台 rx580 可以吗
2025年02月27日 12点02分
3
贴吧用户_Gt94Db5
ollama暂时不支持rx580显卡rocm.用X99 E5跑deepseek瓶颈应该在内存。我有个E5 2673v3 加双通道1866ddr3,跑7bQ4约6tokens/s,减少到4个线程还能保持这个速度,减少到2个线程只有3tokens/s了。x99的优势是可以4通道内存,如果2400ddr4四通道,带宽相当于ddr5 4800双通道,应该能达到7bQ4 15tokens/s。
2025年02月27日 12点02分
贴吧用户_Gt94Db5
7bQ4 速度换算到70bQ4差不多就是除以10。可以找其他人问问实际速度
2025年02月27日 12点02分
1