cpu 跑deepseek选择量化Q4还是Q8 - deepseek吧

level 3

贴吧用户_Gt94Db5 楼主

古老一点cpu跑deepseek据说是用的AVX2,最小支持char类型也就是8bit，如果用Q4那么cpu是不是没法直接计算，需要先转化成8bit，速度反而比Q8慢?不考虑内存大小及带宽。

2025年02月23日 10点02分 1

level 3

贴吧用户_Gt94Db5 楼主

还是自己来实验。A8-7650K,双通道amd1600专用条，跑deepseek-r1 1.5b Q4 Q8,设置的单线程,Q4 2.5token/s,Q8 2token/s 慢20%

2025年02月27日 11点02分 2

贴吧用户_Gt94Db5

刚才又测了一遍，变成3.7和3了。顺便参考一下ollama默认两个线程，Q4与Q8分别约6和5.5 tokens/s。一个线程的情况下内存不是瓶颈

2025年02月27日 12点02分

level 2

70-1等于几

那部署一个玩玩的话 e5平台 rx580 可以吗

2025年02月27日 12点02分 3

贴吧用户_Gt94Db5

ollama暂时不支持rx580显卡rocm.用X99 E5跑deepseek瓶颈应该在内存。我有个E5 2673v3 加双通道1866ddr3,跑7bQ4约6tokens/s,减少到4个线程还能保持这个速度，减少到2个线程只有3tokens/s了。x99的优势是可以4通道内存，如果2400ddr4四通道，带宽相当于ddr5 4800双通道，应该能达到7bQ4 15tokens/s。

2025年02月27日 12点02分

贴吧用户_Gt94Db5

7bQ4 速度换算到70bQ4差不多就是除以10。可以找其他人问问实际速度

2025年02月27日 12点02分