中成本本地化部署方案成功671b版 - deepseek吧

level 7

cystev 楼主

因为从事图书编辑工作，对比了70b版和671b满血版发现：对我提出的段落章节要求70b往往会忽略，并自行简化了文本内容，设计情结复杂度70b会小于671b。
单位不想出100来万布置671b的硬件。预算只有5万内，该如何实现本地化呢，不用任何外部api接口。
我配置的家用娱乐级PC：
14900kf
技嘉z790
128g4800 ddr5内存，金士顿
4090涡轮版24g*2
4t硬盘金士顿7000速m.2
2000w长城金牌
360液冷CPU散热
纸皮机箱
共计花费49000元，CPU和固态还能再降点，一样能跑。
老步骤布置ollama，布置cherry studio，右下角小图标退出ollama
我的电脑属性＞高级系统配置＞环境变量＞新建用户变量
OLLAMA_HOST, 值0.0.0.0
OLLAMA_ORIGINS，值*
搜索c盘里ollama和.ollama两个文件夹，把ollama和.ollama文件夹剪切到d盘（也可以是随意空间容量大的硬盘）
环境变量＞编辑＞新建＞d: \Ollama
环境变量＞编辑＞新建＞d: \.Ollama\models
确定后再次打开ollama，弹出防火墙提醒，点确认。
然后查看本地网络IP4的地址就是192.168.0.xxx的地址，
以上两部操作是将ollama和ai模型库文件装载到d盘，给c盘留出空间，同时将ollama放置到局域网内部，其他同事可以通过cherry，报脸，regflow，anythingllm，chatbox，openwebui，Firefox page assist等软件里设置ollama，URL地址就填http: //192.168.0.xxx: 11434
用来调用这台电脑的ollama模型库。然后还可以用lucky666的反代理镜像局域网的ollama到外网，使在家办公的员工也可以调用这台电脑的ollama。（需要租用域名）
下一步直接win➕r键，输入cmd，输入ollama run SIGJNF/deepseek-r1-671b-1.58bit
下载这个1.58位向量化的满血deepseek到我们设置的d盘。
下载完成后关闭窗口再次cmd进入命令行输入：set CUDA_VISIBLE_DEVICES＝0, 1
这样就将140g的模型装载到内存中运行。
我目前测试下来的速度是70b版本15.8t/s，671b1.58bit版2.7t/s。
一些小icon图标在1.58bit版本中被裁剪掉了，体积缩小了很多。生成文本的速度越1秒5-7个汉字，我觉得还算能接受，指令执行的精准度也比70b版本好太多。
当然咯5万以内的硬件还可以用3090x4，256g内存的服务器版方案，但是我这不也兼顾了用单位电脑打3a的娱乐需求么。 [吐舌]

#deepseek 671b本地布置#

2025年02月12日 10点02分 1

level 6

剪不断的线✨

量化的太狠了，还有必要硬上吗

2025年02月13日 01点02分 3

梦烟子

瘦死得骆驼比马大，671b的参数，q1量化也比蒸馏70b强

2025年02月16日 07点02分

cystev

@梦烟子 70b版本我在cherry上第一次问答还正常，第二次就开始答非所问了，换anything就没这问题，但是70b的思考纬度确实少的很。

2025年02月18日 10点02分

梦烟子

@cystev 70b基模是llama3.1，中文语境下还不如qwen2.5-32b，32b的问题是deepseek蒸馏的是math模型而不是instruct模型。要是他们蒸馏qwen2.5-72b模型就好了。

2025年02月20日 00点02分

cystev

@梦烟子硅基上好像有qwen和dp蒸馏的模型

2025年02月20日 04点02分

level 1

bndjdjbn

清华大学最新开源了一张4090
+3
82g内存本地部署671b的方案

2025年02月13日 03点02分 4

我是炒鸡程序猿

清华大学那个必须要支持AMX的CPU才能有好的效果

2025年02月14日 01点02分

比安卡😳

@我是炒鸡程序猿嗯，也就这几年的至强

2025年02月16日 04点02分

level 1

bndjdjbn

你这个还是ollama的蒸馏版啊，清华大学那个方案可以跑hf上的原版

2025年02月13日 03点02分 5

bndjdjbn

@瞻宇1999 https://github.com/kvcache-ai/ktransformers

2025年02月14日 02点02分

cystev

今天看到了，他那个是Linux系统，系统占用内存本就少，也是服务器主板，他那个方案肯定更好，技术含量太高 [泪]

，我不懂Python和Linux

2025年02月13日 03点02分

bndjdjbn

@cystev 你往下看，有windows的啊

2025年02月13日 04点02分

peng9sky

请问是617b q8吗？

2025年02月13日 15点02分

level 7

云行云-四十二

128g内存塞不下的，670B已经在硬盘上跑了 [滑稽]

话说ollama不是只能单卡吗，两张4090没必要吧

2025年02月13日 03点02分 6

cystev

deepseek模型可以分层放置在多张显卡

2025年02月13日 07点02分

level 6

电子爱好新手5

怎么玩的？

2025年02月13日 04点02分 7

level 1

大司马郭祀

1..58bit。。。。。

2025年02月13日 08点02分 8

level 8

🦅27

感谢楼主分享。但我认为其实本地部署必要不是很大，性价比太低。目前主流的价格满血版是百万token/16元，速度在10t/s。按照你给出的速度大约生成一百万token要用92小时左右。这套配置跑92小时电费都不止16了。
当然如果有信息需要保密肯定是有限上本地服务器。不过普通人或者中小公司的话完全没必要本地部署，本地部署也可以用专业的大显存计算卡而不是游戏卡。

2025年02月13日 09点02分 9

🦅27

我也不是特别懂token计费，如果数据有错误欢迎lz指正。

2025年02月13日 09点02分