中成本本地化部署方案成功671b版
deepseek吧
全部回复
仅看楼主
level 7
cystev 楼主
因为从事图书编辑工作,对比了70b版和671b满血版发现:对我提出的段落章节要求70b往往会忽略,并自行简化了文本内容,设计情结复杂度70b会小于671b。
单位不想出100来万布置671b的硬件。预算只有5万内,该如何实现本地化呢,不用任何外部api接口。
我配置的家用娱乐级PC:
14900kf
技嘉z790
128g4800 ddr5内存,金士顿
4090涡轮版24g*2
4t硬盘金士顿7000速m.2
2000w长城金牌
360液冷CPU散热
纸皮机箱
共计花费49000元,CPU和固态还能再降点,一样能跑。
老步骤布置ollama,布置cherry studio,右下角小图标退出ollama
我的电脑属性>高级系统配置>环境变量>新建用户变量
OLLAMA_HOST, 值0.0.0.0
OLLAMA_ORIGINS,值*
搜索c盘里ollama和.ollama两个文件夹,把ollama和.ollama文件夹剪切到d盘(也可以是随意空间容量大的硬盘)
环境变量>编辑>新建>d: \Ollama
环境变量>编辑>新建>d: \.Ollama\models
确定后再次打开ollama,弹出防火墙提醒,点确认。
然后查看本地网络IP4的地址就是192.168.0.xxx的地址,
以上两部操作是将ollama和ai模型库文件装载到d盘,给c盘留出空间,同时将ollama放置到局域网内部,其他同事可以通过cherry,报脸,regflow,anythingllm,chatbox,openwebui,Firefox page assist等软件里设置ollama,URL地址就填http: //192.168.0.xxx: 11434
用来调用这台电脑的ollama模型库。然后还可以用lucky666的反代理镜像局域网的ollama到外网,使在家办公的员工也可以调用这台电脑的ollama。(需要租用域名)
下一步直接win➕r键,输入cmd,输入ollama run SIGJNF/deepseek-r1-671b-1.58bit
下载这个1.58位向量化的满血deepseek到我们设置的d盘。
下载完成后关闭窗口再次cmd进入命令行输入:set CUDA_VISIBLE_DEVICES=0, 1
这样就将140g的模型装载到内存中运行。
我目前测试下来的速度是70b版本15.8t/s,671b1.58bit版2.7t/s。
一些小icon图标在1.58bit版本中被裁剪掉了,体积缩小了很多。生成文本的速度越1秒5-7个汉字,我觉得还算能接受,指令执行的精准度也比70b版本好太多。
当然咯5万以内的硬件还可以用3090x4,256g内存的服务器版方案,但是我这不也兼顾了用单位电脑打3a的娱乐需求么。[吐舌]#deepseek 671b本地布置#
2025年02月12日 10点02分 1
level 1
两万块的4090 28g版本怎么样
2025年02月12日 10点02分 2
魔改的28g? 应该也能带的动,优先载入内存让CPU工作需要更强的CPU啊[捂嘴笑]
2025年02月12日 10点02分
@cystev 说错了,是48g的版本,2.1w左右
2025年02月12日 10点02分
@陆依桓 106g显存,还是装不下,还是得用我这办法,但是你肯定比我速度快,估计能到6t/s
2025年02月12日 10点02分
level 6
量化的太狠了,还有必要硬上吗
2025年02月13日 01点02分 3
瘦死得骆驼比马大,671b的参数,q1量化也比蒸馏70b强
2025年02月16日 07点02分
@梦烟子 70b版本我在cherry上第一次问答还正常,第二次就开始答非所问了,换anything就没这问题,但是70b的思考纬度确实少的很。
2025年02月18日 10点02分
@cystev 70b基模是llama3.1,中文语境下还不如qwen2.5-32b,32b的问题是deepseek蒸馏的是math模型而不是instruct模型。要是他们蒸馏qwen2.5-72b模型就好了。
2025年02月20日 00点02分
@梦烟子 硅基上好像有qwen和dp蒸馏的模型
2025年02月20日 04点02分
level 1
清华大学最新开源了一张4090
+3
82g内存本地部署671b的方案
2025年02月13日 03点02分 4
清华大学那个必须要支持AMX的CPU才能有好的效果
2025年02月14日 01点02分
@我是炒鸡程序猿 嗯,也就这几年的至强
2025年02月16日 04点02分
level 1
你这个还是ollama的蒸馏版啊,清华大学那个方案可以跑hf上的原版
2025年02月13日 03点02分 5
@瞻宇1999 https://github.com/kvcache-ai/ktransformers
2025年02月14日 02点02分
今天看到了,他那个是Linux系统,系统占用内存本就少,也是服务器主板,他那个方案肯定更好,技术含量太高[泪],我不懂Python和Linux
2025年02月13日 03点02分
@cystev 你往下看,有windows的啊
2025年02月13日 04点02分
请问是617b q8吗?
2025年02月13日 15点02分
level 7
128g内存塞不下的,670B已经在硬盘上跑了[滑稽]
话说ollama不是只能单卡吗,两张4090没必要吧
2025年02月13日 03点02分 6
deepseek模型可以分层放置在多张显卡
2025年02月13日 07点02分
level 6
怎么玩的?
2025年02月13日 04点02分 7
level 1
1..58bit。。。。。
2025年02月13日 08点02分 8
level 8
感谢楼主分享。但我认为其实本地部署必要不是很大,性价比太低。目前主流的价格满血版是百万token/16元,速度在10t/s。按照你给出的速度大约生成一百万token要用92小时左右。这套配置跑92小时电费都不止16了。
当然如果有信息需要保密肯定是有限上本地服务器。不过普通人或者中小公司的话完全没必要本地部署,本地部署也可以用专业的大显存计算卡而不是游戏卡。
2025年02月13日 09点02分 9
我也不是特别懂token计费,如果数据有错误欢迎lz指正。
2025年02月13日 09点02分
第一是稳定问题,第二是调教问题[滑稽]
2025年02月14日 00点02分
@其实我都识字 这点确实,主要是调教
2025年02月14日 03点02分
level 1
52核心的服务器插满8通道内存也能达到3.8左右,双路插满32条96g的内存反而慢了
2025年02月13日 14点02分 11
得插12的倍数的dimm丫
2025年02月14日 11点02分
@cystev 额,我这cpu是8通道的,双路就是16通道32根内存,不是单cpu12通道那种
2025年02月14日 12点02分
那你去优化了numa和内存交错了吗?限制核心数也能提升速度
2025年02月14日 14点02分
level 4
这你还不如买个mac studio,192g版跑1.76能有10t速度
2025年02月13日 18点02分 12
苹果怎么也没想到这几年开发的统一内存居然会成为跑AI神器
2025年02月14日 00点02分
@快扁我 统一内存技术,fc时他就有了,只是显卡厂商不想上,上了显存还怎么当金子卖
2025年03月21日 08点03分
@SHZkkqq 如果intel开始把cpu和内存做在一起 那才是真正意义的统一内存
2025年03月21日 09点03分
@快扁我 它不是已经做了,但伤到内存和主板的利益啊
2025年03月21日 09点03分
level 9
有人测试用洋垃圾e5+24条ddr3内存不无gpu,跑404那个671b 4bit量化的模型,据说也能到2-4t/s
总成本不到5000
2025年02月14日 00点02分 13
@guazi111 今天特意找了下,洋垃圾平台好像只有2080×4的达到了2 token,理论上来说纯cpu推理,ddr3不可能达到2token,带宽就限死了,ddr4 12通道差不多2 token,ddr5那个epyc的方案确实能有6-8,我的xeon平台ddr5 14通道,只能到3
2025年02月20日 13点02分
有链接吗?指个路,我80核ddr5 768g内存的配置也2-4 token,好奇他是什么方案
2025年02月14日 02点02分
用的x79还是x99啊,24条d3ecc 32g确实没想到过能这么玩
2025年02月14日 02点02分
@神说1928 x乎上某条回复说的,没有给出更详细的信息 不过ddr5那个方案按照国外那个号称6000美金的说法不是可以到6-8么,当然老外用的是双epyc 现在说用清华的ktransformers来跑,再加一张3090或者4090,生成速度能提高3倍多
2025年02月14日 03点02分
level 6
5w预算搞最新ktransformers可以跑到10t了吧,再开个虚拟机办公
2025年02月14日 00点02分 14
level 1
这个配置太奢侈了大佬,但是效果略差[阴险]
2025年02月14日 03点02分 15
level 3
1.58bit什么垃圾,q4以下都不能用
2025年02月14日 04点02分 16
用用再说话,参数量越大,量化精度影响越小。个人体验全参量q2远比70b和32b模型强
2025年02月16日 07点02分
@梦烟子 671*2=1342 70*8=560 问题是满血是671*8=5368
2025年02月16日 10点02分
@sblnrrk1 q4满血就不是满血了么?[捂嘴笑]
2025年02月18日 10点02分
@sblnrrk1 1. deepseek-r1这个模型原生fp8训练的,相当于做了8bit量化感知训练,有利于减少量化后损失。2. moe模型本身就是稀疏的,这个模型有256个专家,每次只调用8个,专家层的量化冗余巨大。
2025年02月20日 00点02分
1 2 尾页