level 7
cystev
楼主
因为从事图书编辑工作,对比了70b版和671b满血版发现:对我提出的段落章节要求70b往往会忽略,并自行简化了文本内容,设计情结复杂度70b会小于671b。
单位不想出100来万布置671b的硬件。预算只有5万内,该如何实现本地化呢,不用任何外部api接口。
我配置的家用娱乐级PC:
14900kf
技嘉z790
128g4800 ddr5内存,金士顿
4090涡轮版24g*2
4t硬盘金士顿7000速m.2
2000w长城金牌
360液冷CPU散热
纸皮机箱
共计花费49000元,CPU和固态还能再降点,一样能跑。
老步骤布置ollama,布置cherry studio,右下角小图标退出ollama
我的电脑属性>高级系统配置>环境变量>新建用户变量
OLLAMA_HOST, 值0.0.0.0
OLLAMA_ORIGINS,值*
搜索c盘里ollama和.ollama两个文件夹,把ollama和.ollama文件夹剪切到d盘(也可以是随意空间容量大的硬盘)
环境变量>编辑>新建>d: \Ollama
环境变量>编辑>新建>d: \.Ollama\models
确定后再次打开ollama,弹出防火墙提醒,点确认。
然后查看本地网络IP4的地址就是192.168.0.xxx的地址,
以上两部操作是将ollama和ai模型库文件装载到d盘,给c盘留出空间,同时将ollama放置到局域网内部,其他同事可以通过cherry,报脸,regflow,anythingllm,chatbox,openwebui,Firefox page assist等软件里设置ollama,URL地址就填http: //192.168.0.xxx: 11434
用来调用这台电脑的ollama模型库。然后还可以用lucky666的反代理镜像局域网的ollama到外网,使在家办公的员工也可以调用这台电脑的ollama。(需要租用域名)
下一步直接win➕r键,输入cmd,输入ollama run SIGJNF/deepseek-r1-671b-1.58bit
下载这个1.58位向量化的满血deepseek到我们设置的d盘。
下载完成后关闭窗口再次cmd进入命令行输入:set CUDA_VISIBLE_DEVICES=0, 1
这样就将140g的模型装载到内存中运行。
我目前测试下来的速度是70b版本15.8t/s,671b1.58bit版2.7t/s。
一些小icon图标在1.58bit版本中被裁剪掉了,体积缩小了很多。生成文本的速度越1秒5-7个汉字,我觉得还算能接受,指令执行的精准度也比70b版本好太多。
当然咯5万以内的硬件还可以用3090x4,256g内存的服务器版方案,但是我这不也兼顾了用单位电脑打3a的娱乐需求么。
#deepseek 671b本地布置#
2025年02月12日 10点02分
1
单位不想出100来万布置671b的硬件。预算只有5万内,该如何实现本地化呢,不用任何外部api接口。
我配置的家用娱乐级PC:
14900kf
技嘉z790
128g4800 ddr5内存,金士顿
4090涡轮版24g*2
4t硬盘金士顿7000速m.2
2000w长城金牌
360液冷CPU散热
纸皮机箱
共计花费49000元,CPU和固态还能再降点,一样能跑。
老步骤布置ollama,布置cherry studio,右下角小图标退出ollama
我的电脑属性>高级系统配置>环境变量>新建用户变量
OLLAMA_HOST, 值0.0.0.0
OLLAMA_ORIGINS,值*
搜索c盘里ollama和.ollama两个文件夹,把ollama和.ollama文件夹剪切到d盘(也可以是随意空间容量大的硬盘)
环境变量>编辑>新建>d: \Ollama
环境变量>编辑>新建>d: \.Ollama\models
确定后再次打开ollama,弹出防火墙提醒,点确认。
然后查看本地网络IP4的地址就是192.168.0.xxx的地址,
以上两部操作是将ollama和ai模型库文件装载到d盘,给c盘留出空间,同时将ollama放置到局域网内部,其他同事可以通过cherry,报脸,regflow,anythingllm,chatbox,openwebui,Firefox page assist等软件里设置ollama,URL地址就填http: //192.168.0.xxx: 11434
用来调用这台电脑的ollama模型库。然后还可以用lucky666的反代理镜像局域网的ollama到外网,使在家办公的员工也可以调用这台电脑的ollama。(需要租用域名)
下一步直接win➕r键,输入cmd,输入ollama run SIGJNF/deepseek-r1-671b-1.58bit
下载这个1.58位向量化的满血deepseek到我们设置的d盘。
下载完成后关闭窗口再次cmd进入命令行输入:set CUDA_VISIBLE_DEVICES=0, 1
这样就将140g的模型装载到内存中运行。
我目前测试下来的速度是70b版本15.8t/s,671b1.58bit版2.7t/s。
一些小icon图标在1.58bit版本中被裁剪掉了,体积缩小了很多。生成文本的速度越1秒5-7个汉字,我觉得还算能接受,指令执行的精准度也比70b版本好太多。
当然咯5万以内的硬件还可以用3090x4,256g内存的服务器版方案,但是我这不也兼顾了用单位电脑打3a的娱乐需求么。
![[吐舌]](/static/emoticons/u5410u820c.png)