cystev cystev
爱买买不买滚
关注数: 85 粉丝数: 254 发帖数: 7,916 关注贴吧数: 78
清华ktransformers更新24GVram支持128K上下文的攻略 系统:ubuntu22.04 说明:因为github上清华那边说支持了,但是作为 一个支线任务,又是全e文的,摸索下实现了。只需要24G显存。 优势:火山、硅基、等网站平台的api模式deepseek,128k(约23万汉字)上下文,读取论文,小说,档案时会直接报错,但是kt这版修改的支持本地布置的deepseek-r1-671b各种向量化版本包括1.58bit,q2-m,q3-k,q4-k,q6,q8全部支持128k上下文读取分析。这就是为什么要本地化布置。 版本: kt0.2.3post1+cu124torch24avx2-cp311-cp311-linux_x86_64.whl 操作方法: 1.启动kt conda环境: conda activate kt 2.卸载已经上一版kt: pip uninstall ktransformers -y 3.在ubuntu\用户名\下载最新kt0.2.3post1+cu124torch24avx2-cp311-cp311-linux_x86_64.whl: Wget "http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fcdn3.easylink.cc%2F659c815e-00d8-40b0-baf0-156a5814c9a5_+ktransformers-0.2.3.post1%2Bcu124torch24avx2-cp311-cp311-1inux_x86_64.whl%3Fe%3D1742568571%26token%3DJ_WyMIdhZtwb0E0QHWRqEfQrd51VSMLff19QxaxP%3AQ_DVh06hcFMVM5DsPGu76vQjg8s%3D&urlrefer=929888b84782bf4ee92a42f549f20fd5”-O~/ktransformers-0.2.3.post1+cu124torch24avx2-cp311-cp311-linux_x86_64.whl # ktransformers_new 或者去KT网站下载whl到home\用户名\文件下:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fgithub.com%2Fkvcache-ai%2Fktransformers%2Freleases%2Fdownload%2Fv0.2.3post1%2Fktransformers-0.2.3.post1%2Bcu124torch24avx2-cp311-cp311-linux_x86_64.whl&urlrefer=0bb6972cb92cf66b9d1a730c276dff6c 4. 编译新版kt: pip install ~/ktransformers-0.2.3.post1+cu124torch24avx2-cp311-cp311-linux_x86_64.whl 5.安装flashinfer: pip3 install flashinfer-python 5. 修改deepseek_v3_chat规则文件,让长上下文矩阵化,减小显存占用,先去找到规则文件存放地: CD home/用户名/miniconda3/envs/kt/lib/python3.11/site-packages/ktransformers/optimize/optimize_rules 6. 确认一下: Ls 看看DeepSeek-V3-Chat.yaml在不在 7. 打开: Nano DeepSeek-V3-Chat.yaml 8. 找到如下代码: - match: name: "^model\\.layers\\..*\\.self_attn$" replace: class: ktransformers.operators.attention.KDeepseekV2Attention # optimized MLA implementation kwargs: generate_device: "cuda" prefill_device: "cuda" absorb_for_prefill: False # change this to True to enable long context(prefill may slower). 9. 修改: - match: name: "^model\\.layers\\..*\\.self_attn$" replace: class: ktransformers.operators.attention.KDeepseekV2Attention # optimized MLA implementation kwargs: generate_device: "cuda" prefill_device: "cuda" absorb_for_prefill: True # change this to True to enable long context(prefill may slower). chunk_prefill_size: 4096 # 减小分块预填充大小以进一步减少内存占用 10. 如果启动时报如下错误: 11. 继续修改DeepSeek-V3-Chat.yaml,找到如下代码: - match: class: ktransformers.models.modeling_deepseek_v3.MoEGate replace: class: ktransformers.operators.gate.KMoEGateDeepSeekV3 kwargs: generate_device: "cuda:0" prefill_device: "cuda:0" 12. 修改代码为: - match: class: ktransformers.models.modeling_deepseek_v3.MoEGate replace: class: ktransformers.operators.gate.KMoEGate kwargs: generate_device: "cuda:0" prefill_device: "cuda:0" 13. api模式启动命令修改: export HF_ENDPOINT="http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fhf-mirror.com&urlrefer=ad92368099a1313d936f2bb3463a0ebd" PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True ktransformers \ --model_path deepseek-ai/DeepSeek-R1 \ --gguf_path /home/dministrator/models/DeepSeek-R1-Q4_K_M \ --max_new_tokens 8192 \ --total_context 131072 \ --cache_lens 131072 \ --cpu_infer 31 \ --cache_q4 true \ --temperature 0.9 \ --top_p 0.95 \ --host 0.0.0.0 \ --port 10002 #cpu_infer,你们自己根据自己cpu核心数改
中成本本地化部署方案成功671b版 因为从事图书编辑工作,对比了70b版和671b满血版发现:对我提出的段落章节要求70b往往会忽略,并自行简化了文本内容,设计情结复杂度70b会小于671b。 单位不想出100来万布置671b的硬件。预算只有5万内,该如何实现本地化呢,不用任何外部api接口。 我配置的家用娱乐级PC: 14900kf 技嘉z790 128g4800 ddr5内存,金士顿 4090涡轮版24g*2 4t硬盘金士顿7000速m.2 2000w长城金牌 360液冷CPU散热 纸皮机箱 共计花费49000元,CPU和固态还能再降点,一样能跑。 老步骤布置ollama,布置cherry studio,右下角小图标退出ollama 我的电脑属性>高级系统配置>环境变量>新建用户变量 OLLAMA_HOST, 值0.0.0.0 OLLAMA_ORIGINS,值* 搜索c盘里ollama和.ollama两个文件夹,把ollama和.ollama文件夹剪切到d盘(也可以是随意空间容量大的硬盘) 环境变量>编辑>新建>d: \Ollama 环境变量>编辑>新建>d: \.Ollama\models 确定后再次打开ollama,弹出防火墙提醒,点确认。 然后查看本地网络IP4的地址就是192.168.0.xxx的地址, 以上两部操作是将ollama和ai模型库文件装载到d盘,给c盘留出空间,同时将ollama放置到局域网内部,其他同事可以通过cherry,报脸,regflow,anythingllm,chatbox,openwebui,Firefox page assist等软件里设置ollama,URL地址就填http: //192.168.0.xxx: 11434 用来调用这台电脑的ollama模型库。然后还可以用lucky666的反代理镜像局域网的ollama到外网,使在家办公的员工也可以调用这台电脑的ollama。(需要租用域名) 下一步直接win➕r键,输入cmd,输入ollama run SIGJNF/deepseek-r1-671b-1.58bit 下载这个1.58位向量化的满血deepseek到我们设置的d盘。 下载完成后关闭窗口再次cmd进入命令行输入:set CUDA_VISIBLE_DEVICES=0, 1 这样就将140g的模型装载到内存中运行。 我目前测试下来的速度是70b版本15.8t/s,671b1.58bit版2.7t/s。 一些小icon图标在1.58bit版本中被裁剪掉了,体积缩小了很多。生成文本的速度越1秒5-7个汉字,我觉得还算能接受,指令执行的精准度也比70b版本好太多。 当然咯5万以内的硬件还可以用3090x4,256g内存的服务器版方案,但是我这不也兼顾了用单位电脑打3a的娱乐需求么。#deepseek 671b本地布置#
钢铁机神 补天士 变形步骤 注意看零件的几个位置: 1.肩膀头变到了车头中间两个凸起。 2.胸甲黄色零件变到了驾驶舱前面那块零件,灰模上明显一个预留的博派标志,和人形能对的上。 3.黄色胸甲下面的红色两截的腹肌零件变到了车头最中间的那个尖头凸起。 4.手臂上的排气管是两头排气管中间一块六边形零件,和车子的侧面完全一致。 5.最后是人形的大腿甲,那个零件的形状和车前轮上面的挡泥板完全一样。 6.而车子的尾翼靠近转轴处的凹槽和凸起,可以猜测车变人的时候,尾翼需要翻转扣合 无责任推测人变车结构: 1.胸口连带腹肌面板上掀开形成一部分车头备用,尾翼翻折,驾驶舱在人形的翅膀背面 2.脑袋塞进驾驶舱下面。下半身旋转180°。 3.大腿从根部前后拆开,露出前轮,然后侧面裙甲解锁开,整个大腿通过连杆或者滑槽推送到胸甲侧面,与卡扣结合,小腿和脚板收纳在胸口拉开后形成的空舱里面。翻出小腿里面藏的后轮,也不排除后轮本身就在在人形后背放着。 4.肩膀通过外摆内收关节旋转或者通过前后两片面甲拆开然后旋转,然后整体手臂向车头方向推动,卡扣结合形成完整车头,下臂和小腿侧面卡扣扣合固定,或者下臂和身体侧面卡扣固定。 变形完成。整体来看,变形没有太复杂的地方,背包干净的很,人形也很帅气。 以上纯属对图YY,如有雷同,纯属巧合
PVE 【死灵】 是时候开发一套新的玩法了-剑气普攻流BD 【技能】 魂火 石魔 亡者战 亡者法 亡者甲 【精华】 头-镜像之御:召唤弓手 衣服-临别赠礼:亡者甲变无敌5次 肩-诺布罗德之遗:亡者甲持续时间内全体友军攻速提升28.5%。这个是核心。 裤-结甲壁垒:亡者甲延长30% 主手1-炎荒:石魔改炎魔 主手2-刺骨钉锤:亡者战伤害提升19% 副手1-恶意蔓延:魂火25%几率爆发附加持续点燃效果 副手2-阴暗渴求:怪物身上DOT越多,石魔伤害越高,最高58%增伤 【宝石】 随意,伤害怎么高怎么来,必配的是斗志、能量之源、莉莉丝,阴影回响、寒冰、幽暗之瞳、星火碎片 斗志增伤、能量提供急速、莉莉丝增加暴击率、阴影会招分身,增加打野的射程、寒冰盾是不是能帮忙抵抗一下小怪的大招。 主要是幽暗的输出,带出剑气,带出破甲效果。但是只有主体能带出来,宠物无法享受。 【配装】 2狼群+2维图+2维图 【玩法简介】 1.头、肩膀、主手、副手,优先选择暴击率、普攻伤害、暴击伤害词条。 2.突破词条选择:急速、宠物伤害、暴击伤害、普攻、增益延长 3.因为幽暗带来了破甲,所以宠物可以选择炎魔,炎魔的群体灼烧又能带出副手的石魔伤害加成效果 4.舍弃4狼群是因为目前6个装备位置可以刷出来的暴击已经到24%左右,外加莉莉丝加成,足够用了 5.延长了亡者甲的持续时间,亡者甲能带出2维图特效,激活能量之源,激活肩膀的攻速特效,2维图又可以延长幽暗之瞳的时间、延长亡者甲持续时间。亡者甲目前可以无缝循环。 6.主打就一个幽暗之瞳的剑气,辅助亡者甲带来的攻速提升。缺点是没有控场和位移技能。伤害相当爆炸,没有技能真空期。
【狂骑士】打野赶路套BD分享 【技能】 锋刃 突刺连进 如影随形 蝠声掠影 潜行怒袭 【精华】 头-消声:如影随形时长增加30% 衣服-恐怖消弭:如影随形只对自身生效,两次普攻产生一个影子模仿攻击 肩-蝠群代言人:蝠声掠影召唤蝙蝠大军环绕自身,持续对周围造成伤害 裤-无悔:突刺连击会向前冲刺,击退路上敌人造成伤害 主手:随意 副手1-悬垂圣杯:锋刃击中敌人会分裂出两片弹射到周围 副手2-慈悲之厄:锋刃会目标叠加印记,4次后引爆 【宝石】 随意,伤害怎么高怎么来,必配的是斗志、能量之源、莉莉丝,阴影回响、寒冰 斗志增伤、能量提供急速、莉莉丝增加暴击率、阴影会招分身,增加打野的射程、寒冰盾是不是能帮忙抵抗一下小怪的大招。 【配装】 4引路鬼+2维图 【玩法简介】 1.利用锋刃的长射程打野,设置自动普攻后,配合阴影招的分身,基本能应对目前几乎所有的打野点位。 2.类似D3的拍钟套和尚,突刺连击会冲锋一段时间,然后用如影随形续上,基本能保障打野扫地全程加速跑。真刺激。 3.蝠群和如影随形同时开,然后直接普攻,相当于一个小爆发组合,可以迅速击杀远古精英、黄名精英、盗宝哥布林。 4.这套BD主打就是野外打野,因为有寒冰盾,所以基本不需要吸血裤子。 个人只是抛砖引玉,期待各位有更好的BD贡献。
又遭遇莫名其妙的封号,申诉有用但不是完全有用 刚打着战歌呢,被掉线,上来提示封号7天,理由是使用第三方辅助。呵呵 天天在外面玩用苹果手机玩,根本没有什么第三方辅助,在家用电脑的mumu模拟器玩,也没有辅助,况且还开着暴雪的战网。 申诉,等待 找氪佬的专属客服申诉,有用,减轻处罚,封7天变封3天 那我就去问了,到底什么程序被你们判定是辅助,我把电脑的进程全部截图挨个给他申诉页面发过来,机器人回复一直是核查中,无果。 找氪佬的专属客服问,发了个截图过来,说可能是违反了第3天,在某一个地方重复同样操作太久。因为客服说的也模糊,他自己估计也不是技术那边的。 我想了想最近一个月属于这个情况的操作: 1.定点打野,组队打的,确实属于同一个地方重复操作,但是我是手工按的,中间答题,毒池都完美的应对了,而且我是在D5地图,现在压根周围没人,不会影响大部队玩家的体验。我不定点打野,我打个屁的连击数啊。况且我1000连击就特意断一次扫地。这个WY说的太久到底多久算太久?模糊定义。 2.刷副本,上一期先祖临时说要结束了,还有3天时间,我临时临急的白天也忙就晚上时间能打打,于是晚上喊人组队刷D4疯王,2分钟一趟吧,一晚上刷了1200多点先祖点数,这算不算在同一个地方(副本)重复操作(刷副本)? 3.氪金刷十紫,为了拿速通奖励的buff,反复进出不朽秘境操作200多次一天,这算不算在同一个地方重复操作?我觉得既然设计了这个buff,又不是经常能出现的buff,那我反复进出副本刷这个buff也是在游戏程序设计的合理范围内,如果不合理,那么游戏程序就不该能让我退还10把钥匙反复进出副本了。 4.蹲野区等探索任务刷新,有几个地图的探索任务NPC很难刷新,2小时刷新一次,我蹲野区任务,在原地基本没动,这算不算在一个地方重复同样操作?玩WOW的都知道,蹲野外稀有精英,时光龙,野骆驼,紫乌鸦什么的,经常一蹲就是7X24小时,为什么WOW都可以,到不朽就不行?同样是开放地图的游戏。 吐槽到此就结束了,以后不会给WY的任何游戏任何产品或服务氪金,他们店大欺客,根本不拿消费者当人。劝各位同是不朽的玩家,尽早脱坑,如果真的想玩暗黑,要么D3去,要么蹲明年的D4,记得一定不要在国服玩,随便找个国际服或者亚服,那边多少没有WY的这些模糊不清的违规定义。我不是你亲爱的,我也不是冒险者,我是你家WY的氪佬,我受到了WY不公平的待遇。
1 下一页