华为宣布开源盘古7B和72B混合
中国芯吧
全部回复
仅看楼主
level 11
爱吃皇堡 楼主
6月30日,华为宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。
华为表示,此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。
据了解,此次是华为首次将盘古大模型的核心能力开源,本次开源主要包括:盘古Pro MoE 72B模型权重、基础推理代码,已正式上线开源平台;基于昇腾的超大规模MoE模型推理代码,已正式上线开源平台;盘古7B相关模型权重与推理代码将于近期上线开源平台。
盘古大模型是华为推出的一系列超大规模人工智能预训练模型,涵盖自然语言处理、计算机视觉、科学计算等多个领域。其名称寓意“开天辟地”,象征着华为在人工智能基础研究和行业应用上的突破性探索。盘古模型自发布以来,已在多个行业中实现落地,包括金融、制造、能源、交通等,助力企业实现智能化升级。
据开源开发者平台GitGo上发布的信息,盘古Pro MoE是昇腾原生的分组混合专家模型。基于MoGE架构,华为团队构建了总参数量720亿、激活参数量160亿的盘古Pro MoE模型。
盘古Pro MoE在昇腾800I A2上实现了单卡1148 tokens/s 的推理吞吐性能,并可进一步通过投机加速等技术提升至1528 tokens/s,显著优于同等规模的320亿和720亿参数的稠密模型;在昇腾300I Duo推理服务器上,也实现了极具性价比的模型推理方案。
研究表明,昇腾NPU能够支持盘古Pro MoE的大规模并行训练。多项公开基准测试结果表明,盘古Pro MoE在千亿内总参数模型中处于领先地位。
自动驾驶领域,基于阿里巴巴qwen蒸馏的端侧模型的车企在下一代的智驾竞争中可以提前说拜拜啦
2025年06月30日 08点06分 1
level 11
不明觉厉
2025年06月30日 10点06分 2
level 8
其实多一些选择没啥坏处,开源的大模型多一些,可以在不同场合做不同需求的适配,并非所有的场合都需要满血Deepseek,有些儿童玩具上也可以做一些本地廉价交互。不知道有人为啥看到华为就应激。
2025年06月30日 10点06分 3
盘古没什么llm(语言模型)成分,和你想的不是一个东西
2025年06月30日 13点06分
@_墨染桜_ 盘古大模型包含大型语言模型(LLM)能力,其核心组件盘古 NLP 大模型是典型的 LLM,2025 年 6 月开源时,华为更直接将盘古 7B 和 72B 模型标注为 LLMs(Large Language Models)4,进一步确认了其身份。
2025年07月01日 08点07分
@_墨染桜_ 华为开源的盘古 Pro MoE 72B不仅是大语言模型(LLM),更是全球首个基于分组混合专家(MoGE)架构的千亿级开源 LLM,其技术设计和性能表现均符合 LLM 的核心定义。
2025年07月01日 08点07分
@_墨染桜_ 盘古 Pro MoE 72B 支持多语言理解、复杂推理、代码生成等 LLM 核心功能。例如,在 MMLU(多任务语言理解)、C-Eval(中文专业知识评测)等基准测试中,其性能超越 Qwen3-32B、GLM-Z1-32B 等主流开源模型,尤其在中文常识推理(CLUEWSC)中得分 94.7
2025年07月01日 08点07分
level 1
migo:哈哈嗨 来咯来咯 真字研龙晶大模型 中国第一首发!
2025年06月30日 11点06分 4
level 1
华为的东西应该更偏工业AI些吧?
2025年06月30日 15点06分 5
是的,行业大模型
2025年07月01日 01点07分
level 1
盘古可能更偏数据分析和传感器数据融合算法
2025年06月30日 15点06分 6
level 10
[真棒]
2025年06月30日 16点06分 7
level 1
不知道啥水平
2025年07月01日 07点07分 8
level 8
有没有人部署跑了啊
2025年07月01日 12点07分 9
1