米线山️之父 路西法not
关注数: 141 粉丝数: 228 发帖数: 13,672 关注贴吧数: 554
华为开源全新技术显存占用削减70% 5060当5090用 华为开源SINQ AI技术:显存占用削减70%, 5060能当5090用,RTX4090能顶A100 10 月 6 日消息,华为苏黎世计算系统实验室于 9 月 26 日发布全新开源量化(Quantization)技术 SINQ(Sinkhorn 归一化量化),旨在大幅降低大语言模型(LLM)的显存需求与运行成本。 > 这项技术无需复杂的校准过程,可直接集成至现有工作流,并且其代码已通过 Apache 2.0 许可证在 GitHub 和 Hugging Face 上开放,允许任何组织免费使用、修改和商业化部署。 > SINQ 的核心优势在于其卓越的压缩性能。根据测试,该技术能将不同规模模型的显存占用普遍削减 60% 至 70%。这意味着,过去需要超过 60GB 显存才能运行的大型模型,现在仅需约 20GB 的环境即可部署。 > 此前需要企业级 GPU(如英伟达 A100 80GB 或 H100)计算的任务,现在仅用一张售价约 1600 美元的消费级显卡(如英伟达 RTX 4090)便可胜任。对于云端用户而言,每小时的算力成本也随之锐减。 > 该技术通过两大创新实现了性能突破。首先,SINQ 采用“双轴采样”策略,替代了传统的单尺度因子量化,通过分别为矩阵的行和列设置独立的缩放向量,更灵活地分散量化误差,有效抑制了异常值的影响。 > 在性能评估中,SINQ 的表现全面超越了多种主流的免校准量化方法(如 RTN、HQQ)。在处理 Qwen3、LLaMA 等多种主流模型时,SINQ 在 WikiText2 等标准测试集上显著降低了模型的困惑度(Perplexity),其性能表现接近甚至达到了需要数据校准的方案水平。 > 此外,SINQ 的量化速度极快,比 HQQ 快约 2 倍,更是比 AWQ 快 30 倍以上,充分满足了研究与生产环境中对效率的严苛要求。 > 注:量化一种模型压缩技术,通过降低模型内部数据的精度来减小其体积和显存占用。好比将一张高精度的照片(如浮点数)转换为一张文件更小、但肉眼看差别不大的普通照片(如整数),从而让模型运行得更快、更省资源。 > 困惑度(Perplexity)示评估语言模型性能的常用指标。它衡量的是模型对于一段新文本的“惊讶”或“不确定”程度。困惑度越低,表示模型对文本的预测越准确,语言能力越强。
国产GPU性能将提升百倍至千倍 重大突破!我国科学家研制出最新芯片,突破模拟计算世纪难题,GPU性能将提升百倍至千倍 据微信公众号“北京大学人工智能研究院”13日消息,北京大学人工智能研究院孙仲研究员团队及合作者在国际学术期刊NatureElectronics杂志发表论文,在新型计算架构上取得重大突破。 研究团队成功研制出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片,首次实现了在精度上可与数字计算媲美的模拟计算系统,将传统模拟计算的精度提升了惊人的五个数量级。相关性能评估表明,该芯片在求解大规模MIMO信号检测等关键科学问题时,计算吞吐量与能效较当前顶级数字处理器(GPU)提升百倍至千倍。 据了解,我们熟悉的通信基站信号处理、AI大模型训练参数优化等,本质都是在解复杂的矩阵方程。采用数字方法实现高精度矩阵求逆的计算开销极大,耗时长、能耗高。于是,曾被视为老旧技术的模拟计算重新进入研究视野,它直接利用物理定律实现并行运算,延时低、功耗低,在算力瓶颈背景下,具有先天优势。 但如何让模拟计算兼具高精度与可扩展性,从而在现代计算任务中发挥其先天优势,一直是困扰全球科学界的世纪难题。 孙仲团队选择了一条融合创新的道路,通过新型信息器件、原创电路和经典算法的协同设计,构建了一个基于阻变存储器阵列的高精度、可拓展的全模拟矩阵方程求解器,首次将模拟计算的精度提升至24位定点精度。 孙仲介绍,研究团队基于迭代算法,结合了模拟低精度矩阵求逆和模拟高精度矩阵-向量乘法运算,开发了一种基于全模拟矩阵运算的高精度矩阵方程求解方案,先快速算出矩阵方程的“近似解”,再用“位切片”方法,实现迭代细化。 在计算精度方面,团队在实验上成功实现16×16矩阵的24比特定点数精度求逆,矩阵方程求解经过10次迭代后,相对误差可低至10⁻⁷量级。在计算性能方面,在求解32×32矩阵求逆问题时,其算力已超越高端GPU的单核性能;当问题规模扩大至128×128时,计算吞吐量更达到顶级数字处理器的1000倍以上,传统GPU干一天的活,这款芯片一分钟就能搞定。同时,该方案在相同精度下能效比传统数字处理器提升超100倍,为高能效计算中心提供了关键技术支撑。 团队将它应用到了“大规模MIMO(多输入多输出)信号检测”中——仅用3次迭代,恢复的图像就和原始图像高度一致,误码率和32位数字计算效果相当,凸显其在实时信号处理中的潜力。 “我们证明,模拟计算能以极高效率和精度解决现代科学和工程中的核心计算问题。”孙仲强调,这项突破的应用前景广阔,可赋能多元计算场景,有望重塑算力格局。团队的研究为算力提升探索出一条极具潜力的路径,有望打破数字计算的长期垄断,开启一个算力无处不在且绿色高效的新时代。 (综合自北京大学人工智能研究院、科技日报等)
我弟这样的初中生有救吗? 初一学生,近视700度,熬夜玩手机,凌晨两点睡,到校即睡眠,身体极差,别人说啥都不听,到家就躺在床上玩手机吃零食,躺的还是我的床(我住校),因为他害怕垃圾把蟑螂招来。 我们无法和他有效沟通,因为他永远都只用“非暴力不合作”一种方式来获得他想要的东西。 他的生长环境是比较矛盾的。我爸非常严厉,但他常年不在家;我妈性格比较极端,但你如果非要和她对着干,她是没有办法的,只会求神拜佛。 生活在我们家,听话、认真的人会非常痛苦,因为我妈发神经不需要理由,而且她一天到晚就是各种贬低,如果你和她较真,那你干脆别活了; 但搞“非暴力不合作”能活的很爽,因为他们把各种话骂完了之后就要开始求你了,而且对着干能激化各种矛盾,导致全家陷入内战,把痛苦转到别人身上,始作俑者反而自在,他已经产生路径依赖了。 而且他听不进人话,他的评价标准,不是“对”与“不对”,也不是“好”与“不好”,而是“烦”与“不烦”,只要他觉得“烦”,一概不听,从小就是这样。 我在他小学二年级的时候已经发现了这个问题,跟家长反映过好多次,但他们不仅不听,还动不动骂我,奶奶有时候也提这个事,但他们认为“长大了就好了”,就这么过好多年,这家伙不仅没有长大,而且愈发逆天,脸皮也是越来越厚了。 这种价值观是我弟的另一大法宝,只有我这种较真的人才会痛苦,而他从来没有破防过。 我弟也不是没有改变过,我上高一的时候,他上初一,他拿我的手机抄作业玩游戏,被“严厉”的父亲发现(是的,他从小学三年级开始抄作业,我爹在他初一的时候才知道),把我手机砸了。 我弟痛哭流涕,说他其实也想学习,只是不知道怎么学;他其实也没那么想玩手机,只是他离开手机就不知道干啥,感觉特别无聊,他也想改变自己。 在我爹的教诲下,他重新开始学习,家长给他请了假,他在家学了一个月,写的题比他过去几年都多。我爸大喜,给他办了休学,于是我弟又努力学习了一个月,他终于把小学内容学完了。 学完小学内容之后,他发现初中内容比小学内容难,于是他不打算学了。但他为了满足家长,又出工不出力地假装学习了一个月;后来,他完全不学了,但假装自己在学,又忽悠了家长一个月;再后来,他就演都不演了,进入躺平摆烂时期。 一开始,他只是躺在床上玩手机而已,那个手机被家长完全控制,里面除了背单词软件,什么应用都没有,但他就是能玩的起来,而且他没有开隐藏空间,虽然我也不知道他是怎么做到的。 又过了几个月,他甚至连可乐都不喝了,因为买饮料需要下楼,而这种程度的劳动对他来说是难以接受的。他像死人一样过了几个月以后,休学结束,到学校第一天,体育课,在操场上跑了两圈,两腿红肿酸胀不能举,在家躺了两天才能返校。 返校以后,他比以前拟人了不少,每天按时上学,生活也丰富了一点,会网购一些好用的小玩意,买蜜雪冰城的原材料给我弄饮料喝,弄一些零食在学校里卖,朋友也变多了,有时候还会运动,打羽毛球,散步之类的。这段时期,他吃的东西也少了(甚至到了不太健康的程度),体重降低了,虽然有点胖,但基本属于正常水平,总体还算正常。 但他最近又不运动了,买的东西也是垃圾食品占大头,而且沉迷电子产品的程度比躺平时期有过之而无不及,至少他以前在十二点之前是能睡觉的。 我对他也没什么要求,毕竟我认识的朋友都走了俩了,我这种见过生死的人不会纠结这些,他能“好好活着”就行——但他现在的种种行为,简直是属于慢性自杀的犯畴了,再这么下去,迟早整出各种身心问题,而且他初中毕业以后该怎么办呢? 上文已经讲过了,这小子听不进去人话;但他也算不上坏,没故意伤害过家里人,只是一昧自暴自弃让我们感到恶心而已,我想骂他都找不到机会。 注: 1.我们带他去脑科医院查过,完全正常,比我这种随身携带抗抑郁药的家伙健康得不是一点。 2.我爸妈比以前好多了,他们不咋吵架,对我弟也是鼓励为主,不用担心他俩把我弟拖回去,但我弟的行为模式一直没改过来,而且他已经路径依赖了,“非暴力不合作”天克我爹妈。。——转载知乎问题 这他弟还有救吗?
如今的Intel为什么连AMD都打不过?arm架构有可能在未来取代x86成为PC平台的主流吗? Intel如今不仅错过移动和AI领域的机遇,在传统PC市场也被AMD吊打,因为amd可以随时从x86上跳车,而intel把自己的后路绑死了,现在x86的ipc都在gdc附近打转,花了5年也没有赶上初代Apple silicon。 另外amd那边似乎已经开始要从x86跳船的势头,从放弃给笔记本soc添加新架构核显转而给三星定制移动gpu架构,还有不积极响应跟进intel的avx10和apx,还有新传闻在zen7放弃更高带宽的ddr6内存不跟进客户端ai叙事,以及暗中推进的woa soc可以看出。毕竟用一个arm的公版架构就能吊打所有x86大核的ppa,还有什么做in house的x86的必要呢?不过amd自己就是让x86错过在向64bit迁移时更新isa设计的千古罪人,arm都可以做到一个架构同时支持v7和v8,你amd设计不出来? x86这艘船以后大概只有intel自己划了。 现在是网络时代,人们获取软件的途径极为便利,不再像 2、30 年前那样找个软件和挖金矿没啥区别,打开浏览器,搜索一下,甚至只需要 windows 内带的 copilot 问一下,各种解决方案就扑面而来,这对 x86 这种以兼容性作为主要卖点的 ISA 来说是非常致命的。 摆在 ARM 面前征服 PC 的主要难点在于缺乏严谨应用的支持,例如工作站应用等,在 Windows ARM 版方面,这是很大的问题,暂时无解,需要像 AMD、NVIDIA 等显卡厂商通力合作才能铺平这条道路。 但是另一方面,我们也的确看到有诸如 NVIDIA 联合MTK在准备插足 Windows ARM 的消息,所以我觉得一切皆有可能的可能性又大了几分。
为什么CPU架构几十年不动,显卡架构每年换? 如题 为什么CPU X86架构几十年不动,近几年来老有人想换arm架构 RiscV架构上的,但是显卡架构每年换? 都知道CPU有两大架构,X86和ARM,但你有没有想过显卡架构呢?有没有人告诉你,显卡的架构也是分门别类,打生打死的存在 英伟达有bw ada 安培,AMD有GCN CDNA RDNA 苹果有metal,底层配合apple GPU. 还有ARM的mali架构,intel的xe架构,你以为这只是名字不一样,错了,这就像CPU的X86核,him一样,是决定性能,效率,应用场景的大脑核心。 只是大多数人从来没意识到显卡其实也有价格战,架构战,只不过他藏得更深,更难懂,那为什么CPU几十年就俩架构,显卡却架构乱飞,五花八门,难道显卡就随便换架构不怕兼容炸吗? 我们今天就来掀开这个谜团,其实GPU架构和CPU架构本质上是同一种概念,都是设计一个计算器怎么工作,只是侧重点不同,CPU更像你办公室的经理,强调调度,逻辑判断,分值预测和异常处理,所以它的架构一旦定死。 我动不了,动一下,整个生态系统都得跟着重写,但GPU是干粗活的流水线工人,他负责把大量重复的图形,矩阵,像素操作以及高效率推进去跑,你甚至可以说GPU的架构就像并行吞吐型的CPU架构,它有自己的指令集,自主调度机制和执行核心,英伟达的ada的架构,比如,就在前台安培的基础上加入了Shader Execution Re ordering光栅缓存优化,更深度的融合 Tensor core。 这和X86的乱序执行演进本质是一个逻辑更强的预测,更聪明的调度,更极致的吞吐,而ARM从GCN演进到现在RDNA CDNA就是就是从SIMD矢量逻辑切换到Scalar标量逻辑,彻底把传统GPU思路拆了重建,提升吞吐效率,像ARM从冯诺依曼分离结构走向统一缓存那种飞跃。 更吊的是,这些架构有时候还能脱离CPU独立执行任务,比如英伟达,最新的GPU就支持硬件及视频编解码,AI推理,光线追踪全都自己完成,根本不走CPU,而苹果也搞了个全家桶,自研GPU,说是统一内存加统一架构,但其实把10年前手机SOC的那套搬到电脑上卖高价罢了,电话机小鬼天天吹M系列SoC显卡GPU架构牛逼。 可你真的去看apple GPU的架构文档会发现他就是改了点调度,堆了些小模块,外加用metal 4 API封了个壳,说白了metal4 apu就是个半残板vulkan1.4,更何况它的渲染管线结构跟NV ada安培相比,简直就像手动挡摩托比F1赛车,你要真跑专业任务,那些动不动几十G的模型或者图形编译,apple,GPU直接被吊起来打。 为什么苹果要这么干?因为他不追求顶级性,他追求的是控制权和利润率,说白了,苹果做GPU架构的核心目的不是吊打别人,而是把你锁进自己的生态里,回过头看,我们就能理解一个现象,GPU架构看起来很自由,其实它内部约束很强,只不过这种约束不是来自操作系统,而是,来自任务模型本身。 CPU执行的是通用程序,GPU执行的是统一格式的线程块,你换个架构,只要能把,试着照样吃下去,底层怎么变都行,所以GPU厂商就可以像乐高一样,每一代拼点新模块,拉高一点性能,驱动一更新就能兼容,而CPU你敢这么玩,整个软件世界都得陪你爆炸。 总结一句话,GPU架构百花齐放,不是因为它简单,而是因为它的任务够纯粹,CPU架构没法乱动,不是因为他落后,而是他背的包袱太多,两者根本不是谁先进谁落后的问题,而是你要干什么的问题,等你下一次听到某人吹某GPU资源架构多厉害,你可以淡定的告诉他,世界上没有任何一个GPU架构,没参考过图灵结构,也没有哪个GPU可以CPU生态独立成神。 将彻底搞懂GPU和CPU架构的关系,下一期我们直接对比NV的Tensor core架构和X86CPU的AVX512向量指令,侦探谁吞吐能力更暴力。
6000以上没人买安卓啊,要么苹果要么华为 锐评 “小米16”改名“小米17” 按照卢总的说法,是想和iPhone17同代同台竞技 卢总也称呼苹果为“伟大的对手” 但是吧,我觉得各家安卓都八斤八两,谁也别说谁 小米早期吃了营销红利,现在也是受到了流量反噬,貌似每次小米的操作,都会引发无尽的“嘲讽” 客观来说,其实不止小米,OPPO和VIVO等等也是模仿苹果的“熟面孔”。 OPPO Reno系列的直边中框、外方里圆的相机Deco,几乎是iPhone设计的“像素级复刻”。 还有就是默许“OPhone”的称呼流传;Find X8系列更是直接照搬iPhone的实体拍照按键,仿佛只要贴着苹果的设计模板走,就能蹭到高端的边。 VIVO也没闲着,X200s的直屏+金属中框组合,把“果味”焊在了机身里,系统层面还推出“原子岛”对标灵动岛,美其名曰“适配安卓用户习惯”。 实则是对苹果美化的劣质模仿,虽然后面“上岛 m”确实很好用,也很香。 不过,有意思的是苹果也开始偷偷“抄安卓的作业”。iOS 16的小组件、息屏显示,iOS 18的通话录音、AI消除,这些安卓用户用了好几年的功能,如今成了苹果发布会的“新亮点”。 说到底,手机圈的“互抄”早不是新鲜事:安卓厂商盯着苹果的设计和生态找对标,苹果盯着安卓的实用功能补短板,网上的争吵也不过是这种同质化竞争的情绪外泄。 但问题在于,模仿能当“敲门砖”,却成不了“垫脚石”。卢总说苹果是“伟大的对手”,可真正的“同台竞技”,从来不是靠改个数字、抄个设计就能实现的,当小米的澎湃OS能和iOS一样流畅再说话吧。 当OPPO、VIVO能拿出让苹果都要跟进的原创技术,那时候就不用像现在一样反复拉扯了。
6000以上没人买安卓啊,要么苹果要么华为 锐评“小米16”改名“小米17” 按照卢总的说法,是想和iPhone17同代同台竞技卢总也称呼苹果为“伟大的对手” 但是吧,我觉得各家安卓都八斤八两,谁也别说谁 小米早期吃了营销红利,现在也是受到了流量反噬,貌似每次小米的操作,都会引发无尽的“嘲讽” 客观来说,其实不止小米,OPPO和VIVO等等也是模仿苹果的“熟面孔”。 OPPO Reno系列的直边中框、外方里圆的相机Deco,几乎是iPhone设计的“像素级复刻”。 还有就是默许“OPhone”的称呼流传;Find X8系列更是直接照搬iPhone的实体拍照按键,仿佛只要贴着苹果的设计模板走,就能蹭到高端的边。 VIVO也没闲着,X200s的直屏+金属中框组合,把“果味”焊在了机身里,系统层面还推出“原子岛”对标灵动岛,美其名曰“适配安卓用户习惯”。 实则是对苹果美化的劣质模仿,虽然后面“上岛”确实很好用,也很香。 不过,有意思的是苹果也开始偷偷“抄安卓的作业”。iOS 16的小组件、息屏显示,iOS 18的通话录音、AI消除,这些安卓用户用了好几年的功能,如今成了苹果发布会的“新亮点”。 说到底,手机圈的“互抄”早不是新鲜事:安卓厂商盯着苹果的设计和生态找对标,苹果盯着安卓的实用功能补短板,网上的争吵也不过是这种同质化竞争的情绪外泄。 但问题在于,模仿能当“敲门砖”,却成不了“垫脚石”。卢总说苹果是“伟大的对手”,可真正的“同台竞技”,从来不是靠改个数字、抄个设计就能实现的,当小米的澎湃OS能和iOS一样流畅再说话吧。 当OPPO、VIVO能拿出让苹果都要跟进的原创技术,那时候就不用像现在一样反复拉扯了。
首页 1 2 下一页