马斯克突然发推夸了一家中国公司——十年没人敢动的东西被动了!
amd吧
全部回复
仅看楼主
level 5
转自微信公众号:科学羊 2026.3.19
3月中,马斯克在推特上发了一条只有四个字的推文:「Impressive work from Kimi.」——马斯克,推特
Kimi,中国的AI公司月之暗面。
马斯克不是个爱夸人的人。他夸过的公司屈指可数,每一次都引发一阵讨论。
但这次,他夸的却是一篇技术论文。
我去把那篇论文读了一遍。读完之后,我决定把它翻译成人话讲给你听——因为这件事真的值得被更多人知道。
先从一栋大楼说起,你可以把现在所有的AI大模型,想象成一栋100层的大楼。
每一层都有一批工人在干活。他们的任务是:拿到上一层递下来的文件,处理一遍,再把结果传给下一层。
就这样一层一层传,传到第100层,AI给出最终答案。听起来挺合理对吧?
但有一个问题,被忽视了整整十年。问题是这样的:每一层工人收到的,是一份被改了N遍的混合文件。
第3层写的原始内容?早就被后面的人改掉了,找不回来了。
第10层发现的重要结论?被混进了后面99层的内容里,稀释得无影无踪。
到了第100层,那个工人只能对着一份糊成一团的文件工作。他想说"我需要第3层的原始数据"——没办法,拿不到。
这个"一层只能看上一层"的传递方式,有个专业名字,叫残差连接。
它是2015年提出的。自那以后,全世界所有的AI大模型,包括ChatGPT、Gemini、Claude,全都在用它。
没有人觉得需要改。它就像大楼的地基,大家默认它是对的,没人去质疑。
时间来到2017年。
那一年,谷歌发了一篇改变AI历史的论文,名字叫《Attention Is All You Need》(注意力就是你所需要的全部)。
这篇论文解决了一个大问题:AI在读一句话的时候,怎么理解词与词之间的关系?
以前的方法,是把读过的词一个个压缩存起来,一路传下去。读到"它"这个词,想知道指的是前面的"猫"还是"狗"?不知道,全混一起了。
谷歌的解法是:注意力机制。
让每个词在处理时,都能回头直接看句子里所有其他的词,自己决定该关注哪个。
这个方案太好用了,直接催生了今天所有的大模型。GPT、Kimi、文心一言,全是这个架构的后代。
但有个地方,那篇论文没有动:
层与层之间的传递方式——残差连接——还是2015年的老方法。
谷歌升级了"词与词之间"的信息流,但没有升级"层与层之间"的信息流。
这个缺口,等了九年,没有人填。
Kimi的研究团队想到了一件事:“处理文字时,我们已经用注意力替代了压缩传递。那层与层之间,为什么还在用压缩传递?”
他们的解法,用大白话说,就是:给每一层装一部电话。
以前的大楼:每层工人只能看上一层递来的混合文件,没有别的选择。
装了电话之后:第100层的工人如果需要第3层的原始数据,直接打电话过去,马上拿到,不用翻那份被改了97遍的混合文件。
更关键的是:打给谁,不是固定的。
每次处理不同的问题,每一层会根据当前的内容,自己决定最需要回头查哪一层的资料。不是死规定,是活的判断。
这个方案,他们叫它AttnRes(注意力残差)。
Kimi在自家的大模型上做了测试。
结果是这样的:
最后那行是关键:机器没加,数据没加,只是改了信息传递的方式,性能就提升了相当于多烧25%算力的效果。
对普通人来说,这意味着什么?
意味着同样的手机、同样的芯片,跑出来的AI会更聪明。意味着同样的服务器成本,能做出更强的产品。意味着AI变强,不一定要靠堆钱、堆算力。
2026年03月19日 02点03分 1
level 5
还有一件有意思的事,在Kimi研究这个问题的差不多同一时间,DeepSeek也在做类似的事情。
两家公司,几乎同时发现了同一个被忽视十年的问题。
但他们的解法不同:DeepSeek的方案,是让权重变得可以学习——但学完就固定了,不管面对什么问题,权重都一样。
Kimi的方案,是让每一层都能动态决定回头查谁——根据当前问题实时调整,每次都不同。
打个比方:
DeepSeek的方案,像是给工人发了一张固定的通讯录,训练期间学好、记住,以后按图索骥。
Kimi的方案,像是给工人装了实时搜索——每次遇到新问题,都重新判断该找谁,随机应变。
马斯克夸的是Kimi那篇。
为什么这件事值得被更多人知道,因为过去几年,AI的进步方式,主要是两种:
一种是堆资源——更多数据、更大模型、更强算力。这条路越来越贵,越来越难。
一种是改上层结构——注意力机制的各种变体、更聪明的推理方式。这些都有价值,但都建立在一个没人质疑的地基上。
Kimi做的事情,是回到地基本身,把那个2015年埋下来的默认配置重新审视了一遍。
《AttentionIsAllYouNeed》当年改写了AI的横向信息流——词与词之间。
Kimi这篇,改写的是AI的纵向信息流——层与层之间。
前者等了九年,才有人接着做。
这不只是一篇学术论文。它指向的是:AI变强,还有另一条路——不靠钱,靠想清楚一个被忽视的问题。
而这件事,是两家中国公司做到的。
骄傲吧!
好了,今天就到这里了。
科学羊20260319
2026年03月19日 02点03分 2
但是这么说来kimi也对环境需求更高,我认为短期来看不会有太大的个人应用空间
2026年03月23日 11点03分
国内公司算力不足只能找思路省算力
2026年03月23日 23点03分
level 1
算力还是基础,这些都是改进改良。
2026年03月19日 23点03分 3
国产ai总算崛起了,之前心里一直憋着口气[泪][泪][泪]
2026年03月21日 01点03分
level 6
算力还是基础啊,一年前吹的英伟达都要完蛋了,结果还是得靠算力显卡[你懂的]
2026年03月20日 01点03分 4
这样的改良越多 英伟达越完蛋 因为股票市场是做提前量的 他现在的估值 已经把你以后需要的算力转化成芯片 再转化成利润 体现在估值里了 如果你以后因为某些技术改进 不需要这么多算力了 那么 现有的估值是多估了 那么股价就会下跌
2026年03月21日 00点03分
英伟达卖挖掘机挖矿,结果有人发现用镐就能挖
2026年03月21日 12点03分
毕竟算法是有极限的
2026年03月21日 00点03分
@wocnibaba 人脑算力很差的,现有算法和架构太辣了,只能粗暴的堆算力,研究算法架构才是正道
2026年03月21日 17点03分
level 11
不是timi?
2026年03月20日 01点03分 5
。。。。。。。。
2026年03月25日 12点03分
level 10
我们管他叫索引
2026年03月20日 02点03分 6
level 1
不是timi?
2026年03月20日 02点03分 7
符合我对这个头像的刻板印象[太开心]
2026年03月21日 19点03分
level 10
手机是把数据传到服务器去运算。不是自己算
2026年03月20日 03点03分 8
早就有可以在手机上跑的离线小模型了,那些0.8b,1.5b的小模型就是给手机或者嵌入式设备等等边缘计算设备准备的,你没玩过而已,这种提升对小模型的效果特别明显,大模型感知反而不强,因为大模型的可用算力太多了。小模型受限于硬件配置,能提升25%,就能获得更快的响应速度或更高的准确率。
2026年03月22日 22点03分
@尼玛见鬼了耶 我苹果国行都能跑,哪里实验室了,自己没见过罢了
2026年03月24日 06点03分
@浪迹孤独子 实验室产品,传说中的豆包手机还没正式上市
2026年03月23日 05点03分
level 11
kimi非常好用,前年AI还不是那么火的时候,kimi是当时国内唯一支持长上下文的AI,其他AI输出不了多少字就中断。现在kimi的问题是现在用的人太多了,高概率不可用,一直提示忙碌要你买vip。
2026年03月20日 03点03分 9
这个长对话我看特斯拉车机做的也挺好啊,不知道他们用的哪家大模型?国内的AI我都用过,刚开始体验都还行,火起来后就变成一坨了,我喂一段代码都能成敏感词给毙了
2026年03月21日 20点03分
主要是他这个会员非常烦人啊[喷],好用真好用
2026年03月22日 04点03分
国内ai最开始就是kimi和豆包两家独大
2026年03月23日 06点03分
level 6
现在变了,吃相难看
2026年03月20日 03点03分 10
level 1
啊,residual可以直接加softmax也有提升?我怎么感觉我试过了没有提升[喷][喷]
2026年03月20日 07点03分 11
level 9
作用不大,并且如果我没记错的话残差连接并不是你描述的这样
2026年03月20日 07点03分 12
作用还是挺大的。resnet都是快十年前的了
2026年03月21日 14点03分
省了1/4的推理成本,对各项能力也有提升
2026年03月21日 16点03分
level 1
我问了kimi两个问题,第一个花费了数小时,结果它一直拿一个网站所有评论为依据,跟第一个搜索来的理论逻辑混在一起,并且认为这是铁证如山。直到我自己找到了答案,发现剧集事实被它篡改。它还是根据第一条搜索结果来质疑,是否我的记忆混乱,告诉了它两遍才纠错成功
第二次我学会了,第一个答案出来以后直接问它出自哪里,哪一段,它回答不出来自然开始找真正的答案。
这就是所谓的注意力? 首先需要的是分辨能力好吧
2026年03月20日 09点03分 13
@吾铭逝 注意力机制是用来计算词与词之间联系权重的,能不能不要老是拿自然语言去理解有严格定义的专业词汇?
2026年03月21日 01点03分
注意力机制不是真的人类的“注意力”,只是在ai网络中引入了顺序和更长程的信息关联性,不要混淆两者的概念
2026年03月23日 07点03分
-
马斯克跟特朗普一体[捂嘴笑]指不定又是吸引那些特神教信众去买股票然后他们捞金的[捂嘴笑]
2026年03月20日 12点03分
@Galois Guo AI知识为0的人讨论起了技术,太搞笑了[笑眼]
2026年03月22日 04点03分
level 2
有没有可能残差连接就是在多个隐藏层之间跳跃式前向传播而不是传统深度网络只从上一层前向传播…
2026年03月20日 09点03分 14
这个注意力残差本质也还是残差网络,并没有动到所谓的地基上
2026年03月20日 09点03分
level 4
最近kimi智商严重下降了,不知道为啥,还经常断线
2026年03月20日 10点03分 15
@黑脸的窦尔敦🌚 果然是人工智能,换人就降智
2026年03月21日 05点03分
智商下降一般是因为团队核心成员被挖走了
2026年03月20日 13点03分
@zgan 什么能工智人[滑稽][滑稽]
2026年03月22日 20点03分
@黑脸的窦尔敦🌚 所以自动贩卖机里面是真的有个人在帮你拿商品是嘛哈哈哈哈哈[哈哈][哈哈]
2026年03月24日 08点03分
1 2 3 尾页