马斯克突然发推夸了一家中国公司——十年没人敢动的东西被动了！ - amd吧

level 5

苍穹浩瀚18 楼主

转自微信公众号：科学羊 2026.3.19

3月中，马斯克在推特上发了一条只有四个字的推文：「Impressive work from Kimi.」——马斯克，推特
Kimi，中国的AI公司月之暗面。
马斯克不是个爱夸人的人。他夸过的公司屈指可数，每一次都引发一阵讨论。
但这次，他夸的却是一篇技术论文。

我去把那篇论文读了一遍。读完之后，我决定把它翻译成人话讲给你听——因为这件事真的值得被更多人知道。
先从一栋大楼说起，你可以把现在所有的AI大模型，想象成一栋100层的大楼。
每一层都有一批工人在干活。他们的任务是：拿到上一层递下来的文件，处理一遍，再把结果传给下一层。
就这样一层一层传，传到第100层，AI给出最终答案。听起来挺合理对吧？
但有一个问题，被忽视了整整十年。问题是这样的：每一层工人收到的，是一份被改了N遍的混合文件。
第3层写的原始内容？早就被后面的人改掉了，找不回来了。
第10层发现的重要结论？被混进了后面99层的内容里，稀释得无影无踪。
到了第100层，那个工人只能对着一份糊成一团的文件工作。他想说"我需要第3层的原始数据"——没办法，拿不到。
这个"一层只能看上一层"的传递方式，有个专业名字，叫残差连接。

它是2015年提出的。自那以后，全世界所有的AI大模型，包括ChatGPT、Gemini、Claude，全都在用它。
没有人觉得需要改。它就像大楼的地基，大家默认它是对的，没人去质疑。
时间来到2017年。
那一年，谷歌发了一篇改变AI历史的论文，名字叫《Attention Is All You Need》（注意力就是你所需要的全部）。

这篇论文解决了一个大问题：AI在读一句话的时候，怎么理解词与词之间的关系？
以前的方法，是把读过的词一个个压缩存起来，一路传下去。读到"它"这个词，想知道指的是前面的"猫"还是"狗"？不知道，全混一起了。
谷歌的解法是：注意力机制。
让每个词在处理时，都能回头直接看句子里所有其他的词，自己决定该关注哪个。
这个方案太好用了，直接催生了今天所有的大模型。GPT、Kimi、文心一言，全是这个架构的后代。
但有个地方，那篇论文没有动：
层与层之间的传递方式——残差连接——还是2015年的老方法。
谷歌升级了"词与词之间"的信息流，但没有升级"层与层之间"的信息流。
这个缺口，等了九年，没有人填。
Kimi的研究团队想到了一件事：“处理文字时，我们已经用注意力替代了压缩传递。那层与层之间，为什么还在用压缩传递？”
他们的解法，用大白话说，就是：给每一层装一部电话。
以前的大楼：每层工人只能看上一层递来的混合文件，没有别的选择。
装了电话之后：第100层的工人如果需要第3层的原始数据，直接打电话过去，马上拿到，不用翻那份被改了97遍的混合文件。
更关键的是：打给谁，不是固定的。
每次处理不同的问题，每一层会根据当前的内容，自己决定最需要回头查哪一层的资料。不是死规定，是活的判断。
这个方案，他们叫它AttnRes（注意力残差）。
Kimi在自家的大模型上做了测试。
结果是这样的：

最后那行是关键：机器没加，数据没加，只是改了信息传递的方式，性能就提升了相当于多烧25%算力的效果。
对普通人来说，这意味着什么？
意味着同样的手机、同样的芯片，跑出来的AI会更聪明。意味着同样的服务器成本，能做出更强的产品。意味着AI变强，不一定要靠堆钱、堆算力。

2026年03月19日 02点03分 1

level 5

苍穹浩瀚18 楼主

还有一件有意思的事，在Kimi研究这个问题的差不多同一时间，DeepSeek也在做类似的事情。
两家公司，几乎同时发现了同一个被忽视十年的问题。
但他们的解法不同：DeepSeek的方案，是让权重变得可以学习——但学完就固定了，不管面对什么问题，权重都一样。
Kimi的方案，是让每一层都能动态决定回头查谁——根据当前问题实时调整，每次都不同。
打个比方：
DeepSeek的方案，像是给工人发了一张固定的通讯录，训练期间学好、记住，以后按图索骥。
Kimi的方案，像是给工人装了实时搜索——每次遇到新问题，都重新判断该找谁，随机应变。
马斯克夸的是Kimi那篇。
为什么这件事值得被更多人知道，因为过去几年，AI的进步方式，主要是两种：
一种是堆资源——更多数据、更大模型、更强算力。这条路越来越贵，越来越难。
一种是改上层结构——注意力机制的各种变体、更聪明的推理方式。这些都有价值，但都建立在一个没人质疑的地基上。
Kimi做的事情，是回到地基本身，把那个2015年埋下来的默认配置重新审视了一遍。
《AttentionIsAllYouNeed》当年改写了AI的横向信息流——词与词之间。
Kimi这篇，改写的是AI的纵向信息流——层与层之间。
前者等了九年，才有人接着做。
这不只是一篇学术论文。它指向的是：AI变强，还有另一条路——不靠钱，靠想清楚一个被忽视的问题。
而这件事，是两家中国公司做到的。
骄傲吧！
好了，今天就到这里了。
科学羊20260319

2026年03月19日 02点03分 2

扁平爱丽丝

但是这么说来kimi也对环境需求更高，我认为短期来看不会有太大的个人应用空间

2026年03月23日 11点03分

孤命天灾

国内公司算力不足只能找思路省算力

2026年03月23日 23点03分

level 1

真实100分

算力还是基础，这些都是改进改良。

2026年03月19日 23点03分 3

竭沢而Yui♬

国产ai总算崛起了，之前心里一直憋着口气 [泪]

2026年03月21日 01点03分

level 6

大肠杆菌游不过培养皿

算力还是基础啊，一年前吹的英伟达都要完蛋了，结果还是得靠算力显卡 [你懂的]

2026年03月20日 01点03分 4

不砍树的德国萌新

这样的改良越多英伟达越完蛋因为股票市场是做提前量的他现在的估值已经把你以后需要的算力转化成芯片再转化成利润体现在估值里了如果你以后因为某些技术改进不需要这么多算力了那么现有的估值是多估了那么股价就会下跌

2026年03月21日 00点03分

sparking233

英伟达卖挖掘机挖矿，结果有人发现用镐就能挖

2026年03月21日 12点03分

wocnibaba

毕竟算法是有极限的

2026年03月21日 00点03分

冰面水紋

@wocnibaba 人脑算力很差的，现有算法和架构太辣了，只能粗暴的堆算力，研究算法架构才是正道

2026年03月21日 17点03分

level 11

从见泷原到四轩茶屋

不是timi？

2026年03月20日 01点03分 5

梦灵剑丶云遥

。。。。。。。。

2026年03月25日 12点03分

level 10

爱逆流而上的鱼

我们管他叫索引

2026年03月20日 02点03分 6

level 1

车厘子msl

不是timi？

2026年03月20日 02点03分 7

astronaut*

符合我对这个头像的刻板印象 [太开心]

2026年03月21日 19点03分

level 10

尼玛见鬼了耶

手机是把数据传到服务器去运算。不是自己算

2026年03月20日 03点03分 8

浪迹孤独子

早就有可以在手机上跑的离线小模型了，那些0.8b，1.5b的小模型就是给手机或者嵌入式设备等等边缘计算设备准备的，你没玩过而已，这种提升对小模型的效果特别明显，大模型感知反而不强，因为大模型的可用算力太多了。小模型受限于硬件配置，能提升25%，就能获得更快的响应速度或更高的准确率。

2026年03月22日 22点03分

yzy1538iPhone

@尼玛见鬼了耶我苹果国行都能跑，哪里实验室了，自己没见过罢了

2026年03月24日 06点03分

尼玛见鬼了耶

@浪迹孤独子实验室产品，传说中的豆包手机还没正式上市

2026年03月23日 05点03分

level 11

进击的剑飞

kimi非常好用，前年AI还不是那么火的时候，kimi是当时国内唯一支持长上下文的AI，其他AI输出不了多少字就中断。现在kimi的问题是现在用的人太多了，高概率不可用，一直提示忙碌要你买vip。

2026年03月20日 03点03分 9

贴吧用户_G3DbaRN

这个长对话我看特斯拉车机做的也挺好啊，不知道他们用的哪家大模型？国内的AI我都用过，刚开始体验都还行，火起来后就变成一坨了，我喂一段代码都能成敏感词给毙了

2026年03月21日 20点03分

抽纸.

主要是他这个会员非常烦人啊 [喷]

，好用真好用

2026年03月22日 04点03分

1小朱123

国内ai最开始就是kimi和豆包两家独大

2026年03月23日 06点03分

level 6

我和上官燕♂

现在变了，吃相难看

2026年03月20日 03点03分 10

level 1

守望丿隐

啊,residual可以直接加softmax也有提升？我怎么感觉我试过了没有提升 [喷]

2026年03月20日 07点03分 11

level 9

飞矢

作用不大，并且如果我没记错的话残差连接并不是你描述的这样

2026年03月20日 07点03分 12

48400欧⚡

作用还是挺大的。resnet都是快十年前的了

2026年03月21日 14点03分

今颠没次

省了1/4的推理成本，对各项能力也有提升

2026年03月21日 16点03分

level 1

互相描绘的你♬

我问了kimi两个问题，第一个花费了数小时，结果它一直拿一个网站所有评论为依据，跟第一个搜索来的理论逻辑混在一起，并且认为这是铁证如山。直到我自己找到了答案，发现剧集事实被它篡改。它还是根据第一条搜索结果来质疑，是否我的记忆混乱，告诉了它两遍才纠错成功
第二次我学会了，第一个答案出来以后直接问它出自哪里，哪一段，它回答不出来自然开始找真正的答案。
这就是所谓的注意力？首先需要的是分辨能力好吧

2026年03月20日 09点03分 13