level 5
苍穹浩瀚18
楼主
转自微信公众号:科学羊 2026.3.19

3月中,马斯克在推特上发了一条只有四个字的推文:「Impressive work from Kimi.」——马斯克,推特
Kimi,中国的AI公司月之暗面。
马斯克不是个爱夸人的人。他夸过的公司屈指可数,每一次都引发一阵讨论。
但这次,他夸的却是一篇技术论文。

我去把那篇论文读了一遍。读完之后,我决定把它翻译成人话讲给你听——因为这件事真的值得被更多人知道。
先从一栋大楼说起,你可以把现在所有的AI大模型,想象成一栋100层的大楼。
每一层都有一批工人在干活。他们的任务是:拿到上一层递下来的文件,处理一遍,再把结果传给下一层。
就这样一层一层传,传到第100层,AI给出最终答案。听起来挺合理对吧?
但有一个问题,被忽视了整整十年。问题是这样的:每一层工人收到的,是一份被改了N遍的混合文件。
第3层写的原始内容?早就被后面的人改掉了,找不回来了。
第10层发现的重要结论?被混进了后面99层的内容里,稀释得无影无踪。
到了第100层,那个工人只能对着一份糊成一团的文件工作。他想说"我需要第3层的原始数据"——没办法,拿不到。
这个"一层只能看上一层"的传递方式,有个专业名字,叫残差连接。

它是2015年提出的。自那以后,全世界所有的AI大模型,包括ChatGPT、Gemini、Claude,全都在用它。
没有人觉得需要改。它就像大楼的地基,大家默认它是对的,没人去质疑。
时间来到2017年。
那一年,谷歌发了一篇改变AI历史的论文,名字叫《Attention Is All You Need》(注意力就是你所需要的全部)。

这篇论文解决了一个大问题:AI在读一句话的时候,怎么理解词与词之间的关系?
以前的方法,是把读过的词一个个压缩存起来,一路传下去。读到"它"这个词,想知道指的是前面的"猫"还是"狗"?不知道,全混一起了。
谷歌的解法是:注意力机制。
让每个词在处理时,都能回头直接看句子里所有其他的词,自己决定该关注哪个。
这个方案太好用了,直接催生了今天所有的大模型。GPT、Kimi、文心一言,全是这个架构的后代。
但有个地方,那篇论文没有动:
层与层之间的传递方式——残差连接——还是2015年的老方法。
谷歌升级了"词与词之间"的信息流,但没有升级"层与层之间"的信息流。
这个缺口,等了九年,没有人填。
Kimi的研究团队想到了一件事:“处理文字时,我们已经用注意力替代了压缩传递。那层与层之间,为什么还在用压缩传递?”
他们的解法,用大白话说,就是:给每一层装一部电话。
以前的大楼:每层工人只能看上一层递来的混合文件,没有别的选择。
装了电话之后:第100层的工人如果需要第3层的原始数据,直接打电话过去,马上拿到,不用翻那份被改了97遍的混合文件。
更关键的是:打给谁,不是固定的。
每次处理不同的问题,每一层会根据当前的内容,自己决定最需要回头查哪一层的资料。不是死规定,是活的判断。
这个方案,他们叫它AttnRes(注意力残差)。
Kimi在自家的大模型上做了测试。
结果是这样的:

最后那行是关键:机器没加,数据没加,只是改了信息传递的方式,性能就提升了相当于多烧25%算力的效果。
对普通人来说,这意味着什么?
意味着同样的手机、同样的芯片,跑出来的AI会更聪明。意味着同样的服务器成本,能做出更强的产品。意味着AI变强,不一定要靠堆钱、堆算力。
2026年03月19日 02点03分
1

3月中,马斯克在推特上发了一条只有四个字的推文:「Impressive work from Kimi.」——马斯克,推特Kimi,中国的AI公司月之暗面。
马斯克不是个爱夸人的人。他夸过的公司屈指可数,每一次都引发一阵讨论。
但这次,他夸的却是一篇技术论文。

我去把那篇论文读了一遍。读完之后,我决定把它翻译成人话讲给你听——因为这件事真的值得被更多人知道。先从一栋大楼说起,你可以把现在所有的AI大模型,想象成一栋100层的大楼。
每一层都有一批工人在干活。他们的任务是:拿到上一层递下来的文件,处理一遍,再把结果传给下一层。
就这样一层一层传,传到第100层,AI给出最终答案。听起来挺合理对吧?
但有一个问题,被忽视了整整十年。问题是这样的:每一层工人收到的,是一份被改了N遍的混合文件。
第3层写的原始内容?早就被后面的人改掉了,找不回来了。
第10层发现的重要结论?被混进了后面99层的内容里,稀释得无影无踪。
到了第100层,那个工人只能对着一份糊成一团的文件工作。他想说"我需要第3层的原始数据"——没办法,拿不到。
这个"一层只能看上一层"的传递方式,有个专业名字,叫残差连接。

它是2015年提出的。自那以后,全世界所有的AI大模型,包括ChatGPT、Gemini、Claude,全都在用它。没有人觉得需要改。它就像大楼的地基,大家默认它是对的,没人去质疑。
时间来到2017年。
那一年,谷歌发了一篇改变AI历史的论文,名字叫《Attention Is All You Need》(注意力就是你所需要的全部)。

这篇论文解决了一个大问题:AI在读一句话的时候,怎么理解词与词之间的关系?以前的方法,是把读过的词一个个压缩存起来,一路传下去。读到"它"这个词,想知道指的是前面的"猫"还是"狗"?不知道,全混一起了。
谷歌的解法是:注意力机制。
让每个词在处理时,都能回头直接看句子里所有其他的词,自己决定该关注哪个。
这个方案太好用了,直接催生了今天所有的大模型。GPT、Kimi、文心一言,全是这个架构的后代。
但有个地方,那篇论文没有动:
层与层之间的传递方式——残差连接——还是2015年的老方法。
谷歌升级了"词与词之间"的信息流,但没有升级"层与层之间"的信息流。
这个缺口,等了九年,没有人填。
Kimi的研究团队想到了一件事:“处理文字时,我们已经用注意力替代了压缩传递。那层与层之间,为什么还在用压缩传递?”
他们的解法,用大白话说,就是:给每一层装一部电话。
以前的大楼:每层工人只能看上一层递来的混合文件,没有别的选择。
装了电话之后:第100层的工人如果需要第3层的原始数据,直接打电话过去,马上拿到,不用翻那份被改了97遍的混合文件。
更关键的是:打给谁,不是固定的。
每次处理不同的问题,每一层会根据当前的内容,自己决定最需要回头查哪一层的资料。不是死规定,是活的判断。
这个方案,他们叫它AttnRes(注意力残差)。
Kimi在自家的大模型上做了测试。
结果是这样的:

最后那行是关键:机器没加,数据没加,只是改了信息传递的方式,性能就提升了相当于多烧25%算力的效果。对普通人来说,这意味着什么?
意味着同样的手机、同样的芯片,跑出来的AI会更聪明。意味着同样的服务器成本,能做出更强的产品。意味着AI变强,不一定要靠堆钱、堆算力。
