📢 GM!Gate 广场|4/5 热议:#假期持币指南
🌿 踏青还是盯盘?#假期持币指南 带你过个“松弛感”长假!
春光正好,你是选择在山间深呼吸,还是在 K 线里找时机?在这个清明假期,晒出你的持币态度,做个精神饱满的交易员!
🎁 分享生活/交易感悟,抽 5 位锦鲤瓜分 $1,000 仓位体验券!
💬 茶余饭后聊聊:
1️⃣ 休假心态: 你是“关掉通知、彻底失联”派,还是“每 30 分钟必刷行情”派?
2️⃣ 懒人秘籍: 假期不想盯盘?分享你的“挂机”策略(定投/网格/理财)。
3️⃣ 四月展望: 假期过后,你最看好哪个币种“春暖花开”?
分享你的假期姿态 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
是什么报告让马斯克看了也觉得不可思议?
Moonshot AI(Kimi团队)最近扔出一篇炸裂的技术报告:《Attention Residuals》,直接把 Transformer 里用了快 10年的残差连接(Residual Connections)给升级了。结果连 Elon Musk 都忍不住留言,感觉不可思议(unbelievable 级别的震惊)。
这篇的核心一句话就能概括:
“别再让每一层都傻傻地把前面所有层的信息等权重加起来了,让模型自己学会用注意力去挑哪些早期层的信号才真正有用!”
传统 Transformer(PreNorm结构)里,每一层的输出是:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
简单粗暴:不管前面 100层的信息到底有没有用,都一股脑加进来。层数一深,早期重要信号就被后面无数层稀释得快没了(他们叫这个现象 PreNorm dilution 或 representational dilution)。
Kimi团队直接把这个“+”号换成了一个轻量级的跨层注意力(depth-wise attention):
新公式大概长这样(简化版):
x_l = Attention( Q=x_l^{pre}, K=汇总前面所有层的summary, V=对应value ) + 其他东西
更实际的实现他们叫 Block AttnRes:每隔几层(比如8-16层)做一个总结 key/value,然后用注意力去选这些 总结,而不是每一层都算注意力。这样内存和算量增加很少(推理延迟<2%),但效果很猛。
他们实验结果(用他们自己的Kimi Linear系列模型,48B total / 3B active那种):
• 同等 FLOPs 下,性能提升相当于1.25倍算力优势
• 长序列推理、复杂多步推理任务提升明显
• 隐藏状态的 magnitude(范数)更稳定,不像传统残差那样越深越爆炸或越衰减
• 梯度传播更均匀,深层更容易训练
⚠️⚠️
问题来了,为什么马斯克那么大反应?
“残差连接躺了八年,终于有人敢动它了,而且动得这么优雅,效果还这么好?!”
这玩意儿为什么得注重?因为残差连接几乎是 Transformer 能训到100+层、甚至上千层的唯一救命稻草,大家都觉得已经最优了没法改。结果 Kimi 用最熟悉的注意力机制,反过来治了一下残差本身的问题,等于把注意力就是你需要的全部这句话又玩出了新高度。
现在已经有 Rust实现(基于burn框架)、各种可视化解释图在 X 上刷屏,还有人说这是继 DeepSeek mHC 之后,又一个真正能进下一代开源/闭源大模型的架构创新。
你要是做大模型、训自己的LLM、这篇报告值得连夜读原版 + 代码(GitHub已经开源)。
报告:
准备好被震撼吧 🚀