Nous Research 在 B200 上为 512K 上下文开源 Lighthouse Attention,并实现 17 倍加速

据 Beating,Nous Research 已开源 Lighthouse Attention,这是一种长上下文训练机制,可在单个 B200 GPU 上对 512K 长度文本处理实现 17x 的加速,并在 98K 长度下实现 1.4–1.7x 的端到端训练加速。该技术采用从粗到细的方法:它首先在不同层级扫描压缩摘要,以识别核心片段,然后将过滤后的文本交给 FlashAttention 进行处理。在针对一个训练于 500 亿 tokens 的 51.2万参数模型的测试中,该方法不仅减少了训练时间,而且与仅基于全注意力的训练基线表现相比,达到了或超过了基线性能。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论