据 Beating,Nous Research 已开源 Lighthouse Attention,这是一种长上下文训练机制,可在单个 B200 GPU 上对 512K 长度文本处理实现 17x 的加速,并在 98K 长度下实现 1.4–1.7x 的端到端训练加速。该技术采用从粗到细的方法:它首先在不同层级扫描压缩摘要,以识别核心片段,然后将过滤后的文本交给 FlashAttention 进行处理。在针对一个训练于 500 亿 tokens 的 51.2万参数模型的测试中,该方法不仅减少了训练时间,而且与仅基于全注意力的训练基线表现相比,达到了或超过了基线性能。
相关快讯