首先是FlashMask 动态注意力掩码。FlashMask 是由百度飞桨团队在论文《FlashMask: Efficient and Rich Mask Extension of FlashAttention》中提出的一种创新的注意力掩码优化技术,旨在解决 Transformer 类大模型中注意力掩码计算的冗余和存储开销问题。FlashMask 通过列式稀疏掩码表示方法,将传统的二维稠密掩码矩阵转换为一维的行索引区间表示,从而显著降低了存储复杂度,从 O (N^2) 降低到 O (N)。极致的加速了大模型训练效率,尤其是长序列场景下的训练效率。