Deepseek技术解析之三：动态稀疏注意力NSA机制

——硬件友好型创新的数学原理与工程

NSA（Native Sparse Attention）通过三重注意力分支的协同，突破传统全注意力机制的O(n²)复杂度瓶颈：

压缩注意力（Compressed Attention）
将每512个token的序列块压缩为32个语义向量（压缩率94%），通过可训练MLP捕获全局上下文，计算复杂度从O(L²)降至O(L/16)²。
选择性注意力（Selected Attention）
动态筛选Top-64关键token块（保留率12.5%），基于注意力熵值进行可微分路由，保留细粒度重要信息。
滑动窗口注意力（Sliding Attention）
采用局部128-token窗口处理邻近上下文，利用GPU共享内存特性实现显存带宽利用率提升40%。

数学优势：
总计算量由传统MHA的 O(L2d)O(L2d) 降低至 O(L1.5d)O(L1.5d)，在64k tokens场景下，理论加速比达11.6倍。

NSA针对NVIDIA GPU架构实现四大关键优化：

分组中心数据加载（Group-Centric Loading）
将同一GQA组的query头同时加载至SRAM处理，KV数据传输冗余减少78%，H100 GPU的Tensor Core利用率达91%。
连续内存访问模式
对稀疏块采用连续存储策略，使L2缓存命中率提升至89%，较传统稀疏注意力提升2.3倍。
动态核融合调度
根据序列长度自动选择Warp级（<4k tokens）或Block级（≥4k tokens）并行核，A100 GPU计算峰值突破580TFLOPS。
FP8混合精度通信
压缩注意力分支采用8位浮点格式交互，通信带宽需求降低50%，精度损失控制在0.3%以内。

实测效果：
在64k tokens长序列推理中，NSA前向传播延迟仅0.4秒（全注意力需4.7秒），反向传播速度提升6倍。

NSA实现从预训练到推理的全周期稀疏化，打破传统稀疏注意力仅用于推理的局限：

训练成本对比：
在270B tokens数据集上，NSA预训练成本较全注意力模型降低62%，达到同等性能水平。

NSA在三大场景展现显著优势：

NSA推动三大变革：

DeepSeek-V3已验证NSA+MoE联合架构的可行性7：

动态专家路由：MoE门控网络与NSA的token选择器共享底层特征，计算冗余减少28%
显存协同管理：专家参数与注意力稀疏块共用HBM显存池，128k tokens训练批次显存占用降低41%
实验显示，联合架构在32k tokens代码生成任务中，训练速度较纯NSA提升1.7倍，推理成本较纯MoE降低53%

端侧大模型开发者社区