DeepSeek 推出 NSA 技术：加速长上下文训练与推理

AI头条发布于 1970-1-1 08:00

2025年2月18日，DeepSeek团队在海外社交平台X上发布了一篇关于NSA（Natively Sparse Attention，原生稀疏注意力）的技术论文。这项技术旨在通过优化长文本处理能力，大 ...

2025年2月18日，DeepSeek团队在海外社交平台X上发布了一篇关于NSA（Natively Sparse Attention，原生稀疏注意力）的技术论文。这项技术旨在通过优化长文本处理能力，大幅提升人工智能模型的效率，同时保持高性能输出。

🔗论文地址： https://arxiv.org/pdf/2502.11089v1

NSA技术简介

NSA是一种专为现代硬件优化的稀疏注意力机制，旨在加速长文本的训练和推理过程，同时显著降低预训练成本。与传统的全注意力模型相比，NSA通过动态分层稀疏策略，结合粗粒度的标记压缩和细粒度的标记选择，保留了全局上下文感知能力和局部精度。

在多个基准测试中，NSA的表现不仅没有下降，反而超越了全注意力模型。特别是在长文本任务和基于指令的推理中，NSA展现了卓越的性能。例如，在64k长度的序列处理中，NSA在所有阶段均实现了显著的加速。

NSA技术的应用前景广阔，尤其在长文本处理、实时交互系统和资源受限环境中具有重要意义。未来，NSA有望在代码生成与调试工具、超长文档分析的智能助手以及科研、教育等领域的长文本推理任务中发挥重要作用。

DeepSeek的NSA技术不仅为长文本建模带来了新的突破，还为稀疏注意力领域提供了全新的思路。随着技术的不断发展，NSA有望加速下一代大型语言模型在长文本处理领域的应用落地。

DeepSeek的创始人梁文锋亲自参与了这项研究，展现了其在技术创新方面的领导力。这一成果不仅在技术上具有重要意义，也为人工智能在教育、内容创作和高端自然语言处理应用中的发展开辟了新的可能性。

NSA的发布标志着人工智能领域在长文本处理能力上迈出了重要一步，为未来的发展奠定了坚实基础。

阅读 5· 评论 0·原作者: 网络整理·来自: [db:来源]

上一篇：Coze扣子推出AI分身功能，抖音创作者轻松打造虚拟形象下一篇：前OpenAI CTO Mira Murati宣布成立AI公司Thinking Machines Lab

12 篇文章

AI头条

产品前沿

互联网