今天看到 DeepSeek 团队前几日发布的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,这篇论文介绍了一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。在这篇论文中,NSA 相较于传统的「全注意力机制」模型,提出了一种全新的思路和解决方案。简单来说,稀疏注意力机制的核心理念是:“不是所有信息都要看,挑选重点”,NSA 基于传统的稀疏注意力机制,又进一步加入了「动态分级」的策略,对输入信息进行更加精细化的筛选和挑选。
目前我们为什么需要知识库和RAG(Retrieval-Augmented Generation)方法?主要原因之一就是当前占据主流的全注意力机制模型存在上下文长度的限制。在传统的全注意力机制下,模型的计算量和内存消耗是巨大的,导致我们无法将完整的上下文信息输入到模型的对话上下文中进行处理。因此,我们只能通过使用知识库或RAG等方法来辅助模型进行推理。
然而,NSA 这一类稀疏注意力机制的模型则能够处理超长序列的输入和推理,理想情况下,它似乎可以将整个项目的代码塞进模型进行处理。这是因为稀疏注意力机制会根据特定规则筛选出重点信息,而不是盲目地处理所有输入信息。这种机制有助于减轻计算和内存压力,并使模型能够在长序列处理上表现更好。
不过,尽管 NSA 的机制非常吸引人,其「挑重点看」的策略也可能导致一些问题。由于它的筛选机制,模型有可能会错过某些细节,导致在某些任务上出现错误。因此,是否能够在编码任务中发挥优势,仍然是一个待解答的问题。
目前,使用全注意力机制结合知识库或RAG的方式,在编码任务中同样面临着一系列问题。例如,模型在处理复杂问题时,可能出现命中率不高或生成错误内容的情况。事实上,“胡说八道”的现象并不少见。虽然这种方法能够帮助模型在较长的上下文中找到一些相关信息,但它并不能保证每次都能够准确无误地完成任务。
因此,如果未来稀疏注意力机制能够精确地定位“项目中的重点代码”,我们也许会看到它至少在某些方面与全注意力机制+知识库或 RAG 的方法平分秋色,甚至在某些特定任务上超越它们。虽然我们不能确定具体会发生什么,但显然,AI 技术发展太快了,我们无法预见下一个突破会在哪儿。
回顾 AI 发展史,从 Google 发布《Attention is All You Need》带着 Transformer 架构横空出世,到深度学习和生成模型的崛起,AI 在不断改变着计算机科学的格局。谁能预测,下一步会是哪种架构的模型领先一步,成为人工智能发展的新高峰?
正如之前 OpenAI 的广告所表达的,人类的进步是伴随着一个个创新点的突破而来的,谁能想到哪个看似不起眼的创新点最终会成为带领人类迈向新时代的关键。正是这种看似微不足道的细节积淀,推动了技术的不断创新。
对于我们每一个人来说,创新始终是推动技术进步的核心动力。无论是 AI 技术还是其他领域,突破往往出现在我们预见不到的地方。而正如我提到的,谁能预见,下一次的突破会是什么?So, what do you want to create next? 这是每个人都该问问自己的问题。
人类的进步是由一个个看似微不足道的创新所推动的。现在,让我们一起站在巨人的肩膀上,继续向着未知的未来前行。