今天在站会上和同事讨论了从一个 AI 应用团队(即 AI 的使用者)向 AI 全链路团队(即从模型训练到应用全程都参与)转型的可能性。这让我联想到了最近看到的一篇关于 DeepSeek V3 技术的访谈文章,文章分析了 DeepSeek 的技术,另一方面是 R.I.P 了一下 NVIDIA(此处应有 Linus 著名的「SO NVIDIA FUCK YOU,还好没买 N 家股票,AMD YES 苏妈万岁!!」), 其次探讨了在低成本硬件环境下训练高效 AI 模型的可能性。
在访谈中,DeepSeek V3 被描述为一种能够以较低成本实现与 OpenAI O1 相近性能的模型。其核心竞争力在于基础模型的能力。具体来说,DeepSeek V3 在以下方面做出了优化:
此外,DeepSeek 还通过 大模型训练小模型 的方式,在特定问题上提升了小模型的表现,这种方法为后续的小规模模型开发提供了新的可能性。
访谈中另一个有趣的部分是关于 NVIDIA 的技术壁垒,特别是其主导的 CUDA 技术。在过去,CUDA 几乎成为了神经网络和人工智能领域的标准技术,虽然 AMD 的显卡在同等价格下性能可能更为强劲,但因为 CUDA 的强大生态和行业壁垒,AMD 的显卡一直未能在 AI 训练中得到广泛应用。
然而,DeepSeek 的团队在这方面做出了突破,证明了通过 PTX(NVIDIA 提供的低级编程接口),可以绕开 CUDA 进行优化。虽然这种方法并不意味着所有团队都能轻松实施,但至少它提供了一个新的可能性。这意味着,未来我们不再需要依赖最先进的 NVIDIA 显卡,甚至可以使用 更低端 或 其他厂商 的显卡进行 AI 模型训练。
这种改变为我们提供了更广阔的硬件选择,不仅可以节省成本,还能突破 NVIDIA 在 AI 领域的技术垄断。
回到我们团队的讨论,DeepSeek 的实践为我们提供了一个非常有价值的思路。我们可以尝试使用 低成本硬件 来训练一些 定制化 的模型。比如,通过利用 数据删除(内部组织) 中一些旧的代码库,尝试训练能够生成符合数据删除(内部组织)标准的代码大模型。这不仅有助于控制开发成本,还能够探索出性价比更高的技术路径。
通过这一思路,我们有可能在 成本控制 和 技术突破 之间找到一个平衡点,在后续的项目开发中实现 更高效 和 更具创新性 的解决方案。
从 DeepSeek V3 的技术实践中,我们可以看到,在 低成本硬件 的支持下,依然能够训练出高效的 AI 模型,这为我们未来从 AI 应用团队 向 AI 全链路团队 转型提供了可行的路径。未来,我们或许可以在自己的项目中,借鉴 DeepSeek 的思路,打破硬件与技术的限制,探索出更具性价比的 AI 训练方案。
因此,技术突破 和 成本控制 将是我们发展过程中不可或缺的两大核心要素,我们需要密切关注这一领域的最新进展,进一步推动团队向全链路 AI 发展。