DeepSeek V3 与 AI 训练新思路：低成本硬件与技术突破

2025-02-09 01:29:00 | 学习生活人工智能

今天在站会上和同事讨论了从一个 AI 应用团队（即 AI 的使用者）向 AI 全链路团队（即从模型训练到应用全程都参与）转型的可能性。这让我联想到了最近看到的一篇关于 DeepSeek V3 技术的访谈文章，文章分析了 DeepSeek 的技术，另一方面是 R.I.P 了一下 NVIDIA（此处应有 Linus 著名的「SO NVIDIA FUCK YOU，还好没买 N 家股票，AMD YES 苏妈万岁！！」），其次探讨了在低成本硬件环境下训练高效 AI 模型的可能性。

DeepSeek V3：低成本实现高性能

在访谈中，DeepSeek V3 被描述为一种能够以较低成本实现与 OpenAI O1 相近性能的模型。其核心竞争力在于基础模型的能力。具体来说，DeepSeek V3 在以下方面做出了优化：

混合专家网络负载均衡：通过对专家网络的负载均衡进行优化，提高了计算效率。
Attention Layer 键值缓存：在模型结构中优化了键值缓存，进一步提升了架构的执行效率。
奖励函数设计：R1 Zero 通过独特的奖励函数设计，绕过了传统强化学习中的稀疏奖励问题，使得模型在训练过程中能够更加高效地学习。

此外，DeepSeek 还通过 大模型训练小模型 的方式，在特定问题上提升了小模型的表现，这种方法为后续的小规模模型开发提供了新的可能性。

R.I.P NVIDIA：CUDA 技术壁垒的挑战

访谈中另一个有趣的部分是关于 NVIDIA 的技术壁垒，特别是其主导的 CUDA 技术。在过去，CUDA 几乎成为了神经网络和人工智能领域的标准技术，虽然 AMD 的显卡在同等价格下性能可能更为强劲，但因为 CUDA 的强大生态和行业壁垒，AMD 的显卡一直未能在 AI 训练中得到广泛应用。

然而，DeepSeek 的团队在这方面做出了突破，证明了通过 PTX（NVIDIA 提供的低级编程接口），可以绕开 CUDA 进行优化。虽然这种方法并不意味着所有团队都能轻松实施，但至少它提供了一个新的可能性。这意味着，未来我们不再需要依赖最先进的 NVIDIA 显卡，甚至可以使用 更低端 或 其他厂商 的显卡进行 AI 模型训练。

这种改变为我们提供了更广阔的硬件选择，不仅可以节省成本，还能突破 NVIDIA 在 AI 领域的技术垄断。

借鉴 DeepSeek 思路：探索低成本训练模型的可能性

回到我们团队的讨论，DeepSeek 的实践为我们提供了一个非常有价值的思路。我们可以尝试使用 低成本硬件 来训练一些 定制化 的模型。比如，通过利用 ~~数据删除（内部组织）~~ 中一些旧的代码库，尝试训练能够生成符合~~数据删除（内部组织）~~标准的代码大模型。这不仅有助于控制开发成本，还能够探索出性价比更高的技术路径。

通过这一思路，我们有可能在 成本控制 和 技术突破 之间找到一个平衡点，在后续的项目开发中实现 更高效 和 更具创新性 的解决方案。

结语：走向全链路 AI 团队的第一步

从 DeepSeek V3 的技术实践中，我们可以看到，在 低成本硬件 的支持下，依然能够训练出高效的 AI 模型，这为我们未来从 AI 应用团队 向 AI 全链路团队 转型提供了可行的路径。未来，我们或许可以在自己的项目中，借鉴 DeepSeek 的思路，打破硬件与技术的限制，探索出更具性价比的 AI 训练方案。

因此，技术突破 和 成本控制 将是我们发展过程中不可或缺的两大核心要素，我们需要密切关注这一领域的最新进展，进一步推动团队向全链路 AI 发展。