今天在公司和同事们开会，讨论到了 CoT（Chain of Thought）模型 和 通用模型 在提示词策略方面的差异，尤其是与 DeepSeek-R1 的训练过程有关的内容。此话题让我想起了之前阅读的 DeepSeek 论文，特别是关于 从 R1-Zero 到 R1 的进化过程。文中提到了一些关于 few-shot（少样本提示） 和 zero-shot（零样本提示） 对模型表现的影响。

CoT 模型的提示词策略：为何少样本提示可能有负面影响？

在 CoT 模型 中，少样本提示（few-shot）似乎会对模型的表现产生负面影响，导致思维链条的受限，仿佛模型的“思维”被束缚住了，无法展开深入的推理。论文中提到，使用少样本提示可能会导致模型生成的结果不如零样本提示时那么具有发散性和创造性。

具体而言，论文中的原文描述是：

Prompting Engineering: When evaluating DeepSeek-R1, we observe that it is sensitive to prompts. Few-shot prompting consistently degrades its performance. Therefore, we recommend users directly describe the problem and specify the output format using a zero-shot setting for optimal results.

因此，推荐在 CoT 类模型中使用 零样本提示词，即直接描述问题和需求，避免给出过多样本或格式化的提示，留给模型更多的思维空间。这种策略有助于发挥模型的推理链发散能力，从而生成最佳的结果。

DeepSeek-R1：是否会受提示词格式化的影响？

这让我不禁思考，当前在 ~~信息销毁（内部项目）~~ 中使用的 DeepSeek R1 是否也可能因为系统预设的格式化提示词而影响输出质量。根据我的观察，在服务端的日志输出中似乎确实有某些格式化的信息存在。也就是说，如果系统预设的格式化提示词干扰了模型的“思维链”发展，可能会导致输出效果不如预期。

这一点似乎与论文中对 CoT 模型 提到的提示词策略一致。如果我们能通过修改提示词的格式或使用更直白的零样本提示词，或许能进一步提升 DeepSeek-R1 的输出质量。

提示词生成助手与 CoT 模型的适配性

此外，像 提示词生成助手 之类的 Bot 是否适用于 CoT 类模型，也是一个值得思考的问题。由于这些助手通常依赖于一定的格式化提示词和少样本学习，可能并不完全适用于 CoT 模型，尤其是当模型需要更大的思维空间和推理链时。

或许，针对 CoT 模型的研究，应该更加关注零样本提示，避免过度依赖少样本或过于结构化的提示信息。

DeepSeek-R1 的训练过程与技术细节

在论文的其余部分，DeepSeek-R1 的训练过程涉及了很多技术细节，值得深入探讨。首先，强化学习（RL） 被用于优化推理能力，而这种优化是直接在基础模型上应用的，并非传统的监督微调。特别是采用了 GRPO 算法进行训练优化。

此外，DeepSeek-R1 还结合了多个训练阶段：

冷启动数据 + 监督微调（SFT）：首先使用人工整理的高质量数据进行初步微调，提升模型的可读性和格式化能力。
多阶段 RL 训练：然后进行强化学习训练，进一步提升推理能力。
语言一致性奖励（Language Consistency Reward）：通过奖励机制避免多语言混杂，确保语言的一致性。
推理数据的采样与筛选：筛选高质量推理链，以提升训练效果。
小模型蒸馏：通过蒸馏技术从 DeepSeek-R1 中提取多个小规模模型（如 Qwen 和 Llama），提高推理效率。

深度了解 DeepSeek-R1 的优势与应用

如果我们有自训练小模型的需求，或者单纯为了深入了解 DeepSeek-R1 如何达到接近 O1 能力，那么这篇论文中的训练细节将非常值得参考。它不仅提供了如何通过多阶段训练提升推理能力的方法，还揭示了如何优化多模型的推理效率，这对我们未来在 AI Hub 中的应用也有潜在帮助。

结语：提示词策略与训练优化的结合

总的来说，DeepSeek-R1 的 CoT 模型 提示词策略对模型表现的影响值得我们深思。特别是零样本提示的使用，能够释放模型的推理潜力，避免思维链的束缚。对于 AI Hub 中的 DeepSeek-R1 模型，我们也许需要重新审视现有的格式化提示词，尝试更直白的零样本提示策略，看看是否能够提升模型的推理效果和输出质量。

最终，提示词优化 和 训练过程的精细调控 将是未来提升 DeepSeek-R1 及其他 CoT 模型能力的关键。