论如何打击 LLMs 过度的自信心爆棚,让其产生的内容更准确、真实
2025-02-22 02:03:00
本文为未经 AI 润色的原文如我之前的某次分享,我一直感觉 LLMs 们喜欢胡说八道满嘴放炮,平常大家都说这是「LLMs 的幻觉情况」,但我还是恶意的称呼为它们喜欢胡说八道。在《Does Fine-T...
关于 DeepSeek NSA 论文的一点思考
2025-02-19 01:09:00
今天看到 DeepSeek 团队前几日发布的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Att...
Claude 4:混合型大模型的崭新思路与未来潜力
2025-02-15 02:21:00
今天在 Twitter(求马王爷还我 Twitter 原名!!)看到一个消息,来自一个推文大致提到:「Claude 4 in the coming weeks」,具体内容可以参考这条推文。重点是:Cl...
Deep Research:开源替代方案与未来发展潜力
2025-02-14 01:17:00
最近大家都在谈论 CloseAI 的 Deep Research 模式,称其研究效果非常强大,但面对高达 200???? 的价格,不少人却感到难以承受。幸运的是,开源社区也有不少项目尝试复现类似的效果...
观 OpenAI 广告有 1 点感
2025-02-12 03:19:00
本文为未经 AI 润色的原文今天看了 OpenAI 的广告,一开始只是觉得这个创意很有意思。视频采用了黑白点画风格,从一个小小的圆点开始,随着画面展开,逐渐呈现出越来越复杂的图像,展现了人类历史上各个...
关于 DeepSeek-R1 与 CoT 模型的提示词策略一点记录
2025-02-11 02:23:00
今天在公司和同事们开会,讨论到了 CoT(Chain of Thought)模型 和 通用模型 在提示词策略方面的差异,尤其是与 DeepSeek-R1 的训练过程有关的内容。此话题让我想起了之前阅读...
DeepSeek V3 与 AI 训练新思路:低成本硬件与技术突破
2025-02-09 01:29:00
今天在站会上和同事讨论了从一个 AI 应用团队(即 AI 的使用者)向 AI 全链路团队(即从模型训练到应用全程都参与)转型的可能性。这让我联想到了最近看到的一篇关于 DeepSeek V3 技术的访...
关于「AI 创始人的惨痛教训」系列文章的 1 点感想
2025-02-01 01:36:00
本文为未经 AI 润色的原文我个人一直不相信当前生成式 AI 的能力,认为 AI 总是会胡说八道。年前有一天中午和 Ricky 在食堂,达哥也在边上,我提到如何建立对 AI 在严肃工作领域的信任感。我...
关于「人工智能」分类下文章的说明
2025-02-01 00:43:00
在「人工智能」分类下,发布的所有文章其实来源于我工作中的一些学习笔记。为了将这些笔记更清晰、更易读地呈现给大家,我选择了使用 AI 对内容进行调整和润色。通过这种方式,文章的表达更为流畅,信息传达也更...
对 v2c 进行了一次前端的重构
2024-09-17 20:24:00
0x0自从 2019 年把博客迁移到 Typecho,再到 2020 年用 React 自己写了博客的前端进行了前后端分离后,我的博客前端就几乎没怎么动过了。期间其实也多次想开始重构,但总是因为工作忙...
如何让 uTools 通过代理服务器连接网络
2024-06-18 14:35:00
总的来说就是为 uTools 添加启动参数 --proxy-server 即可通过代理访问网络。备注:此方法只能代理掉 chromium 侧的流量,无法覆盖 uTools 本身非渲染进程的流量、插件 ...
关于这三年:我也是当过美食博主了
2024-05-26 22:15:00
是的,I am back!很久没有更新博客了,一方面是忙于工作无心更新(这是个借口),另一方面是自从 2021 年 8 月发生了丢失数据的问题,导致很多历史文章都消失在互联网长河中。虽然尽了很大的努力...
关于
FydeOS AI LogoFydeOS LogoAI
是如何诞生的
2023-12-06 22:01:00
0x0 为什么要做这个项目 FydeOS Logo AI 项目的初衷是为了让用户可以更加自然地控制操作系统,能够使用自然语言与系统进行交互。例如,通过语音或文本与系统对话,控制软件、查找信息,甚至快速解答工...
[家宴 · 2021]也许是今年最认真的一顿饭,红红火火锅
2021-12-31 23:33:00
在 2020 年,我曾经搞过几次家宴,邀请了一众好友来家里吃吃喝喝。甚至在 V 站加了不少好友,对他们说『下次家宴有空来家里一起吃』,但是事实上因为种种原因,2021 年非但没有邀请 V 友来家里吃饭...
【一场灾难】多站点数据丢失说明
2021-08-23 21:47:16
大概在一个多月前,包括 我的博客、LoveLive.tools(渣男:说话的艺术)、Mr.Task 等网站突然无法访问,服务器无法连接。本来以为只是服务提供商突发故障(之前也出现过,后来都正常恢复),...
[LoveTime] 一个与爱情和时间线相关的项目
2021-03-20 11:11:00
0x0 为什么做这个项目大概在一年前,我注册了 lovetime.tools 的域名。说来也是奇怪,我总是喜欢在脑子里冒出一个想法之后立刻注册相关的域名,但是往往实际完成上线的时间都会拖很久。比如 渣...
有目的 (di) 地 (de) 瞎折腾 —— 为了温暖的被窝而实现远程开机
2021-01-09 13:14:00
0x0这个冬天真的太 TM 的冷了,冷到我想一天 24 小时都呆在床上哪儿也不去。本来在这个美好的周六是可以实现这个同样美好的愿望,但是一大早同事来的电话击碎了我的梦想 —— 线上项目出了点问题需要排...
[家宴・2020] 入冬的第一次聚会,是带些许火辣的味道
2020-11-18 20:00:00
0x0是入冬的日子了,终于送走了盘踞在头上小两三个月的秋老虎。说来也是奇怪,在我记忆中大概七八年前,大概还是我上初中的时候,总是能精准的掐着日子算到什么时候要入冬了,左右不过是国庆过后五六天就可以翻出...
[家宴・2020] 开学季的聚餐,迟来的总结
2020-10-25 20:00:00
我大概是一个很不喜欢社交活动的人,如果让我和不怎么熟悉的人一起吃饭或者进行什么活动,那我大概会原地尴尬的用脚趾在地上抠出三室两厅两位的大户型来。因此我是一个朋友很少的人,仅有的朋友就是在小区里遛狗认识...
2019年度小结 - 其他方面
2019-12-31 00:22:00
2019 年过的真快,感觉一闭眼还能看到年初的日子。今年喜提了家里第三只猫,是一只海豹色手套布偶,看起来的确比一脸厌食的加菲(们)好看多了,当然我还是爱着我家的两只肥仔加菲的。这只猫来的也巧,有一天半...
下一篇
弹出
关闭

关于 DeepSeek-R1 与 CoT 模型的提示词策略一点记录

今天在公司和同事们开会,讨论到了 CoT(Chain of Thought)模型通用模型 在提示词策略方面的差异,尤其是与 DeepSeek-R1 的训练过程有关的内容。此话题让我想起了之前阅读的 DeepSeek 论文,特别是关于 从 R1-Zero 到 R1 的进化过程。文中提到了一些关于 few-shot(少样本提示)zero-shot(零样本提示) 对模型表现的影响。

CoT 模型的提示词策略:为何少样本提示可能有负面影响?

CoT 模型 中,少样本提示(few-shot)似乎会对模型的表现产生负面影响,导致思维链条的受限,仿佛模型的“思维”被束缚住了,无法展开深入的推理。论文中提到,使用少样本提示可能会导致模型生成的结果不如零样本提示时那么具有发散性和创造性。

具体而言,论文中的原文描述是:

Prompting Engineering: When evaluating DeepSeek-R1, we observe that it is sensitive to prompts. Few-shot prompting consistently degrades its performance. Therefore, we recommend users directly describe the problem and specify the output format using a zero-shot setting for optimal results.

因此,推荐在 CoT 类模型中使用 零样本提示词,即直接描述问题和需求,避免给出过多样本或格式化的提示,留给模型更多的思维空间。这种策略有助于发挥模型的推理链发散能力,从而生成最佳的结果。

DeepSeek-R1:是否会受提示词格式化的影响?

这让我不禁思考,当前在 信息销毁(内部项目) 中使用的 DeepSeek R1 是否也可能因为系统预设的格式化提示词而影响输出质量。根据我的观察,在服务端的日志输出中似乎确实有某些格式化的信息存在。也就是说,如果系统预设的格式化提示词干扰了模型的“思维链”发展,可能会导致输出效果不如预期。

这一点似乎与论文中对 CoT 模型 提到的提示词策略一致。如果我们能通过修改提示词的格式或使用更直白的零样本提示词,或许能进一步提升 DeepSeek-R1 的输出质量。

提示词生成助手与 CoT 模型的适配性

此外,像 提示词生成助手 之类的 Bot 是否适用于 CoT 类模型,也是一个值得思考的问题。由于这些助手通常依赖于一定的格式化提示词和少样本学习,可能并不完全适用于 CoT 模型,尤其是当模型需要更大的思维空间和推理链时。

或许,针对 CoT 模型的研究,应该更加关注零样本提示,避免过度依赖少样本或过于结构化的提示信息。

DeepSeek-R1 的训练过程与技术细节

在论文的其余部分,DeepSeek-R1 的训练过程涉及了很多技术细节,值得深入探讨。首先,强化学习(RL) 被用于优化推理能力,而这种优化是直接在基础模型上应用的,并非传统的监督微调。特别是采用了 GRPO 算法进行训练优化。

此外,DeepSeek-R1 还结合了多个训练阶段:

  • 冷启动数据 + 监督微调(SFT):首先使用人工整理的高质量数据进行初步微调,提升模型的可读性和格式化能力。
  • 多阶段 RL 训练:然后进行强化学习训练,进一步提升推理能力。
  • 语言一致性奖励(Language Consistency Reward):通过奖励机制避免多语言混杂,确保语言的一致性。
  • 推理数据的采样与筛选:筛选高质量推理链,以提升训练效果。
  • 小模型蒸馏:通过蒸馏技术从 DeepSeek-R1 中提取多个小规模模型(如 Qwen 和 Llama),提高推理效率。

深度了解 DeepSeek-R1 的优势与应用

如果我们有自训练小模型的需求,或者单纯为了深入了解 DeepSeek-R1 如何达到接近 O1 能力,那么这篇论文中的训练细节将非常值得参考。它不仅提供了如何通过多阶段训练提升推理能力的方法,还揭示了如何优化多模型的推理效率,这对我们未来在 AI Hub 中的应用也有潜在帮助。

结语:提示词策略与训练优化的结合

总的来说,DeepSeek-R1 的 CoT 模型 提示词策略对模型表现的影响值得我们深思。特别是零样本提示的使用,能够释放模型的推理潜力,避免思维链的束缚。对于 AI Hub 中的 DeepSeek-R1 模型,我们也许需要重新审视现有的格式化提示词,尝试更直白的零样本提示策略,看看是否能够提升模型的推理效果和输出质量。

最终,提示词优化训练过程的精细调控 将是未来提升 DeepSeek-R1 及其他 CoT 模型能力的关键。