预训练、微调、RLHF：大模型是怎么“学会”干活的？

张

张建站

2026/5/28 23:40:10

10分钟阅读

从“识字”到“懂事”模型经历了三段式成长。一、为什么同样是大模型差距却这么大同样是大模型有的只会接话有的能帮你写代码、做分析。它们的能力差距从哪来答案在训练方式上。一个模型从“白纸”到“专家”通常要经历三个阶段预训练、微调、RLHF。弄懂这三个阶段你就明白为什么有些模型“好用”有些“乱来”。二、预训练大模型的“九年义务教育”预训练是AI成长的第一步也是最烧钱的一步。厂商把海量互联网文本——网页、书籍、代码——全部塞给模型让它自己找规律。没人教语法但读多了自然知道吃饭后面跟了而不是天。经过这个阶段模型能流畅续写句子但有个致命bug它只会接话不会听话。你问北京的首都是哪里它可能继续写北京的首都是……而不是直接回答你。因为它还没学会问答的规则。所以选AI第一步看它的义务教育底子硬不硬。但问题来了普通用户怎么判断一个个去试时间和API成本都吃不消。我一直在找好用的大模型去提升效率偶然间在微信上搜到器灵模型广场试了一下把同一个问题抛给多个基础模型得到答案后可以对比一下各模型的回复使用起来特别方便。不用翻枯燥的技术文档差距直接摆在眼前。三、微调让模型“专攻一门课”预训练模型像读完大学通识课的毕业生什么都懂一点但不够精。微调就是针对特定任务用少量高质量数据继续训练让模型变成某个领域的“专科生”。比如你想让模型当客服。预训练模型可能把“退钱”理解为“退出金钱”但你用一万条真实客服对话微调它它就会学会“退钱”等于“退款流程”、“用户生气要先安抚”。同样编程微调让模型更擅长写代码医疗微调让它更懂诊断术语。微调的好处是不需要重新预训练成本低、见效快几百条高质量数据就能让准确率从60%提到90%以上。但微调也有陷阱数据质量差会学到坏习惯数据单一会导致“过拟合”——只会回答训练集里的问题换个说法就不会了。好的微调需要精心设计数据。在器灵模型广场你可以看到同一基础模型经过不同微调后的变体代码版、客服版等并排对比它们在具体任务上的表现直观感受微调的力量。四、RLHF大模型的“社会化训练”有知识、有技能还不够。你遇到过那种懂很多但特别烦人的AI吗长篇大论抓不住重点明明不确定还硬编答案甚至对危险问题来者不拒。RLHF就是AI的情商课和社会化训练。让人类给模型的多个回答打分哪个更好、更安全、更有帮助然后训练一个奖励模型引导AI学会人类喜欢的回答。就像教孩子——乱发脾气扣分好好说话加分。经过RLHF的模型会主动说我无法回答会承认不确定会条理清晰直奔主题。ChatGPT让人觉得懂礼貌RLHF功不可没。但不同厂商的标注团队质量天差地别同样参数的模型对话体验可能一个天上一个地下。这也是我越来越离不开器灵模型的原因。技术文档不会告诉你这个模型情商几分但你在广场里同时跟几个模型聊同一个敏感问题、复杂问题谁更靠谱、谁更礼貌、谁更会抓重点聊三句就心里有数。选AI不是选参数是选对话体验而体验这东西只有对比最诚实。五、三阶段总结把三个阶段串起来预训练学会语言和世界知识但不会对话。微调学会特定任务变成某个领域的熟手。RLHF学会“好好说话”有了价值观和礼仪。一个能打的模型预训练、微调、RLHF三个阶段缺一不可。但普通人哪有时间逐个调研背景、对比参数器灵模型广场直接把各路AI的底子、专业、情商一次性摆上桌——同一个真问题多模型并排作答谁扎实谁拉胯一眼看穿。重点来了这里调用价格比官方渠道便宜一半相当于用小模型的预算撬动大模型的战力。花更少的钱试更多的模型找到最对味的那个。大家可以去模型上试试现在丢个你手头最难的问题进去试试——反正进去试试不亏试过就知道多好用了。

GitNexus 图文使用教程：为你的代码库构建知识图谱

文章目录前言gitnexus 效果图快速开始1.安装：2.进入想要生成知识图谱的项目目录：3.索引项目代码 (核心步骤)：--embeddings: 开启语义搜索能力4.查看图谱：5.一键配置 npx gitnexus setup前言习惯公众号阅读的玩家 🚀 …...

2026/5/28 23:36:16 阅读更多 →

2026年AI写作辅助网站实测排行，哪款真正适合顺利通关？

2026 年学术 AI 论文工具已形成全流程、理工 / 社科、英文 / 中文、免费 / 付费的清晰分化。综合实测排行与场景适配，千笔AI 是中文全能首选，DeepSeek 学术版是理工开源首选，毕业之家是国内毕业专属首选。一、2026 年实测排行 TOP5&#xff…...

2026/5/28 23:27:44 阅读更多 →

单词规律【哈希表、字符串】

力扣：https://leetcode.cn/problems/word-pattern/description/?envTypestudy-plan-v2&envIdtop-interview-150 给定一种规律 pattern 和一个字符串 s ，判断 s 是否遵循相同的规律。这里的遵循指完全匹配，例如， pattern…...

2026/5/28 23:26:07 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/28 12:21:09 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/28 13:47:19 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/28 13:32:26 阅读更多 →