拆解 LLM 底层逻辑（二）：从预训练到 RLHF，大模型如何被塑造

预训练：模型首先学会“续写世界”

训练大语言模型的第一阶段通常是预训练（Pre-Training）。在这一阶段，模型不需要人工为每一个问题提供标准答案，它面对的核心任务只有一个：根据前文预测下一个 token。

这个任务听起来简单，但恰恰因为足够统一，模型才能在海量互联网文本上持续训练，并逐步学习语言结构、知识关联和模式分布。

模型如何读取文本：从文字到 token

模型并不直接理解自然语言中的“字”和“词”，而是先通过分词器（Tokenizer）将文本切分为 token，再将 token 映射为数字序列。

例如，一段英文文本会被拆分为若干子词或单词片段；中文则通常会被切分为字、词或更细粒度的组合单元。对于模型而言，它真正看到的是一串整数，而不是人类语言本身。

这一过程的重要性在于：分词方式会直接影响模型的上下文利用率、训练效率和推理成本。

参数是如何更新的

当模型根据前文生成一个预测结果后，训练系统会将它与真实下一个 token 进行比较，并计算损失（Loss）。随后，系统通过反向传播（Backpropagation）计算梯度，再用优化器调整参数。

这意味着，模型所谓的“学习”，本质上是不断缩小预测结果与真实文本分布之间的差距。

对于拥有数百亿甚至数千亿参数的模型而言，这一过程需要在大规模 GPU 集群上持续运行数周甚至数月。训练成本高昂，数据清洗、硬件调度和稳定性控制也因此成为关键工程问题。

预训练完成后，为什么还不够

预训练阶段结束后，得到的通常是一个基础模型（Base Model）。这类模型往往拥有很强的知识覆盖与文本延续能力，但并不天然适合作为产品直接交付用户。

原因在于，基础模型学习的是“文本世界通常怎么写”，而不是“用户提出问题时应该怎样答”。

它可能会生成非常流畅的内容，却未必会：

严格遵循指令
按指定格式输出
主动拒绝有害请求
在不确定时进行适当表达

因此，预训练只是能力的起点，不是产品行为的终点。

监督微调：让模型学会“按要求回答”

第二阶段通常是监督微调（Supervised Fine-Tuning，SFT）。在这一阶段，研究团队会准备大量高质量指令-回答样本，让模型学习如何根据用户请求输出更符合期望的内容。

这类数据通常具有几个特点：

指令清晰
回答结构稳定
风格相对一致
更强调“服从任务”而非单纯续写

经过这一阶段后，模型开始具备“对话助手”的基本形态。它不再只是继续写下去，而是更能理解：现在需要回答、解释、总结或执行某种特定任务。

RLHF：把“可用”进一步变成“可控”

监督微调之后，模型通常已经相当实用，但仍可能存在多个问题，例如回答风格不稳定、倾向迎合用户、或者在敏感场景中表现不够可靠。

为了解决这些问题，主流厂商通常会继续采用基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback）。

其基本逻辑可以分为两个步骤。

第一步：训练奖励模型

研究人员会让模型针对同一个问题生成多个不同答案，再由人工标注者对这些答案进行偏好排序，例如哪个更准确、哪个更安全、哪个更符合风格要求。

随后，系统会基于这些排序结果训练一个奖励模型（Reward Model），让它学会预测“人类更偏好哪种回答”。

第二步：用强化学习优化主模型

在得到奖励模型后，主模型可以不断生成新答案，并由奖励模型给出评分。强化学习算法再据此调整主模型，使其更倾向于生成高分输出。

从结果上看，RLHF 并不是让模型变得“更懂世界”，而是让它更接近产品希望呈现的行为方式：更礼貌、更稳定、更安全，也更符合用户对助手的预期。

为什么 RLHF 重要，但也有限

RLHF 在大模型产品化过程中非常关键，但它并不是万能解法。

它的优势在于：

能显著改善输出风格和可用性
能帮助模型建立更强的安全边界
能减少明显不符合产品需求的回答方式

但它的局限也很明确：

无法凭空补足模型没有学到的知识
可能带来过度迎合或保守回答
标注标准本身会影响模型价值取向

因此，预训练决定了模型“知道什么”，而 SFT 与 RLHF 更多决定模型“如何表现”。

结语

今天用户看到的大语言模型，实际上是多个训练阶段叠加的结果。预训练提供知识与语言能力，监督微调提供任务服从能力，RLHF 则进一步塑造产品化行为。

理解这三层结构，有助于解释一个现实问题：为什么模型有时“很聪明”，却仍会“回答得不够像产品”。因为能力与行为从来不是同一件事，而现代大模型，正是在这两者之间不断被校准。

预训练：模型首先学会“续写世界”#

模型如何读取文本：从文字到 token#

参数是如何更新的#

预训练完成后，为什么还不够#

监督微调：让模型学会“按要求回答”#

RLHF：把“可用”进一步变成“可控”#

第一步：训练奖励模型#

第二步：用强化学习优化主模型#

为什么 RLHF 重要，但也有限#

结语#