预训练:模型首先学会“续写世界”
训练大语言模型的第一阶段通常是预训练(Pre-Training)。在这一阶段,模型不需要人工为每一个问题提供标准答案,它面对的核心任务只有一个:根据前文预测下一个 token。
这个任务听起来简单,但恰恰因为足够统一,模型才能在海量互联网文本上持续训练,并逐步学习语言结构、知识关联和模式分布。
模型如何读取文本:从文字到 token
模型并不直接理解自然语言中的“字”和“词”,而是先通过分词器(Tokenizer)将文本切分为 token,再将 token 映射为数字序列。
例如,一段英文文本会被拆分为若干子词或单词片段;中文则通常会被切分为字、词或更细粒度的组合单元。对于模型而言,它真正看到的是一串整数,而不是人类语言本身。
这一过程的重要性在于:分词方式会直接影响模型的上下文利用率、训练效率和推理成本。
参数是如何更新的
当模型根据前文生成一个预测结果后,训练系统会将它与真实下一个 token 进行比较,并计算损失(Loss)。随后,系统通过反向传播(Backpropagation)计算梯度,再用优化器调整参数。
这意味着,模型所谓的“学习”,本质上是不断缩小预测结果与真实文本分布之间的差距。
对于拥有数百亿甚至数千亿参数的模型而言,这一过程需要在大规模 GPU 集群上持续运行数周甚至数月。训练成本高昂,数据清洗、硬件调度和稳定性控制也因此成为关键工程问题。
预训练完成后,为什么还不够
预训练阶段结束后,得到的通常是一个基础模型(Base Model)。这类模型往往拥有很强的知识覆盖与文本延续能力,但并不天然适合作为产品直接交付用户。
原因在于,基础模型学习的是“文本世界通常怎么写”,而不是“用户提出问题时应该怎样答”。
它可能会生成非常流畅的内容,却未必会:
- 严格遵循指令
- 按指定格式输出
- 主动拒绝有害请求
- 在不确定时进行适当表达
因此,预训练只是能力的起点,不是产品行为的终点。
监督微调:让模型学会“按要求回答”
第二阶段通常是监督微调(Supervised Fine-Tuning,SFT)。在这一阶段,研究团队会准备大量高质量指令-回答样本,让模型学习如何根据用户请求输出更符合期望的内容。
这类数据通常具有几个特点:
- 指令清晰
- 回答结构稳定
- 风格相对一致
- 更强调“服从任务”而非单纯续写
经过这一阶段后,模型开始具备“对话助手”的基本形态。它不再只是继续写下去,而是更能理解:现在需要回答、解释、总结或执行某种特定任务。
RLHF:把“可用”进一步变成“可控”
监督微调之后,模型通常已经相当实用,但仍可能存在多个问题,例如回答风格不稳定、倾向迎合用户、或者在敏感场景中表现不够可靠。
为了解决这些问题,主流厂商通常会继续采用基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)。
其基本逻辑可以分为两个步骤。
第一步:训练奖励模型
研究人员会让模型针对同一个问题生成多个不同答案,再由人工标注者对这些答案进行偏好排序,例如哪个更准确、哪个更安全、哪个更符合风格要求。
随后,系统会基于这些排序结果训练一个奖励模型(Reward Model),让它学会预测“人类更偏好哪种回答”。
第二步:用强化学习优化主模型
在得到奖励模型后,主模型可以不断生成新答案,并由奖励模型给出评分。强化学习算法再据此调整主模型,使其更倾向于生成高分输出。
从结果上看,RLHF 并不是让模型变得“更懂世界”,而是让它更接近产品希望呈现的行为方式:更礼貌、更稳定、更安全,也更符合用户对助手的预期。
为什么 RLHF 重要,但也有限
RLHF 在大模型产品化过程中非常关键,但它并不是万能解法。
它的优势在于:
- 能显著改善输出风格和可用性
- 能帮助模型建立更强的安全边界
- 能减少明显不符合产品需求的回答方式
但它的局限也很明确:
- 无法凭空补足模型没有学到的知识
- 可能带来过度迎合或保守回答
- 标注标准本身会影响模型价值取向
因此,预训练决定了模型“知道什么”,而 SFT 与 RLHF 更多决定模型“如何表现”。
结语
今天用户看到的大语言模型,实际上是多个训练阶段叠加的结果。预训练提供知识与语言能力,监督微调提供任务服从能力,RLHF 则进一步塑造产品化行为。
理解这三层结构,有助于解释一个现实问题:为什么模型有时“很聪明”,却仍会“回答得不够像产品”。因为能力与行为从来不是同一件事,而现代大模型,正是在这两者之间不断被校准。