拆解 LLM 底层逻辑(二):从预训练到 RLHF,大模型如何被塑造

用户看到的 ChatGPT 或 Claude,往往表现为一个可以对话、解释和执行任务的助手。但在成为助手之前,它首先是一个通过海量语料进行预训练的基础模型,随后再经过监督微调与人类反馈强化学习被塑造成今天的产品形态。

April 15, 2026 · 4 min · 1760 words · 丹丹