Transformer

大多数现代大语言模型都建立在 Transformer 架构之上。理解自注意力机制、位置编码和多头注意力，是理解 LLM 为什么能处理长上下文、建立语义关联和进行复杂生成的基础。