6 篇文档带有标签「模型训练」

DPO (直接偏好优化): 更聪明地“教”会 AI 人类偏好

DPO (Direct Preference Optimization) 是什么？本文深入解析这一取代 RLHF 的前沿模型对齐技术。了解它如何通过更简单、更直接的方式，利用人类的“二选一”偏好数据，高效地训练出更符合期望的 AI 模型。

Fine-tuning (微调) 是什么？本文通过“改造全能厨师”的比喻，为你揭示其作为“技能传授”的核心本质。了解它与 RAG 的互补关系，以及何时应该选择微调来让你的 AI 模型掌握特定的风格、格式或专业技能。

RLHF 是什么？本文为你揭开 ChatGPT 等模型变得“善解人意”的核心秘诀。通过一个“天才社交养成”的比喻，分步解析其SFT、奖励模型和强化学习三大阶段，让你彻底理解 AI 如何学会人类的价值观和偏好。

上下文窗口 (Context Window) 是什么？本文为你深度解析这个决定 AI "记忆"长度的物理边界。了解其"滑动窗口"工作机制，对比不同窗口大小在成本、延迟和精度上的核心权衡，并揭示"大海捞针"这一前沿挑战。

指令遵循 (Instruction Following) 是什么？本文为你揭示这项区分“文本补全机”与“智能助手”的核心能力。了解它如何通过“指令微调”赋予 LLM 理解并忠实执行复杂指令的能力，以及为何它是所有提示词工程技巧的基石。

泛化 (Generalization) 是什么？本文为你揭示支撑现代 AI 的这一核心特性。通过“教小朋友认识猫”的比喻，了解 AI 如何从“死记硬背”（过拟合）走向“举一反三”（泛化），并将其学到的规律应用到从未见过的新数据上。