跳到主要内容

6 篇文档带有标签「模型训练」

查看所有标签

RLHF: 训练 AI 学会“情商”的三步养成计划

RLHF 是什么?本文为你揭开 ChatGPT 等模型变得“善解人意”的核心秘诀。通过一个“天才社交养成”的比喻,分步解析其SFT、奖励模型和强化学习三大阶段,让你彻底理解 AI 如何学会人类的价值观和偏好。

上下文窗口 (Context Window): AI 的"短期记忆"边界

上下文窗口 (Context Window) 是什么?本文为你深度解析这个决定 AI "记忆"长度的物理边界。了解其"滑动窗口"工作机制,对比不同窗口大小在成本、延迟和精度上的核心权衡,并揭示"大海捞针"这一前沿挑战。

指令遵循 (Instruction Following): AI 如何学会“听懂人话”

指令遵循 (Instruction Following) 是什么?本文为你揭示这项区分“文本补全机”与“智能助手”的核心能力。了解它如何通过“指令微调”赋予 LLM 理解并忠实执行复杂指令的能力,以及为何它是所有提示词工程技巧的基石。

泛化 (Generalization): AI 如何学会“举一反三”

泛化 (Generalization) 是什么?本文为你揭示支撑现代 AI 的这一核心特性。通过“教小朋友认识猫”的比喻,了解 AI 如何从“死记硬背”(过拟合)走向“举一反三”(泛化),并将其学到的规律应用到从未见过的新数据上。