2 docs tagged with "技术前沿"

DPO (直接偏好优化): 更聪明地“教”会 AI 人类偏好

DPO (Direct Preference Optimization) 是什么？本文深入解析这一取代 RLHF 的前沿模型对齐技术。了解它如何通过更简单、更直接的方式，利用人类的“二选一”偏好数据，高效地训练出更符合期望的 AI 模型。

深入理解多模态 (Multi-modality) 的革命性力量。本文通过解析 AI 如何“看懂”梗图，揭示其融合图像、文本等多种信息的核心技术，并探讨多模态理解与生成（如 GPT-4V, Sora）如何重塑 AI 的未来。