RAILF - overfit.cn

RLHF的替代算法之DPO原理解析：从RLHF、Claude的RAILF到DPO、Zephyr

今年5月份，斯坦福的一些研究者提出了RLHF的替代算法：直接偏好优化(Direct Preference Optimization，简称DPO)，其对应论文为《那其与ChatGPT所用的RLHF有何本质区别呢，简言之RLHF将奖励模型拟合到人类偏好数据集上，然后使用RL方法比如PPO算法优化语言模型

overfit同步小助手 2023-12-12 00:01:44 0 收藏

登录可以使用的更多功能哦！登录

作者榜

资讯小助手

资讯同步

内容小助手

文章同步

Deephub

公众号：deephub-imba

奕凯

公众号：奕凯的技术栈