监督学习 - overfit.cn

这篇论文提出了 Proximal Supervised Fine-Tuning (PSFT)，本质上是把 PPO 的思路引入到 SFT 中。这个想法挺巧妙的：既然 PPO 能够稳定策略更新，那为什么不用类似的机制来稳定监督学习的参数更新呢？

Deephub 2025-09-08 21:05:30 0 收藏

数组指针的概念和指针数组的概念

overfit同步小助手 2023-12-03 01:02:02 0 收藏

登录可以使用的更多功能哦！登录

资讯同步

文章同步

公众号：deephub-imba

公众号：奕凯的技术栈