策略优化 - overfit.cn

字节跳动提出的解耦裁剪和动态采样策略优化(DAPO)算法，完整开源了一套最先进的大规模RL系统，该系统基于Qwen2.5-32B基础模型在AIME 2024测试中取得了50分的优异成绩。

Deephub 2025-03-30 10:29:09 0 收藏

登录可以使用的更多功能哦！登录

资讯同步

文章同步

公众号：deephub-imba

公众号：奕凯的技术栈