LLM-as-a-judge有30%评测偏差?这篇论文给出修复方案

LLM-as-a-judge是个好想法但它的统计基础一直没跟上,而这项工作证明自动化评估可以既可扩展又可靠,但是前提是要承认局限、校正偏差。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈