LLM-as-a-judge - overfit.cn

LLM-as-a-judge有30%评测偏差？这篇论文给出修复方案

LLM-as-a-judge是个好想法但它的统计基础一直没跟上，而这项工作证明自动化评估可以既可扩展又可靠，但是前提是要承认局限、校正偏差。

Deephub 2026-01-09 22:31:05 0 收藏

登录可以使用的更多功能哦！登录

作者榜

资讯小助手

资讯同步

内容小助手

文章同步

Deephub

公众号：deephub-imba

奕凯

公众号：奕凯的技术栈