LLM-as-a-judge是个好想法但它的统计基础一直没跟上,而这项工作证明自动化评估可以既可扩展又可靠,但是前提是要承认局限、校正偏差。
资讯同步
文章同步
公众号:deephub-imba
公众号:奕凯的技术栈