本研究深入揭示了现有LLM评判器面临的系统性安全隐患,并提出了有效的防御解决方案。通过Master-RM模型的成功构建,证明了针对性的对抗训练能够在保持模型通用性能的前提下显著提升安全防护能力。
资讯同步
文章同步
公众号:deephub-imba
公众号:奕凯的技术栈