📖标题:Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats
🌐来源:arXiv, 2411.17693
🌟摘要
🔸随着大型语言模型(LLM)的能力越来越强,评估安全措施是否仍然有效是明智的,即使LLM有意绕过它们。之前的工作引入了控制评估,这是一种用于测试不可信模型(即可能试图绕过安全措施的模型)部署策略的对抗性框架。虽然之前的工作将单一故障视为不可接受,但我们在“分布式威胁环境”中进行控制评估,在这种环境中,没有任何单一行动是灾难性的,也没有任何单一行为提供压倒性的错位证据。
🔸我们使用两级部署框架来解决这个问题,该框架使用自适应宏协议在微协议之间进行选择。微协议在单一任务上运行,使用功能较弱但经过广泛测试(可信)的模型来利用和监控不可信的模型。同时,宏协议根据其过去的行为对不可信模型的对齐保持自适应信任,并使用它在更安全和风险更高的微协议之间进行选择。
🔸我们在代码生成测试台上评估我们的方法,在这个测试台上,红队试图使用LLM生成微妙的后门代码,LLM的部署由蓝队保护。我们绘制了安全性(非后门解决方案的数量)和有用性(正确解决方案的编号)的帕累托边界。在给定的有用性水平上,与非自适应基线相比,我们的自适应部署策略将后门数量减少了80%。
🛎️文章简介
🔸研究问题:如何在分布式威胁环境下安全地部署可能生成错误输出的先进大语言模型(LLM)?
🔸主要贡献:论文提出了一种自适应部署策略,通过动态选择微协议和使用自适应宏协议来管理不可信模型的风险,从而在安全性和有用性之间取得平衡。
📝重点思路
🔸问题定义:定义了一个控制协议,利用不可信和可信模型生成输出,并假设模型部署者的效用函数形式为αS + U,其中U衡量输出的正确性,S衡量输出的安全性,α是特定部署的权衡超参数。
🔸微协议:定义了微协议P,它在部署期间对单个输入进行操作,利用不可信和可信模型生成输出y和相关的监控分数s。
🔸宏协议:提出了一个自适应宏协议,根据过去输出的对齐证据调整其决策。与静态方法相比,自适应宏协议能够根据对不可信模型对齐的信心动态调整微协议的使用。
🔸实验设置:在代码生成测试平台上进行实验,使用LLMs解决一系列具有挑战性的算法编程问题,同时减轻提交恶意后门代码的风险。
🔸评估方法:通过对抗性测试部署策略,评估蓝色团队提出的部署策略的安全性,红色团队创建恶意策略,对抗性地优化模型以对抗蓝色团队的策略。
🔎分析总结
🔸论文的方法能够在显著提高安全性的同时,几乎完全利用不可信模型U的能力。
🔸论文的方法通过学习U的行为,逐渐实现更好的安全-有用性权衡,自适应宏协议在观察U的行为后,能够显著改善安全-有用性帕累托曲线。
🔸结合多种微协议的表现优于任何单一微协议,组合所有微协议可以获得最佳的安全-有用性权衡。
💡个人观点
论文的核心是定义微协议和宏协议,从而管理不可信模型的风险。
🧩附录
版权归原作者 大模型任我行 所有, 如有侵权,请联系我们删除。