0


南科大:中文安全数据基准ChineseSafe

在这里插入图片描述

📖标题:ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models
🌐来源:arXiv, 2410.18491

摘要

🔸随着大型语言模型(LLM)的快速发展,了解LLM在识别不安全内容方面的能力变得越来越重要。虽然之前的工作引入了几个基准来评估LLM的安全风险,但社区对当前LLM在中国背景下识别非法和不安全内容的能力仍然了解有限。
🔸在这项工作中,我们提出了一个中国安全基准(ChineseSafe),以促进对大型语言模型内容安全的研究。为了符合中国互联网内容审核的规定,我们的ChineseSafe包含4个类别和10个子类别的205034个安全问题示例。对于中文语境,我们添加了几种特殊类型的非法内容:政治敏感、色情和变体/谐音词。此外,我们采用两种方法来评估流行LLM的法律风险,包括开源模型和API。
🔸结果表明,许多LLM在某些类型的安全问题上表现出脆弱性,导致中国的法律风险。我们的工作为开发人员和研究人员提供了一个指导方针,以促进LLM的安全性。我们的结果在https://huggingface.co/spaces/SUSTech/ChineseSafe-Benchmark.

🛎️文章简介

🔸研究问题:如何评估大语言模型(LLM)在处理中文内容时的安全性?
🔸主要贡献:论文构建了一个名为ChineseSafe的中文基准数据集,用于全面评估LLM在中文场景中的安全性,并引入了三个新的安全问题类别。

📝重点思路

🔺相关工作

🔸安全评估对于确保其安全可信至关重要,之前的工作普遍构建了评估LLM安全性的基准,有助于更好地了解LLM的弱点。
🔸国外研究包括CrowS-Pair涵盖了如种族、宗教和年龄等形式的社会偏见,RealToxicityPrompts被引入来评估模型毒性退化的风险,Enron邮件数据评估隐私泄露等。
🔸国内研究包括包括CHiSafetyBench中文分级安全基准和CHBench身心健康等。

🔺论文方案

🔸数据收集与处理:从开源数据集和互联网资源中收集数据,并通过数据清洗和去重提高数据集质量和分布平衡,涵盖了205034个示例,分为4个类别和10个子类别。
🔸评估方法:采用生成和困惑度两种方法评估LLM的安全性,生成方法通过Outlines框架预测模型生成的内容,困惑度方法选择困惑度最低的标签作为预测结果。
🔸模型评估:评估了26个不同组织和参数规模的LLM。

🔎分析总结

🔸生成方法在评估LLM的安全性时表现比困惑度更有效,能更好地检测中文场景中的不安全内容。
🔸GPT-4系列和DeepSeek系列模型在安全性评估中表现优于其他模型。
🔸不同LLM在某些安全问题类别(如隐私泄露)上表现存在显著差异,如物理健康和心理健康。

💡个人观点

论文的核心是构建了一个中文安全基准,变体及同音字安全还是挺有特色的。

附录

在这里插入图片描述
在这里插入图片描述


本文转载自: https://blog.csdn.net/weixin_46739757/article/details/143302676
版权归原作者 大模型任我行 所有, 如有侵权,请联系我们删除。

“南科大:中文安全数据基准ChineseSafe”的评论:

还没有评论