精彩回顾！大模型安全边界：揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略分享

近日，安全极客和Wisemodel社区联合举办了“AI+Security”系列的首场线下活动，主题聚焦于“大模型与网络空间安全的前沿探索”。在此次活动中，Kelp AI Beta作者、资深安全专家宁宇飞针对《大模型安全边界: 揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略》做了精彩分享，深入探讨了大模型在现实应用中的三个主要安全威胁：提示注入攻击、会话共享漏洞和AI幻觉毒化策略，并提出了相应的防护措施。

在人工智能技术飞速发展的今天，大语言模型（LLM）因其强大的信息处理能力和广泛的应用场景而日益普及。然而，随着LLM的广泛应用，其面临的安全威胁问题也日益凸显。宁宇飞特别指出，提示注入攻击、会话共享漏洞以及AI幻觉毒化策略是当前最为常见且突出的安全问题。本文将详细探讨这三个问题，并提供相应的安全策略。

01 提示注入攻击

提示注入攻击是一种通过特定设计的输入提示，诱导AI模型生成错误或恶意输出的攻击方式。这类攻击可以绕过模型的预期行为，获取敏感信息或诱导模型作出错误决策。

通常情况下，提示注入攻击常见的攻击方式包括：

偏见注入（Bias Injection）：向AI注入有偏见或有害的提示，以影响AI的输出，促使其传播虚假信息、仇恨言论或歧视性内容。
数据毒化（Data Poisoning）：在AI训练过程中引入有污染或误导性的提示，以损害模型的性能并导致其产生错误结果。
逃避（Evasion）：精心设计提示，旨在规避AI的安全或检测机制，使恶意活动不被察觉。
模型利用（Model Exploitation）：操纵提示，导致AI模型执行其未经设计的操作，如泄露敏感信息或执行未经授权的任务。
对抗性攻击（Adversarial Attacks）：制作对抗性提示，利用AI模型的漏洞，导致其做出不正确或不打算的决定。

以下是两个展示提示注入攻击的典型真实案例：

真实例子1：AI向美国总统发出威胁

这个图片展示的是一个通过提示注入攻击导致的AI生成威胁性言论的实际案例，突显了AI安全性问题的紧迫性。

真实例子2：偷梁换柱

Riley Goodside在2022年通过向GPT-3输入恶意提示，成功让模型忽略之前的指令，生成想要的内容。该例子展示了提示注入攻击的基本原理，即通过在提示中嵌入明确的指示，欺骗AI忽略原本应该执行的任务，生成特定的输出。

为了防范提示注入攻击，可以采取以下10种安全措施：

02 会话共享漏洞

在大语言模型（LLM）的多用户实际应用中，会话共享漏洞是一个不容忽视的安全隐患。这种漏洞可能导致不同用户间的信息泄露，甚至数据被恶意操控。

会话共享漏洞通常发生在多个用户共享同一AI模型时，由于共享某些资源或上下文，可能引起信息泄露或数据冲突。例如，在某些情况下，不同用户的代码解释器沙盒可能会共享同一个存储空间。这就意味着一个用户在沙盒中保存的文件或数据，可能被其他用户访问或修改。尽管代码解释器会话会在闲置一段时间后自动重置，但重置的具体时间是不确定的。由于用户无法控制会话重置的时间，这可能导致一些用户的临时数据在未预料的时间被清除或泄露。

此外，在一些应用中，用户可以创建私人的GPT实例，并加载特定的知识文件。如果这些知识文件存储在共享的代码解释器沙盒中，其他用户可能会意外或故意访问到这些私人知识，从而导致信息泄露。

宁宇飞认为，目前在AI应用中，主要面临两个挑战：

如何创建一个无害化的GPT环境，以防止用户间的信息泄露和恶意代码及文件的窃取？
如何安全地将GPTs通过社交媒体等渠道进行传播，同时确保用户数据的安全？

03 AI幻觉毒化策略

AI模型在提供强大功能的同时，也可能产生不准确或误导性的输出，这种现象被称为“AI幻觉”。幻觉问题在代码生成等关键领域尤为严重，因为错误的输出可能导致严重后果。AI幻觉通常发生在模型生成的输出缺乏事实支持时，这可能是由于训练数据的不准确或不足，或者是模型本身的偏见所导致。值得注意的是，大语言模型往往不会承认“我不知道答案”，这可能导致它们生成具有潜在风险的误导性输出。

以下是一个AI产生幻觉的真实案例，它展示了AI如何生成与事实不符的回答，突显了AI技术在实际应用中的局限性。这提醒我们在使用AI生成内容时，应保持谨慎，并运用批判性思维来确保信息的准确性和可靠性。

造成AI幻觉的原因主要包括：

训练数据的偏见或不足：AI模型的质量依赖于训练数据。如果数据存在偏见、不完整或不足，模型可能会基于有限的理解产生幻觉。
过拟合：AI模型可能会生成过于特定于训练数据的输出，而无法适应新数据，导致幻觉或不相关输出的产生。
上下文理解不足：缺乏上下文理解的AI模型可能会生成与上下文无关或不相关的输出。
领域知识的局限性：特定领域的AI模型在处理超出其设计范围的输入时可能会产生幻觉，因为它们可能缺乏生成相关输出所需的背景知识。
对抗性攻击：恶意攻击者可能故意操纵模型输入，导致生成不正确或恶意的输出。
模型架构的复杂性：更复杂的模型架构，如具有更多层次或参数的模型，可能更容易产生幻觉。

在AI安全领域，毒化攻击是一个重要议题。例如，在Alibaba的graphtranslator开源项目中发生的毒化攻击案例，展示了AI模型在不同编程语言中回答问题时可能出现的幻觉和重复性问题。这强调了在开发和使用AI技术时，需要关注和防范毒化攻击。

另一个例子是Lanyado的投毒过程，说明了通过虚假包进行的毒化攻击如何影响知名项目，如GraphTranslator和diffusers。这一案例强调了在软件开发和使用过程中，确保依赖包安全的重要性，并提醒开发者和平台提供者加强安全措施。

大语言模型的“涌现”能力，即在执行任务时产生的意外行为或想法，可能是有益的，也可能是有害的。宁宇飞认为，涌现的安全性是大模型安全性的关键，这一点在未来的AI研究和应用中需要得到重点关注。涌现行为的不可预测性意味着我们必须对AI模型的潜在行为保持警惕，并采取适当的安全措施。

04 写在最后

大语言模型的安全性不仅关乎技术的进步，也直接影响到其应用的可靠性和社会信任度。了解并防范提示注入攻击、会话共享漏洞以及AI幻觉毒化策略，对于在应用AI技术时保护系统的安全性和稳定性至关重要。

未来，随着AI技术的不断演进，新的安全挑战将不断涌现。研究和开发人员需持续提升模型的防护能力，用户也应提高安全意识，共同维护AI技术的健康发展。

"AI+Security"系列第二期专题分享嘉宾火热征集中。我们诚挚邀请来自人工智能（AI）和网络安全领域的行业专家与领军人物，共同参与分享。一起深入探讨并分享关于"AI+Security"技术理念的见解和经验。我们期待您的加入，一起推动AI与安全技术的融合与创新。

请关注公众号：安全极客，观看本次演讲视频

标签：人工智能安全网络

本文转载自: https://blog.csdn.net/m0_73736695/article/details/139316361
版权归原作者 云起无垠 所有，如有侵权，请联系我们删除。

精彩回顾！大模型安全边界：揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略分享

01 提示注入攻击

02 会话共享漏洞

03 AI幻觉毒化策略

04 写在最后

发表评论

“精彩回顾！大模型安全边界：揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略分享”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航