干货！深度学习模型的水印和验证

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

劳颖捷：

现任克莱姆森大学电气和计算机工程系助理教授。从浙江大学和明尼苏达大学获得学士和博士学位。研究方向包括机器学习安全和隐私，网络安全，对人工智能和密码学的硬件加速，硬件安全，硬件架构与设计。获得美国国家科学基金会杰出青年职业奖（NSF CAREER）和多个最佳论文奖。

随着深度神经网络(DNN) 的发展，模型构建的复杂性也急剧增加。因此保护模型的知识产权 (IP) 并确保已部署模型的可信度和完整性变得至关重要。本次报告将先介绍我们提出的基于修改极少参数的模型水印嵌入方法。与此同时，有别于现有工作的鲁棒水印，我们提出了一种新的 DNN 身份验证框架 DeepAuth。该框架能够将脆弱的签名嵌入到每个受保护的 DNN 模型中。嵌入后，每个模型将对验证用的关键样本做出独特的反应，因此可以作为身份验证的工具。签名嵌入过程旨在确保签名的脆弱性，能够检测对于模型的恶意修改。

深度神经网络的应用

我们都知道，通过开发强大的算法和设计工具，深度神经网络DNN正在各个领域成为最新颖的技术，如机器翻译、自动驾驶、围棋和图像识别等等。优化的深度神经网络是高价值的知识产权！

我们要设计和训练深度神经网络的花费很大。下面举几个例子：

•BERT: 256 TPU-chip days ~ $6,912

•GPT-3: 355 Tesla-V100 years ~ $4,600,000

与此同时，机器学习当作一种服务“Machine Learning as a Service” (MLaaS)也渐渐流行开来，我们列举了几个常见的MLaaS的供应商。

一些中小企业用户不会自己训练模型，而是需要这些供应商来训练模型并提供部署。

水印技术

我们的研究做了一些保护深度神经网络产权的探索——水印技术。

•水印的主要作用是保护知识产权(IP)

•水印早已在包括图像和视频等传统领域中广泛使用。近期也被应用到深度神经网络(DNN)上。

深度神经网络水印（DNN Watermarking）

目标：在神经网络中嵌入水印（watermark embedding），使其能够被密钥样本（key samples）验证。

水印的设计者会产生一些独特样本——密钥样本，作用在于嵌入水印后可以被提取验证水印。之后，一旦产生了密钥样本就需要将其嵌入到深度神经网络之中，且需要重新训练DNN模型以确保深度神经网络可以识别这些密钥样本。最后，我们会将模型部署到用户需要的地方。

如上图的例子，我们在加入一些独特水印之后会被认为是不同于原图片的另一种分类。

威胁模型分析（Threat Model）

密钥样本是不会对用户公开的，只有当知识产权拥有者需要的时候才会用来提取水印。我们当前只能通过远程API远程询问水印验证。

主要性能指标

以下是评价水印效果的三个指标：

•效用（Effectiveness）: 能够成功嵌入水印

•保真（Fidelity）: 不影响原先模型的预测

•鲁棒（Robustness）: 无法在不摧毁模型的前提下移除水印

水印的鲁棒性

与神经网络的鲁棒性不同，水印的鲁棒性是指针对移除水印攻击的抵抗力。

变换攻击（Transformation Attacks）: 移除水印的同时保留模型的预测精确度。

● 模型微调（Fine-tuning）

● 模型剪枝（Model-pruning）

● 水印覆盖（Watermark overwriting）

以上是在之前的工作中比较常见的几种变换攻击。

之前的工作

• 嵌入水印到特征空间 (Uchida et.al & Rouhani et.al)

• 利用对抗样本 (Le Merrer et.al)

• 利用后门攻击 (Adi et.al)

我们的工作（ 报告内容）*

可以看出STABLE在不同数据集、攻击算法、各种扰动率性能具有一致的优越性。

DeepHardMark: Towards Watermarking Neural Network Hardware （AAAI 2022）

对于硬件方面的角度，该论文提出了一种硬件水印。其主要概念是整合算法领域和硬件领域的信息，来为深度学习硬件添加水印。

不同于嵌入水印到深度神经网络的参数（parameter）中，本文首次提出嵌入水印到运算功能块（functional block）来保护其硬件知识产权（hardware IP）的方法。

Identification for Deep Neural Network:

Simply Adjusting Few Weights!

之前的工作

• 嵌入水印到特征空间 (Uchida et.al & Rouhani et.al)

• 利用对抗样本 (Le Merrer et.al)

• 利用后门攻击 (Adi et.al)

之前的工作都需要端到端重新训练密钥样本，我们的方法可以避免这一点。

本文的目标

● 不通过重新训练，只改动极少数量的神经网络参数来嵌入水印

● 通过嵌入独特的水印到不同的模型中，把水印方法扩展到身份识别

故障攻击（Fault Attacks）

最近研究表明，DNN非常容易收到神经网络的故障攻击。最新发展已证明，目标模型的预测精确度非常容易被降低到随机猜测水平。

●通过排锤（rowhammer）或者激光注入（laser injection）等方法来改变存储里参数的比特数值

● 在拥有1千3百万比特的ResNet-18上，只需要改动13个比特，就能将预测准确度（top-1）降到 0.1%

身份识别（Identification）

我们还将水印扩展至深度识别，在过程中补充了额外的密钥样本来规范嵌入过程，以防止其会改变预测。

● 生成一个较大的密钥样本集，从中选取不同的密钥样本来进行不同模型的水印嵌入。不同模型对于选定的密钥样本的预测就可以用做身份识别。

● 水印嵌入过程中加入对未选的密钥样本的考量。要求水印嵌入过程需要保持模型的预测精确度和未选的密钥样本的预测不变。

以下是主要的方法概述。

在我们选定密钥样本之后，将其作为水印嵌入到原始模型中形成加入水印后的模型。这一水印模型的产生是通过调整非常少的参数完成。在理想条件下，模型会对选定的密钥样本产生不同预测。而其他非选定的密钥样本在前后的预测都是一样的。

方法目标

嵌入选定的密钥样本Ds（改变其预测分类）而不改变其他样本包括Du和Dn的分类。

我们的目标可以概括为，最大化所选样本的损失函数和最小化未选择密钥样本和自然输入的损失函数。

产生密钥样本

我们使用基于香农熵（ Shannon entropy）的自适应采样，旨在找到对于预测结果香农熵最大的密钥样本：

● 靠近决策边界

● 远离自然输入样本

基于上述因素，我们对这些样本的操作只会对原始模型造成非常小的影响。

基于梯度的参数修改

接下啦，我们在神经网络中搜索已找到要调整的最有效参数来修改水印，好比之前提到的故障攻击概念。我们搜索能够对选定的密钥样本产生非常强的信号，同时又对未选定的密钥样本和自然输入产生非常弱的信号的参数。如果我们修改这些参数，则会对选定的密钥样本预测产生较大影响。我们之后通过利用调整参数规模推导出一种迭代算法，完成水印嵌入的功能。

利用梯度下降来选取修改的参数

修改参数

实验设置

我们在多个模型和数据集上验证提出的方法。

效用和保真度

总体来说，我们提出方法的成功率是非常高的。

K: 选定的密钥样本的数量

Identification Accuracy (Aiden) ：水印嵌入成功率百分比

Decrease of Model Accuracy (Adec)：模型预测精确度降低的百分比

Number of Modified Parameters (Nw)：修改的参数数量

可以看到，我们只需要在很小的预测准确度的基础上调整非常少数量的参数，就能成功的嵌入水印！

改变的参数数量

随着修改参数数量的增加，精度的下降也会增加。

在CIFAR100和 ImageNet, 我们只需要改变0.04%甚至更小的参数就能达到 100%的水印嵌入成功率。

鲁棒性：模型剪枝

我们也评估了各种变换攻击的鲁棒性。

在模型的保持预测准确度的前提下，水印一直保留着。

鲁棒性：水印覆盖

攻击者试图在模型中插入额外的水印，来看是否会使得之前的水印不可读。

● 可以看出，我们的方法对于水印的覆盖具有非常好的鲁棒性。

● 在越复杂的模型和数据集上性能越好

与之前工作的比较

我们的方法在保真度和鲁棒性上都展现出了优势。

随机选取参数修改

我们还测试了在没有参数搜索步骤的情况下修改随机参数对嵌入水印性能的影响。

验证了选取参数的步骤的必要性。

其他模型

总体而言，我们的方法有很好的泛化性。

总结

● 提出了使用故障攻击来保护神经网络。

● 提出了算法通过选择和修改极少的参数来完成神经网络水印注入。

● 扩展水印方法到身份验证。

DeepAuth: A DNN Authentication Framework

by Model-Unique Signature Embedding

之前的工作

• 嵌入水印到特征空间 (Uchida et.al & Rouhani et.al)

• 利用对抗样本 (Le Merrer et.al)

• 利用后门攻击 (Adi et.al)

这些工作的目标都是使水印无法被轻易移除，从而能够进行所有权验证。不过，水印是具有不同类别的。

水印的类别

脆弱的水印

● 应用目标：验证模型的完整性，是否被篡改

● 为了区分于强健的水印，我们称呼脆弱的水印为签名（signature）

● 利用签名，我们可以对模型的完整性进行认证（authentication）

DeepAuth框架

本文提出了一种端到端的DNN框架——DeepAuth框架。我们的目标是嵌入脆弱的签名，而不影响模型的精确度。

第一个步骤是从产生敏感的密钥样本开始，再对模型选定的密钥样本子集上嵌入以达到模型独特的签名。在嵌入签名之后，我们可以选用一个保护好的可信服务器，来对于不同模型进行测试并观察其分类预测如何。正确的密钥样本和签名会被分发到可信的服务器之上，最后模型的建立者会将模型部署到用户端。在签名验证过程中，服务器会将一个验证向量传送给待验证的模型以看其是否会给出原先存在服务器上的相同签名。如果一样，说明其是可信的；如果不一样，说明已被恶意修改。

密钥样本:Input Space

寻找对抗样本，adversarial examples (AE)。但与一般对抗样本的选取不同的是：我们选取与自然输入距离较大的对抗样本