小白读论文：机器学习的安全威胁和防御技术（上）——常见的安全威胁

论文：Q. Liu et al. 2018. Survey on Security Threats and Defensive Techniques of Machine Learning: A Data Driven View. IEEE ACCESS.

个人感觉这篇综述很全面，但是时间比较早、有些地方写得不太好（本人在机器学习模型领域是纯小白，只是根据之前所在学科的论文经验以及阅读体验所以这么说，请轻喷），适合新手入门了解。部分涉及我个人的知识盲区，因此在对应处附上了个人觉得不错的解释链接。

欢迎大家一起交流学习，也欢迎指出我理解错误的地方。

安全威胁分类：

从3个角度进行分类：对分类器的影响、安全入侵、攻击特异性

1.对分类器的影响：

（1）诱因攻击

改变训练集数据的分布，使得重新学习后的参数改变，导致分类器在后续分类中性能下降

（2）探索性攻击

造成对抗样本的错误分类或者揭露训练数据和学习模型中的敏感信息

安全入侵：

（1）完整性攻击

当分类有害样本时，这种攻击会增加现有分类器的假阴性

（2）可用性攻击

这样的攻击会引起分类器在处理良性样本时的假阳性率增加

（3）隐私侵犯攻击

攻击者能从训练集和学习模型中获取敏感和机密信息

攻击特异性：

（1）目标攻击

高针对性降低分类器对某一组或某一个样品的分类性能

（2）无区别攻击

分类器不区分地在大范围样本上分类失败

对机器学习的安全威胁：

主要由对抗性样本（反直觉数据）引起的。

无监督分析的安全威胁：

常发生在经典无监督分类学习算法——朴素贝叶斯（Naive Bayes）、SVM上

（1）注入恶意数据：当机器学习的入侵检测系统在训练过程中会被攻击者在训练集中植入恶意的指定数据。聚类算法已经广泛运用于信息安全领域，但是加入恶意数据可以显著改变分类器的分类准确性。

（2）混淆攻击：将对抗样本和其他聚类中的正常样本（且不改变这些正常样本的聚类结果）混合，生成一组隐蔽的对抗样本

图像识别（DNN）的安全威胁（因为不特别关注DNN，因此有关笔记相对简单）：

DNN虽然能高效识别图像，但很容易受到对抗攻击，因为DNN只提取了图像的一小部分特征、因此在差异小的图片上效果差、这是逃避异常检测的一大漏洞。

此外，从特征中恢复出原始的人脸图像的过程称为重构攻击。攻击者通过训练一个重构网络，利用大量的人脸图像-人脸特征，通过不断地训练和优化使其学习特征向量和对应人脸图像的关联规则，最后这个重构网络能够从特征向量中准确地恢复出原始人脸。

训练阶段的安全威胁：

中毒攻击：

causative attack，向训练集注入对抗样本从而破坏模型的完整性和可用性，这些样本通常有和负面样本类似的特征结构但标签是错误的（因此不适用无监督学习、但常见的大模型都会受影响）。

由于训练数据通常高度保密、因此直接修改训练数据很难；但攻击者可以通过重新训练现有模型从而发现/利用模型的弱点（重构攻击），这对于人脸识别等需要定期更新决策模型以适应不同应用环境的模型是适用的（浙江大学与阿里安全部联手，推出了新的人脸隐私保护方案FaceObfuscator——删除人脸图像中的冗余视觉信息、通过随机性影响特征到人脸的逆映射并在客户端消除随机性）。

但是单链路/全链路分层聚类分析（单链路-通过两个点之间的最短距离进行聚类，全链路-通过两个点之间的最远距离进行聚类）可以，对抗样本对于聚类准确性的影响是可以衡量的（B. Biggio et al., ‘‘Poisoning complete-linkage hierarchical clustering,’’ Structural, Syntactic, and Statistical Pattern Recognition, 2014）、基于此可以选择最佳对抗样本。

不修改特征/标签：

对抗样本的选择：（1）由模型在已验证数据上分类准确性的降低程度来挑选；（2）梯度上升策略（表现优）（3）生成对抗网络（GAN，生成候选对抗样本的训练模型、然后用使用了特定损失函数的判别模型进行挑选）（更快更好）

修改特征/标签：

标签污染攻击（LCA）：

网络信息传输往往采用网络编码（网络节点参与编解码）从而达到MAX FLOW-MIN CUT定理确定的最大理论传输容量，但由于网络编码对信息流进行了合并、因此恶意注入的数据会很快污染网络中的多个节点，从而实现污染攻击（Byzantine Attack），标签的恶意篡改也发生在网络传输节点中，借由节点传输网络发生污染（相关研究员：上海数据中心-梁满）。

AI模型中，攻击者会通过翻转等修改方式对训练数据的标签进行篡改。黑盒攻击技术甚至不需要知道模型的训练数据（N. Papernot, et al. 2016. Transferability in machine learning: From phenomena to black-box attacks using adversarial samples. arxiv.）。

预测阶段的安全威胁：

攻击者可以制作特定的样本输入模型，冒充victims来获得未授权的访问权限，常见的攻击类型包括：spoofing（欺骗，包括规避、冒充等威胁），inversion（反转攻击）

Evasion（入侵攻击）:

攻击者生成一些可以（通过梯度算法生成等）逃脱检测的对抗样本从而降低目标系统的安全性

Impersonate（模仿攻击）:

模仿受害系统的数据样本生成对抗样本，在图像识别（特别常见，因为图像识别只提取一小部分特征、并且在物理世界的层面可行（恶意对抗样本的图像打印并通过摄像机录入、让人戴上眼镜（这个现在应该解决了？））、恶意软件检测、入侵检测、音频信息识别（人类视角的无意义信息会对语音指令识别造成影响）(Carlini, Hidden Voice Commands, 2016)中常见，集成学习（决策树）（组合多个弱监督模型从而组合成一个强监督模型，当其中一个出错时、其他模型可以对它进行纠正）可以生成可转移的对抗性样本、来自其中一个模型生成的样本可以有效攻击其他模型.

Inversion（反向攻击）:

利用AI模型API来收集目标系统模型的一些基本信息，将基本信息输入reverse analysis、泄露目标模型中嵌入的用户隐私数据

目前根据攻击对于目标模型的了解度，可以将攻击分为黑盒攻击（攻击者只知道API和一些feeding input(应该是投喂数据(?)输入)输入后的反馈、有些可以利用机器学习云服务平台的输出信度值）、白盒攻击（可以自由访问模型的训练数据和其他信息）

前三种产出的对抗样本优质，但时间成本很高、不适合大模型；后两种是基于深度学习的对抗样本生成模型，能考虑到影响样本生成的多维因素。

x：原数据x生成的对抗数据；Δx：扰动；t：x的目标标签；α：步长；ε：xn*的约束邻域半径；J：成本计算函数；n：迭代次数。

标签：机器学习安全人工智能

本文转载自: https://blog.csdn.net/pppj1998/article/details/142855740
版权归原作者 周冬月_alicia 所有，如有侵权，请联系我们删除。