从大规模深度强化学习到对抗性鲁棒性、SimCLR-v2 和学习神经网络空间
‘What matters for On-Policy Deep Actor Critic Methods? A Large Scale Study’
作者: Andrychowicz et al. (2021) | 📝 Paper | 🤖 Code
众所周知,基于策略的深度强化学习代理很难调整。结果的再现可能具有挑战性,并可能导致诸如“深度强化学习不起作用(尚)”之类的陈述。有一件事是肯定的:深度 RL 训练循环不像训练有监督的 MNIST CNN 分类器那样稳定。那么如何弥合这一差距呢?Andrychowicz 等人。(2021) 首次尝试提供对 DRL 超参数稳健性的实证见解:他们训练了 25 万个代理并评估了 50 多个基本选择的超参数。该研究使用 MuJoCo 控制环境的子集和 Google 的 Seed RL 框架进行,该框架为训练分布式actor提供了通用基础设施。作者比较了不同的策略损失目标、网络架构、优化器、正则化器和优势估计技术。他们的结果证实了许多常见的 DRL 智慧:例如使用 PPO 裁剪目标、tanh 激活并训练单独的actor -评论家网络。但他们也强调了一组新的见解:策略的初始化似乎很重要,建议确保策略分布和观察的零均值和独立性。此外,观察的均值归一化显着提高了性能。就我个人而言,我非常喜欢这种大规模的研究,并相信它们提供了一种宝贵的资源,可以节省相当多的时间和调整问题。
‘Simulating a Primary Visual Cortex at the Front of CNNs Improves Robustness to Image Perturbations’
Authors: Dapello and Marques et al. (2020)| 📝 Paper | 🤖 Code
如何使卷积神经网络不易受到对抗性攻击?Dapello 和 Marques 等人。(2020) 从我们的视觉皮层中汲取灵感,并将 V1 的经典 Gabor 滤波器模型与标准计算机视觉架构相结合。更具体地说,他们建议将具有加性高斯噪声的固定权重生物约束滤波器组作为标准 CNN 的前端。他们将此前端称为 VOne 块,并与 1×1 瓶颈一起,该块为标准 ResNet 类 CNN 的第一个卷积层提供了替代品。作者表明,这个简单的前端块大大提高了对白盒对抗攻击的鲁棒性,同时保持了具有与其他模型相当的 ImageNet 性能。他们执行一组消融实验来解开滤波器组和随机性的贡献。他们的实验表明,类似 V1 的特征和随机性以非平凡的方式有益地相互作用:结合这两种成分的总改进超过了它们各自贡献的总和。作者推测,随机性不仅在推理时降低了攻击的有效性,而且在训练时促进了鲁棒特征的学习。最后,作者表明 CNN 的对抗性鲁棒性与其 V1 大脑反应预测性相关。这篇论文提供了一个很好的例子,说明如何将深度学习与经过实验验证的自下而上的神经科学建模相结合。
‘Big Self-Supervised Models are Strong Semi-Supervised Learners’
Authors: Chen et al. (2020) | 📝 Paper | 🤖 Code
多年来,我们见证了自监督预训练的一场革命。这包括大型自然语言模型(如 GPT)和对比预训练的计算机视觉模型(如 SimCLR-v1 和 MoCo)。一个关键的研究问题是如何最好地利用未标记的数据?我们如何仅使用对下游任务有用的无监督信息来提取核心表示?SimCLR-v1 使用图像不同的增强和对比损失来最大化/最小化正/负图像对的表征相似性。之后,使用很少的标记数据对预训练的架构进行微调。因此,未标记的数据以纯粹与任务无关的方式使用。在 SimCLR-v2 Chen 等人中。(2021) 建议再次使用未标记的数据:在对网络进行微调后,仅使用未标记的示例将其预测提炼为不同的架构。因此,SimCLR-v2 结合了无监督任务无关的预训练、调整和特定于任务的蒸馏。作者认为,未标记示例的这种针对特定任务的使用允许大型神经网络更好地转移其一般知识。较大的模型在“小标签数据机制”方面表现出色,并且它们能够胜过纯粹使用监督分类损失训练的对应模型。最后,他们还表明更深的投影头和第一个投影头的微调可以提高最终性能。
‘Learning Neural Network Subspaces’
Authors: Wortsman et al. (2021) | 📝 Paper | 🤖 Code
还有什么能比训练单个神经网络更好的呢?在一次运行中训练整个表现良好的网络子空间。Wortsman等人(2021)引入了一种新的训练模式,可以通过5个步骤训练线性(或非线性)神经网络组合:1)独立初始化m个神经网络。2)从m-1单形中采样一个点。3)基于之前的采样点计算m个网络的(可能是非线性的)组合。4)计算该“连通”神经网络对一批数据的损失。5)进行反向传播,通过线性/非线性组合运算传播梯度来更新m个网络。作者指出,这允许在ImageNet上训练性能良好的网络的整个直线、曲线和单纯函数。此外,他们还引入了一个正则化器,通过最小化m网络端点之间的余弦相似度来促进功能多样性。直观地说,子空间端点之间的距离因此是最大的。这有利于子空间中点的鲁棒标记噪声和良好的校准。一个假设的原因可能是中点提供了一个不那么尖锐的最小值,这已经被证明可以更好地一般化(Dziugaite和Roy, 2017)。如果你对Frankle等人(2020年)的线性模式连接的发现感兴趣,那么你会喜欢这篇文章。
作者:Robert Lange
原文地址:https://towardsdatascience.com/four-deep-learning-papers-to-read-in-july-2021-e91c546d112d