0


这个GAN可以根据手绘图生成真实图像

生成对抗的网络

机器学习模型现在可以根据它从现有的一组图像中看到的内容生成新的图像。我们不能说这个模特很有创意,因为尽管这张照片确实是新的,但其结果总是受到过去看到过的类似照片的极大启发。这种架构被称为生成式对抗网络(generative adversarial network, GAN)。如果已经知道gan是如何工作的,可以跳到下一节,如果你想了解研究人员做了什么,我将快速介绍它是如何工作的。

这个强大的架构基本上需要一堆图像并试图模仿它们。通常有两个网络,生成器和鉴别器。它们的名字非常有用……生成器尝试生成新图像,而鉴别器尝试区分这些图像。

训练过程如下:向鉴别器显示来自我们训练数据集的图像,这是我们的一组真实图像,或者由生成器制作的称为假图像的图像。然后,鉴别器试图判断图像是真的还是假的。如果判断错误了,我们就说鉴别器被愚弄了,我们更新它的参数以提高它下次尝试的检测能力。相反如果鉴别器猜对了,生成器就会受到惩罚并以同样的方式更新,从而提高未来生成图像的质量。这个过程一遍又一遍地重复,直到区分不出真假,这意味着生成的图像与我们在真实数据集中的非常相似。所以生成的图像现在看起来像是从我们的数据集中挑选出来的,具有相同的风格。

这里的问题是,这个过程是黑箱,训练难度极大,尤其是控制生成什么样的图像。尤其是在理解生成器网络的哪个部分负责什么方面没有取得很大进展。

Sketch Your Own GAN

传统上,建立一个模型,控制生成图像的风格,以产生我们想要的东西,比如生成特定位置的猫的图像,需要深度学习方面的专业知识、工程工作、耐心和大量的反复试验。它还需要大量手动整理的图像示例来说明目标是生成什么,并充分了解模型如何工作以正确地适应您自己的需求。并针对您想要进行的任何更改重复此过程。

来自卡内基梅隆大学和麻省理工学院的Sheng-Yu Wang等人的这种新方法 名为 Sketch Your Own GAN 可以采用现有模型,例如,一个经过训练以生成新猫图像的生成器,并根据你可以提供的最简单的知识类型来控制输出:手绘草图。这种方法使得任何人都可以让 GAN更容易训练。通过找出模型的哪个部分负责图像中的哪个组件,不再需要花费数小时的艰苦工作和模型调整猫的位置!

当然,在特定位置生成一只猫并没有什么特别之处,但是想象一下这有多么强大。它可以使用一个经过训练的模型来生成任何东西。从少量的草图中可以控制将出现什么,同时保存其他细节和相同的风格!这是一个重新训练生成器模型的架构,鼓励它使用草图提供的结构生成图像,同时保留原始模型的多样性和最大可能的图像质量。这也称为对模型进行微调,即使用强大的现有模型并对其进行调整以更好地执行任务。

想象一下,你真的想建一座教堂,但不知道颜色或具体的建筑?只需将草图发送给模型,就可以获得无限的创作灵感!当然,这篇论文还处在早期的研究阶段,所以它将始终遵循您的数据集您用来训练生成器的风格,但是图像都是新的!

但他们是怎么做到的呢?他们发现了什么可以用来控制产出的生成模型?

这样的任务有各种各样的挑战,比如数据量和所需的模型专业知识。数据问题是通过使用一个已经训练过的模型来解决的,我们只是试图用少量的草图来适应我们的任务,而不是通常需要的成百上千的草图和图像对。为了解决专业问题,他们不是手动计算要对模型进行的更改,而是使用另一个训练有素的名为Photosketch的模型,将生成的图像转换为草图表示。然后,对生成器进行与传统GAN训练类似的训练,但使用两个鉴别器而不是一个。

第一个鉴别器用于控制输出的质量,就像常规 GAN 架构遵循我们之前描述的相同训练过程一样。

第二个鉴别器被训练来区分生成的草图和用户制作的草图之间的区别。因此鼓励生成的图像与用户草图结构相匹配,类似于第一个鉴别器如何鼓励生成的图像与初始训练数据集中的图像相匹配。

通过这种方式,模型自行确定要更改哪些参数以适应模拟草图的新任务,并消除模型专业知识要求以使用生成模型。

这个研究领域令人兴奋,任何人都可以使用生成模型并控制输出。与最初的模型相比,它更接近于在现实世界中可能有用的东西,在最初的模型中,您需要大量的时间、金钱和专业知识来构建能够生成此类图像的模型。取而代之的是,任何人都可以从少数草图中生成无限数量的新图像,这些图像类似于输入草图,从而允许更多人使用这些生成网络。

让我知道您的想法,如果这对您和我一样令人兴奋!如果您想了解有关此技术的更多详细信息,我强烈建议您阅读下面链接的论文!

本文作者:Louis Bouchard

标签:

“这个GAN可以根据手绘图生成真实图像”的评论:

还没有评论