5年前,Generative Adversarial Networks(GANs)开始了深度学习的革命。这场革命产生了一些重大的技术突破。Ian Goodfellow和其他人在题为“Generative Adversarial Networks”的论文中引入了生成性对抗网络 - https://arxiv.org/abs/1406.2661。学术界公开接受了GAN,业界也欢迎GAN。GAN的崛起是不可避免的。
首先,关于GAN的最好的事情是它们的学习性质,这是无人监督的。GAN不需要标记数据,这使得GAN功能强大,因为不需要数据标记的枯燥工作。
其次,GAN的潜在用例使GAN成为对话的中心。他们可以生成高质量的图像,增强照片,从文本生成图像,将图像从一个域转换为另一个域,随着年龄的增长改变脸部图像的外观等等。名单是无止境的。我们将在本文中介绍一些广受欢迎的GAN架构。
第三,围绕GAN的无休止的研究是如此令人着迷,以至于它吸引了其他所有行业的注意力。我们将在本文后面部分讨论重大技术突破。
诞生
生成对抗网络或简称GAN是两个网络,生成器网络和鉴别器网络的设置。这两个网络可以是神经网络,从卷积神经网络,递归神经网络到自动编码器。在这种设置中,两个网络参与竞争性游戏并试图相互超越,同时互相帮助他们完成自己的任务。经过数千次迭代后,如果一切顺利,生成器网络可以完美地生成逼真的假图像,并且鉴别器网络可以很好地判断显示的图像是假的还是真实的。换句话说,生成器网络将来自潜在空间的随机噪声矢量(不是来自潜在空间的所有GAN样本)变换为来自真实数据集的样本。训练GAN是一个非常直观的过程。
GAN拥有大量的实际用例,如图像生成,艺术品生成,音乐生成和视频生成。此外,它们还可以提高图像质量,使图像风格化或着色,生成面部以及执行更多有趣的任务。
上图显示了香草GAN网络的架构。首先,从潜在空间采样D维噪声矢量并馈送到发电机网络。生成器网络将该噪声矢量转换为图像。然后将该生成的图像馈送到鉴别器网络以进行分类。鉴别器网络不断地从真实数据集和由发生器网络生成的图像获得图像。它的工作是区分真实和虚假的图像。所有GAN架构都遵循相同的设计。这是GAN的诞生。现在探讨GAN的青春期。
青春期
在其青春期,GAN产生了广泛流行的架构,如DCGAN,StyleGAN,BigGAN,StackGAN,Pix2pix,Age-cGAN,CycleGAN。这些架构的结果非常有希望。通过观察结果,很明显GAN已经达到了青春期。让我们详细探讨这些架构。
DCGAN
第一次,在GAN中使用卷积神经网络并取得了令人印象深刻的结果。在此之前,CNN在监督计算机视觉任务方面取得了前所未有的成果。但在GAN中,有线电视新闻网尚未开发。DCGAN被Alec Radford,Luke Metz,Soumith Chintala撰写的题为“深度卷积生成对抗网络的无监督表示学习”的论文中介绍。这是GAN研究的一个重要里程碑,因为它引入了主要的架构变化来解决训练不稳定,模式崩溃和内部协变量转换等问题。从那时起,基于DCGAN的架构引入了许多GAN架构。
BigGAN
这是GAN中用于图像生成的最新发展。谷歌实习生和谷歌DeepMind部门的两名研究人员发布了一篇题为“高保真自然图像合成的大规模GAN培训”的论文,可在https://arxiv.org/abs/1809.11096获得。本文是来自Heriot-Watt大学的Andrew Brock与来自DeepMind的Jeff Donahue和Karen Simonyan合作的实习项目。
这些图像由BigGAN生成,如您所见,它们的质量令人印象深刻。GAN首次生成具有高保真度和低品种差距的图像。之前的最高初始得分为52.52,BigGAN的初始得分为166.3,比现有技术(SOTA)好100%。此外,他们将Frechet初始距离(FID)得分从18.65提高到9.6。这些都是非常令人印象深刻的结果,我希望看到这个领域有更多的发展。最重要的改进是对发电机的正交正则化。
不是很令人印象深刻!
StyleGAN
StyleGAN是GAN研究的另一项重大突破。StyleGAN由Nvidia在题为“基于样式的生成对抗网络的生成器架构”的论文中介绍,可从以下链接https://arxiv.org/pdf/1710.10196.pdf获得。
StyleGAN在Face生成任务中设置了新记录。算法的核心是风格转移技术或风格混合。除了生成面部外,它还可以生成高质量的汽车,卧室等图像。这是GANs领域的一项重大改进,也是深度学习研究人员的灵感来源。
StackGAN
StackJANs由Han Zhang,Tao Xu,Hongsheng Li和其他人在题为StackGAN:文本到图像逼真图像合成与堆叠生成对抗网络的论文中提出,可通过以下链接获得:https://arxiv.org/ pdf / 1612.03242.pdf。他们使用StackGAN来探索文本到图像的合成,结果令人印象深刻。StackGAN是一对网络,当提供文本描述时,可以生成逼真的图像。我的书“Generative Adversarial Networks Projects”有一章专门讨论StackGANs。
正如您在上图中所看到的,StackGAN在提供文本描述时生成逼真的鸟类图像。最重要的是生成的图像正确地类似于提供的文本。文本到图像合成具有许多实际应用,例如从文本描述生成图像,将文本形式的故事转换为漫画形式,以创建文本描述的内部表示。
CycleGAN
CycleGAN有一些非常有趣的用例,例如将照片转换为绘画,反之亦然,将夏季拍摄的照片转换为冬季拍摄的照片,反之亦然,或将马的照片转换为斑马照片,反之亦然。CycleJANs由Jun-Yan Zhu,Taesung Park,Phillip Isola和Alexei A. Efros在题为“使用循环一致性对抗网络的非配对图像到图像的翻译”的论文中提出,该文章可从以下链接获得:https: //arxiv.org/pdf/1703.10593。CycleGAN探索不同的图像到图像翻译用例。
Pix2pix
对于图像到图像的翻译任务,pix2pix也显示了令人印象深刻的结果。无论是将夜间图像转换为日间图像还是将图像转换为白色图像,着色黑白图像,将草图转换为照片等等,Pix2pix在所有这些用例中都表现出色。pix2pix网络由Phillip Isola,Jun-Yan Zhu,Tinghui Zhou和Alexei A. Efros在他们的题为“使用条件对抗网络进行图像到图像翻译”的论文中介绍,可从以下链接获得:https:/ /arxiv.org/abs/1611.07004。
这是一个pix2pix交互式演示,能够从草图生成真实图像。
Age-cGAN(年龄条件生成对抗网络)
面部老化有许多行业用例,包括跨年龄人脸识别,寻找失踪儿童和娱乐。Grigory Antipov,Moez Baccouche和Jean-Luc Dugelay在他们的题为“面对有条件的生成性对抗网络的面部老化”的论文中提出了使用条件GAN进行面部老化,该论文可从以下链接获得:https://arxiv.org/pdf/1702.01983 .PDF。
此图显示了Age-cGAN如何从源年龄转换为目标年龄。
这些是一些广受欢迎的GAN架构。除此之外,还有数以千计的GAN架构。这取决于您的要求哪种架构适合您的需求。
崛起
正如着名理论物理学家理查德费曼所说:“我无法创造,我不明白”
GAN背后的想法是培训理解数据的网络。GAN现在开始了解数据,通过这种理解,他们开始创建逼真的图像。让我们见证GAN的崛起。
Edmond de Belamy
由Generative Adversarial Networks创作的Edmond de Belamy在佳士得拍卖会上以432,500美元的价格成交出售。这是GAN进步的重要一步。全世界第一次目睹了GAN及其潜力。在此之前,GAN主要局限于研究实验室,并由机器学习工程师使用。这一行为成为GAN向公众的一个入口。
您可能熟悉https://thispersondoesnotexist.com网站。上个月,这是整个互联网。该网站,https: //thispersondoesnotexist.com由优步的软件工程师Philip Wan创建。他根据NVIDIA发布的名为StyleGAN的代码创建了这个网站。每当你点击刷新时,它会生成一个新的伪脸,看起来真的无法判断它是否是假的。这是可怕的自动对焦,但同时具有破坏性。这项技术有可能创造无尽的虚拟世界。
DeepFakes
DeepFakes是另一个可怕的AF但具有破坏性的技术。基于GAN,这可以将人脸粘贴到视频中的目标人物上。DeepFakes也遍布互联网。人们推测这种技术的缺点。但对于AI研究人员来说,这是一个重大突破。这项技术有可能在电影行业节省数百万美元,在那里需要数小时的编辑来改变演员面对的特技演员。
这项技术总是很可怕,但我们有责任将它用于社交产品。
趋势
StyleGAN目前是GitHub上第六个最热门的python项目。到目前为止提出的命名GAN的数量是数千。这个存储库有一个受欢迎的GAN列表及其各自的论文https://github.com/hindupuravinash/the-gan-zoohindupuravinash / the-gan-zoo
所有名为GAN的列表!通过在GitHub上创建一个帐户,为hindupuravinash / the-gan-zoo开发做出贡献。github.com
在现实世界中
GAN已被用于增强游戏图形。我对GAN的这种用例感到非常兴奋。最近,NVIDIA发布了一个视频,其中展示了如何使用GAN来对视频中的环境进行游戏化。
结论
在本文中,我们已经看到GAN如何成名并成为一种全球现象。我希望,我们看到未来几年GAN的民主化。在本文中,我们从GAN的诞生开始。然后,我们探索了一些广受欢迎的GAN架构。最后,我们目睹了GAN的崛起。当我看到GAN周围的负面新闻时,我感到困惑。我相信,我们有责任让每个人都了解GAN的影响,以及我们如何在道德和道德上尽可能地使用GAN。让我们一起走到一起,围绕GAN传播积极性。GAN有很大的潜力来创造新的产业和就业机会。我们必须确保它不会落入坏人之手。
本文转自usejournal,原文地址
Comments