5年前,Generative Adversarial Networks(GANs)開始了深度學習的革命。這場革命產生了一些重大的技術突破。Ian Goodfellow和其他人在題為“Generative Adversarial Networks”的論文中引入了生成性對抗網絡 -  https://arxiv.org/abs/1406.2661。學術界公開接受了GAN,業界也歡迎GAN。GAN的崛起是不可避免的。

首先,關於GAN的最好的事情是它們的學習性質,這是無人監督的。GAN不需要標記數據,這使得GAN功能強大,因為不需要數據標記的枯燥工作。

其次,GAN的潛在用例使GAN成為對話的中心。他們可以生成高質量的圖像,增強照片,從文本生成圖像,將圖像從一個域轉換為另一個域,隨着年齡的增長改變臉部圖像的外觀等等。名單是無止境的。我們將在本文中介紹一些廣受歡迎的GAN架構。

第三,圍繞GAN的無休止的研究是如此令人着迷,以至於它吸引了其他所有行業的注意力。我們將在本文後面部分討論重大技術突破。

誕生

生成對抗網絡或簡稱GAN是兩個網絡,生成器網絡和鑒別器網絡的設置。這兩個網絡可以是神經網絡,從卷積神經網絡,遞歸神經網絡到自動編碼器。在這種設置中,兩個網絡參與競爭性遊戲並試圖相互超越,同時互相幫助他們完成自己的任務。經過數千次迭代後,如果一切順利,生成器網絡可以完美地生成逼真的假圖像,並且鑒別器網絡可以很好地判斷顯示的圖像是假的還是真實的。換句話說,生成器網絡將來自潛在空間的隨機噪聲矢量(不是來自潛在空間的所有GAN樣本)變換為來自真實數據集的樣本。訓練GAN是一個非常直觀的過程。

GAN擁有大量的實際用例,如圖像生成,藝術品生成,音樂生成和視頻生成。此外,它們還可以提高圖像質量,使圖像風格化或着色,生成面部以及執行更多有趣的任務。

GAN網絡的架構
圖片來源:O’Reilly

上圖顯示了香草GAN網絡的架構。首先,從潛在空間採樣D維噪聲矢量並饋送到發電機網絡。生成器網絡將該噪聲矢量轉換為圖像。然後將該生成的圖像饋送到鑒別器網絡以進行分類。鑒別器網絡不斷地從真實數據集和由發生器網絡生成的圖像獲得圖像。它的工作是區分真實和虛假的圖像。所有GAN架構都遵循相同的設計。這是GAN的誕生。現在探討GAN的青春期。

青春期

在其青春期,GAN產生了廣泛流行的架構,如DCGAN,StyleGAN,BigGAN,StackGAN,Pix2pix,Age-cGAN,CycleGAN。這些架構的結果非常有希望。通過觀察結果,很明顯GAN已經達到了青春期。讓我們詳細探討這些架構。

DCGAN

第一次,在GAN中使用卷積神經網絡並取得了令人印象深刻的結果。在此之前,CNN在監督計算機視覺任務方面取得了前所未有的成果。但在GAN中,有線電視新聞網尚未開發。DCGAN被Alec Radford,Luke Metz,Soumith Chintala撰寫的題為“深度卷積生成對抗網絡的無監督表示學習”的論文中介紹。這是GAN研究的一個重要里程碑,因為它引入了主要的架構變化來解決訓練不穩定,模式崩潰和內部協變量轉換等問題。從那時起,基於DCGAN的架構引入了許多GAN架構。

GAN生成卧室圖像
GAN生成卧室圖像,資料來源:https//arxiv.org/pdf/1511.06434.pdf

BigGAN

這是GAN中用於圖像生成的最新發展。谷歌實習生和谷歌DeepMind部門的兩名研究人員發布了一篇題為“高保真自然圖像合成的大規模GAN培訓”的論文,可在https://arxiv.org/abs/1809.11096獲得。本文是來自Heriot-Watt大學的Andrew Brock與來自DeepMind的Jeff Donahue和Karen Simonyan合作的實習項目。

資料來源:https//arxiv.org/pdf/1809.11096.pdf

這些圖像由BigGAN生成,如您所見,它們的質量令人印象深刻。GAN首次生成具有高保真度和低品種差距的圖像。之前的最高初始得分為52.52,BigGAN的初始得分為166.3,比現有技術(SOTA)好100%。此外,他們將Frechet初始距離(FID)得分從18.65提高到9.6。這些都是非常令人印象深刻的結果,我希望看到這個領域有更多的發展。最重要的改進是對發電機的正交正則化。

BigGAN生成的圖像
資料來源:https//arxiv.org/pdf/1809.11096.pdf

不是很令人印象深刻!

StyleGAN

StyleGAN是GAN研究的另一項重大突破。StyleGAN由Nvidia在題為“基於樣式的生成對抗網絡的生成器架構”的論文中介紹,可從以下鏈接https://arxiv.org/pdf/1710.10196.pdf獲得

StyleGAN在Face生成任務中設置了新記錄
資料來源:https//medium.com/syncedreview/gan-2-0-nvidias-hyperrealistic-face-generator-e3439d33ebaf

StyleGAN在Face生成任務中設置了新記錄。算法的核心是風格轉移技術或風格混合。除了生成面部外,它還可以生成高質量的汽車,卧室等圖像。這是GANs領域的一項重大改進,也是深度學習研究人員的靈感來源。

StackGAN

StackJANs由Han Zhang,Tao Xu,Hongsheng Li和其他人在題為StackGAN:文本到圖像逼真圖像合成與堆疊生成對抗網絡的論文中提出,可通過以下鏈接獲得:https//arxiv.org/ pdf / 1612.03242.pdf。他們使用StackGAN來探索文本到圖像的合成,結果令人印象深刻。StackGAN是一對網絡,當提供文本描述時,可以生成逼真的圖像。我的書“Generative Adversarial Networks Projects”有一章專門討論StackGANs。

StackGAN在提供文本描述時生成逼真的鳥類圖像
資料來源:https//arxiv.org/pdf/1612.03242.pdf

正如您在上圖中所看到的,StackGAN在提供文本描述時生成逼真的鳥類圖像。最重要的是生成的圖像正確地類似於提供的文本。文本到圖像合成具有許多實際應用,例如從文本描述生成圖像,將文本形式的故事轉換為漫畫形式,以創建文本描述的內部表示。

CycleGAN

CycleGAN有一些非常有趣的用例,例如將照片轉換為繪畫,反之亦然,將夏季拍攝的照片轉換為冬季拍攝的照片,反之亦然,或將馬的照片轉換為斑馬照片,反之亦然。CycleJANs由Jun-Yan Zhu,Taesung Park,Phillip Isola和Alexei A. Efros在題為“使用循環一致性對抗網絡的非配對圖像到圖像的翻譯”的論文中提出,該文章可從以下鏈接獲得:https: //arxiv.org/pdf/1703.10593。CycleGAN探索不同的圖像到圖像翻譯用例。

CycleGAN探索不同的圖像到圖像翻譯用例
資料來源:https//arxiv.org/pdf/1703.10593.pdf

Pix2pix

對於圖像到圖像的翻譯任務,pix2pix也顯示了令人印象深刻的結果。無論是將夜間圖像轉換為日間圖像還是將圖像轉換為白色圖像,着色黑白圖像,將草圖轉換為照片等等,Pix2pix在所有這些用例中都表現出色。pix2pix網絡由Phillip Isola,Jun-Yan Zhu,Tinghui Zhou和Alexei A. Efros在他們的題為“使用條件對抗網絡進行圖像到圖像翻譯”的論文中介紹,可從以下鏈接獲得:https:/ /arxiv.org/abs/1611.07004

這是一個pix2pix交互式演示,能夠從草圖生成真實圖像。
圖片來源:https//phillipi.github.io/pix2pix/

這是一個pix2pix交互式演示,能夠從草圖生成真實圖像。

Age-cGAN(年齡條件生成對抗網絡)

面部老化有許多行業用例,包括跨年齡人臉識別,尋找失蹤兒童和娛樂。Grigory Antipov,Moez Baccouche和Jean-Luc Dugelay在他們的題為“面對有條件的生成性對抗網絡的面部老化”的論文中提出了使用條件GAN進行面部老化,該論文可從以下鏈接獲得:https//arxiv.org/pdf/1702.01983 .PDF。

Age-cGAN如何從源年齡轉換為目標年齡

此圖顯示了Age-cGAN如何從源年齡轉換為目標年齡。

這些是一些廣受歡迎的GAN架構。除此之外,還有數以千計的GAN架構。這取決於您的要求哪種架構適合您的需求。

崛起

正如着名理論物理學家理查德費曼所說:“我無法創造,我不明白”

GAN背後的想法是培訓理解數據的網絡。GAN現在開始了解數據,通過這種理解,他們開始創建逼真的圖像。讓我們見證GAN的崛起。

Edmond de Belamy

由Generative Adversarial Networks創作的Edmond de Belamy在佳士得拍賣會上以432,500美元的價格成交出售。這是GAN進步的重要一步。全世界第一次目睹了GAN及其潛力。在此之前,GAN主要局限於研究實驗室,並由機器學習工程師使用。這一行為成為GAN向公眾的一個入口。

由Generative Adversarial Networks創作的Edmond de Belamy在佳士得拍賣會上以432,500美元的價格成交出售

您可能熟悉https://thispersondoesnotexist.com網站。上個月,這是整個互聯網。該網站,https: //thispersondoesnotexist.com由優步的軟件工程師Philip Wan創建。他根據NVIDIA發布的名為StyleGAN的代碼創建了這個網站。每當你點擊刷新時,它會生成一個新的偽臉,看起來真的無法判斷它是否是假的。這是可怕的自動對焦,但同時具有破壞性。這項技術有可能創造無盡的虛擬世界。

GAN生成的人臉
資料來源:https//thispersondoesnotexist.com/

DeepFakes

DeepFakes是另一個可怕的AF但具有破壞性的技術。基於GAN,這可以將人臉粘貼到視頻中的目標人物上。DeepFakes也遍布互聯網。人們推測這種技術的缺點。但對於AI研究人員來說,這是一個重大突破。這項技術有可能在電影行業節省數百萬美元,在那裡需要數小時的編輯來改變演員面對的特技演員。

這項技術總是很可怕,但我們有責任將它用於社交產品。

DeepFakes生成的川普
圖片來源:https//thenextweb.com/artificial-intelligence/2018/02/21/deepfakes-algorithm-nails-donald-trump-in-most-convincing-fake-yet/

趨勢

StyleGAN目前是GitHub上第六個最熱門的python項目。到目前為止提出的命名GAN的數量是數千。這個存儲庫有一個受歡迎的GAN列表及其各自的論文https://github.com/hindupuravinash/the-gan-zoohindupuravinash / the-gan-zoo
所有名為GAN的列表!通過在GitHub上創建一個帳戶,為hindupuravinash / the-gan-zoo開發做出貢獻。github.com

在現實世界中

GAN已被用於增強遊戲圖形。我對GAN的這種用例感到非常興奮。最近,NVIDIA發布了一個視頻,其中展示了如何使用GAN來對視頻中的環境進行遊戲化。

結論

在本文中,我們已經看到GAN如何成名並成為一種全球現象。我希望,我們看到未來幾年GAN的民主化。在本文中,我們從GAN的誕生開始。然後,我們探索了一些廣受歡迎的GAN架構。最後,我們目睹了GAN的崛起。當我看到GAN周圍的負面新聞時,我感到困惑。我相信,我們有責任讓每個人都了解GAN的影響,以及我們如何在道德和道德上儘可能地使用GAN。讓我們一起走到一起,圍繞GAN傳播積極性。GAN有很大的潛力來創造新的產業和就業機會。我們必須確保它不會落入壞人之手。

本文轉自usejournal,原文地址