圖神經網絡

本文轉自:《Top Applications of Graph Neural Networks 2021

由Google完成翻譯,機器翻譯效果不好,但不影響整體理解。

在年初,我感到Graph神經網絡(GNN)成為流行語。作為該領域的研究人員,我為自己的工作感到自豪(至少不感到羞愧)。並非總是如此:三年前,當我與忙於GAN和Transformers的同行交談時,他們對我的總體印象是我正在研究特殊的利基問題。嗯,這個領域已經相當成熟,在這裡我建議看看我們最近擁有的GNN的頂級應用。

如果這個關於卷積神經網絡的深入教育內容對您有用,您可以 訂閱我們的AI研究郵件列表 ,以在我們發佈新材料時收到通知。 

推薦系統

自然地,圖是在用戶與電子商務平台中的產品交互的上下文中出現的,因此,有許多公司採用GNN進行產品推薦。一個標準的用例是在用戶和項目圖之間建模交互,以某種形式的負採樣損失學習節點嵌入,並使用kNN索引實時檢索給定用戶的類似項目。最早使用此管道的公司是 Uber Eats  ,該公司通過GraphSage 網絡推薦食品和餐館 。

在食品推薦的情況下,由於推薦的地理限制,所獲得的圖表相對較小,但一些公司在數十億個邊緣的規模上使用GNN。中國零售業巨頭阿里巴巴在 擁有數十億用戶和產品的網絡上放置了產品 圖嵌入和GNN。即使構建這樣的圖也可能是工程上的噩夢,但是對於最近的 Aligraph 管道而言,僅需五分鐘即可構建具有400M節點的圖。令人印象深刻,呵呵。Aligraph支持高效的分佈式圖形存儲,優化的採樣運算符以及大量內部GNN。目前已部署它用於公司中多個產品的推薦和個性化搜索。

阿里巴巴, 亞馬遜和許多其他電子商務公司使用GNN來增強推薦系統。

同樣,  Pinterest 提出了 PinSage 模型,該模型使用個性化PageRank有效地對鄰域進行採樣,並通過聚合每個鄰域來有效地更新節點嵌入。他們的後續 PinnerSage 擴展了此框架,以處理多嵌入內容,以解決用戶的不同喜好。這些只是該領域中的幾個著名示例(您還可以在亞馬遜上檢查 有關知識圖和GNN 或 Fabula AI使用GNN進行偽造新聞檢測的研究),但是很明顯,如果信號來自用戶的互動意義重大。

組合優化

組合優化(CO)問題的解決方案是金融,物流,能源,生命科學和硬件設計中許多重要應用程序的主力軍。這些問題大多數是用圖形表示的。結果,在過去的一個世紀中,大量的墨水被灑在了更有效地解決CO問題的算法方法上。然而,機器學習驅動的現代計算革命為學習解決此類問題的方法提供了一種令人信服的新方式。

Google Brain團隊 使用GNN優化了新硬件(例如Google的TPU)的芯片塊的功率,面積和性能 。計算機芯片可以分為內存和邏輯組件的圖形,每個圖形均由其坐標和類型表示。在遵守密度和布線擁塞的限制的同時,確定每個組件的位置是一項費力的過程,這仍然是電氣工程師的工作。 他們的GNN模型與策略和價值RL功能結合在一起, 能夠為匹配或優於手動設計的硬件的電路芯片生成優化的布局。

與Chess and Go相比,Chip Placement問題的複雜性。(來源

另一種方法採用不同的途徑,並將ML模型集成到現有求解器中。例如,  Gasse等。 提出了一種圖網,用於學習分支定界變量選擇策略:混合整數線性程序(MILP)求解器中的關鍵步驟。這樣,學習到的表示試圖使求解器的運行時間最小化,並已證明是推理時間與決策質量之間的良好折衷。

在  DeepMind和Google的最新工作中,圖形網用於MILP求解器中涉及的兩個關鍵子任務:聯合變量分配和限制目標值。他們的神經網絡方法比包括Google生產包裝和計劃系統在內的龐大數據集的現有求解器快2–10倍。有關此主題的更多結果,你可以參考 幾個 最近的調查 是討論GNNS,ML,和CO的更深度的結合。

計算機視覺

由於世界上的對象之間有着密切的聯繫,包含這些對象的圖像也可以從GNN中受益。感知圖像的一種方法是通過場景圖,即 場景中存在的一組對象以及它們之間的關係。場景圖已在圖像檢索,理解和推理,字幕,視覺問題解答以及圖像生成中得到了應用,表明它可以極大地提高模型的性能。

在Facebook的作品中,可以將流行的CV數據集COCO中的對象放置在畫布中,指定對象的位置和大小,並從中創建場景圖。然後,使用GNN對圖形進行編碼以確定每個對象的嵌入,然後將其與CNN一起使用以生成對象的蒙版,邊界框和外觀。因此, 最終用戶只需 為GNN / CNN在圖中添加新節點(指定該節點的相對位置和大小)即可生成帶有這些對象的圖像。

使用場景圖生成圖像。 用戶可以將對象 放置在畫布上的任何位置(紅色的「河」;從中心移到右下角)以反映圖像的變化(圖像中生成的河流也移到右下角)。

CV中圖形的另一個來源是兩個相關圖像的匹配-過去是手工製作的描述符來完成的一個經典問題。3D圖形公司 Magic Leap 發佈了一種名為SuperGlue的GNN體系結構 ,該體系結構可 在實時視頻中執行圖形匹配,用於完成3D重建,位置識別,本地化和製圖(SLAM)等任務。SuperGlue由一個基於注意力的GNN組成,該GNN學習圖像關鍵點的表示形式,這些圖像關鍵點被進一步饋送到進行匹配的最佳傳輸層中。該模型可以在現代GPU上實時執行匹配,並且可以輕鬆集成到現代SLAM系統中。有關圖形與計算機視覺相交的更多詳細信息,請查看 這些 調查

物理/化學

生命科學受益於將粒子或分子之間的相互作用表示為圖形,然後使用GNN預測此類系統的屬性。在  Facebook和CMU的Open Catalyst項目中,最終目標是找到存儲諸如太陽或風能之類的可再生能源的新方法。潛在的解決方案之一是通過化學反應將這種能量轉換成其他燃料,例如氫氣。然而,這需要發現新的催化劑以高速率驅動化學反應,並且已知的方法例如 DFT 非常昂貴。 Open Catalyst項目打開 最大的催化劑數據集,其DFT弛豫和GNN基線。希望找到新的低成本分子,這些分子可以增加當前耗時數天的昂貴仿真,並具有有效的分子能量和力的ML近似值(可能需要數毫秒)。

吸附物(小連接分子)和催化劑表面的初始狀態和鬆弛狀態的示例。為了找到一對吸附劑催化劑的鬆弛狀態,必須執行昂貴的DFT模擬,這可能需要幾天的時間。 Zitnick等。2020年

DeepMind的研究人員 還應用GNN來模擬複雜粒子系統(例如水或沙子)的動力學。通過在每個步驟中預測每個粒子的相對運動,可以合理地重建整個系統的動力學,並進一步了解控制運動的基本定律。例如,這 用於理解玻璃化轉變,這是固態理論中最有趣的未解決問題之一。使用GNN不僅可以模擬過渡過程中的動力學,而且可以更好地理解粒子如何根據距離和時間相互影響。

此外,位於美國的物理實驗室 Fermilab致力於將GNN運送到 CERN的大型強子對撞機(LHC)。目標是處理數百萬個圖像並選擇與發現新粒子有關的圖像。他們的任務是在FPGA上實現 GNN  ,並將它們與數據採集​​處理器集成在一起 ,這將允許在全球範圍內遠程運行GNN。有關GNN在粒子物理學中的更多應用,請查看 此最新調查

藥物發現

憑藉數十億美元的研發資金和激烈的競爭,製藥公司在激烈地尋找新的藥物開發範例。在生物學中,圖可以表示各種規模的相互作用。在分子水平上,邊緣可以是分子中原子之間的鍵或蛋白質中氨基酸殘基之間的相互作用。在更大的範圍內,圖形可以代表更複雜的結構(例如蛋白質,mRNA或代謝物)之間的相互作用。根據特定的抽象級別,這些圖可用於目標識別,分子特性預測,高通量篩選,新型藥物設計,蛋白質工程和藥物再利用。

在GNN的不同應用中發現藥物的時間表。 Gaudelet等人,2020年

也許,使用GNN進行藥物發現的最有希望的結果之一是麻省理工學院的研究人員及其合作者 發表在Cell(2020)上。在這項工作中,訓練了一個名為Chemprop的深層GNN模型, 以預測分子是否具有抗生素特性:對細菌大腸桿菌的生長抑制作用。在僅使用FDA批准的藥物庫中的約2500個分子對其進行訓練後,Chemprop就應用於更大的數據集,其中包括含有Halicin分子的Drug Repurpose Hub,該藥物  在 2001年的《太空漫遊 》中被命名為 HAL 9000

值得注意的是,以前僅對Halicin分子進行過研究,因為其結構與已知的抗生素相差很大。但是,實驗室的體內和體外臨床實驗表明,Halicin是一種廣譜抗生素。針對強大的NN模型進行的廣泛基準測試凸顯了在Halicin的發現中使用GNN學習功能的重要性。除了這項工作的實用性之外,Chemprop的體系結構還應引起更多關註:與許多GNN模型不同,Chemprop具有5層和1600個隱藏維,遠遠超過了用於此類任務的典型GNN參數。希望這只是即將到來的人工智能新醫學發現中的一小部分。有關此主題的更多結果,請查看 最近的調查 和 博客文章 研究了藥物發現領域中更多的GNN應用。