OpenAI在一個簡單的“捉迷藏”遊戲中訓練了代理,並在此過程中學習了許多其他技能。

競爭是影響我們物種進化的社會經濟動態之一。由於自然選擇指導的生物之間的共同進化和競爭,地球上產生了大量的複雜性和多樣性。通過與另一方競爭,我們不斷被迫提高在特定主題上的知識和技能。人工智能(AI)的最新發展已開始利用某些競爭原理來影響AI代理的學習行為。具體來說,多主體強化學習(MARL)領域受到競爭和博弈論動力學的極大影響。最近,來自OpenAI的研究人員開始在一個簡單的“捉迷藏”遊戲中訓練了一些AI代理,他們會對代理自然地開發的某些行為感到震驚。剛剛發表的有趣的研究論文

通過競爭學習是AI中新興的範例之一,它與我們的知識如何隨着人類的進化而致命地相似。由於我們是嬰兒,因此我們通過探索周圍的環境並與他人互動來發展新知識,有時以協作的方式,有時是以競爭性的模式。這種動態與我們當今構建AI系統的方式形成了鮮明對比。儘管有監督的學習方法仍然是AI的主要範例,但將其應用於許多現實情況卻相對不切實際。在代理需要在相對未知的環境中與物理對象進行交互的環境中,這一點更加突出。在這些情況下,代理商不斷地合作和/或與彼此競爭以開發新的有機知識的代理商是很自然的。

多智能體課程和緊急行為

通過競爭學習的副作用之一是,代理會發展出意外的行為。在AI理論中,這稱為代理自動課程,代表觀察知識如何發展的第一排。想象一下,您正在培訓AI代理以掌握特定的遊戲,突然,該代理髮現了從未經過測試的策略。儘管自動課程現象發生在單人強化學習系統中,但通過競爭發展起來的現象更為明顯,這就是所謂的多人自動課程。

在競爭性的多主體AI環境中,不同的主體相互競爭以評估特定策略。當出現新的成功策略或變異時,它會更改相鄰代理需要解決的隱式任務分配,並為適應帶來新的壓力。這些進化軍備競賽創建了隱式的自動課程,因此競爭主體不斷為彼此創建新任務。多主體自動課程的一個關鍵要素是,主體學習到的突發行為會有機地進化,而不是預先建立的激勵機制的結果。毫不奇怪,當在多人遊戲中訓練AI代理時,多代理自動課程已成為最成功的技術之一。

捉迷藏訓練代理

最初的OpenAI實驗旨在訓練一系列強化學習代理來掌握捉迷藏遊戲。在目標設置中,特工的任務是在基於物理的環境中參加兩人一組的捉迷藏遊戲。藏匿者的任務是避開搜尋者的視線,而尋找者的任務是保持藏身者的視野。在整個環境中散布着物體,代理可以抓住這些物體並將它們鎖定在適當的位置。代理商還必須學習隨機生成的不可移動的房間和牆壁。OpenAI環境沒有任何明確的誘因來促使代理與對象進行交互。代理商會獲得基於團隊的獎勵;如果所有藏身者都被藏匿,藏身者將獲得+1的獎勵,如果尋找者看見任何藏身者,則將獲得-1的獎勵。尋求者獲得相反的獎勵,如果所有隱藏器都被隱藏,則為-1;否則為+1。為了將坐席行為限制在合理的範圍內,如果坐席離比賽區域太遠,會受到處罰。在準備階段,所有代理商都會獲得零獎勵。

為了訓練捉迷藏者,OpenAI研究人員利用了其他多人遊戲(如OpenAI FiveDactyl)中使用的訓練基礎架構。這種類型的基礎結構依賴於策略網絡,在該策略網絡中,使用自我扮演來對代理進行培訓,這是自然的課程,因為代理始終會扮演適當級別的對手。代理策略由兩個具有不同參數的獨立網絡組成-一個生成動作分布的策略網絡和一個預測未來折現收益的批評者網絡。嵌入每個對象,然後通過一個掩蓋的殘餘自我關注塊,類似於變壓器中使用的那些對象,其中的關注點是對象而不是時間。不在視線範圍內且位於代理程序前面的對象會被屏蔽掉,以使代理程序沒有它們的信息。

捉迷藏中的自課程和緊急行為

當AI代理在前面解釋的環境中相互競爭時,他們不僅掌握了捉迷藏的知識,而且還制定了多達六種不同的策略,這些策略都不是最初的誘因。

最初,藏匿者和尋求者學會粗暴地逃跑並追逐。在經過大約2500萬次的捉迷藏活動之後,藏身者學會了使用自己掌握的工具並有意地改變了他們的環境。他們開始建造安全的庇護所,方法是將許多盒子搬到一起或靠在牆上,然後將它們鎖定在適當的位置,以躲藏起來。在又發生了7500萬次情節之後,搜尋者還學習了基本工具的使用;他們學會移動並使用坡道跳過障礙物,使他們能夠進入藏身者的庇護所。一千萬集以後,藏身者學會防禦這種策略。藏匿者學會將坡道帶到遊樂區的邊緣並將其鎖定在適當的位置,這似乎消除了尋找者擁有的唯一工具。同樣,在總共進行了3.8億次訓練後,搜尋者學會將箱子帶到遊戲者的邊緣,藏身者將斜坡鎖定。然後,搜尋者跳到箱子的頂部,將其衝浪到藏身者的庇護所;之所以可行,是因為環境允許特工隨箱子一起移動,而無論他們是否在地面上。作為回應,藏身者學會在建造庇護所之前將所有盒子鎖定在適當的位置。下圖顯示了其中一些緊急行為。

關於捉迷藏者所產生的突發行為的迷人之處在於,它們是內部競爭所誘導的自身課程的一部分,是完全有機地進化的。在幾乎所有情況下,突發行為的表現均優於內在動機。

OpenAI的捉迷藏實驗絕對令人着迷,清楚地展示了多主體競爭環境作為學習催化劑的潛力。許多OpenAI技術可以推論到其他AI場景中,在這些場景中,通過競爭學習比監督學習更可行。

本文轉自towardsdatascience,原文地址