OpenAI在一个简单的“捉迷藏”游戏中训练了代理,并在此过程中学习了许多其他技能。

竞争是影响我们物种进化的社会经济动态之一。由于自然选择指导的生物之间的共同进化和竞争,地球上产生了大量的复杂性和多样性。通过与另一方竞争,我们不断被迫提高在特定主题上的知识和技能。人工智能(AI)的最新发展已开始利用某些竞争原理来影响AI代理的学习行为。具体来说,多主体强化学习(MARL)领域受到竞争和博弈论动力学的极大影响。最近,来自OpenAI的研究人员开始在一个简单的“捉迷藏”游戏中训练了一些AI代理,他们会对代理自然地开发的某些行为感到震惊。刚刚发表的有趣的研究论文

通过竞争学习是AI中新兴的范例之一,它与我们的知识如何随着人类的进化而致命地相似。由于我们是婴儿,因此我们通过探索周围的环境并与他人互动来发展新知识,有时以协作的方式,有时是以竞争性的模式。这种动态与我们当今构建AI系统的方式形成了鲜明对比。尽管有监督的学习方法仍然是AI的主要范例,但将其应用于许多现实情况却相对不切实际。在代理需要在相对未知的环境中与物理对象进行交互的环境中,这一点更加突出。在这些情况下,代理商不断地合作和/或与彼此竞争以开发新的有机知识的代理商是很自然的。

多智能体课程和紧急行为

通过竞争学习的副作用之一是,代理会发展出意外的行为。在AI理论中,这称为代理自动课程,代表观察知识如何发展的第一排。想象一下,您正在培训AI代理以掌握特定的游戏,突然,该代理发现了从未经过测试的策略。尽管自动课程现象发生在单人强化学习系统中,但通过竞争发展起来的现象更为明显,这就是所谓的多人自动课程。

在竞争性的多主体AI环境中,不同的主体相互竞争以评估特定策略。当出现新的成功策略或变异时,它会更改相邻代理需要解决的隐式任务分配,并为适应带来新的压力。这些进化军备竞赛创建了隐式的自动课程,因此竞争主体不断为彼此创建新任务。多主体自动课程的一个关键要素是,主体学习到的突发行为会有机地进化,而不是预先建立的激励机制的结果。毫不奇怪,当在多人游戏中训练AI代理时,多代理自动课程已成为最成功的技术之一。

捉迷藏训练代理

最初的OpenAI实验旨在训练一系列强化学习代理来掌握捉迷藏游戏。在目标设置中,特工的任务是在基于物理的环境中参加两人一组的捉迷藏游戏。藏匿者的任务是避开搜寻者的视线,而寻找者的任务是保持藏身者的视野。在整个环境中散布着物体,代理可以抓住这些物体并将它们锁定在适当的位置。代理商还必须学习随机生成的不可移动的房间和墙壁。OpenAI环境没有任何明确的诱因来促使代理与对象进行交互。代理商会获得基于团队的奖励;如果所有藏身者都被藏匿,藏身者将获得+1的奖励,如果寻找者看见任何藏身者,则将获得-1的奖励。寻求者获得相反的奖励,如果所有隐藏器都被隐藏,则为-1;否则为+1。为了将坐席行为限制在合理的范围内,如果坐席离比赛区域太远,会受到处罚。在准备阶段,所有代理商都会获得零奖励。

为了训练捉迷藏者,OpenAI研究人员利用了其他多人游戏(如OpenAI FiveDactyl)中使用的训练基础架构。这种类型的基础结构依赖于策略网络,在该策略网络中,使用自我扮演来对代理进行培训,这是自然的课程,因为代理始终会扮演适当级别的对手。代理策略由两个具有不同参数的独立网络组成-一个生成动作分布的策略网络和一个预测未来折现收益的批评者网络。嵌入每个对象,然后通过一个掩盖的残余自我关注块,类似于变压器中使用的那些对象,其中的关注点是对象而不是时间。不在视线范围内且位于代理程序前面的对象会被屏蔽掉,以使代理程序没有它们的信息。

捉迷藏中的自课程和紧急行为

当AI代理在前面解释的环境中相互竞争时,他们不仅掌握了捉迷藏的知识,而且还制定了多达六种不同的策略,这些策略都不是最初的诱因。

最初,藏匿者和寻求者学会粗暴地逃跑并追逐。在经过大约2500万次的捉迷藏活动之后,藏身者学会了使用自己掌握的工具并有意地改变了他们的环境。他们开始建造安全的庇护所,方法是将许多盒子搬到一起或靠在墙上,然后将它们锁定在适当的位置,以躲藏起来。在又发生了7500万次情节之后,搜寻者还学习了基本工具的使用;他们学会移动并使用坡道跳过障碍物,使他们能够进入藏身者的庇护所。一千万集以后,藏身者学会防御这种策略。藏匿者学会将坡道带到游乐区的边缘并将其锁定在适当的位置,这似乎消除了寻找者拥有的唯一工具。同样,在总共进行了3.8亿次训练后,搜寻者学会将箱子带到游戏者的边缘,藏身者将斜坡锁定。然后,搜寻者跳到箱子的顶部,将其冲浪到藏身者的庇护所;之所以可行,是因为环境允许特工随箱子一起移动,而无论他们是否在地面上。作为回应,藏身者学会在建造庇护所之前将所有盒子锁定在适当的位置。下图显示了其中一些紧急行为。

关于捉迷藏者所产生的突发行为的迷人之处在于,它们是内部竞争所诱导的自身课程的一部分,是完全有机地进化的。在几乎所有情况下,突发行为的表现均优于内在动机。

OpenAI的捉迷藏实验绝对令人着迷,清楚地展示了多主体竞争环境作为学习催化剂的潜力。许多OpenAI技术可以推论到其他AI场景中,在这些场景中,通过竞争学习比监督学习更可行。

本文转自towardsdatascience,原文地址