Reaver在《星际争霸 II》各种小型游戏上与其他AI的性能对比

  若是说我们的征途是星辰大海,那么星际争霸必定是此中一关。今天,有人在Github开源了他潜心研究一年半的功效,一个新手和资深研究人员都能受益的深度强化进修框架,单机运转速度快、便利调式,支撑多种强化进修锻炼情况。

  上周竣事的 AI Challenger 星际争霸竞赛,让 AI 挑战星际争霸这个议题又稍稍火了一把。虽然这届冠军利用的仍然是硬编码方式,但从其他处理方案中不难看出,AI算法的占比在不竭提拔。

  作为围棋之后 DeepMind 公开颁布发表的下一个霸占方针,《星际争霸》的魅力可见一斑。而随后不久 DeepMind 便将其相关研究及平台开源,更是印证了让 AI 玩星际争霸的挑战。

  今天,塔尔图大学的 Roman Ring 在 Github 上开源了他倾力投入一年半的功效,一个名叫 Reaver 的《星际争霸 II》AI,可用于锻炼《星际争霸 II》的各类根基使命。

  Reaver 的根基思绪是沿着 DeepMind 的路线在走,也即 AI 的弄法是像人类玩家一样,从游戏画面中获取视觉特征,然后再做出决策。

  弥补申明,Roman 客岁本科结业项目是利用《Actor-Critic 法复现 DeepMind 星际争霸 II 强化进修基准》[1],Reaver 则是在此根本上的改善提拔。

  Reaver 的强项在于比其他开源的同类框架单机运转速度快;除了支撑星际争霸游戏锻炼情况 SC2LE,也支撑 OpenAI Gym、ATARI 和 MUJOCO;模块化构成,容易调试。若是我们的征途是星辰大海,那么此中的一关必然是《星际争霸》。

  Reaver 对于不具备 GPU 集群的人很是敌对,正如作者在 Github 库里引见所说,

  “虽然开辟是研究驱动的,但 Reaver API 背后的理念雷同于《星际争霸II》游戏本身新手能够用,范畴专家也能从中获得工具。

  “对于业余快乐喜爱者而言,只需对 Reaver 稍作点窜(例如超参数),就能获得锻炼深度强化进修智能体的所有必需东西。对于经验丰硕的研究人员,并且都是模块化架构:智能体、模子和情况都是分隔,而且能够随便组合互换。”

  机能 大部门已颁发的强化进修基准凡是针对的都是 MPI 之间 message-based 通信,对于 DeepMind 或者 OpenAI 如许有大规模分布式强化进修设置装备摆设的机构而言如许做天然很合理,但对于通俗研究者或其他没有这类强大根本设备的人,这就成了很大的瓶颈。因而,Roman Ring 采用了共享内存(shared memory)的方式,比拟 message-based 并行的处理方案实现了大约 3 倍的速度提拔。

  模块化 良多强化进修基准都或多或少都是模块化的,不外这些基准凡是与作者利用的锻炼情况亲近相关。Roman Ring 本人就已经由于专注于《星际争霸 II》情况而导致调试花了很长时间。因而,Revar 只需要一个号令行就能改变锻炼情况,从 SC2 到 Atari 或者 CartPole(未来打算纳入 VizDoom)。每个神经收集都是简单的 Keras 模子,只需合适根基的 API contracts 都能挪用。

  更新 是的,此刻算法成长很快,客岁颁发的工具本年就可能过时。在开辟 Reaver 的时候 Roman 暗示他想着用了 TensorFlow 2.0 API(次要是利用 tf.keras 不消trib),但愿这个库能活用久一点吧。

  Roman Ring 列出了 Reaver 在《星际争霸 II》各类小型游戏上与其他 AI 的机能对比。此中,

  Roman 还列出了他的路线图,上述功效只是他万里长征的第一步。若是你感乐趣,不妨插手这个项目。

  更多精彩报道,尽在https://www.gzchunh.com

Write a Comment

电子邮件地址不会被公开。 必填项已用*标注