看看alpha狗的弟弟玩星际争霸。10年以后的战争AI将是主角！

eeboss · 发表于 2019-1-30 19:26:21

https://baijiahao.baidu.com/s?id ... r=spider&for=pc

刚刚，我们见证了 AI 与人类 PK 的又一次重大进展！DeepMind 北京时间 1 月 25 日凌晨 2:00 起公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程：AlphaStar 5:0 战胜职业选手TLO ，5：0战胜 2018 年 WSC 奥斯汀站亚军 MaNa 。与两位人类对手的比赛相隔约两周，AI 自学成才，经历了从与 TLO 对战时的菜鸟级别，进化到完美操作的过程，尤其是与 MaNa 的对战，已经初步显示了可以超越人类极限的能力。
这次的演示也是 DeepMind 的星际争霸 2 AI AlphaStar 的首次公开亮相。除了此前比赛录像的展示外，AlphaStar 还和 MaNa 现场来了一局，不过，这局AlphaStar 输给了人类选手 MaNa 。

图 | MaNa 正在聚精会神比赛（图源：Youtube）
DeepMind 在演示中介绍，双方的比赛固定在 Catalyst LE 地图，采用 4.6.2 游戏版本，而且只能进行神族内战，双方将进行 5 场比赛。首先接受邀请的是 Liquid 战队的虫族选手 TLO，目前世界排名 68。

图 | TLO（图源：Youtube）
第一场比赛，TLO 出现在 10 点钟方向，AlphaStar 出现在 4 点钟对角方向。TLO 的开场非常传统，采用了双兵营封路的开局，但 AlphaStar 并没有封路，这一问题被 TLO 的农民侦查到，他果断拍出使徒，采用了常见的杀农民骚扰策略。
虽然 AlphaStar 没有封路，直接放进了 TLO 的使徒，但 AlphaStar 的双兵营也造出了使徒防守，导致 TLO 的第一次骚扰只杀掉了两个农民，剩下的使徒也无功而返。
随后双方都开始补出追猎，TLO 开始用先知骚扰。双方进行了多个小规模交战，几波互换几乎平手，AlphaStar 损失的农民较多，TLO 损失了多个使徒。在交战中，我们看到了 AlphaStar 进行了类似人类的微操，一边撤退，一边反打 TLO 的追猎，同时利用棱镜传输兵力。

图 | AlphaStar 的视野，它可以看到全地图战争迷雾之外发生了什么，然后做出决策，实现全局资源调度（图源：Youtube）
不过 TLO 此时的二矿刚刚建好，AlphaStar 只有单矿，将更多的经济转化成了兵力，因此 AlphaStar 爆出了更多的追猎，直接选择进攻二矿，TLO 的追猎寡不敌众，在主力兵力被歼灭后打出 GG。
第一局以 DeepMind 的胜出为结果，我们看到了 AlphaStar 的一些不同寻常做法，比如不选择互相骚扰农民，而是直接用兵力防守，然后发现 TLO 拍下二矿之后，在正面战场用一定数量的追猎持续压制。
由于时间限制，演示中并没有播放所有比赛，而是在展示了另外一局比赛录像后，给出了 TLO 五局全败的战绩。不过所有的录像都将在 DeepMind 官网上放出，供人下载。
TLO 在演示中表示，他觉得自己还是可以赢的，如果能够有更多的训练时间，对 AlphaStar 有更多的了解，是一定可以找到 AlphaStar 弱点，然后获胜的。
随后登场的是 Liquid 战队 MaNa，作为排名 19 的神族选手，他比 TLO 更加强大。如果 AlphaStar 可以战胜他，那将说明 AlphaStar 真的具备了人类顶尖选手的实力。

图 | AlphaStar 和人类选手的 APM 并没有太大区别（图源：Youtube）
与 MaNa 的第一局，双方都是“常规”开局，MaNa 封路，AlphaStar 没有封路。不过 AlphaStar 采取了变种战略，选择在 MaNa 基地附近放下水晶，拍下两个兵营，准备利用兵营距离的优势进攻。MaNa 此时还在按照人类的思路，利用使徒骚扰农民。
在 AlphaStar 兵营快完成的时候，被 MaNa 发现，他果断采取了防守措施，在高坡建造了两个充电站，准备利用封路和高坡的优势防守即将到来的追猎大军。按照 MaNa 的想法，“正常的人类选手是不会走上那个高坡的”。
但是 AlphaStar 并不是人类，它犹豫两次之后选择直接攻上高地，由于追猎数量碾压 MaNa，野兵营还在源源不断地输出追猎，因此充电站几乎没有效果，几轮点射之后，MaNa 的追猎所剩无几，最终拉出所有农民也没能挽回败局，宣告失败。
在随后的两局录像复盘中，我们看到了 AlphaStar 的强大微操和战术思路，它会学习和尝试人类的封路战术，生产额外的农民缓解骚扰带来的影响。在一局比赛中，我们看到了 AlphaStar 使用了纯追猎战术，仅靠强大的微操对抗 MaNa 的追猎、不朽和叉子组合的混合军队。

图 | 实时战局（图源：Youtube）
AlphaStar 将 30 多个追猎分成 2-3 组，从 3 个方向包夹 MaNa 的进攻部队，然后靠闪烁躲避 9 个不朽的攻击，这种非人类的操作彻底摧毁了 MaNa 的操作空间——无论他建造多少个不朽，都没有办法抵抗追猎大军。“这种情况在同水平人类对局中完全不会出现，”MaNa 在演讲中无奈地说道。
最终 MaNa 也以 0-5 的成绩败北，人类与 AlphaStar 的 10 局比赛结果全是失败。
不过在演示直播中，DeepMind 似乎有些膨胀，选择与 MaNa 进行了一场即时表演赛，后者也表示，自己要为 Liquid 战队正名，捍卫战队和人类的荣誉。
双方常规开局，在前期并没有进行大规模交战。但 MaNa 显然是有备而来，没有使用使徒和先知骚扰，而是专注于侦查和攀升科技。在发现 AlphaStar 依旧生产了茫茫多追猎后，MaNa 采用了棱镜运输不朽的骚扰战术，同时补出不朽、叉子和执政官等混合部队。这可谓是整场比赛的神来之笔。

图 | 三个先知围着棱镜看热闹（图源：Youtube）
在空投不朽骚扰农民时，AlphaStar 并没有选择补出凤凰打击棱镜，而是用不能攻击空中单位的先知跟踪棱镜，辅以数十个追猎来回往返前线和家中。看起来，它认为追猎可以对空攻击，因此不需要补出凤凰，而且似乎所有追猎都在一个分组内，没有分批分别执行进攻和防守任务。
于是我们看到了人类玩家对抗 AI 的典型方法：逼迫后者陷入循环执行某种任务的怪圈，使其浪费巨额时间和资源，无法形成有效的局势判断。
就这样，MaNa 消耗到了自己的兵力成型，然后一波压制直接瓦解了 AlphaStar 的纯追猎部队。后者还尝试利用包夹的战术阻挡 MaNa，但这一次 MaNa 的兵力充足，不朽对追猎的克制十分明显，没有留给 AlphaStar 一丝操作的机会，全歼对手，获得了宝贵的胜利。

图 | MaNa 获得表演赛胜利，露出了迷之微笑（图源：Youtube）
虽然 TLO 和 MaNa 的录像以全败告终，宣告了 DeepMind AlphaStar 的实力已经不可同日而语，但这场表演赛充分暴露了 AlphaStar 目前的不足。
我们不难看出，尽管其神经网络已经趋于长期优化，但似乎仍然会在一定程度上陷入局部最优，被人类发现固定模式，落入圈套，而且从 5 个小叮当抱团，到纯追猎部队，都显示出它对游戏兵种的理解尚不到位，如果最后一局它可以像人类一样直接派出凤凰防守棱镜，或许它将继续凭借超强的微操一波推平 MaNa。
比赛回放过程中，主持人问到 DeepMind 科学家，平时如何训练 AlphaStar，DeepMind 科学家 Oriol Vinyals、David Silver 表示，首先是模仿学习，团队从许多选手那里获得了很多比赛回放资料，并试图让 AI 通过观察一个人所处的环境，尽可能地模仿某个特定的动作，从而理解星际争霸的基本知识。这其中所使用到的训练资料不但包括专业选手，也包括业余选手。这是 AlphaStar 成型的第一步。

图 | DeepMind 科学家 Oriol Vinyals（图源：Youtube）

engine · 发表于 2019-1-31 10:02:03

光微操和全局观注就吃死大部分人类玩家

数学有啥用 · 发表于 2019-1-31 11:55:44

可以理解成外挂么

		自动登录	找回密码
密码			立即注册