◆━━８０·火龙

与国际象棋不同■■■《星际争霸2》有数百个“单位”（玩家在游戏中可以控制的单位）■■■它们可以实时的同步移动■■■而不是以有序的回合制方式移动。

棋子每次可以移动的数量和方向是有限的■■■而AlphaStar随时面对10的26次方种动作可供选择。

另外最大的不同就是《星际争霸2》是一种信息不完善的游戏■■■你大部分时候都看不到对手在做什么■■■导致你无法预测。

近十年来■■■很多研究人员都在进行《星际争霸1》和《星际争霸2》两款游戏的AI对抗赛■■■但是■■■与AlphaStar不同■■■这里面大多数的“机器人”都依赖于硬编码规则（hard-coded rules）■■■而不是可以自我训练的神经网络。

▲该图描述了AlphaStar自我训练演变。

AlphaStar项目的共同负责人Oriol Vinyals是来自加州大学伯克利分校AI团队的一员■■■他们曾在2010年赢得了第一场比赛。

Vinyals说：“那时候■■■我已经开始觉得我们应该进行机器学习■■■不过为时尚早。

”Vinyals在2016年加入DeepMind■■■在那里他开始从事AI的研究■■■这些AI可以教自己如何玩《星际争霸2》。

AlphaStar通过学习模仿近一百万种人类游戏来进行培训。

▲DeepMind的AlphaStar自我训练截图为了进一步改善AlphaStar的表现■■■DeepMind建立了一个联盟■■■在这个联盟中■■■不同的AI版本相互竞争。

伦敦帝国学院的AI研究员Kai Arulkumaran说■■■这种方法对于没有最佳策略的《星际争霸2》这样的游戏以及许多其他现实生活中的AI应用都是非常有意义的。

三❤敏锐的玩家DeepMind对AlphaStar施加了约束■■■以确保AI是从思维层面超越了人类■■■而不是只是有更快的反应速度■■■点击更快。

为此■■■DeepMind将AlphaStar的反应速度限制为“有经验的人类玩家（experienced human players）”。

在这种情况下■■■经过27天的培训■■■AlphaStar在欧洲服务器上排名已经跻身前0.5％。

然而■■■经过50场比赛■■■DeepMind遇到了障碍。

一些玩家已经注意到■■■《星际争霸2》的游戏对战平台上的三个帐户在相似的时间段内玩了完全相同数量的《星际争霸2》游戏——AlphaStar秘密使用的三个帐户。

在观看这些比赛的重播时■■■玩家注意到帐户所有者所执行的动作对于人类来说几乎是不可能的。

为了应对这样的状况■■■DeepMind开始使用多种技巧来保持比赛的盲目性■■■并阻止玩家发现AlphaStar■■■例如定期更换帐户。

最终版本的AlphaStar依靠总共44天的培训■■■已经跻身职业玩家之列。

虽然无法像国际象棋和围棋那样击败世界上最好的玩家■■■但DeepMind认为其基准已经达到■■■并表示已经完成了《星际争霸2》的挑战。

其他AI科学家并不确定AlphaStar可以取得完全胜利。

加拿大纽芬兰纪念大学的AI研究人员戴夫·丘吉尔（Dave Churchill）认为■■■AlphaStar仍然存在许多弱点■■■比如面对以前从未见过的策略。

zhaosf