人工智能学院兰旭光教授团队荣获腾讯开悟大赛决赛亚军--人工智能学院

新闻动态

人工智能学院兰旭光教授团队荣获腾讯开悟大赛决赛亚军

发布时间：2023-04-26 点击量：

为了推动AI+游戏产业升级及人工智能研究的发展，腾讯AI Lab与王者荣耀团队联合举办的第三届腾讯开悟多智能体强化学习大赛（简称开悟大赛）决赛于近日圆满落幕。本届大赛于2022年9月1日正式启动，来自全国顶尖高校的30多支团队参赛，经过半年多的比拼，共有六支队伍进入决赛。经过激烈角逐，由人工智能学院兰旭光教授领衔的“XJTU太初”团队（队员：王宇航、戴洋、寇谦、王思哲、石昃忱，指导教师：兰旭光、陈星宇），在决赛中获得了亚军的好成绩，获得10万元奖金。

开悟大赛创新性地将人工智能科研与电子竞技结合，自创办以来就备受关注。本届赛事沿用此前面向高校的邀请赛制，并进一步扩大开放规模，清华、西交、电子科大、华中科大、南大和华南理工等30多所知名高校受邀参赛。参赛选手需要通过编写程序，利用人工智能技术，在游戏《王者荣耀》中进行对抗。参赛队伍需要在指定的时间内，在给定的资源下训练出最优模型，并最终部署好使用最优模型的AI服务器，提交系统完成1V1、3V3对局挑战。

游戏一直是人工智能最为理想的训练场之一。《王者荣耀》是一款需要玩家根据复杂多变的战场情况实时反应，制定策略的游戏，要求玩家掌握并融合实时感知、分析、理解、推理、决策等多种能力。

比赛过程中需要解决两个难点：首先，王者荣耀有着巨大的观察空间与动作空间，这让智能体随机探索难以得到正反馈。第二，3v3比赛时，团队之间对抗需要依靠零和博弈机制实现，但现实场景中，设置团队因子过高或者零和博弈，会让学习过程变得十分不稳定。为此，团队需要综合利用课程学习和强化学习等前沿技术，设计高效稳定的学习算法，提高智能体的团队合作能力。

因此，如何设计人工智能的行为权重、操作触发条件，以及决策是否正确的反馈机制就成为了比赛制胜的关键。而且，人工智能如果能够在如此复杂的游戏环境中，学会实时感知、分析、理解、推理、决策和行动，就可能在复杂多变的真实环境中发挥更大作用。最终，团队在兰旭光教授的指导下，分别从特征设计，奖励函数设计，网络结构设计，课程学习设计，多智能体强化学习算法设计，训练方式探索等方面入手，探索出了优秀的多智能体强化学习训练框架，在初赛和复赛都取得前四名的基础上，最终在决赛当中获得了亚军的好成绩。