主持人

 

                   兰旭光

          xglan@mail.xjtu.edu.cn

           博士,教授,杰青

 

通知公告

人机增强的大规模多智能体强化学习理论与应用研究

研究背景

随着人工智能的迅速发展,诸如智能物流、交通控制、智能电网等复杂系统的决策模式进入了新的发展阶段,正在以传统的人工决策转为以大数据分析、人工智能等现代信息技术为支撑的智能决策。由于具有降低人工成本、提高运行效率、应对诸多不确定性变化等特征,复杂系统决策的智能化成为国家支柱产业升级的必然趋势,也是落实国务院制定的“新一代人工智能发展规划” 的重要任务。强化学习方法已逐步应用于智能决策中,但仍存在多智能体难以高 效协同与共享、人机协同难以优化决策、缺乏高并发高鲁棒性的大规模多智能体强化学习计算平台、难以泛化到真实场景等问题。因此,如何将人类认知与多智能体强化学习相结合,构建人机增强决策计算平台,实现高效的人机协同决策与真实场景的迁移是当前智能化决策领域亟待解决的重大问题。

 

研究目标

针对大规模多智能体强化学习存在的采样效率低、训练不收敛、算力需求大、有效评估指标缺乏、难以泛化到真实场景等难题,本项目将人类认知与多智能体强化学习相结合,构建多层次弹性协同与群体进化量化评估机制,突破虚拟到真实场景的迁移技术难题,研发能支持分布式训练、应用场景可扩展、人机增强的大规模多智能体强化学习算法、框架与环境,实现高效人机增强的协同决策,并在智能物流、交通控制、智能电网等领域中进行技术验证和应用。

 

项目管理机制

本项目将参考前期 项目运行管理经验,并严格执行科技部有关重点科技专项管理新的政策和规定,继续实行项目负责人和课题负责人分级责任制;成立与项目相关领域知名专家组成的专家委员会,负责课题任务、研究人员及队伍组成的评审和筛选,以及项目执行情况的检查;成立项目管理办公室,协助首席科学家和项目专家组处理项目的日常管理与运行事务,与课题组长及研究骨干保持密切联系,定期出项目进展简报。课题负责人定期向项目负责人及专家委员会汇报课题进展,项目实行确定目标下的滚动式发展及优胜劣汰机制,研究经费将根据任务需要、课题队伍的创新能力与年度任务完成情况及其评估结果确定,并向优秀课题组倾斜;项目组和课题组内外强调经常的交流与有效的合作,加强国际合作,促进国内外学术交流,每年至少召开一次大型的学术会议,积极吸收和利用国际学术组织和学者参与合作。本项目采取“高校突破关键技术、企业开拓应用示范”的建设模式,以项目各单位前期在项目承担、平台建设等方面的深度合作为基础,发挥“研用”联合的优势,在智能物流、交通控制以及智能电网三个领域开展示范应用。项目从专题研讨、进展交流和年度检查三个层面,组织各课题开展交流与协调。“专题研讨”主要针对项目层面某些重要或共性问题开展研讨,致力于各课题在项目科学问题、研究目标等方面达成共识,形成研究合力,避免研究目标分散和走弯路;“进展交流”是项目办公室组织的不定期开展的学术交流活动,由项目负责人会同课题负责人、项目办公室人员深入各课题研究单位和实验室,考察项目研究进展,协调各课题之间的协作关系;由项目办公室组织各课题年度检查,由项目和课题负责人、项目专家组成员组成联合检查组,听取各课题工作汇报,总结研究成果,制定下年度研究计划。

 

参研团队简介

本项目由牵头,邀请郑南宁院士担任项目顾 问,联合4所高校、2所研究院所、3所高科技企业,团队共依托5个国家重点实验室、2个国家工程实验室以及6个省部级科研平台。在人工智能及强化学习方面,研究团队获得国家科学技术进步一等奖1项、国家自然科学二等奖2项、国家技术发明二等奖3项,以及中国电力科技进步一等奖等省部级奖20余项。在交通控制方面,大唐移动5G+AI车路协同技术已成功商用于厦门快速公交BRT系统,西安交大连续4年获中国智能车未来挑战赛冠军。在智能电网方面,国网天津市电力公司和 中国电力科学研究院是电力行业特大型央企和综合性科研机构,拥有电力大数据 平台及能源互联网全模仿真平台,武汉大学在2017年获得国际学术IEC (International Electrotechnical Commission) 1906奖。在智能物流方面,灵动科技是视觉导航自主移动机器人行业的“小巨人”和“独角兽”企业,获第十 届LT中国物流技术奖。

课题组

  • 课题一:高效通信拓扑的大规模多智能体协作机制研究
  • 课题二:安全交互的多智能体人机协作理论及方法研究
  • 课题三:大规模多智能体策略演化及评估关键技术研究
  • 课题四:人机增强的大规模多智能体强化学习计算平台设计与研发
  • 课题五:人机增强大规模多智能体部署技术研究