2023年4月19日上午,在北京大学电子学院理科二号楼,科技创新2030重大项目“人机增强的大规模多智能体强化学习理论与应用研究”中期检查准备会举行。线下参会共30多位学者,专家,企业领导,同时还有各课题组老师及同学在线上参加。
这是项目组第一次线下会议,各单位负责人都非常重视。会议首先由各单位负责人及参与人进行自我介绍;其次是项目负责人兰旭光教授发言;然后是各课题项目负责人汇报项目中期执行情况;最后是课题间相互交流探讨。
项目负责人兰旭光教授强调,本领域学者间的相互交流非常重要,此次中期准备会是为6月16日的中期检查做准备,为后续工作做好前提条件。学校与企业之间应促进交流,随着课题示范应用难度增加,依靠大模型推动产业发展,通过构建系统提高后期竞争力势在必行。
由北京大学程翔主持的课题一,对标国际一流水平,设计了弹性协同网络架构,实现任务驱动的资源时空耦合优化分配方案,并提出基于空时网络编码的高效信息共享和数据分发方案,显著提升多智能体任务完成率和信息共享效率;此外,针对大规模多智能体协同寻路问题,设计了区域分级协作的多智能体强化学习算法框架,当智能体数量较多时(200+),算法在成功率(SR)、平均完工时间(MS) 、智能体/障碍碰撞率(CA/CO)等关键指标上相比于现有最优SOTA方案均取得了显著优势,并可以有效支撑1000+智能体的协同寻路优化。
由东南大学张亚主持的课题二,提出基于意图预测的安全交互机制,时延通信下车辆通行效率提高的同时百回合安全率达到了98%,优于仅模型的预测的0.9,提出基于注意力机制和轻量级安全层的安全交互强化学习算法,车辆控制中百回合安全率超过99%。构建了基于区域协作图的大规模多智能体协作网络,设计了基于图元学习和基于区域GAT的MARL算法;此外,还构建了专家知识指导下的分层MARL框架,设计了基于学习分类器和遗传算法的知识自主更新机制,设计了集成逆向强化学习模型。由浙江大学张森林主持的课题三,建立了种群演化模型,基于随机组合后的种群平均奖励更新种群,可将联合策略空间缩小50%,构建了基于最大信息增益采样的噪声条件下降采样策略评估算法,在噪声场景下相较RGUCB及α-IG算法的交互采样次数降低25%,改进物流仓储环境的奖励制度和协同优化策略的生成方法,进行策略演化,有效提升协同优化策略的效率。构建智能城市电网家用新能源汽车有序充电策略,针对城市电网家用新能源汽车有序充电场景实现了区域峰谷差下降58% ,同时车辆100% SOC 离场的良好效果。
由兰旭光主持的课题四,构建了人机增强的大规模多智能体分布式学习框架,集成20种典型决策算法,支持5个以上复杂任务场景的任务训练;在谷歌足球、格斗游戏等任务中与RLlib2021版、PyMARL2021版等相比,在同等算力条件下,模型达到相同水平所需的时间减少20%,运行效率超过主流强化学习框架17%。
由中国电力科学研究院有限公司王晓辉主持的课题五,提出大规模多智能体特征表征及其群体聚合方法;提出复杂业务流程下大规模多智能体协同博弈决策机制;完成大规模多智能体博弈系统真实场景下的样本高效生成算法设计。提出基于多智能体深度强化学习的电力系统实时调度方法,达到随机故障后的电网处置运行效率提升10%,完成面向实际工程的车路云协同交通控制系统总体设计,基于5G和V2X的数据通信网络架构设计,基于CA的通信加密及智能体安全交互机制设计,研发视觉AMR集群调度系统,打造“订单到人”自动化拣选搬运方案,解决了真实物流仓内大规模视觉AMR多任务协同问题。实现50台视觉AMR的高效集群调度。工人UPH提升100-200%,拣选错误率降低90%,仓库作业人员节省43%。
各位专家积极探讨,会议气氛热烈,亮点不断,通过讨论和交流,大家查找不足,取长补短,最终达成一致的意见。专家们一致认为,在接下来的工作中,继续总结中期工作中的不足,加强学校与产业的联系,打通渠道,为产业升级打下良好的基础,为国家科技繁荣争光添彩,进而实现伟大的复兴使命。