一种基于动作约束的离线多智能体强化学习方法

实质审查的生效

摘要

本发明公开一种基于动作约束的离线多智能体强化学习方法。根据QMIX网络，实现基于动作约束的多智能体离线强化学习方法的训练；该方法依据在离线强化学习中将动作约束在离线数据集中可以有效减少外推误差这一特点，通过变分自编码器进行动作约束，并进一步结合中心训练分布式执行的方法。进而达到各智能体在训练中仅依靠所拥有的离线数据去训练智能体，从而达到不需要与环境进行进一步交互和探索的目的。进而提升网络训练效果，降低多智能体算法在离线训练下的难度。

基本信息

专利标题：

一种基于动作约束的离线多智能体强化学习方法

专利标题（英）：

暂无

公开（公告）号：

CN114386620A

申请号：

CN202111683837.7

公开（公告）日：

2022-04-22

申请日：

2021-12-29

授权号：

暂无

授权日：

暂无

发明人：

韩雨高若云王逸飞袁帅任柯燕

申请人：

北京工业大学

申请人地址：

北京市朝阳区平乐园100号

代理机构：

北京思海天达知识产权代理有限公司

代理人：

刘萍

优先权：

CN202111683837.7

主分类号：

G06N20/00

IPC分类号：

G06N20/00 B60W60/00

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N20/00

机器学习

法律状态

2022-05-10 ：

实质审查的生效

IPC(主分类) : G06N 20/00
申请日 : 20211229

2022-04-22 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载