基于生成对抗机制的强化学习探索方法及装置

授权

摘要

本发明公开了一种基于生成对抗机制的强化学习探索方法及装置，其中，该方法包括：构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络；基于生成对抗机制和离线强化学习算法的学习过程，对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

基本信息

专利标题：

基于生成对抗机制的强化学习探索方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN112052936A

申请号：

CN202010720742.7

公开（公告）日：

2020-12-08

申请日：

2020-07-24

授权号：

CN112052936B

授权日：

2022-06-03

发明人：

杨君袁凯钊马骁腾芦维宁陈章梁斌

申请人：

清华大学

申请人地址：

北京市海淀区清华园

代理机构：

北京清亦华知识产权代理事务所(普通合伙)

代理人：

石茵汀

优先权：

CN202010720742.7

主分类号：

G06N3/04

IPC分类号：

G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N3/00

基于生物学模型的计算机系统

G06N3/02

采用神经网络模型

G06N3/04

体系结构，例如，互连拓扑

法律状态

2022-06-03 ：

授权

2020-12-25 ：

实质审查的生效

IPC(主分类) : G06N 3/04
申请日 : 20200724

2020-12-08 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载