资源受限条件下提高强化学习探索效率的方法

实质审查的生效

摘要

本发明公开了一种资源受限条件下提高强化学习探索效率的方法，包括：步骤1，智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境；步骤2，接受环境返回执行所述智能体动作后的新状态和相应的外在奖励；步骤3，通过资源感知方式计算智能体用于探索环境的内在奖励；步骤4，按以下总体奖励计算公式计算所述智能体的总体奖励；步骤5，根据得出的智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新；步骤6，判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化，若否，则回到步骤1重复进行处理，若是，则结束本轮环境探索。该方法能在资源受限条件下，提升智能体应用的主流强化学习方法的探索效率。

基本信息

专利标题：

资源受限条件下提高强化学习探索效率的方法

专利标题（英）：

暂无

公开（公告）号：

CN114492845A

申请号：

CN202210336685.1

公开（公告）日：

2022-05-13

申请日：

2022-04-01

授权号：

暂无

授权日：

暂无

发明人：

王杰王治海潘涛星周祺李厚强

申请人：

中国科学技术大学

申请人地址：

安徽省合肥市包河区金寨路96号

代理机构：

北京凯特来知识产权代理有限公司

代理人：

郑立明

优先权：

CN202210336685.1

主分类号：

G06N20/00

IPC分类号：

G06N20/00

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N20/00

机器学习

法律状态

2022-05-31 ：

实质审查的生效

IPC(主分类) : G06N 20/00
申请日 : 20220401

2022-05-13 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载