一种可回溯的强化学习智能体训练方法

实质审查的生效

摘要

本发明提供一种可回溯的强化学习智能体训练方法，包括如下步骤：创建预设长度用于保存智能体的状态、状态映射的Cell、行为、奖励和done数据的字典；进行数据探索，首先从字典中选择Cell，并以被选择的Cell作为目标，return选定的目标，以目标作为新起点，选择新目标进行探索，并记录return阶段和探索阶段遇到的所有状态和行为，将所有状态映射为Cell，并将所有状态、所有Cell和行为更新到字典中；获取数据探索收集到的所有Cell和行为数据，基于强化学习算法进行学习，并更新学习算法的参数；本发明采用存档的方式来记录智能体到达过的所有状态，以目标的方式引导智能体能够回到存档中的状态；智能体回到任意状态后重新开始探索，理论上能探索到环境中所有的空间。

基本信息

专利标题：

一种可回溯的强化学习智能体训练方法

专利标题（英）：

暂无

公开（公告）号：

CN114511096A

申请号：

CN202210096139.5

公开（公告）日：

2022-05-17

申请日：

2022-01-26

授权号：

暂无

授权日：

暂无

发明人：

尹学渊邱良良

申请人：

成都潜在人工智能科技有限公司

申请人地址：

四川省成都市高新区益州大道中段722号1栋1单元12层1210号

代理机构：

成都睿道专利代理事务所(普通合伙)

代理人：

许立

优先权：

CN202210096139.5

主分类号：

G06N20/00

IPC分类号：

G06N20/00 G06K9/62

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N20/00

机器学习

法律状态

2022-06-03 ：

实质审查的生效

IPC(主分类) : G06N 20/00
申请日 : 20220126

2022-05-17 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载