时序逻辑约束下基于强化学习的任务规划方法及相关装置

实质审查的生效

摘要

本申请公开了一种时序逻辑约束下基于强化学习的任务规划方法及相关装置，方法包括将待规划任务转换为确定性有限自动机；基于确定性有限自动机及初始策略确定状态动作轨迹；将状态动作轨迹及各状态动作对的外部奖励输入前馈神经网络，通过前馈神经网络输出各状态动作对的内部奖励；基于各外部奖励以及各内部奖励确定初始策略的第一目标函数及第一返回值，并基于第一目标函数及第一返回值更新初始策略的策略参数以得到待规划任务对应的目标策略。本申请通过注意力机制捕捉任务的时序特性，从而执行端在稀疏奖励环境中能够快速学习带有时序关系的任务，从而能够在不同环境中解决LTL约束下的稀疏奖励问题，使得强化学习可以学习到最优策略。

基本信息

专利标题：

时序逻辑约束下基于强化学习的任务规划方法及相关装置

专利标题（英）：

暂无

公开（公告）号：

CN114265674A

申请号：

CN202111155540.3

公开（公告）日：

2022-04-01

申请日：

2021-09-29

授权号：

暂无

授权日：

暂无

发明人：

田戴荧丁玉隆蒋卓崔金强商成思尉越

申请人：

鹏城实验室

申请人地址：

广东省深圳市南山区兴科一街2号

代理机构：

深圳市君胜知识产权代理事务所(普通合伙)

代理人：

温宏梅

优先权：

CN202111155540.3

主分类号：

G06F9/48

IPC分类号：

G06F9/48

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F9/00

程序控制装置，例如，控制单元

G06F9/06

应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的

G06F9/46

多道程序装置

G06F9/48

程序启动；程序切换，例如通过中断

法律状态

2022-04-19 ：

实质审查的生效

IPC(主分类) : G06F 9/48
申请日 : 20210929

2022-04-01 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载