利用密度比估计的直接逆向强化学习

授权

摘要

一种用于估计对象的行为的回报与价值函数的逆向强化学习的方法，该方法包括：获取表示状态变量的变化的数据，状态变量定义所述对象的行为；将由式(1)给出的修正Bellman方程应用至所获取的数据，其中，r(x)和V(x)分别表示状态x下的回报函数和价值函数，而γ表示折扣因子，并且b(y|x)和π(y|x)分别表示学习之前和学习之后的状态转换概率；估计式(2)中的密度比π(x)/b(x)的对数；根据估计密度比π(x,y)/b(x,y)的对数的结果，在式2中估计r(x)和V(x)；以及输出所估计的r(x)和V(x)。

基本信息

专利标题：

利用密度比估计的直接逆向强化学习

专利标题（英）：

暂无

公开（公告）号：

CN108885721A

申请号：

CN201780017406.2

公开（公告）日：

2018-11-23

申请日：

2017-02-07

授权号：

CN108885721B

授权日：

2022-05-06

发明人：

内部英治铜谷贤治

申请人：

学校法人冲绳科学技术大学院大学学园

申请人地址：

日本冲绳县

代理机构：

北京三友知识产权代理有限公司

代理人：

黄纶伟

优先权：

CN201780017406.2

主分类号：

G06N99/00

IPC分类号：

G06N99/00

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N99/00

本小类其他各组中不包括的技术主题

法律状态

2022-05-06 ：

授权

2018-12-18 ：

实质审查的生效

IPC(主分类) : G06N 99/00
申请日 : 20170207

2018-11-23 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

1、

CN108885721A.PDF

PDF下载