一种基于逆向强化学习的智能空战奖励函数生成方法

公开

摘要

本发明涉及一种基于逆向强化学习的智能空战奖励函数生成方法，其采用模仿学习训练空对空对抗算法，采用逆向强化学习算法确定奖励函数；能够确保算法设计出一个合理的奖励函数，保证强化学习算法的收敛与模型的效果；此外，该方法具有通用性，针对不同任务都可以自动设计出一个奖励函数，无需人工设计。

基本信息

专利标题：

一种基于逆向强化学习的智能空战奖励函数生成方法

专利标题（英）：

暂无

公开（公告）号：

CN114462569A

申请号：

CN202111654923.5

公开（公告）日：

2022-05-10

申请日：

2021-12-30

授权号：

暂无

授权日：

暂无

发明人：

邓红艳陈治湘苏玉强周宏升雷祥李德龙叶培华耿振余张央檠董冬梅何玲玥王奔驰邓桂龙

申请人：

邓红艳;陈治湘;苏玉强;周宏升;雷祥;李德龙;叶培华;耿振余;张央檠;董冬梅;何玲玥;王奔驰;邓桂龙

申请人地址：

北京市海淀区北四环西路88号

代理机构：

北京邦创至诚知识产权代理事务所(普通合伙)

代理人：

张宇锋

优先权：

CN202111654923.5

主分类号：

G06N3/04

IPC分类号：

G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N3/00

基于生物学模型的计算机系统

G06N3/02

采用神经网络模型

G06N3/04

体系结构，例如，互连拓扑

法律状态

2022-05-10 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载