利用策略模型辅助训练的GP世界模型及其训练方法

实质审查的生效

摘要

本发明公开了一种利用策略模型辅助训练的GP世界模型及其训练方法，该GP世界模型包括用于训练世界模型的损失函数，所述的损失函数包括第一损失函数和第二损失函数，所述的第一损失函数为GP世界模型的自有损失函数，所述第二损失函数为策略模型的损失函数，训练方法包括：S1.世界模型利用损失函数更新模型参数；S2.策略模型利用损失函数更新模型参数，并保存本次训练中每一步的；S3.对取平均值作为后代入，用于下一次世界模型的训练。本发明提出通过策略模型辅助训练GP世界模型方法的训练机制，能够利用策略训练的稳定性来达到调制训练世界模型的目的，从而提高世界模型的训练效果和性能。

基本信息

专利标题：

利用策略模型辅助训练的GP世界模型及其训练方法

专利标题（英）：

暂无

公开（公告）号：

CN114492215A

申请号：

CN202210404483.6

公开（公告）日：

2022-05-13

申请日：

2022-04-18

授权号：

暂无

授权日：

暂无

发明人：

葛品吴冠霖方文其平洋栾绍童缪正元戴迎枫沈源源金新竹

申请人：

南湖实验室

申请人地址：

浙江省嘉兴市南湖区七星街道香湖别墅29幢

代理机构：

浙江永鼎律师事务所

代理人：

张晓英

优先权：

CN202210404483.6

主分类号：

G06F30/27

IPC分类号：

G06F30/27 G06N20/00 G06Q50/30

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F30/27

使用机器学习，例如人工智能，神经网络，支持向量机或训练模型

法律状态

2022-05-31 ：

实质审查的生效

IPC(主分类) : G06F 30/27
申请日 : 20220418

2022-05-13 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载