智能体任务学习方法及装置

公开

摘要

本发明提供一种智能体任务学习方法及装置，该方法包括：基于自然策略梯度算法，以智能体在各历史任务下的状态信息作为样本，以智能体在各历史任务下的动作信息为样本标签，对动作预测模型的第一策略参数进行迭代更新，获取各历史任务对应的动作预测模型的最优第一策略参数；将所有历史任务对应的关键影响因子和所有历史任务对应的最优第一策略参数作为训练样本集，对任务学习模型进行迭代训练；将新任务对应的关键影响因子输入训练后的任务学习模型中，得到任务学习模型输出的新任务对应的动作预测模型的最优第二策略参数。本发明实现智能体同时具备领域任务的通用知识提炼能力和对新任务的零样本策略生成能力。

基本信息

专利标题：

智能体任务学习方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN114298302A

申请号：

CN202111539729.2

公开（公告）日：

2022-04-08

申请日：

2021-12-15

授权号：

暂无

授权日：

暂无

发明人：

刘智勇钱一鸣张丰一陈瑀柔

申请人：

中国科学院自动化研究所

申请人地址：

北京市海淀区中关村东路95号

代理机构：

北京路浩知识产权代理有限公司

代理人：

乔慧

优先权：

CN202111539729.2

主分类号：

G06N3/08

IPC分类号：

G06N3/08 G06N3/04

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N3/00

基于生物学模型的计算机系统

G06N3/02

采用神经网络模型

G06N3/08

学习方法

法律状态

2022-04-08 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载