一种策略模型训练方法、装置及设备

实质审查的生效

摘要

本申请实施例涉及人工智能领域，公开了一种策略模型训练方法、装置及设备。本申请实施例涉及的策略模型训练方法包括：分别获取第一策略模型以及第二策略模型对应的策略，并且，在对战学习过程中获取对战双方的对战结果，依照对战结果进行各自优势策略挑选，并将挑选出的优势策略用于后续对应策略群体的进化，以此往复循环，使对战双方策略模型对应的策略群不断有优势策略注入，这样不仅可以将己方智能体得到进化策略训练，同时也可以使对战方智能体得到进化策略训练，提升了博弈学习网络中策略模型的进化程度上限，使策略模型对策略多样的博弈场景适应性更强。

基本信息

专利标题：

一种策略模型训练方法、装置及设备

专利标题（英）：

暂无

公开（公告）号：

CN114330754A

申请号：

CN202210206944.9

公开（公告）日：

2022-04-12

申请日：

2022-03-04

授权号：

暂无

授权日：

暂无

发明人：

徐波徐博张鸿铭王燕娜

申请人：

中国科学院自动化研究所

申请人地址：

北京市海淀区中关村东路95号

代理机构：

北京墨丘知识产权代理事务所(普通合伙)

代理人：

唐忠仙

优先权：

CN202210206944.9

主分类号：

G06N20/00

IPC分类号：

G06N20/00 G06K9/62 G06N3/00 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N20/00

机器学习

法律状态

2022-04-29 ：

实质审查的生效

IPC(主分类) : G06N 20/00
申请日 : 20220304

2022-04-12 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载