基于深度强化学习网络构建多样化搜索策略的模型的方法

授权

摘要

本公开涉及一种基于深度强化学习网络构建多样化搜索策略的模型的方法，上述方法基于虚拟奖励的权重的设置，能够使得不同智能体访问不同的状态，一旦某个智能体陷入了误导性奖励，那么当其他智能体再次访问导向这个误导性奖励的一系列状态时，由于权重是负值，所以其余这些智能体获得的虚拟奖励的信号是负的，也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态，从而保证不同的智能体访问不同的状态集合，使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置，有效解决了现有技术中对高维数据进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题，能够降低智能体由于误导性奖励陷入局部解的概率。

基本信息

专利标题：

基于深度强化学习网络构建多样化搜索策略的模型的方法

专利标题（英）：

暂无

公开（公告）号：

CN113962390A

申请号：

CN202111565916.8

公开（公告）日：

2022-01-21

申请日：

2021-12-21

授权号：

CN113962390B

授权日：

2022-04-01

发明人：

黄凯奇尹奇跃张俊格徐沛

申请人：

中国科学院自动化研究所

申请人地址：

北京市海淀区中关村东路95号

代理机构：

北京华夏泰和知识产权代理有限公司

代理人：

李永叶

优先权：

CN202111565916.8

主分类号：

G06N3/08

IPC分类号：

G06N3/08 G06N20/10 G06N3/04