基于蒙特卡洛树搜索的深度强化学习的冰壶决策方法

公开

摘要

本发明基于深度强化学习，使用改进的蒙特卡洛树搜索算法，实现了在连续动作空间内冰壶比赛决策生成。算法以下三个创新：核回归和核密度函数改进的动作选择函数，使用核回归使得动作集合中所有动作之间进行共享信息，可以通过现有的动作集合信息选择候选集合之外的动作，使用缓慢增长的离散采样动作集的方式处理连续动作空间。除此之外，还利用卷积神经网络训练策略决策网络和价值评估网络对蒙特卡洛树搜索算法中的动作选取和价值评估进行改进。本发明有效提升了现有的冰壶辅助决策模型的效果。

基本信息

专利标题：

基于蒙特卡洛树搜索的深度强化学习的冰壶决策方法

专利标题（英）：

暂无

公开（公告）号：

CN114581834A

申请号：

CN202210229369.4

公开（公告）日：

2022-06-03

申请日：

2022-03-09

授权号：

暂无

授权日：

暂无

发明人：

李宗民孙浩淼肖倩孙文洁李亚传王向东

申请人：

中国石油大学（华东）

申请人地址：

山东省青岛市黄岛区长江西路66号

代理机构：

代理人：

优先权：

CN202210229369.4

主分类号：

G06V20/40

IPC分类号：

G06V20/40 G06V40/20 G06N3/08 G06N3/04 G06V10/82

法律状态

2022-06-03 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载