一种基于epsilon-greedy的深度强化学习动态epsilon的方法

一种基于epsilon-greedy的深度强化学习动态e...

公开

摘要

本发明公开了一种基于epsilon‑greedy的深度强化学习动态epsilon的方法。涉及探索与利用困境领域，步骤：对多臂老虎机的数据进行预处理；根据即时奖励r_t+1和平均奖励R_平均之差判断是否进行epsilon的更新；利用Dueling DQN算法构建深度强化学习框架；根据行为值函数的TD‑error判断此时是进行探索或利用并更新epsilon的值；将经验池中TD误差导入Dueling DQN强化学习框架，进行训练更新网络。本发明推进了探索与利用的困境问题研究；对何时进行探索及利用进行了合理的设计；本发明的最终结果是实现epsilon的动态更新，可实现epsilon的动态更新问题，为动态epsilon的发展提供有效的理论基础。

基本信息

专利标题：

一种基于epsilon-greedy的深度强化学习动态epsilon的方法

专利标题（英）：

暂无

公开（公告）号：

CN114595818A

申请号：

CN202210316971.1

公开（公告）日：

2022-06-07

申请日：

2022-03-29

授权号：

暂无

授权日：

暂无

发明人：

孔燕曹俊豪

申请人：

南京信息工程大学

申请人地址：

江苏省南京市江北新区宁六路219号

代理机构：

南京苏高专利商标事务所(普通合伙)

代理人：

曹坤

优先权：

CN202210316971.1

主分类号：

G06N3/08

IPC分类号：

G06N3/08 G06N20/00 G07F17/34

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N3/00

基于生物学模型的计算机系统

G06N3/02

采用神经网络模型

G06N3/08

学习方法

法律状态

2022-06-07 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载