强化学习模型的训练方法及装置

授权

摘要

本说明书实施例提供一种强化学习模型的训练方法，该方法包括：获取业务环境的当前状态，其中包括上一轮交互产生的交互内容；基于该交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集；将该当前状态输入强化学习模型，从可选动作集中选取收益预测值最大的可选动作作为本轮业务动作，如此可以避免用户被无关动作打扰，从而提升用户体验；再将该本轮业务动作施加于上述业务环境，得到该业务环境的本轮反馈，基于本轮反馈计算本轮业务动作的收益标签值，并基于该收益标签值构建其他备选业务动作的收益标签值，从而实现可以利用全量备选业务动作训练上述强化学习模型，有效加速强化学习模型的收敛。

基本信息

专利标题：

强化学习模型的训练方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN113011583A

申请号：

CN202110268665.0

公开（公告）日：

2021-06-22

申请日：

2021-03-12

授权号：

CN113011583B

授权日：

2022-04-12

发明人：

王昊天应缜哲王维强

申请人：

支付宝（杭州）信息技术有限公司

申请人地址：

浙江省杭州市西湖区西溪路556号8层B段801-11

代理机构：

北京亿腾知识产权代理事务所(普通合伙)

代理人：

陈霁

优先权：

CN202110268665.0

主分类号：

G06N3/08

IPC分类号：

G06N3/08 G06N3/04 G06N20/00 G06F16/332 G06Q30/02