一种训练推荐领域中强化学习模型的模拟器

实质审查的生效

摘要

本发明提供一种训练推荐领域中强化学习模型的模拟器，其由2个核心模型组成，一是基于GAN的用户状态生成模型；另一个是环境反馈算法，其中，环境反馈算法包括基于层次注意力的用户评级预测模型，以及用户反馈计算模型。本发明可以生成用户状态，以及对推荐智能体生成的动作进行反馈。实验结果表明，在小数据集的条件下，借助GAN网络结构的特性，模型依旧能生成可用的用户状态，同时，评分结果也在可用范围之类，此外，所构建的反馈算法不仅能够有效终止学习过程，而且所计算得到的反馈数据也符合强化学习的训练要求。

基本信息

专利标题：

一种训练推荐领域中强化学习模型的模拟器

专利标题（英）：

暂无

公开（公告）号：

CN114356730A

申请号：

CN202111494070.3

公开（公告）日：

2022-04-15

申请日：

2021-12-08

授权号：

暂无

授权日：

暂无

发明人：

庞光垚彭子真陆科达朱肖颖玉振明莫智懿黄宏本李杰成

申请人：

梧州学院

申请人地址：

广西壮族自治区梧州市富民三路82号

代理机构：

广州三环专利商标代理有限公司

代理人：

牛丽霞

优先权：

CN202111494070.3

主分类号：

G06F11/34

IPC分类号：

G06F11/34 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F11/00

错误检测；错误校正；监控

G06F11/30

监控

G06F11/34

计算机功效的记录或统计测定，例如，故障停机时间的、输入/输出操作的

法律状态

2022-05-03 ：

实质审查的生效

IPC(主分类) : G06F 11/34
申请日 : 20211208

2022-04-15 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载