用于驾驶员奖酬的强化学习方法:用于驾驶员-系统互动的生成...
公开
摘要

描述了一种确定政策以防止流逝驾驶员的系统和方法。该系统和方法创建了诸如在运输叫车系统中向驾驶员提供的优惠券的奖酬以及驾驶员响应于奖酬的对应状态的虚拟轨迹。从奖酬政策、混杂奖酬政策和奖酬对象政策中创建联合政策模拟器,以生成驾驶员响应不同奖酬的模拟行动。驾驶员模拟的行动的奖励由判别器确定。基于由联合政策模拟器和判别器生成的虚拟轨迹,通过强化学习来优化用于防止流逝驾驶员的奖酬政策。

基本信息
专利标题 :
用于驾驶员奖酬的强化学习方法:用于驾驶员-系统互动的生成性对抗网络
专利标题(英):
暂无
公开(公告)号 :
CN114303162A
申请号 :
CN201980097527.1
公开(公告)日 :
2022-04-08
申请日 :
2019-06-14
授权号 :
暂无
授权日 :
暂无
发明人 :
尚文杰李卿阳秦志伟孟一平俞扬叶杰平
申请人 :
北京嘀嘀无限科技发展有限公司
申请人地址 :
北京市海淀区东北旺西路8号院34号楼
代理机构 :
成都七星天知识产权代理有限公司
代理人 :
袁春晓
优先权 :
CN201980097527.1
主分类号 :
G06Q10/02
IPC分类号 :
G06Q10/02  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06Q
专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10/00
行政;管理
G06Q10/02
预定,例如用于门票、服务或事件的
法律状态
2022-04-08 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332