用于借助于强化学习来训练控制策略的设备和方法
公开
摘要

描述了借助于强化学习来训练控制策略的方法,其具有:执行多次强化学习训练遍历,在每次遍历中,针对代理的状态序列的每个状态从控制遍历的初始状态开始选择所要执行的行动,针对至少有些状态,通过指定计划范围来选择行动,该计划范围指定了状态数目;通过将回答集编程求解器应用于回答集编程程序,确定具有指定的状态数目的从相应状态出发可到达的状态的多个序列,该回答集编程程序对行动与通过这些行动所到达的后续状态之间的关系进行建模;选择在这些序列中提供最大回报的序列,其中由所确定的序列提供的回报是在到达该序列的状态时所获得的奖励的总和;并选择可用来从相应状态出发到达所选序列的第一状态的行动,作为针对相应状态的行动。

基本信息
专利标题 :
用于借助于强化学习来训练控制策略的设备和方法
专利标题(英):
暂无
公开(公告)号 :
CN114536319A
申请号 :
CN202111333359.7
公开(公告)日 :
2022-05-27
申请日 :
2021-11-11
授权号 :
暂无
授权日 :
暂无
发明人 :
D·斯捷潘诺娃J·厄施N·穆斯里乌T·艾特尔F·M·里希特
申请人 :
罗伯特·博世有限公司
申请人地址 :
德国斯图加特
代理机构 :
中国专利代理(香港)有限公司
代理人 :
孙云汉
优先权 :
CN202111333359.7
主分类号 :
B25J9/16
IPC分类号 :
B25J9/16  B25J13/00  G06N3/02  G06N3/08  
IPC结构图谱
B
B部——作业;运输
B25
手动工具;轻便机动工具;手动器械的手柄;车间设备;机械手
B25J
机械手;装有操纵装置的容器
B25J9/00
程序控制机械手
B25J9/16
程序控制
法律状态
2022-05-27 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332