具有等变策略的物理环境交互

公开

摘要

本发明涉及一种根据策略与物理环境交互的计算机实施的方法(800)。所述策略基于所述物理环境的可观测状态来确定相应动作的多个动作概率。所述策略包括由参数集合参数化的神经网络。所述神经网络通过从可观测状态确定最终层输入并且将所述神经网络的最终层应用于所述最终层输入来确定所述动作概率。通过将等变的基础权重矩阵的集合的线性组合应用于所述最终层输入来应用所述最终层。所述基础权重矩阵是等变的，在这个意义上，对于所述最终层输入的多个预定义变换的集合，每个变换导致用于所述最终层输入的基础权重矩阵输出的对应预定义动作置换。

基本信息

专利标题：

具有等变策略的物理环境交互

专利标题（英）：

暂无

公开（公告）号：

CN114467094A

申请号：

CN202080063639.8

公开（公告）日：

2022-05-10

申请日：

2020-09-08

授权号：

暂无

授权日：

暂无

发明人：

M·赫尔曼M·韦林H·范胡夫E·范德珀D·沃拉尔F·A·奥利霍克

申请人：

罗伯特·博世有限公司;皇家飞利浦有限公司

申请人地址：

德国斯图加特

代理机构：

北京北翔知识产权代理有限公司

代理人：

李星宇

优先权：

CN202080063639.8

主分类号：

G06N3/04

IPC分类号：

G06N3/04 G06N3/08 G06N3/00 G06N7/00

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N3/00

基于生物学模型的计算机系统

G06N3/02

采用神经网络模型

G06N3/04

体系结构，例如，互连拓扑

法律状态

2022-05-10 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载