基于深度强化学习的视频行为自动描述方法

授权

摘要

本发明公开了一种基于深度强化学习的视频行为自动描述方法，属于视频自动描述技术领域。本发明首先对视频数据进行图像预处理，将其转化为帧图像，然后提取空间域特征和时域特征，进行拼接后得到视频序列各帧的特征向量；再基于LSTM编码器将各帧编码为一个向量，以及基于LSTM解码器将固定向量解码成不同长度的自然语言。LSTM编码器和解码器所涉及的神经网络参数优化时的损失函数为生成词语与标注的参考语句的单词的交叉熵损失；从而获得准确的视频描述。进一步还可以对训练好的LSTM编码器、解码器进行强化学习，损失函数采用随机策略概率乘上随机策略奖励与最优策略奖励之差，以获得更高的描述准确率。

基本信息

专利标题：

基于深度强化学习的视频行为自动描述方法

专利标题（英）：

暂无

公开（公告）号：

CN111460883A

申请号：

CN202010074922.2

公开（公告）日：

2020-07-28

申请日：

2020-01-22

授权号：

CN111460883B

授权日：

2022-05-03

发明人：

代成刘欣刚许浩倪铭昊曾昕

申请人：

电子科技大学

申请人地址：

四川省成都市高新区（西区）西源大道2006号

代理机构：

电子科技大学专利中心

代理人：

周刘英

优先权：

CN202010074922.2

主分类号：

G06K9/00

IPC分类号：

G06K9/00 G06K9/62 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06K

数据识别；数据表示；记录载体；记录载体的处理

G06K9/00

用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置

法律状态

2022-05-03 ：

授权

2020-08-21 ：

实质审查的生效

IPC(主分类) : G06K 9/00
申请日 : 20200122

2020-07-28 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载