文本识别模型的训练方法、文本识别方法及装置

授权

摘要

本公开提供了一种文本识别模型的训练方法、文本识别方法及装置，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征，其中，样本图像中包括文本，根据预测视觉特征确定样本图像的文本的第一损失值，根据预测语义特征确定样本文本的第二损失值，根据第一损失值和第二损失值训练得到文本识别模型，以使得文本识别模型既能挖掘视觉信息，又能挖掘语义上下文逻辑，从而当基于文本识别模型进行文本识别时，可以提高文本识别的多样性和全面性。

基本信息

专利标题：

文本识别模型的训练方法、文本识别方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN114372477A

申请号：

CN202210275278.4

公开（公告）日：

2022-04-19

申请日：

2022-03-21

授权号：

CN114372477B

授权日：

2022-06-10

发明人：

章成全吕鹏原刘珊珊乔美娜徐杨柳吴亮刘经拓韩钧宇丁二锐王井东

申请人：

北京百度网讯科技有限公司

申请人地址：

北京市海淀区上地十街10号百度大厦2层

代理机构：

北京同立钧成知识产权代理有限公司

代理人：

马姣琴

优先权：

CN202210275278.4

主分类号：

G06F40/30

IPC分类号：

G06F40/30 G06K9/62 G06V30/148 G06V10/774

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F40/30

语义分析

法律状态

2022-06-10 ：

授权

2022-05-06 ：

实质审查的生效

IPC(主分类) : G06F 40/30
申请日 : 20220321

2022-04-19 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载