医疗OCR数据优化模型训练方法、优化方法及设备

实质审查的生效

摘要

本发明公开一种医疗OCR数据优化模型训练方法、优化方法及设备，训练方法包括：获取大规模无标注医疗文本数据，对文本数据中的医疗术语和字符进行识别以形成训练集；对训练集进行预训练处理以得到用于训练医疗OCR优化模型的预训练数据集，并利用预训练数据集对医疗OCR优化模型进行训练；所述预训练处理包括：对训练集中的低频术语和低频字符进行数据增广处理；将训练集中的第一目标字符随机替换为错误字符；对训练集中的第二目标字符进行遮挡；以及训练集切分为多个文本段落，得到用于训练医疗OCR优化模型的预训练数据集。本发明利用医疗领域预训练语言模型对医疗OCR结果进行结构化提取、错误识别及优化，提升了医疗OCR的准确率。

基本信息

专利标题：

医疗OCR数据优化模型训练方法、优化方法及设备

专利标题（英）：

暂无

公开（公告）号：

CN114387602A

申请号：

CN202210294556.0

公开（公告）日：

2022-04-22

申请日：

2022-03-24

授权号：

暂无

授权日：

暂无

发明人：

安波

申请人：

北京智源人工智能研究院

申请人地址：

北京市海淀区中关村东路1号院8号楼三层B201D-1

代理机构：

北京动力号知识产权代理有限公司

代理人：

董钢

优先权：

CN202210294556.0

主分类号：

G06V30/19

IPC分类号：

G06V30/19 G06V30/414 G06V10/774

法律状态

2022-05-10 ：

实质审查的生效

IPC(主分类) : G06V 30/19
申请日 : 20220324

2022-04-22 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载