医疗OCR数据优化模型训练方法、优化方法及设备
实质审查的生效
摘要
本发明公开一种医疗OCR数据优化模型训练方法、优化方法及设备,训练方法包括:获取大规模无标注医疗文本数据,对文本数据中的医疗术语和字符进行识别以形成训练集;对训练集进行预训练处理以得到用于训练医疗OCR优化模型的预训练数据集,并利用预训练数据集对医疗OCR优化模型进行训练;所述预训练处理包括:对训练集中的低频术语和低频字符进行数据增广处理;将训练集中的第一目标字符随机替换为错误字符;对训练集中的第二目标字符进行遮挡;以及训练集切分为多个文本段落,得到用于训练医疗OCR优化模型的预训练数据集。本发明利用医疗领域预训练语言模型对医疗OCR结果进行结构化提取、错误识别及优化,提升了医疗OCR的准确率。
基本信息
专利标题 :
医疗OCR数据优化模型训练方法、优化方法及设备
专利标题(英):
暂无
公开(公告)号 :
CN114387602A
申请号 :
CN202210294556.0
公开(公告)日 :
2022-04-22
申请日 :
2022-03-24
授权号 :
暂无
授权日 :
暂无
发明人 :
安波
申请人 :
北京智源人工智能研究院
申请人地址 :
北京市海淀区中关村东路1号院8号楼三层B201D-1
代理机构 :
北京动力号知识产权代理有限公司
代理人 :
董钢
优先权 :
CN202210294556.0
主分类号 :
G06V30/19
IPC分类号 :
G06V30/19 G06V30/414 G06V10/774
法律状态
2022-05-10 :
实质审查的生效
IPC(主分类) : G06V 30/19
申请日 : 20220324
申请日 : 20220324
2022-04-22 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载