一种基于OCR的文本纠错方法、系统及存储介质
实质审查的生效
摘要
本发明公开了一种基于OCR的文本纠错方法、系统及存储介质,所述方法包括:利用文本识别过程中得到的概率矩阵计算候选文本矩阵,将其与形近词词典结合作为错字替换的候选集,若词语不在常用词词典中,且词语中任一个字的概率小于阈值则用候选集进行循环替换;计算两个文字之间的像素间隔向量,通过文字的概率向量和像素间隔向量找出可能存在错字或漏字的位置,进行循环删字或加字,实现错字、多字和漏字三种情况的纠错;本发明提高了词典的泛化能力,误纠率低,能解决多种情况的OCR文本识别错误。
基本信息
专利标题 :
一种基于OCR的文本纠错方法、系统及存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114359534A
申请号 :
CN202111393081.2
公开(公告)日 :
2022-04-15
申请日 :
2021-11-23
授权号 :
暂无
授权日 :
暂无
发明人 :
饶淑梅吕晓宝王元兵王海荣
申请人 :
中科曙光南京研究院有限公司
申请人地址 :
江苏省南京市江宁区诚信大道519号芳园中路
代理机构 :
南京苏高专利商标事务所(普通合伙)
代理人 :
李静
优先权 :
CN202111393081.2
主分类号 :
G06V10/22
IPC分类号 :
G06V10/22 G06V10/26 G06V30/148 G06V10/764 G06V30/19 G06F40/289 G06F40/242 G06F40/232 G06F40/216 G06F16/35 G06K9/62
法律状态
2022-05-03 :
实质审查的生效
IPC(主分类) : G06V 10/22
申请日 : 20211123
申请日 : 20211123
2022-04-15 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载