一种文本识别脱敏方法及其系统
公开
摘要

本发明公开了一种文本识别脱敏方法及其系统,该方法包括:获取待识别文本,将待识别文本拆分为多个句子,再将句子分词为多个字词;将待识别文本的每个字词转换为对应的向量;将向量输入至Bert模型,Bert模型将向量转换为词表示向量,并对词表示向量进行分类标注;将标注后的词表示向量输入条件随机场,条件随机场基于标注之间的关联依赖关系进行计算,得到全局最优标注序列;对标注为敏感实体的字词进行脱敏操作。本发明能够做到并发执行,同时提取字词在句子中的关系特征,进而更全面反映句子语义,又能根据句子上下文获取词义,从而避免歧义出现,此外,能够针对不同类别的敏感实体进行不同的脱敏操作。

基本信息
专利标题 :
一种文本识别脱敏方法及其系统
专利标题(英):
暂无
公开(公告)号 :
CN114298035A
申请号 :
CN202111640408.1
公开(公告)日 :
2022-04-08
申请日 :
2021-12-29
授权号 :
暂无
授权日 :
暂无
发明人 :
张宏莉韩培义叶麟余翔湛李东于海宁方滨兴林华娟
申请人 :
电子科技大学广东电子信息工程研究院
申请人地址 :
广东省东莞市松山湖高新技术产业开发区总部二路17号
代理机构 :
天津市北洋有限责任专利代理事务所
代理人 :
潘俊达
优先权 :
CN202111640408.1
主分类号 :
G06F40/289
IPC分类号 :
G06F40/289  G06F40/284  G06F40/117  G06F21/62  G06K9/62  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/289
短语分析,例如有限状态技术或分块
法律状态
2022-04-08 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332