利用差分隐私词嵌入扰动的敏感文本脱敏方法
公开
摘要

本发明涉及利用差分隐私词嵌入扰动的敏感文本脱敏方法,属于差分隐私保护技术领域。本发明首先利用命名实体识别技术识别文本中的敏感单词,并随机抽样语料库中的非敏感单词;其次给敏感单词的词嵌入向量加上差分隐私噪声,生成新的扰动词嵌入向量;然后度量扰动词嵌入向量和非敏感单词的词嵌入向量之间的欧几里得距离,依据最近邻公式取得候选词集合;最后依据多单位拍卖概率公式用候选词集合中的单词替换文本中所有的敏感单词后输出脱敏文本。本发明在多个语料上实验,结果表明其在多种文本上都能达到较好的脱敏效果,具有良好的通用性和可迁移性。

基本信息
专利标题 :
利用差分隐私词嵌入扰动的敏感文本脱敏方法
专利标题(英):
暂无
公开(公告)号 :
CN114547670A
申请号 :
CN202210039857.9
公开(公告)日 :
2022-05-27
申请日 :
2022-01-14
授权号 :
暂无
授权日 :
暂无
发明人 :
罗森林关业礼潘丽敏郜森吴杭颐
申请人 :
北京理工大学
申请人地址 :
北京市海淀区中关村南大街5号
代理机构 :
代理人 :
优先权 :
CN202210039857.9
主分类号 :
G06F21/62
IPC分类号 :
G06F21/62  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F21/00
防止未授权行为的保护计算机、其部件、程序或数据的安全装置
G06F21/60
保护数据
G06F21/62
通过一个平台保护数据存取访问,例如使用密钥或访问控制规则
法律状态
2022-05-27 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332