一种基于正则化的去社会偏见的语言模型及应用
授权
摘要
本发明公开了一种基于正则化的去社会偏见的语言模型及应用,包括以下步骤:(1)清洗PTB语料文本库后,筛选PTB语料文本库中会出现社会偏见的词语并标记;(2)搭建包括三层LSTM网络、全连接层、softmax层的语言模型;(3)利用PTB语料文本库训练语言模型,在训练时,以文本生成任务的损失Lossaccuracy和去社会偏见正则化项损失Lossfairness组成的总损失Loss为最终损失;(4)每训练一阶段,以语言模型输出的预测文本的社会偏见分数相对PTB语料文本的社会偏见分数的分布状态来评判语言模型的去社会偏见效果,当分布状态满意时,获得最终的语言模型。该语言模型提高了预测输出的公平性。
基本信息
专利标题 :
一种基于正则化的去社会偏见的语言模型及应用
专利标题(英):
暂无
公开(公告)号 :
CN111753044A
申请号 :
CN202010609422.4
公开(公告)日 :
2020-10-09
申请日 :
2020-06-29
授权号 :
CN111753044B
授权日 :
2022-05-17
发明人 :
陈晋音缪盛欢徐思雨陈治清徐国宁
申请人 :
浙江工业大学
申请人地址 :
浙江省杭州市下城区潮王路18号
代理机构 :
杭州天勤知识产权代理有限公司
代理人 :
曹兆霞
优先权 :
CN202010609422.4
主分类号 :
G06F16/31
IPC分类号 :
G06F16/31 G06N3/04 G06F40/205 G06F40/216 G06F40/263 G06F40/289 G06K9/62
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/31
••索引;其数据结构;存储结构
法律状态
2022-05-17 :
授权
2020-10-30 :
实质审查的生效
IPC(主分类) : G06F 16/31
申请日 : 20200629
申请日 : 20200629
2020-10-09 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载