用于预训练语言模型的处理方法和口语语言理解系统
授权
摘要
公开了一种用于预训练语言模型的处理方法和口语语言理解系统。所述方法包括:获取对样本中的字进行掩码处理的掩码训练样本;将掩码训练样本输入所述预训练语言模型,获得所述预训练语言模型针对被掩码字输出的损失值;在所述预训练语言模型将被掩码字预测为所述被掩码字同音或近音字时,降低所述损失值;以及根据所述损失值,调整所述预训练语言模型中神经网络模型的参数。由此,通过在预训练期间在输入文本的某些部分被同音字或近音字替换时减少语言表示的波动来得到对自动语音识别错误具有鲁棒性的预训练模型,即,得到能够容忍自动语音识别模型错误的预训练模型。
基本信息
专利标题 :
用于预训练语言模型的处理方法和口语语言理解系统
专利标题(英):
暂无
公开(公告)号 :
CN114023306A
申请号 :
CN202210001331.1
公开(公告)日 :
2022-02-08
申请日 :
2022-01-04
授权号 :
CN114023306B
授权日 :
2022-04-12
发明人 :
汪诚愚邱明辉黄俊
申请人 :
阿里云计算有限公司
申请人地址 :
浙江省杭州市西湖区转塘科技经济区块12号
代理机构 :
北京展翼知识产权代理事务所(特殊普通合伙)
代理人 :
张阳
优先权 :
CN202210001331.1
主分类号 :
G10L15/01
IPC分类号 :
G10L15/01 G10L15/06 G10L15/16
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L15/00
语音识别
G10L15/01
语音识别系统的评估或评价
法律状态
2022-04-12 :
授权
2022-02-25 :
实质审查的生效
IPC(主分类) : G10L 15/01
申请日 : 20220104
申请日 : 20220104
2022-02-08 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载