文本标准化模型的训练方法、文本标准化方法及装置
公开
摘要

本申请提供了一种文本标准化模型的训练方法、文本标准化方法及装置,属于人工智能技术领域。所述方法包括:获取标准词汇集,所述标准词汇集包括多个标准词汇;基于所述标准词汇集中各标准词汇之间的相似程度,确定多个样本三元组,所述样本三元组包括中心样本词汇以及所述中心样本词汇关联的正样本词汇和负样本词汇;基于所述多个样本三元组,对文本标准化模型进行训练,所述文本标准化模型用于确定输入词汇之间的相似程度。上述技术方案,通过在训练模型时使用标准词汇集,使得不需要使用人工标注数据即可进行模型训练,从而实现了训练数据与细分领域下的人工标注数据的解耦,降低了训练成本,且具有广泛的适用性不受领域的局限。

基本信息
专利标题 :
文本标准化模型的训练方法、文本标准化方法及装置
专利标题(英):
暂无
公开(公告)号 :
CN114328948A
申请号 :
CN202111406902.1
公开(公告)日 :
2022-04-12
申请日 :
2021-11-24
授权号 :
暂无
授权日 :
暂无
发明人 :
张子恒
申请人 :
腾讯科技(深圳)有限公司
申请人地址 :
广东省深圳市南山区高新区科技中一路腾讯大厦35层
代理机构 :
北京三高永信知识产权代理有限责任公司
代理人 :
李文静
优先权 :
CN202111406902.1
主分类号 :
G06F16/36
IPC分类号 :
G06F16/36  G06F16/33  G06F40/247  G06N3/04  G06N3/08  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/36
••语义工具的产生,例如,本体论或词典
法律状态
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332