语音识别模型分词训练方法、系统、移动终端及存储介质

授权

摘要

本发明适用于语音识别技术领域，提供了一种语音识别模型分词训练方法、系统、移动终端及存储介质，该方法包括：收集本地存储的文本语料，设置组词总数，计算每个当前文字与下一文字之间的组合频数；当判断到组合频数大于第一频数阈值时，将当前文字与下一文字进行组词并标记为一个整体，直至最长组合频数小于等于第二频数阈值，停止组词，以得到组词词典；将组词词典与原始词典进行合并，并根据合并后的词典对文本语料进行分词，以得到分词语料；根据分词语料对语音识别模型进行训练。本发明通过构造组词词典对原始词典进行扩充，使得不需要额外收集用于子串标注学习的训练语料，也不需要事先进行人工分词或者采用其他分词算法进行分词。

基本信息

专利标题：

语音识别模型分词训练方法、系统、移动终端及存储介质

专利标题（英）：

暂无

公开（公告）号：

CN110853625A

申请号：

CN201910878880.5

公开（公告）日：

2020-02-28

申请日：

2019-09-18

授权号：

CN110853625B

授权日：

2022-05-17

发明人：

徐敏李稀敏肖龙源蔡振华刘晓葳王静

申请人：

厦门快商通科技股份有限公司

申请人地址：

福建省厦门市软件园三期诚毅北大街63号1301单元

代理机构：

厦门仕诚联合知识产权代理事务所(普通合伙)

代理人：

乐珠秀

优先权：

CN201910878880.5

主分类号：

G10L15/06

IPC分类号：

G10L15/06