文本切分方法及装置

公开

摘要

本发明公开一种文本切分方法及装置，包括：构建贝叶斯模型框架，文本切分预测模型包括初始词典D，词边界向量集合B和模型参数θ，文本切分预测模型用于将中文文本序列T中每一段未分词文本T_j，根据初始词典D、给定的词边界向量B_j和模型参数θ获得分词版本的文本T_j的概率；确定联合先验分布π(θ，B)，将词语使用和文本切分的先验偏好整合到文本切分预测模型中；用EM算法估计模型参数θ的后验峰值用后验峰值从初始词典中去除显著性低词语，D简化为最终词典D_f；用后验峰值最终词典D_f，获得词边界向量的集合B，实现对文本T进行切分。本发明通过先验信息，以及κ参数的选择控制切词的颗粒度，以使得能够切分出词语，提高文本切分效果。

基本信息

专利标题：

文本切分方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN114595681A

申请号：

CN202210117834.5

公开（公告）日：

2022-06-07

申请日：

2022-02-08

授权号：

暂无

授权日：

暂无

发明人：

邓柯潘长在

申请人：

清华大学

申请人地址：

北京市海淀区清华园

代理机构：

北京鸿元知识产权代理有限公司

代理人：

董永辉

优先权：

CN202210117834.5

主分类号：

G06F40/216

IPC分类号：

G06F40/216 G06F40/284 G06F40/242

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F40/216

使用统计方法

法律状态

2022-06-07 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载