一种基于文本主题指标的银行错报检测方法
实质审查的生效
摘要
本发明提供一种基于文本主题指标的银行错报检测方法。先进行年报文本预处理;通过我国银行业的年报,利用Python工具包先进行清理获取到年报纯文本;之后对年报纯文本进行分词与去停用词;再进行时间窗口的划分,利用LDA主题模型构建主题指标;其中LDA主题模型事先确定要生成的最优主题数量;将主题指标作为输入,建立Logistic模型和KNN模型;通过构建出的主题指标,在每个时间窗口上分别构建机器学习模型;最后通过建立的两个模型进行指标的评估。通过本发明所述的方法,基于主题指标的KNN模型的精确率达到了81.63%,召回率和F1值也显著高于文本指标和财务指标。因此构建文本主题指标并利用此去识别上市公司的错报情况可行的,优于传统的识别错报的指标体系。
基本信息
专利标题 :
一种基于文本主题指标的银行错报检测方法
专利标题(英):
暂无
公开(公告)号 :
CN114548048A
申请号 :
CN202210168914.3
公开(公告)日 :
2022-05-27
申请日 :
2022-02-23
授权号 :
暂无
授权日 :
暂无
发明人 :
李维萍徐阳张熠
申请人 :
南京审计大学
申请人地址 :
江苏省南京市浦口区江浦街道雨山西路86号
代理机构 :
南京科知维创知识产权代理有限责任公司
代理人 :
王萍萍
优先权 :
CN202210168914.3
主分类号 :
G06F40/154
IPC分类号 :
G06F40/154
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/154
树结构或标记文档的树转换,例如,XSLT,XSL-FO或样式表
法律状态
2022-06-14 :
实质审查的生效
IPC(主分类) : G06F 40/154
申请日 : 20220223
申请日 : 20220223
2022-05-27 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载