相似文件的自动侦测方法
发明专利申请公布后的视为撤回
摘要
一种自动侦测相似文件的方法,该方法是对一文件集里的每一篇文件进行词汇断词、标点符号删除、停用词过滤、词汇正规化等前置处理,然后建立每个词汇到每篇文件的一反向索引档,接着将每一篇待比对文件同样经过上述的步骤处理后,透过反向索引档提供的索引功能,快速查阅待比对文件中每个词汇在文件集内每一篇文件出现的次数,并按照给定的相似度公式,计算出待比对文件与其他文件的相似度,如此搜集文件之间的相似度,依照给定的相似度门槛过滤后,即可侦测所有相异的相似文件。
基本信息
专利标题 :
相似文件的自动侦测方法
专利标题(英):
暂无
公开(公告)号 :
CN1963807A
申请号 :
CN200510115210.6
公开(公告)日 :
2007-05-16
申请日 :
2005-11-11
授权号 :
暂无
授权日 :
暂无
发明人 :
曾元显
申请人 :
威知资讯股份有限公司;曾元显
申请人地址 :
中国台湾
代理机构 :
北京中原华和知识产权代理有限责任公司
代理人 :
寿宁
优先权 :
CN200510115210.6
主分类号 :
G06F17/30
IPC分类号 :
G06F17/30 G06F17/27
相关图片
法律状态
2010-07-21 :
发明专利申请公布后的视为撤回
号牌文件类型代码 : 1603
号牌文件序号 : 101003372336
IPC(主分类) : G06F 17/30
专利申请号 : 2005101152106
公开日 : 20070516
号牌文件序号 : 101003372336
IPC(主分类) : G06F 17/30
专利申请号 : 2005101152106
公开日 : 20070516
2007-07-11 :
实质审查的生效
2007-05-16 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN1963807A.PDF
PDF下载