基于中文分词技术的蛋白质序列特征提取方法
发明专利申请公布后的驳回
摘要
一种计算机应用技术领域的基于中文分词技术的蛋白质序列特征提取方法,包括以下步骤:(1)根据训练样本中的序列建立词典,找出对分类有用的氨基酸序列子串的集合;(2)切分序列,即对所有样本进行切分,将序列样本与建立好的词典中的词条进行匹配,并选择最优切分方式;(3)切分完毕后进行序列统计,统计每条序列中出现词典中各个词的频率,把序列转化为数值向量;(4)最后用转化好的特征对蛋白质进行分类。本发明提取出的特征可以用于多种蛋白质分类问题,如蛋白质亚细胞定位、结构预测等等。用本发明的方法可提高分类精度,并大幅度减少特征向量的维数。
基本信息
专利标题 :
基于中文分词技术的蛋白质序列特征提取方法
专利标题(英):
暂无
公开(公告)号 :
CN1773517A
申请号 :
CN200510110216.4
公开(公告)日 :
2006-05-17
申请日 :
2005-11-10
授权号 :
暂无
授权日 :
暂无
发明人 :
杨旸吕宝粮
申请人 :
上海交通大学
申请人地址 :
200240上海市闵行区东川路800号
代理机构 :
上海交达专利事务所
代理人 :
王锡麟
优先权 :
CN200510110216.4
主分类号 :
G06F19/00
IPC分类号 :
G06F19/00
法律状态
2010-02-24 :
发明专利申请公布后的驳回
2006-07-12 :
实质审查的生效
2006-05-17 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载