一种基于栈式稀疏自编码器的面向对象编码方法
授权
摘要
本发明涉及数字音频信号处理技术,具体涉及一种基于栈式稀疏自编码器的面向对象编码方法,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达,然后利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据。该方法利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块,每个模块都从其前一个模块中提取了边信息的有效特征。可以减少边信息参数的维数以节省比特率,并很好地重建音频对象。因此,能在相同的比特率下获得最佳的音频对象信号音质,以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量,提高编码效率。
基本信息
专利标题 :
一种基于栈式稀疏自编码器的面向对象编码方法
专利标题(英):
暂无
公开(公告)号 :
CN112365896A
申请号 :
CN202011102043.2
公开(公告)日 :
2021-02-12
申请日 :
2020-10-15
授权号 :
CN112365896B
授权日 :
2022-06-14
发明人 :
胡瑞敏吴玉林王晓晨胡晨昊李罡陈玮柯善发张灵鲲刘文可
申请人 :
武汉大学
申请人地址 :
湖北省武汉市武昌区珞珈山武汉大学
代理机构 :
武汉科皓知识产权代理事务所(特殊普通合伙)
代理人 :
彭艳君
优先权 :
CN202011102043.2
主分类号 :
G10L19/008
IPC分类号 :
G10L19/008 G10L19/02
相关图片
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L19/00
用于冗余度下降情形的语音或音频信号分析-合成技术;语音或音频信号编码或解码,采用源滤波器模型或心理声学分析
G10L19/008
多通道音频信号编码和解码,采用通道间的相关性以减少冗余度,例如联合立体声,强度编码或矩阵变换
法律状态
2022-06-14 :
授权
2021-03-05 :
实质审查的生效
IPC(主分类) : G10L 19/008
申请日 : 20201015
申请日 : 20201015
2021-02-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN112365896A.PDF
PDF下载