神经声码器-南京梧桐微电子科技有限公司

算法技术

传统声码器

神经声码器

回声抵消

噪声抑制

神经声码器

您当前的位置：首页 - 神经声码器

神经声码器采样端到端神经音频编解码框架，核心架构采用Encoder–Quantizer–Decoder三级结构。

算法在编码端通常基于一维卷积网络，将时域波形映射到低维连续潜在表示；随后通过残差向量量化（Residual Vector Quantization, RVQ）进行多级离散化，将连续表示压缩为有限码本索引，实现可控码率（如0.6–24 kbps）；最后由对称结构的解码器重构时域波形。训练阶段采用端到端优化策略，损失函数通常包含多尺度STFT损失 + 感知对抗损失，判别器用于提升主观音质。

这种时域卷积自编码 + 残差向量量化压缩 + 感知对抗训练优化，适合设计低码率神经声码器。通过端到端的建模方式，结合频率域与时域的联合约束，使其在感知质量上显著优于传统参数化声码器。

南京麒麟启迪科技城华业园2栋

info@indusic.com

025-84813173

025-84812173