音频技术迎来新标准:AI正重塑实时音频传输体验
6月中旬,音视频编解码标准(AVS)工作组正式宣布,《信息技术 智能媒体编码 第10部分:实时语音》(以下简称AVS3-P10)已经完成FCD(Final Committee Draft)阶段,即将正式对外发布。
AVS3-P10是全球首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,为全球语音技术的发展带来了革命性突破。
简单来说,AVS3-P10仅需现有主流标准1/3的编码码率,就能实现同等清晰的音质。这意味着,即使在电梯、地库、隧道等网络很差的环境,以及在“2G”网络下,也能实现清晰流畅的语音通话。
该标准以腾讯首款神经网络语音编解码器Penguins为原型,由腾讯提议启动、推进和维护,并经过AVS音频组多家成员单位共同贡献。
6月26日,作为AVS3-P10标准的起草人,腾讯会议天籁实验室专家研究员肖玮接受了21世纪经济报道记者的采访,并向记者还原了Penguins从诞生到成为行业标准的全过程。
“听得够清”与“压得够小”兼得
如何在一定的带宽占用下,尽可能地提高音频质量,或者在保持质量情况下,尽可能地减少带宽利用率?
在音频编解码领域,这始终是行业难题。肖玮称,“听得够清”和“压得够小”,就像一对跷跷板——如果音频体积太大,弱网环境下就会导致通话卡顿;但如果压得过度,音频质量受损,清晰度下降,就会听不清。
为了解决这个问题,腾讯于2020年启动研发Penguins编解码器项目。据肖玮介绍,该技术的核心思路是:先通过建立语音信号模型,捕捉音频的核心特征,实现大幅度压缩、降低体积;再借助深度学习网络,预测并重建语音中的细微结构,最终生成逼真的音频波形。
这个场景依靠传统音视频技术已难以实现,腾讯是将AI与传统技术紧密融合,通过对算法研究、工程化、产品化层面的系统性创新,打破了传统香农定律的性能极限。
肖玮表示,传统的语音编码器,包括AVS、ITU-T、3GPP、IETF等标准语音编码器,在16-20kbps左右码率时,能够恢复出高质量宽带语音;在30-35kbps,可以恢复出高质量超宽带甚至全带语音。然而,当码率进一步降低,比如降到10kbps以下时,传统语音编码器恢复的质量下降明显。
而Penguins编解码器实现了6kbps下的高质量语音通信,且主观质量非常接近原始参考信号,可媲美国际主流的OPUS标准在20kbps的质量。同时,在主观质量对标传统编码的中高码率情况下,Penguins的编码效率可提升200%~300%。
2021年11月,Penguins编解码器首次发布,并逐步落地到腾讯会议(驾驶模式及弱网模式)、QQ语音通话等腾讯产品当中,目前已服务亿级用户。
从内部技术到行业标准
在通信系统中,标准的意义重大。因为各厂商都倾向于部署标准的语音编解码协议,以避免互联互通的问题。
在成立的20多年里,AVS工作组已经制定了三代音视频编码标准,且每一代标准都会较前一代有大幅度性能提升。而在这些标准制定过程中,包括腾讯、阿里巴巴、华为、字节跳动等企业在内的互联网公司,扮演了至关重要的角色。
2023年3月,腾讯团队开始推动Penguins方案成为行业标准。在第85次AVS会议上,AVS工作组正式立项AVS3-P10实时语音编码项目。
随后,AVS音频组审议了由腾讯提交的《AVS3-P10语音编码参考模型候选技术方案》提案,并在2023年12月第 87 次 AVS 会议上,宣布AVS3-P10 WD 1.0通过全体会议审议。这意味着腾讯提交的技术方案,正式被确定为AVS3-P10实时语音编码的RM0基线。
在今年3月举办的第88次AVS会议上,AVS音频组组长、清华大学教授窦维蓓宣布AVS3-P10已经完全满足技术需求。紧接着在6月的第89次AVS工作组会议上,AVS3-P10完成FCD阶段,正式成为了行业标准。
AVS工作组指出,“AVS3-P10 作为新一代语音编解码技术标准,是对AVS系列标准的重要补充。该标准是当前业界的最高水平,将为用户带来更好的体验”。
肖玮向记者表示,最终的AVS3-P10标准不完全等于腾讯方案,因为在整个标准化过程中,除了腾讯主导的AI这部分以及系统架构以外,还借鉴了AVS其他标准中的技术,这些技术均是来自AVS音频组成员单位包括高校和企业。
“标准的目的是达成共识。现在AI技术这么火,提供了很多新范式,不同厂商如果有机会肯定都会做新的编码器。腾讯推动AVS3-P10标准,就是希望让大家看到这样一个新的技术方向”。肖玮说。