音频技能迎来新标准AI正重塑实时音频传输体验

6月中旬，音视频编解码标准（AVS）事情组正式宣告，《信息技能智能媒体编码第10部分：实时语音》（以下简称AVS3-P10）已经完成FCD（Final Committee Draft）阶段，即将正式对外发布。

AVS3-P10是环球首个别系性引入人工智能并实现真正意义上的低码率下高质量语音编码标准，为环球语音技能的发展带来了革命性打破。

大略来说，AVS3-P10仅需现有主流标准1/3的编码码率，就能实现同等清晰的音质。
这意味着，纵然在电梯、地库、隧道等网络很差的环境，以及在“2G”网络下，也能实现清晰流畅的语音通话。

该标准以腾讯首款神经网络语音编解码器Penguins为原型，由腾讯发起启动、推进和掩护，并经由AVS音频组多家成员单位共同贡献。

6月26日，作为AVS3-P10标准的起草人，腾讯会议天籁实验室专家研究员肖玮接管了21世纪经济宣布的采访，并向还原了Penguins从出身到成为行业标准的全过程。

“听得够清”与“压得够小”兼得

如何在一定的带宽占用下，尽可能地提高音频质量，或者在保持质量情形下，尽可能地减少带宽利用率？

在音频编解码领域，这始终是行业难题。
肖玮称，“听得够清”和“压得够小”，就像一对跷跷板——如果音频体积太大，弱网环境下就会导致通话卡顿；但如果压得过度，音频质量受损，清晰度低落，就会听不清。

为理解决这个问题，腾讯于2020年启动研发Penguins编解码器项目。
据肖玮先容，该技能的核心思路是：先通过建立语音旗子暗记模型，捕捉音频的核心特色，实现大幅度压缩、降落体积；再借助深度学习网络，预测并重修语音中的细微构造，最终生成逼真的音频波形。

这个场景依赖传统音视频技能已难以实现，腾讯是将AI与传统技能紧密领悟，通过对算法研究、工程化、产品化层面的系统性创新，冲破了传统喷鼻香农定律的性能极限。

肖玮表示，传统的语音编码器，包括AVS、ITU-T、3GPP、IETF等标准语音编码器，在16-20kbps旁边码率时，能够规复出高质量宽带语音；在30-35kbps，可以规复出高质量超宽带乃至全带语音。
然而，当码率进一步降落，比如降到10kbps以下时，传统语音编码器规复的质量低落明显。

而Penguins编解码器实现了6kbps下的高质量语音通信，且主不雅观质量非常靠近原始参考旗子暗记，可媲美国际主流的OPUS标准在20kbps的质量。
同时，在主不雅观质量对标传统编码的中高码率情形下，Penguins的编码效率可提升200%~300%。

2021年11月，Penguins编解码器首次发布，并逐步落地到腾讯会议（驾驶模式及弱网模式）、QQ语音通话等腾讯产品当中，目前已做事亿级用户。

从内部技能到行业标准

在通信系统中，标准的意义重大。
由于各厂商都方向于支配标准的语音编解码协议，以避免互联互通的问题。

在成立的20多年里，AVS事情组已经制订了三代音视频编码标准，且每一代标准都会较前一代有大幅度性能提升。
而在这些标准制订过程中，包括腾讯、阿里巴巴、华为、字节跳动等企业在内的互联网公司，扮演了至关主要的角色。

2023年3月，腾讯团队开始推动Penguins方案成为行业标准。
在第85次AVS会议上，AVS事情组正式立项AVS3-P10实时语音编码项目。

随后，AVS音频组审议了由腾讯提交的《AVS3-P10语音编码参考模型候选技能方案》提案，并在2023年12月第 87 次 AVS 会议上，宣告AVS3-P10 WD 1.0通过全体会议审议。
这意味着腾讯提交的技能方案，正式被确定为AVS3-P10实时语音编码的RM0基线。

在今年3月举办的第88次AVS会议上，AVS音频组组长、清华大学教授窦维蓓宣告AVS3-P10已经完备知足技能需求。
紧接着在6月的第89次AVS事情组会议上，AVS3-P10完成FCD阶段，正式成为了行业标准。

AVS事情组指出，“AVS3-P10 作为新一代语音编解码技能标准，是对AVS系列标准的主要补充。
该标准是当前业界的最高水平，将为用户带来更好的体验”。

肖玮向表示，终极的AVS3-P10标准不完备即是腾讯方案，由于在全体标准化过程中，除了腾讯主导的AI这部分以及系统架构以外，还借鉴了AVS其他标准中的技能，这些技能均是来自AVS音频组成员单位包括高校和企业。

“标准的目的是达成共识。
现在AI技能这么火，供应了很多新范式，不同厂商如果有机会肯定都会做新的编码器。
腾讯推动AVS3-P10标准，便是希望让大家看到这样一个新的技能方向”。
肖玮说。

更多内容请下载21财经APP

每期AI知识网