- 威尼斯wns从一台装载机 透视中国工程机械进化史
- 威尼斯wns.8885556耳朵哭?正义老师傅怒搓 AI 为“听感”报仇!
- 威尼斯wns昆山诚致创精密机械有限公司
- 威尼斯wns.8885556一周复盘 伊戈尔本周累计下跌391%电子元件板块
联系人: 张生
手机: 18687297878
电话: 18687297878
邮箱: admin@kongqipao888.com
地址: 威尼斯wns.8885556濮阳市京开大道与黄埔街交叉口往南50米路西214号
威尼斯wns.8885556耳朵哭?正义老师傅怒搓 AI 为“听感”报仇!
威尼斯wns.8885556耳朵哭?正义老师傅怒搓 AI 为“听感”报仇!五金浅友们好~我是史中,我的日常生活是开撩的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
今天,他和女票吵架,女票不知施了神马法术,把铁柱的手机网速封印在了6kbps,然后夺门而出消失在夕阳下。
这个网速简直是诅咒,短视频刷不开威尼斯wns.8885556,游戏打不了。手机唯一的作用就剩下给女友发信息道歉了。。。。
等了足足一分钟,才看完介绍:“红烧肉是一道很普通的家常菜,一锅浓油赤酱,肥而不腻,放在桌子上一拍抖三抖。”
那一刻,铁柱突然被老妈的厨艺治愈,决定把女友召唤回来一起吃饭,两人冰释前嫌,从此没羞没臊地生活在一起。。。
作为研究音频信号传输十几年的腾讯老师傅,肖玮对音频熟悉到了“从声波里都能看出梦娜丽莎”的程度。
要是把它俩比作公司,那眼睛是个有 700 万员工的“大厂”,耳朵则是只有 2 万人的“创业公司”。
环境里的噪音突然变化,人立马会感觉哪里不对劲; 说话声音有瑕疵、失真、微弱的颤动,人都能分辨出来。(甚至有时人们不愿承认声音的贡献,把它归功于第六感。。。)
说到这,我提醒你注意:日常服务各个感官的资源也不是平均分配的——分配给视频的资源一般是大头,分配给音频的资源一般是零头。
就拿 iPhone 15 Pro max 来说,总共558美元的硬件成本,屏幕占了 110 美元,摄像头 90 美元;而扬声器和麦克风各自只有10美元左右。。。
就拿“腾讯会议”来说,一般要给高清视频预留的带宽是 4Mbps(每秒400万个比特),传输音频一般只给留 100kbps(每秒10万个比特)。
你弱水三千我只传一瓢还不行?比如上世纪90年代的电话机,听筒里的声音听起来非常闷,这就是采样率低的结果。
没错,这个操作就是我们都听说过的“压缩”。从早期的 ADPCM 到 上世纪90年代出现的 MP3 格式,也算是抚慰了一代人的耳朵。
因为算法和算法之间的差异,就像是“张华考上了北京大学,李萍进了中等技术学校,我在百货公司当售货员”这么大。
而且你知道吗?生命体的智能水平差异,本质上就是压缩能力的差异。不久前我写了一篇文章,就是在探讨这个道理,强烈建议浅友去看看。
这很好理解。既然传输的原始数据少,那很多结果都得靠大量计算得到嘛!反之,你要不想做这么多计算,原始数据还不给多些?
B 国对 A 国发动了战争,眼看就要攻下首都。总统决定撤离,撤离前给你派来一列火车,让你挑选一些最能代表 A 国文明的文物。
总统凝重地说:这一去,也许世世代代都无法再回来了。我们的后人就要靠这一列车的文物来理解我们的文化,重建我们的文明。
你能想到的办法,肯定是召集博物馆的专家讨论,选出你们认为最能代表 A 国文明的文物,然后反复尝试用最紧凑的方式打包,把这一火车皮塞到爆!
1)为了能最大程度重建 A 国文明,不同专家选出的代表文物肯定不同,这就是使用的“采样方案”不同; 2)同样是塞满一车皮,好的专家确实能选出维度更丰富,更适合重建文明的文物组合,也就是说,他们的压缩方案更优。
1、找到最有代表性的文物,然后只留关键部分。把霓裳剪开,只留最精美的纹饰;把瓷瓶打碎,只留最核心的图案。
4、到了新家园,我们依靠少量的完整器物加上众多的精美残片,再加上文物专家的经验和智慧,利用当地找来的辅助材料,就能复原这些文物。
用这种方法复建的博物馆,最终拥有的文物数量可能比只带完整文物的方法多三倍以上,完全突破了经典方法的上限↓↓↓
我们的目标是“对文明负责”,而不是“对某个文物负责”。你可以说最后复原出来的文物是赝品,但它是根据科学严谨的方法复原的,“赝”得有道理!在传续文明的意义上,它可以达到和真实文物几乎一样的效果。
看完这个比喻,我想你已经猜到了这种新一代的音频压缩方案,那就是——“人工智能加持的编解码”,简称 AI Codec。
肖玮所在的腾讯会议天籁实验室,前后花了五年时间磨出这支宝剑——Penguins AI 语音引擎。
第三段是腾讯老师傅用 Penguins 压缩后,用不到三分之一码率,也就是 6kbps 传输的音频:
说到这儿,我插一句。并不是说以前的音频老师傅有什么道德洁癖,死活不愿意用 AI 生成赝品声音,而是因为之前的 AI 技术根本达不到“以假乱真”的效果。
不同码率传输,恢复后的频谱对比(红色:原始语音 / 蓝色: / :)可见蓝线与红线非常接近威尼斯wns.8885556。
你盯着一张图片的生成过程,会觉得匪夷所思。因为它最初就是一堆“雪花”,然后每隔半秒就刷新一次,每刷一次就清晰一点儿,直到最后,少女定格在屏幕上。
这个过程就像米开朗基罗从一块里石头里反复敲掉碎屑,一直敲掉 300 层,每一层敲掉的都是“噪声”。最后剩下的部分,就是“大卫”。
你可能会问:为啥这个 AI 模型不断去掉噪声,最后剩下的就是美少女呢?为啥不是老爷们、皮卡丘?
因为这个 AI 模型当初就是用无数美少女的图片训练出来的。其中饱含着对全世界美少女头像特征的理解,它只会画美少女。
就像米开朗基罗刚动手的时候,虽然脑海里不能确切描摹出大卫成型后的每一寸肌肤,但他“方向性地”知道自己要雕一个健硕男子,最后肯定不会离谱到雕出个皮卡丘。
在开始的第 1 步,图像是一堆完全随机正态分布的噪点,谁都猜不出最后出来的美少女是啥样,其中蕴含的信息量可以视为0; 但到了第 100 步,图像中已经蕴含了一些信息,但如果你是个老二刺猿,也许基本能猜出最后的成品是啥样了。 到了第 200 步,图像中的信息已经很丰富了,哪怕你是个普通人,也基本能猜出最后成品的样子了。 到了第300步,你就不用猜了,所有信息都展现给你了。
如果我把信息含量更少的“第200步”版本传给你,而你手里的 AI 模型恰好能够把它复原成第 300 步的成品,咱俩不就可以节省传输成本么?
1、把我声波里的 关键信息做一些提取; 2、然后把提取结果发给你; 3、你再用专门的 AI 模型把它还原出来!流量带宽不就妥妥省下了吗?
作为在音频领域深耕二十多年资深音频人,商世东清楚编码器对生态的价值,这么多年也亲历了不少编码器江湖的往事,他觉得新的时代快到了。
之前我们说过,AI Codec 就像是在文物局部取碎片,而 Codec 就像是取整个的文物,它俩的采样机制完全不同。可以说,AI Codec 为核心的编,几乎是一项全新的技术。
腾讯 AI Lab 的阳珊告诉我, 实时通信的场景既要高质量,又要低复杂度,还要低延时。单独满足某一个都不难,但做出既要又要还要的模型,就纯纯难煞打工人了。
他们“龟毛”到了啥程度? 但凡技术同事拿来的新玩意儿可能造成用户体验有一丝一毫的下降,甭管成本降低多少,都不可能更换。您就别找我谈,面斥不雅。。。
腾讯会议质量测试团队的高雄告诉我,他们专门搓了一个评价系统, 同时测试传统方案和 AI Codec 方案,这样才 方便比较嘛。
这个系统外号叫“包青天”,每次改进,但凡有一点不合格就会打回来,技术老师傅开心得拳头都硬了。
根据天籁实验室的经验,音频编解码技术要是在体验打平的前提下,成本不降低个20%,产品团队基本不会考虑。
然鹅,刚才我们说了,AI Codec 是一项全新的技术。如果说传统编的升级像是把房子重新装修,那么 AI Codec 就像是把房子拆了重盖!
2019 年底,肖玮他们就关起门来打过算盘,要想让新编惊艳世人,起码得把性能提升个 300% 神马的。。。
要想保证 4 分的用户体验,音频界公认的最低网络要求大概是 20kbps,也就是说,天籁实验室的目标只能是:效果做到 4 分以上的同时,把网络要求降低到 6kbps!
如果用 AI 模型来做编,把带宽速率压到 6kbps 其实是可以的,但是此时要把它恢复到 4 分的音质,就需要一个很大的模型来搞,甚至光靠 CPU 都跑不动,得上 GPU。
这个模型说大,其实也不大。全世界对于音频处理的要求都是很苛刻的,不可能给到和视频处理一样的软硬件资源,大概整个手机,能划给你5%~8%的算力就顶天了。
当然各个手机的算力不同,但平均而言,这个限制下,模型的个头(或计算量)至少得从姚明砍到郭敬明。
从 2019 年底开始,天籁实验室一直有一支小分队研究这个事情,他们不仅自己琢磨,也在关注国内外学术界的进展。
当时老师傅们也顾不上新技术的研发,每天都在想着找资源扩容,寻思用什么姿势才能顶住下个周一更大的流量洪峰。。。
关键时刻,当几亿人迫切需要大规模传递信息时,他们会牺牲画面,而声音是最后的信息承载渠道。 此时,“以低带宽承载高质量的音频”就不再是一个锦上添花的“玩物”,而是支撑我们社会运转的 “基石” 之一。
当时天籁实验室已经推到了“无人区”。市面上没有别人的技术可供参考了。他们抱着这个自研方案站在那里,左右都没人跟上,多少带点胆儿秃。。。
文章只有区区几百字,根本看不出啥信息,但他们一下子跳起来了。在荒无人烟的原野,只要能瞄见另一个猎手的影子,他们就足以心安,自己追踪的方向对了!更何况看到的是一个公认的“好猎手”。
肖玮嗅到了猎物的味道。他建议投入重兵, 拉上 AI Lab 的阳珊他们, 赶紧开整!已经前后追踪了三年,可不能让其他猎人给打了去!
既然纯粹用 AI 算力不够,那可不可以在所有频谱上,只划出一部分重要频谱交给 AI 模型处理,剩余的还交给经典技术处理?
话说,音频处理领域就像一个武林,各个门派还是有很深的成见的。AI 派看经典派是行走的古董,经典派笑话 AI 派拿锤子看什么都是钉子,两边经常隔空吵架。
对于语音信号来说,原则上低频声波携带的信息对听感影响更重,高频声波携带的信息对听感影响更轻,也就是说,要把 AI 尽量用在低频波段上。
经典信号处理,高低频的码率分配大概是 1:8。 用这种“AI+经典”杂糅的方案,高低频的码率分配大概是 1:2~1:3。
虽然总体计算量确实是下去了,但听感也下去了,用这种方法压缩的音频在 6kbps 的码率下居然低于 4.0 分。
“不叫事儿”,老师傅安慰自己,以为调调就能过去。但谁承想,低码率下的听感像是被强力胶粘在了 3.x 分,无论怎么左冲右突,死活上不去 4.0。
苍天啊大地啊!明明技术其实已经突破了,但距离“腾讯级标准”就差那么一neinei,这也太窝火了。
但创新不就像打猎么?有时猎物就该在附近,猎手偏偏原地鬼打墙。此刻越急越找不到,冷静下来没准却能不期而遇。
由于进化历史的复杂,在很多细节上,人的听力是“不讲武德”的,或者说,它背后的道理是不能那么容易讲清楚的。
比如在狩猎时代人们需要分辨鸟鸣,演化就调高了特定高频处的敏感度;比如有些频率是野兽吼叫的声音,会激发我们的杏仁核产生恐惧。
这就造成,人的听觉系统虽然整体上偏重某个频段,但演化又在这个大概的规律上持续给不同频谱调整“权重”——最终,人的听力不再是一个简单的直线,而是充满了难以解释的“小起伏”。
这个问题,对码农来说其实超纲了。。。它应该由“生物学家”“医学家”或者“听觉科学家”来回答。
但直觉告诉肖玮,人类研究声学信号这么多年,自己不可能是第一个考虑这个问题的人,一定有前人做过研究。
功夫不负苦心人,就在 2022 年春节前夕,他们居然找到了一篇上世纪 80 年代的论文,恰好研究了人耳在各个频谱上的细节特性。
春节一回来,模型还在迭代收敛中,就看到了评价系统的客观评分超过了 4.0,一般来说,这种情况下主观评分只会更高!
果然,模型最终收敛,整个系统封装之后,可以在 6kbps 的情况下,让通线 分以上。生生把最低码率压到了原本极限的三分之一。
实际上,很多基于 AI Codec 的压缩方法在这个测试中得分都不高,所以他们经常心照不宣地跳过这个测试,反正外行也不懂。。。
天籁老师傅们点点头,咱就得用这个指标考验自己的成果!能够在这个客观测试标准中取得好成绩,大概率 Penguins 也能给出顶呱呱的主观通话质量。
果然,在这个测试中 Penguins 甩开对手老远——毕竟它的关键设计思路就是在细节处给耳朵“跪式服务”嘛!
这张图里,蓝色柱子是 Penguins 的得分,橘色柱子是同样采用了 AI Codec 技术的 Lyra2,可以看到 Penguins 表现全面领先。绿色和黑色柱子是基于传统信号处理的 EVS 和 OPUS,与这些传统信号处理方法的中高码率的质量相比,Penguins 也不逊色。
实话说,这篇论文的作者早已不再活跃,但他的研究成果却守候在永恒的历史岸边,横跨 40 年时空,把水中挣扎的素不相识的一群技术人拉上了岸。
这篇论文一直在那里,它像一扇门,谁都可以推开。但是天籁实验室最终想到去推这扇门,靠的并不是侥幸。
过去几年无数尝试碰壁后的经验,无数细小技术突破积累出的直觉,无数次因为责任而决定再试一次的发愿,都化成一级级台阶,最终指引老师傅走到了这扇门前。
手握这个性能狂飙三倍的音频编解码标准,老师傅终于有勇气敲响产品团队的大门,这第一战,当然就是和自己关系最密切的腾讯会议!
这是因为在现实生活中,网络环境比实验室复杂千万倍。实验室里的数据再炸裂,都不能代表它实际就很好用。
天籁实验室的算法同学找到腾讯会议的产品同学时,腾讯会议的伙伴建议,先从带宽最低的“驾驶模式”和“弱网模式”入手。
现有的编在 6kbps 下肯定卡,那就死马当活马医,把这部分的编替换成 Penguins,反正不会更坏了。。。
在软件里替换掉编已然工程量巨大,但这还只是万里长征的第一步,老师傅们必须对于各个车型、机型在各种实际网络工况下做实际测试。
肖玮回忆一个搞笑的细节:2022 年他们开着自己的车在公司附近兜圈,就是为了找到哪儿信号只有 6kbps。。。
“关键是信号还要稳定地差!有的地方测了两天之后,可能运营商也发现这里信号不行,给强行改好了,这就很尴尬。”他吐槽。
因为他们必须确定:在各种机型、芯片、操作系统的组合下,尤其是在综合性能较差的手机里,编解码系统都能按预想的姿势干活。
“就像瑞士手表,钟表匠测试手表质量,就必须让表真的转那么多天;就像汽车防撞、手机跌落测试,厂家真的就得去撞去摔。现实世界很复杂,在测试环节没有用虚拟替代现实的捷径。”高雄解释道。
但是问题来了,每一个包外面还得有“包装”,包装上标注了这个数据包的基本信息,从哪来到哪去之类的,这就是“包头”。包头当然也占用一定的信息空间。
在新的编解码技术下,每一帧的有效数据量变成了原有的三分之一,这时包头的比重就变得很大,再这样一帧数据打一个包就不划算了!
算法的革新带来的是体验的上界突破,肯定让人兴奋;但是工程底坐却是保证一切成功的前提。 没有一个王牌 App 是通过各种高精尖算法简单堆砌而成的,因为稍不注意,黑科技成了那块“短木板”了!
为了保证 Penguins 能够用起来,当时工程团队把客户端、服务后台等好多节点都从新打磨——几乎所有的重点处理链条都进行了针对性改造。
接下来,腾讯会议又逐渐切换,把原有编解完全过渡到 Penguins 上,至此,从2019年就开始研究的技术,时隔漫长的三年,终于在第一个产品里实现了完整落地。
年轻人更喜欢用 QQ,而且他们使用 QQ 的姿势和我们这群老人用微信的姿势不同。 比如,年轻朋友之间,干啥都要连着麦干。哪怕各自刷网页,也要保持着通话状态。 甚至,情侣可能会“连麦陪睡”——俩人一宿不挂电话,听对方睡觉,或者打呼噜。。。
长时间通话,网络环境肯定会经历各种变化,QQ 要想保证他们在任何时点都不被卡掉线,就更艰难。
于是在 2023 年,天成带领的 QQ 团队 也完成了编解码系统的改造,在只有 6kbps 的世界里完成了“荒野求生”!
既然技术飞跃这么大,而且已经在两大 App 上证明了自己,我们能不能去申请成为下一代语音通信的编解码标准呢?
凭借对标准的理解,老师傅们 确信:在现有的标准体系里,AI Codec 标准妥妥是一片待开发的沃土。
就拿大家平时看片都会用到的视频压缩格式“MP4”和“MPEG”来说,它的音视频标准被称为“H.264”,背靠国际标准化组织(ISO)和国际电联(ITU)。很多国际公司,例如杜比、索尼、AT&T 等都参与了这个标准背后的研讨。
而这些公司可没有在做慈善,他们通过 ISO 和 ITU,对每一个使用这个标准的厂商都收一些费用。
这本来没什么问题,但 要命的是,这些国外大公司尝到了甜头,争先恐后地参与制定下一代“H.265”标准,而且大幅提高收费。
一台使用 H.265 设备要想不遭受专利诉讼,得在各个专利池里四处交钱,总共至少要掏 4 美元。。。
大致在这样的背景下,中国成立了数字音视频编解码技术标准工作组,也就是 AVS(Audio Video Coding Standard Workgroup of China),就是为了绕过这些国际大厂的专利壁垒。
由于 AVS 主要是为了国家层面技术自保,所以对于中国企业的专利收费是极其友好的,很多都是免费或象征性收费。
腾讯老师傅要冲击的,就是 AVS-3,确切地说是 AVS-3 中实时语音编解码技术的那部分。作为中国企业、中国技术人,这不仅是责任,也是荣光。
但可想而知,既然是标准,制定流程是非常严肃的。这次,老师傅的搭档切换成了标准团队的专业咖,亚军。
1、作为音频编解码标准的主导方,腾讯需要提出足够的论据证明标准立项的重要性,这叫需求评审。 2、AVS 标准组认可并立项后,会发出技术征集书。 3、AVS 工作组成员会提出各种候选技术提案,连带自测结果。 4、 多次讨论迭代并通过第三方测试后,会慢慢形成稳定的 标准文档 和完整的 参考代码 。 5、最后把参考代码和技术征集书比对,如果指标全部满足,大家会 表决 通过,标准才最终诞生。
AVS 标准工作组会里有大学教授,有云计算厂商,有互联网厂商,还有手机等设备生产商。各位师傅都面临自己行业的实际情况,根据这些提出指标需求。
征集书像是个“英雄帖”,接下到了大家各显神通的时候,要拿出自己的“技术提案”来满足这些指标。
一旦开炮,炮弹离开炮筒,你就再没办法控制了。所以你不能放过自己,必须保证把炮弹造到最硬,再打出去。
老师傅先在自己的模拟环境里反复摩擦,又在腾讯会议和 QQ 实战环境中反复打磨,磨到不能再磨,磨秃噜皮,终于在 2023 年底整体提交。
标准文档堪比学术论文,就连平时大家不太注意的每一章概述部分都要字斟句酌,甚至因为一个标点符号要用分号还是逗号,大家都会争执。
到了 2024 年6月,满足技术征集书的标准交付件终于成型,很快大家就进入表决环节,各家企业代表此刻一致通过,这个新的音频编解码标准呱呱坠地,它就是——AVS3P10。
从 2019 年起心动念,到2022年落地实战,到 2024 年成为 AVS 标准,这条路腾讯老师傅们走了五年。
“其实在业内,一般都是五年做标准,五年做推广,总共要十年。我们的标准快了一倍,已经算非常顺利了!”肖玮说。
事实上,国际上其他标准组织也在进行类似的工作。 但从目前进展和完成的情况,AVS3P10 为代表的中国标准不仅在标准进度上做到领先,在很多指标上也是领先的。
从专利自保,到分庭抗礼,到自主创新达到国际顶尖,中国技术人用二十几年的时光,穿越了前车卷起的漫天黄尘,闯出了自己的天地澄澈。
过去几年,天籁实验室这群师傅的手艺不仅撑住了腾讯会议线 亿用户,还炼成了惠及 14 亿人的技术标准,堪称“爽文”典范。
2016 年 AI Codec 横空出世,如核爆一样在技术圈炸开,让传统的音频编解码黯然失色;它太优雅,就像电动汽车一样,用几台电机和一盘电池就能替代过去上万个零件组成的燃油机械。
于是,很多年轻的师傅激进地转向“纯 AI 派”,他们的理由很充分:具有底层先进性的 AI 模型定能江山一统,实现“技术”。
但大多数时候,决定“做什么”是简单的,但决定“不做什么”却要依靠经验、智慧以及强大的自制力,是更难的。
正如保守主义哲学家家埃德蒙·伯克所说:“先例是人类的学府,具有包容一切的气度和改善一切的才能,才是真正的改革家。”
事实证明,越是技术突飞猛进的时代,越需要有老师傅抱持这种看似冰冷,实则温热的“保守主义”态度。
当时他感觉到巨大的反差。其他国家的代表团都是连鬓络腮白胡子,一看就是干了多半辈子的老法师;再代表团,清一色都是二十来岁的毛头小伙子、小姑娘。
外国老哥解释,在他们国家,必须是在行业里摸爬滚打二十年以上的技术人,才有资格参与这种规格的标准讨论。
不过从那以后,就是这些小伙子小姑娘,一直在代表中国出席各种国际讨论,他们为全世界的音视频技术添砖加瓦,积沙成塔,以手中的代码而非年龄赢得世界的尊重。
如今他们虽还没夸张到白胡子的年级,但确实都已更加成熟。而在他们身后,正站着更多年轻的中国技术人。
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax威尼斯wns.8885556。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。