多多出评:火山引擎发布同声传译模型2.0 实现即时跨语言沟通新突破
火山引擎AI同声传译把科幻片里的场景搬进了现实,跨国聊生意哪怕一句英语不会,也能张口就是母语级交流。这波操作有点颠覆认知了。多多出评观察到,这两天,FORCE Link AI 创新巡展・厦门站上,火山引擎放出的大招中,豆包・同声传译模型 2.0 的发布尤为引人瞩目,此外还有全新升级的豆包・图像编辑模型 3.0和豆包大模型 1.6 系列等产品一同亮相。
本次火山引擎发布的豆包·同声传译模型2.0是首个延迟跟准确率都接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界 SOTA 的同时,实现了极低的语音延迟水平。多多出评认为,它主要出彩的地方是围绕着同声传译行业的三大痛点进行的:
首先是延迟方面,豆包·同声传译模型2.0的翻译延迟可以低至 2-3 秒,即使是面对 40 秒的大段中文的表达,也能够做到丝滑输出同款音色的英语翻译。能够真正意义上实现边听边说。
其次声音的真实度,豆包·同声传译模型2.0的零样本声音复刻功能能做到输出的声音跟输入保持高度相似。通俗来说就是模型可以在人说话的时候学习其说话风格、语调、韵律还有声音,以保证两种语言在听感上的一致性。
还有它的灵活性和准确性也值得称赞。如果输入语音能够流畅清晰,那么该模型就会以极快响应速度进行翻译;如果语音不流畅、频繁改口或者重复表达,则会选择核实内容后再开始转述,从而保障表达严谨性与精准度。
不难想象,随着豆包·同声传译模型2.0得普及,无论是在国际会议还是跨国合作中的细节沟通,将再也不会因为语言而影响沟通效果。而多多出评发现,其实这项技术所打破的不只是语言壁垒,更是不同文化间即时沟通所面临的一道屏障,让每一份理解都能毫无偏差。或许这正是一种由 AI 助力下世界应有的新型沟通模样。