科技| Meta新AI系统变身巴别鱼 语音即时翻译101种语言

[星岛综合报道]科幻小说中的通用翻译器,例如《银河便车指南》中著名的巴别鱼,一直描绘著即时翻译语言的梦想。如今,Facebook 的母公司 Meta 的科学家开发出一种 AI 系统,可以即时翻译语音和文字,包括语音到语音的直接翻译,涵盖多达 101 种语言,这或许是实现这一幻想的关键一步。
“科幻为我们的团队提供了一个清晰的目标,”Meta 基本 AI 研究团队(位于加州门洛帕克)的研究科学家Marta Costa-jussà表示。
随着世界越来越紧密地互联,人们比以往任何时候都能更广泛地接触多语言内容。然而,大多数自动翻译系统仅设计为处理文字输入和输出。目前现有的语音到语音翻译系统在覆蓋语言数量上远不及文字翻译系统。此外,之前的语音到语音翻译系统通常偏向于将某种语言翻译为英文,而非将英文翻译为其他语言。
Meta 现在开发了一种名为 SeamlessM4T 的 AI 系统,可翻译多达 101 种语言的语音和文字。
为了开发 SeamlessM4T,研究人员训练了一个模仿大脑的神经网络 AI 系统,使用了 400 万小时的多语音频和数十亿句子,这些资料来自公开的网络数据库。他们还分析了约 44.3 万小时的带有匹配文字的音频(例如带字幕的网络视频剪辑),以进一步改进系统。
在语音到语音翻译方面,研究团队发现 SeamlessM4T 的准确率比先前的最先进系统提高了 23%。在语音到文字的任务中,它的准确率比之前的系统高出 8%。
此外,在语音到文字的任务中,SeamlessM4T 在背景噪音和说话者语音差异的情况下,比起其他系统大约多出 50% 的抗干扰能力。它还能翻译混合两种或多种语言的语句。
为减少 SeamlessM4T 在翻译中可能添加脏话或其他有害语言的风险,研究人员采用了两种策略来消除训练和运行过程中的有害内容。与最先进的模型相比,这些策略在翻译中减少有害内容的比例高达 20%。
除了 SeamlessM4T,Meta 还释出了多种支援语音与文字分析的 AI 系统。未参与此次研究的爱沙尼亚塔林理工大学语音处理副教授Tanel Alumäe提到,他和同事已成功利用其中一款工具进行语音的情感识别及早期认知衰退(如阿兹海默症)的检测。
目前,Meta 正使用 SeamlessM4T 来自动为 Instagram 和 Facebook 上的视频配音。它还帮助实现 Ray-Ban 智能眼镜即时将西班牙语、法语或意大利语翻译为英语的功能。为促进未来语音翻译技术的研究,Meta 正将与 SeamlessM4T 有关的代码、工具、库及其他资源以非商业用途公开。
图片:istock
T10
>>>星岛网WhatsApp爆料热线(416)6775679,爆料一经录用,薄酬致意。
>>>立即浏览【移民百答】栏目:新移民抵埗攻略,老华侨也未必知道的事,移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。