科技生活| 微软人工智能模型VALL-E 3秒复制人声音难辨真伪

［星岛综合报道] 微软研究人员提出了一个令人印象深刻的新文本–语音人工智能模型，称为VALL-E，它可以听一个声音，只需几秒钟，然后模仿这个声音，包括情感语调和音效，随你喜欢说任何话。

这是许多人工智能算法中最新的一种，可以利用一个人的声音录音，让它说出这个人从未说过的单词和句子，而且它只需要非常细小的音频碎片便能推断出整个人的声音。例如，2017年满地可大学的Lyrebird算法需要一整分钟的语音来分析，而Vall-E只需要三秒钟的音频片段。

该人工智能已经在大约6万小时的英语语音上进行了训练，主要是由有声读物的叙述者进行的，研究人员展示了大量的样本，其中Vall-E试图操纵一系列人类的声音。有些人在捕捉声音的本质和构建听起来自然的新句子方面做得相当出色，你很难分辨出哪个是真实的声音，哪个是合成的。在其他情况下，唯一的提示是当人工智能把重点放在句子中的奇怪地方时。

Vall-E在再现原始样本的音频环境方面做得特别好。如果样本听起来像是通过电话录制的，合成也是如此。它对口音的处理也相当好，至少，美国、英国和一些欧洲的口音。

在情感方面，效果略为逊色。使用标记为愤怒、困倦、有趣或厌恶的语音样本似乎会使事情「走样」，合成出来的声音听起来很怪异失真。

这种技术的影响是非常明显的；从积极的一面来看，在某些时候你可以让影星摩根弗曼(Morgan Freeman)在你乘坐手推车在超市过道上购物时为你讲述购物清单。如果一个演员在电影中中途死亡，他们可以通过这样的系统，通过深伪的视频和音频完成他们的表演。

在消极方面，对于配音演员和解说员来说，这不是一个好消息。对于听众来说也是如此；人工智能也许能够快速且极其便宜地完成解说，但不要指望有什么艺术。

诈骗者的「潜力」也很大。如果骗子能让你在电话里呆上三秒钟，他们就能窃取你的声音，用它给你奶奶打电话，或者绕过任何语音识别的安全设备，这正是《未来战士》续集阿诺舒华辛力打电话时做的事。

当然，每个人都在等待这样一个时刻：第一个政治人物的深层伪造的演讲骗过了很多人，破坏了相信你的眼睛和耳朵的概念，好像在这个奇怪的时代，客观真理还不是一个受到攻击的概念。

微软Vall-E团队在其演示页面的最后附上了一份简短的道德声明。「这项工作中的实验是在假设该模型的使用者是目标说话人并得到了说话人的认可的情况下进行的。然而，当该模型被推广到未见过的说话者时，相关的组件应该伴随着语音编辑模型，包括确保说话者同意执行修改的协议和检测编辑过的语音的系统。」

像DALL-E、ChatGPT、各种深度伪造算法和无数其他创造性AI的兴起，感觉在过去几个月中处于拐点，开始冲出实验室，进入现实世界。与所有的变化一样，它带来了机遇和风险。

图片：DALL-E、Getty Images

T09