科技生活| 微軟人工智能模型VALL-E 3秒複製人聲音難辨真偽

2023年01月11日 13:36

［星島綜合報道] 微軟研究人員提出了一個令人印象深刻的新文本-語音人工智能模型，稱為VALL-E，它可以聽一個聲音，只需幾秒鐘，然後模仿這個聲音，包括情感語調和音效，隨你喜歡說任何話。

這是許多人工智能算法中最新的一種，可以利用一個人的聲音錄音，讓它說出這個人從未說過的單詞和句子，而且它只需要非常細小的音頻碎片便能推斷出整個人的聲音。例如，2017年滿地可大學的Lyrebird算法需要一整分鐘的語音來分析，而Vall-E只需要三秒鐘的音頻片段。

該人工智能已經在大約6萬小時的英語語音上進行了訓練，主要是由有聲讀物的敘述者進行的，研究人員展示了大量的樣本，其中Vall-E試圖操縱一系列人類的聲音。有些人在捕捉聲音的本質和構建聽起來自然的新句子方面做得相當出色，你很難分辨出哪個是真實的聲音，哪個是合成的。在其他情況下，唯一的提示是當人工智能把重點放在句子中的奇怪地方時。

Vall-E在再現原始樣本的音頻環境方面做得特別好。如果樣本聽起來像是通過電話錄製的，合成也是如此。它對口音的處理也相當好，至少，美國、英國和一些歐洲的口音。

在情感方面，效果略為遜色。使用標記為憤怒、困倦、有趣或厭惡的語音樣本似乎會使事情「走樣」，合成出來的聲音聽起來很怪異失真。

這種技術的影響是非常明顯的；從積極的一面來看，在某些時候你可以讓影星摩根弗曼(Morgan Freeman)在你乘坐手推車在超市過道上購物時為你講述購物清單。如果一個演員在電影中中途死亡，他們可以通過這樣的系統，通過深偽的視頻和音頻完成他們的表演。

在消極方面，對於配音演員和解說員來說，這不是一個好消息。對於聽眾來說也是如此；人工智能也許能夠快速且極其便宜地完成解說，但不要指望有什麼藝術。

詐騙者的「潛力」也很大。如果騙子能讓你在電話里呆上三秒鐘，他們就能竊取你的聲音，用它給你奶奶打電話，或者繞過任何語音識別的安全設備，這正是《未來戰士》續集阿諾舒華辛力打電話時做的事。

當然，每個人都在等待這樣一個時刻：第一個政治人物的深層偽造的演講騙過了很多人，破壞了相信你的眼睛和耳朵的概念，好像在這個奇怪的時代，客觀真理還不是一個受到攻擊的概念。

微軟Vall-E團隊在其演示頁面的最後附上了一份簡短的道德聲明。「這項工作中的實驗是在假設該模型的使用者是目標說話人並得到了說話人的認可的情況下進行的。然而，當該模型被推廣到未見過的說話者時，相關的組件應該伴隨著語音編輯模型，包括確保說話者同意執行修改的協議和檢測編輯過的語音的系統。」

像DALL-E、ChatGPT、各種深度偽造算法和無數其他創造性AI的興起，感覺在過去幾個月中處於拐點，開始衝出實驗室，進入現實世界。與所有的變化一樣，它帶來了機遇和風險。

圖片：DALL-E、Getty Images

T09

---------------------------------------------

>>>星島網WhatsApp爆料熱線(416)6775679，爆料一經錄用，薄酬致意。

>>>立即瀏覽【生活百答】欄目：新移民抵埗攻略，老華僑也未必知道的事，移民、工作、居住、食玩買、交通、報稅、銀行、福利、生育、教育。

點擊以下6大平台接收加拿大新聞及生活資訊

即時加國

科技

科技生活