微软研究人员展(zhǎn)示了一种(zhǒng)令人印象深(shēn)刻(kè)的新型文本转语音(yīn)人工智能(néng)模型(xíng),名(míng)为Vall-E,它(tā)可以只听声音(yīn)几秒钟,然后模(mó)仿声音——包括(kuò)情(qíng)感语调(diào)和音响效果——说出(chū)你想说的任何话(huà)。
这是许多人工智能算(suàn)法中最(zuì)新的一种(zhǒng),它(tā)们可以利用一(yī)个(gè)人的声音录音(yīn),让它(tā)说出这个人(rén)从未说过的单词和句(jù)子——而且它只需要一小段音频就能推断出整(zhěng)个人类(lèi)的声音,这是非(fēi)常了不起的。例(lì)如(rú),2017年蒙特利(lì)尔大学的Lyrebird算法需要整整一分(fèn)钟的语(yǔ)音来分(fèn)析(xī),而Vall-E只需要三秒钟(zhōng)的音频片段。
人工智能已(yǐ)经接受了大约(yuē)6万小时的(de)英语演讲训练——似(sì)乎(hū)主(zhǔ)要(yào)是(shì)通过有(yǒu)声(shēng)读物解(jiě)说员,研(yán)究人员提供了大量样(yàng)本,在这些样本中,Vall-E试图操纵一系列人类的声音。有些人在捕捉声音的本质和构建听起来自然的(de)新(xīn)句(jù)子(zǐ)方面(miàn)做(zuò)得非(fēi)常出色——你很难分辨出哪个(gè)是真实的声音,哪个是合成(chéng)的(de)。在其他情(qíng)况(kuàng)下,唯一的漏洞是人工(gōng)智(zhì)能将重(chóng)点(diǎn)放(fàng)在(zài)句子中奇怪的(de)地方。
Vall-E在重新创建(jiàn)原始示(shì)例的(de)音频环境方面(miàn)做(zuò)得特(tè)别好。如果样本听起来像通过(guò)电话录制的(de),那(nà)么合成也是如此(cǐ)。它在(zài)口(kǒu)音(yīn)方面也很(hěn)不错——至少是(shì)美(měi)式、英式和一些欧(ōu)洲口音。
在情感方面,结果就不那么令人印象深刻了。使用愤怒、困倦、有趣或厌(yàn)恶的语音样本似乎(hū)会让事(shì)情(qíng)偏离轨道,合成出来(lái)的(de)声音(yīn)听起来扭曲得很奇怪。
这类技术的(de)影响非(fēi)常明(míng)显;从积极的方面来看,将来你在(zài)超市里(lǐ)推手推车的时(shí)候(hòu),可以让摩根·弗里曼(Morgan Freeman)为你的购物清单念一遍。如果演(yǎn)员在电影中中途死亡(wáng),他们可以使用这样的系统通过深度伪(wěi)造的视频和音频来完成表演。苹(píng)果公司最近推出(chū)了一套由人工(gōng)智能为你(nǐ)朗读的有声读物目录(lù),很(hěn)显然,你很(hěn)快就能在飞行中切换旁白。
消(xiāo)极的一面是,这对配音演员和(hé)叙述者来说并(bìng)不是(shì)什么好消息。或者对听(tīng)众来(lái)说;人工智能或(huò)许能够快速且廉价地完成叙述,但不要指望它(tā)有太多(duō)艺术元素。他们不会像史蒂芬·弗莱(lái)那样解读道格(gé)拉斯·亚当斯。
骗(piàn)子的潜力(lì)也(yě)非常大。如果一(yī)个(gè)骗子能让你在电(diàn)话上停留三秒钟,他们就能窃取(qǔ)你的声音,然(rán)后(hòu)用它(tā)给你的奶奶打(dǎ)电话。或者(zhě)绕过任何语音识别安(ān)全(quán)设备。这正是终结者机器人打电话时需要的东西。
当然(rán),每个(gè)人都还在等待这样一(yī)个(gè)时(shí)刻(kè):一(yī)个政治人物的第一次深度伪造的演讲,欺骗(piàn)了足够多的人,破坏了相信你(nǐ)的眼睛和(hé)耳(ěr)朵的概念(niàn)——就好像客观真理在这(zhè)个奇怪(guài)的时代还没有受(shòu)到攻击一样。
微软Vall-E团(tuán)队在其演示页面的末尾附加(jiā)了(le)一份简短的道德声(shēng)明:“这项工作中的实验是(shì)在(zài)假设模型的(de)用户是目标(biāo)说话者并已(yǐ)得到说话者(zhě)的批准的情(qíng)况下(xià)进行的(de)。然而,当(dāng)模型推广到看不(bú)见的演讲者时,相关的组件应该伴(bàn)随着语音编(biān)辑模型,包括确保演讲者同意执行修(xiū)改的协(xié)议和检测编辑后的语音的系(xì)统。”
像DALL-E、ChatGPT、各(gè)种(zhǒng)deepfake算法和无数其(qí)他创造性人工智能的崛起,感觉在(zài)过去(qù)几(jǐ)个月里正处于一个(gè)拐点,开始(shǐ)冲出实(shí)验室,进入现实世界。与所有变(biàn)化一样,它带来了机遇和(hé)风险。我(wǒ)们真的生活在一个有趣(qù)的时代。