微(wēi)软研究人员展示了一种令(lìng)人印象深刻的新型文本转(zhuǎn)语音人工智(zhì)能模(mó)型(xíng),名(míng)为Vall-E,它可以只听声(shēng)音几秒钟(zhōng),然后模(mó)仿声音——包括情感语调(diào)和音响效果——说出你想说的任何话。
这(zhè)是许多人工智能算法中最新的一种,它们可以利用(yòng)一个人的声音录音(yīn),让它说出(chū)这个人从未说过的单词和句子——而且它只(zhī)需要一小段音频就能推断出(chū)整个人类的声音,这是非常了不起的(de)。例如,2017年(nián)蒙特利尔大(dà)学的Lyrebird算法需要整(zhěng)整一分钟的语音来分析,而Vall-E只需要三(sān)秒(miǎo)钟的(de)音频(pín)片段。
人工智能已经接受(shòu)了大约6万小时的英语演讲训练(liàn)——似乎主要是通过有声(shēng)读物(wù)解(jiě)说员,研究(jiū)人员提(tí)供了大量样本,在这(zhè)些样本中,Vall-E试图操纵一系列人类的声音。有些(xiē)人在捕捉声音的(de)本质和构建听起来自然(rán)的新句子方面做得非常出色——你很难分辨出哪个是真实的声(shēng)音,哪(nǎ)个是(shì)合成的(de)。在其他情况(kuàng)下,唯(wéi)一的漏洞是人工(gōng)智能(néng)将重点放在句子中奇怪的地方。
Vall-E在(zài)重新创建原始示(shì)例的音频环境方面做得特别(bié)好。如(rú)果样本听起来像通过电话录制的(de),那么合成也是如此。它在口音方面也很不错——至少是(shì)美式、英式和一些欧洲口音。
在情感方(fāng)面,结果(guǒ)就不那么令人(rén)印象(xiàng)深(shēn)刻了。使用愤(fèn)怒、困倦、有趣或厌(yàn)恶的(de)语音(yīn)样本似乎会让事情偏离轨道,合成出来的声音(yīn)听(tīng)起来扭曲得很奇怪。
这类技术的影(yǐng)响非(fēi)常明显;从积极的方面(miàn)来看,将来你在超市(shì)里推(tuī)手推车的时(shí)候,可(kě)以让(ràng)摩(mó)根·弗里曼(Morgan Freeman)为你的购物清单念一遍。如果(guǒ)演员在电影中中途死亡,他们(men)可以使用(yòng)这样的系统通过(guò)深度伪造的视频和(hé)音频来完成表演。苹果公司最近(jìn)推出了(le)一套由人工智(zhì)能为你朗读的有声(shēng)读物目录,很显然,你很快就能(néng)在飞行中切换(huàn)旁白。
消(xiāo)极的一面是,这对配(pèi)音演员和叙述(shù)者(zhě)来说(shuō)并(bìng)不(bú)是什么好消(xiāo)息(xī)。或者对(duì)听众来说(shuō);人工(gōng)智能或(huò)许(xǔ)能够快速且廉价地完(wán)成叙(xù)述,但不要指望它(tā)有太多(duō)艺(yì)术(shù)元素。他们不会(huì)像史(shǐ)蒂芬·弗莱那(nà)样解读道格拉斯(sī)·亚当(dāng)斯。
骗子的潜力(lì)也非常大。如果一个骗子(zǐ)能(néng)让你(nǐ)在电话上停留三(sān)秒钟,他们就能窃取你(nǐ)的声音,然后(hòu)用它给你的奶奶(nǎi)打电话。或者绕(rào)过任何语音识别安(ān)全设备。这正是(shì)终结(jié)者机(jī)器人打电话(huà)时(shí)需要的东西。
当然,每个人(rén)都(dōu)还在等待这样一个时刻:一个(gè)政治(zhì)人物的第一次深度伪造的演讲,欺骗(piàn)了足够多的人(rén),破坏了(le)相信你的眼睛和(hé)耳朵的概念——就(jiù)好像(xiàng)客观真理在这(zhè)个奇怪的(de)时(shí)代还没有受到攻(gōng)击一(yī)样。
微软(ruǎn)Vall-E团队(duì)在其(qí)演示页面的末尾附(fù)加(jiā)了一(yī)份简短的道德声明:“这项工作中的实验是在假设模型的用户是目标说话者并已得到说话(huà)者的批准的情况下进行的。然而(ér),当模型推(tuī)广到看不(bú)见的演讲者时,相关的组(zǔ)件应该(gāi)伴随(suí)着语音编(biān)辑模型,包括确保(bǎo)演讲者(zhě)同意(yì)执行(háng)修改的(de)协议和检测编辑后的语音的系统。”
像(xiàng)DALL-E、ChatGPT、各种deepfake算法(fǎ)和无数其他创造性(xìng)人工智能的(de)崛起,感(gǎn)觉在过去几个(gè)月里正处于一个拐点,开始冲(chōng)出实验室(shì),进入现实世界。与所有变(biàn)化一样,它带来了(le)机遇和风险。我们真(zhēn)的生活在(zài)一个有趣的(de)时代。