想象(xiàng)一个计算机程序能够直观地识别出在(zài)无(wú)声的钢(gāng)琴(qín)演奏视频(pín)中(zhōng)演奏的是哪首乐曲(qǔ),或许并不夸张。然(rán)而,一个新(xīn)的人(rén)工智能系(xì)统却更进(jìn)一步,以(yǐ)数(shù)字方式逼真地再(zài)现了钢(gāng)琴演奏的声音(yīn)。
这(zhè)项技术被称为Audeo,由华(huá)盛顿大学(xué)的一个团队设计(jì)。研究人员使用钢琴家保罗·巴顿的YouTube视频对系统(tǒng)进行了培训和测试。培(péi)训包括约17.2万巴顿(dùn)演奏(zòu)巴赫和(hé)莫扎特等(děng)著(zhe)名古典(diǎn)作曲家音(yīn)乐的(de)视频帧。
在分(fèn)析一段无声视频时(shí),所产生的系(xì)统首先会观察哪些(xiē)键被按下的(de)顺序,确定各个(gè)音符及其排列方(fāng)式。也就(jiù)是说,它还能感知到每个键被击打的力度和被按(àn)住(zhù)的时间(jiān)--这让它能计算出(chū)每(měi)个音符的强度,以及它在随后弹奏的音符下面持续的时间长度。它还考虑到了钢琴独特的声学(xué)特性。然后,这些数据被转(zhuǎn)换为一(yī)种可以被(bèi)现有(yǒu)的数(shù)字(zì)合成器(qì)理(lǐ)解(jiě)的格式(shì)。据报道,当该合成器回放音乐文(wén)件时,它听起来非常(cháng)像(xiàng)原始的钢(gāng)琴音(yīn)乐。
在对Audeo的(de)测(cè)试中,它的(de)任(rèn)务(wù)是根据巴顿演奏的静音(yīn)视频重现钢琴(qín)音(yīn)乐,而(ér)不(bú)是系统所(suǒ)训(xùn)练的音乐作品。当SoundHound等音乐(lè)识别应用分析(xī)这些再现时,它们能够以大约86%的(de)准确率识别(bié)出乐曲。相比之下,当这些(xiē)应用分析相同视频(pín)中的原始钢琴(qín)音频时(shí),其(qí)识别准确率攀升至93%。随着技术的(de)进一步发展,这种差距(jù)应该会缩小(xiǎo)。
“我(wǒ)们希望我们(men)的(de)研究能够实现(xiàn)与音(yīn)乐互(hù)动的新方法,”该(gāi)研究的高级作者Eli Shlizerman副(fù)教授说。“例如,未来的一个应用是,Audeo可以扩(kuò)展到虚拟钢(gāng)琴,摄像头只记(jì)录一个人的(de)手。此外,通过将摄像头放(fàng)在真实的(de)钢琴之(zhī)上,Audeo有可(kě)能协助(zhù)教(jiāo)学生如何演奏的新方法。”