小时候看特务电影时(shí),特工们(men)往往有(yǒu)一(yī)项必备的(de)技能(néng),就是(shì)隔着几(jǐ)百(bǎi)米远盯着正在说话的对(duì)象,从(cóng)嘴(zuǐ)型判断(duàn)出(chū)对方在说什么。有了这种记忆,导致(zhì)如今看什么(me)语音识别技术(shù)都觉得相(xiàng)当一般——我都说(shuō)出声(shēng)儿了(le)你才(cái)听懂,算什么AI好汉。
不过最近一项(xiàng)专利申请表明,微软正在向特工学习(xí),推出了无(wú)声语音识别技术。当AI也能(néng)像特工一样,无声之中辩人言,我们的世界究竟会有什么不同?
除去唇语识(shí)别(bié),AI还有什么方式(shì)悄悄听懂你的话?
说起无声(shēng)语(yǔ)音(yīn)识别,可能很(hěn)多人第一反应就是复制人类的(de)方式,利用图(tú)像识别(bié)进行辩读唇(chún)语。而利用(yòng)唇语进(jìn)行语音识别(bié)这种方式(shì)也由来已久,但是识别的准确率一直不算高。DeepMind曾(céng)在2016年(nián)做过测试,经过1万小(xiǎo)时(shí)的(de)新(xīn)闻视频训练,AI唇语(yǔ)准确率达到了46.8%。国(guó)内有一(yī)家企业曾经提供过相关数据(jù):在对中文新闻(wén)视频的识(shí)别中,准确率达到(dào)了70%。而搜狗(gǒu)所(suǒ)推出的驾驶场景下的唇语识别,因(yīn)为涉及(jí)到的词汇量很(hěn)少,准确率(lǜ)能够达(dá)到90%。
可(kě)以发现,相比现在主流语音识别动辄95%、97%的准确(què)率,唇语识别准确程度实在(zài)是有些拿不上(shàng)台面。对于中文这种一字一音节的语言来说还好(hǎo),对于英文这种连音很多的语言来说,唇语识别要跨(kuà)越的门槛确实不小。
另一(yī)方面(miàn)来看(kàn),唇语识别所涉及(jí)到伦理问题实在过于严重。唇语识(shí)别的“射(shè)程(chéng)”太(tài)远,如果这种技术(shù)真的发展成(chéng)熟,意味着天网(wǎng)之下的我们(men)在交谈时(shí)将再无隐私。在隐私焦虑越来越(yuè)浓的(de)今天,哪家(jiā)企业(yè)公开(kāi)研究这项技(jì)术,只怕是(shì)觉得自己家的公关(guān)部门过得太清闲。
因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言(yán)识别。目前看(kàn)来,无声语(yǔ)音识(shí)别的(de)技术方(fāng)向可以被(bèi)分为两个(gè)“派(pài)系”,一是“气宗”,另一个是“电宗”。
微(wēi)软所提(tí)交的专利,就是典型的“气(qì)宗”——在终端上添加传感器,通过感知用户说话时的气流来(lái)判(pàn)断用户说话的内容。这种终端如同一只小(xiǎo)型麦克风,置(zhì)于用(yòng)户嘴边,用户在(zài)说话时形成(chéng)的气流会在设备中形成反(fǎn)射,经(jīng)过(guò)训练,可以将这些(xiē)气流反射的(de)信(xìn)号和文字一(yī)一对应。
而“电宗(zōng)”则更加神奇,我们知道人在说话时需要(yào)调(diào)动整个下半(bàn)张脸的肌肉,不(bú)同的文字(zì)发(fā)音所调动肌肉的方式也并不(bú)相同。通过对面(miàn)部EMG(肌电)信号的采集,来学(xué)习人类说话时面部EMG信号特征,并通过神经网(wǎng)络(luò)的训练将EMG信号和文字对(duì)应起来(lái)。
可(kě)以看出(chū)这两种无声语音识别都有一个共同的(de)特点,那就是自主性和私密性。不管是EMG信号采集还是气流采集,都需(xū)要在讲话者(zhě)身上(shàng)佩戴好设备,而不是像图像技术(shù)一(yī)样(yàng),能(néng)够在远程且讲话者不知情(qíng)的情况下进行采集分(fèn)析。
无声语音识(shí)别(bié)变成真·气功(gōng)?
不论是气宗还是电宗(zōng),这些无(wú)声语音识别技术都(dōu)面临着同样的问题——既然要用户把话说出来才(cái)能进行识别,那为什么不直(zhí)接应用语音(yīn)识别来进行(háng)文字(zì)转(zhuǎn)换和翻译,非要弄一些和“气功”一(yī)样没有(yǒu)切实应用场(chǎng)景的花招?
其实无(wú)声语音识别(bié)的应(yīng)用(yòng),可能不(bú)像大(dà)家想(xiǎng)象的那样广泛,它既不能以最(zuì)高效的方式帮(bāng)助听障人(rén)士,也(yě)不允许被应用于监(jiān)听等等工作。但在一些关键场(chǎng)合下,无声(shēng)语(yǔ)音识别却(què)可(kě)以发(fā)挥(huī)出奇用。
我们可以一起开动脑(nǎo)筋,想想在哪里人们需要说话,但却听不到彼(bǐ)此的声音(yīn)。答案很简单(dān),要么是在声音无法传播的地方(fāng),要么是在一些特别嘈杂的地方。于是(shì)无(wú)声语音识别就有了如下的应用场景:灾害现(xiàn)场、舱外探索、水下作业……
在(zài)这(zhè)类场所中,人们或许为了躲避被污(wū)染的空(kōng)气、或许为了呼吸氧气,都会穿上类似生化(huà)服、宇航员(yuán)服等等特殊服装。穿上之后既看不到对方的表情(qíng),也(yě)听不到对方的声音,更没办法用语音交互去(qù)控制其他设备了。同(tóng)时(shí)环境情(qíng)况(例如(rú)氧气不够充足)往往不(bú)允许(xǔ)人们(men)以正常的声音说话,加上防(fáng)护服的封闭状况会引起(qǐ)声音的(de)回响(xiǎng),以往的有声语音识(shí)别在(zài)这(zhè)种情况下很难(nán)发挥作用。
这(zhè)时可以被安置在防护服内部的无(wú)声语音(yīn)识别就显得很有价值,讲(jiǎng)话者只需要做出口(kǒu)型就能向外(wài)界(jiè)传递信息。
除此之外还有嘈杂(zá)的马路、工厂车间、机场……
在(zài)这些场所中,想要(yào)让对方听清(qīng)自己(jǐ)的(de)声音(yīn),往往需要扯着嗓子(zǐ)吼。想让语音识别准确拾音,更是(shì)难上加难(nán)。这时利(lì)用无声(shēng)语音识别就会轻松很多(duō),不(bú)仅可以准确(què)表(biǎo)达信息(xī),也能让一(yī)些处于这种场(chǎng)合(hé)的工作人员戴(dài)上隔音耳塞保护自己的听力。
实(shí)际上目前在欧洲一些型号的战(zhàn)斗机中,就(jiù)因为(wéi)机舱内噪音巨大、飞行员(yuán)之间无法沟通,已经应(yīng)用上了(le)EMG信号无声(shēng)语音识别技术。
当然,目前相比语音识别技术、甚至相比唇语语音识别,无声(shēng)语音识别技术(shù)的发展(zhǎn)阶段还很(hěn)初级,应用(yòng)效率(lǜ)也(yě)不高。
实际上无声(shēng)语(yǔ)音识别是一项(xiàng)典型的“美好(hǎo)而无用”的(de)AI技术,它既(jì)完美体现(xiàn)了(le)一(yī)系列技(jì)术的排(pái)列组(zǔ)合,例如EMG信号无声语音识别(bié)所体(tǐ)现出的AI与(yǔ)神经学的结合;又在应用(yòng)上极大程度的受限,即使在一(yī)些声音难(nán)以传播的场景下,也要考虑计算条件、识别语音后信息再传递的媒介,更(gèng)不用(yòng)提复杂的(de)数据(jù)收集工作了。
但我们有理(lǐ)由相信,在(zài)未(wèi)来AI技术越来越普及(jí)化、应(yīng)用成(chéng)本越来(lái)越低时,总会出(chū)现一些极端场景应用上这些(xiē)看似无用的技术——也许(xǔ)未(wèi)来(lái)有一天,战斗机的控制也要应用上语音交互呢(ne)?