在我们的(de)生(shēng)活中,语(yǔ)言是(shì)传递信息最重要的方式,它能够(gòu)让人(rén)们之间互相了解。人和机(jī)器之间的交互也是相同的道理,让机器人(rén)知道人类要做什么、怎(zěn)么做。交(jiāo)互的方式有动作(zuò)、文(wén)本或语音等(děng)等,其中语音交互越来(lái)越被重(chóng)视(shì),因为随着互联网(wǎng)上智能硬件(jiàn)的普(pǔ)及,产生了(le)各(gè)种互联网的入(rù)口方式,而语(yǔ)音是(shì)最简单、最直接的交互方式,是最通用的(de)输入(rù)模式。
在1952年(nián),贝尔(ěr)研究所研制了世界上第一个能识别10个英(yīng)文数字(zì)发音的(de)系(xì)统。1960年英国的Denes等人研制了世界上第一个语(yǔ)音(yīn)识别(ASR)系统。大规模的语音识别(bié)研究始于70年(nián)代,并在单个词的识别方(fāng)面取(qǔ)得了(le)实质性(xìng)的进展。上(shàng)世纪80年(nián)代以后,语音识别研究的重点逐渐转向(xiàng)更通用的大词(cí)汇量(liàng)、非(fēi)特定人的连续语音识别(bié)。
90年代以来,语音识别的研究一直没有(yǒu)太大进步。但是,在语(yǔ)音识(shí)别(bié)技术的应用及产品化(huà)方面取得了(le)较大(dà)的进展。自2009年以来,得益于深度学习研究的突破以及(jí)大(dà)量语音数据的积累,语音识别技术得到了(le)突飞猛进的发展。
深度学(xué)习研究使用预训练的多层神(shén)经(jīng)网(wǎng)络,提高了声学(xué)模(mó)型的准确率。微(wēi)软的(de)研究人(rén)员(yuán)率先取得了突(tū)破(pò)性进展,他们使用深层神经(jīng)网(wǎng)络模型后,语音识别错误率降低了三分之一,成为(wéi)近20年来(lái)语(yǔ)音识别技(jì)术方面最(zuì)快的进(jìn)步。
另外,随着手(shǒu)机等移动终端的普及,多个渠道积累了大量的文本语料(liào)或语音(yīn)语料,这为模(mó)型训练提供了基础,使得构建通用的(de)大规模语言(yán)模型和(hé)声学模(mó)型成(chéng)为可能。在语音识别中,丰富的(de)样本数据(jù)是推动系统性能(néng)快速提升的重(chóng)要前提,但(dàn)是语料的标注需(xū)要长期的(de)积(jī)累和(hé)沉(chén)淀(diàn),大规模语(yǔ)料资源(yuán)的积累需要被提高到战略高度(dù)。
今天,语音识别在(zài)移动(dòng)端和(hé)音箱的应用上(shàng)最为(wéi)火热,语音聊天机器(qì)人、语音助手等软件层出(chū)不穷。许(xǔ)多人初次接触语音识(shí)别可能归功于苹果手机的语音助手Siri。
Siri技术(shù)来源(yuán)于美国(guó)国防部高(gāo)级研究(jiū)规(guī)划局(DARPA)的CALO计划:初衷是(shì)一个让军方简化处理繁重复杂的事务,并具备认知能力进行学习(xí)、组织的数字助理,其民用版即为Siri虚拟个人助(zhù)理。
Siri公司成立于2007年,最初是以文字聊(liáo)天服务为(wéi)主,之后与大名(míng)鼎鼎的语音识(shí)别厂商Nuance合作(zuò)实现了语音识别功能。2010年,Siri被(bèi)苹果(guǒ)收购。2011年(nián)苹(píng)果将该技术随(suí)同iphoness 4S发布,之后对Siri的功能仍在不断(duàn)提升完善。现在,Siri成为苹果iphoness上的一项语音控制功能,可以让手机变身(shēn)为一台智能化机器人。通过自然语言(yán)的语音(yīn)输入,可以调用各(gè)种APP,如天气预报、地图(tú)导航、资料检(jiǎn)索等(děng),还能够通过不断学习改善(shàn)性(xìng)能,提供对话(huà)式的(de)应答服务(wù)。
语音(yīn)识别(bié)(ASR)原理
语音识别技术是让机器通过(guò)识别(bié)把语音信号转变为文本,进而通过理(lǐ)解(jiě)转变为指令的(de)技术。目(mù)的(de)就是给机器(qì)赋予人的听觉特性,听懂人说什么,并作(zuò)出相应的行为。语(yǔ)音识别系统通常由声学识(shí)别模(mó)型和语言理解模(mó)型两部分组成,分(fèn)别对应语音到音节和音(yīn)节到(dào)字的计算。一个连续语音识别系统(如下图)大致包含(hán)了四(sì)个主要部分:特(tè)征提取、声(shēng)学模型(xíng)、语言模型和解码器等(děng)。
portant;" />
(1)语音输入(rù)的(de)预处理模(mó)块
对输入的(de)原始语音信号进行(háng)处理,滤除掉其中的不重要信息以及背景噪声,并(bìng)进行语音(yīn)信号(hào)的端点(diǎn)检测(也就(jiù)是找出语(yǔ)音信号的始(shǐ)末(mò))、语音(yīn)分帧(可以近似(sì)理解为,一(yī)段(duàn)语音就(jiù)像(xiàng)是一段视频,由(yóu)许多帧的有序画面构(gòu)成(chéng),可以(yǐ)将语音信号切割为(wéi)单(dān)个(gè)的“画面”进行分(fèn)析)等处理。
(2)特征提(tí)取
在去除语(yǔ)音信号中对(duì)于语音识别无用的冗余信息后,保留能够(gòu)反映语音本质特征的(de)信息进行处理,并(bìng)用一(yī)定(dìng)的形式表示出来。也(yě)就是提取出反映语(yǔ)音信号特征的关键(jiàn)特征(zhēng)参数形成特(tè)征矢量序列,以便用于后续(xù)处理。
(3)声(shēng)学模型训练(liàn)
声学模型可(kě)以(yǐ)理解为(wéi)是对声音的建模,能够(gòu)把语音输入转换成声学表示的输出(chū),准确的说,是给出语音属于某个声学符号的概率。根据训练语音库(kù)的特征参(cān)数训练出声(shēng)学(xué)模型参数。在(zài)识别时可以将待(dài)识别的语(yǔ)音的特征参数与声(shēng)学模型进行匹配,得到识别结果。目(mù)前的主(zhǔ)流语(yǔ)音识别系统多采用(yòng)隐马尔(ěr)可夫模型HMM进行声学模型(xíng)建(jiàn)模(mó)。
(4)语言模型训练(liàn)
语言模型(xíng)是用来计(jì)算一个句子出现概率的模型,简(jiǎn)单地说,就是计算一个句子在语法上是否正确的概(gài)率。因为句(jù)子的构造往往是规律的,前面出现的词经常预示了(le)后方可能出现的词语(yǔ)。它主(zhǔ)要用于决(jué)定哪个词(cí)序(xù)列(liè)的可能(néng)性更大,或者在出(chū)现了(le)几个词的时候预测下一个即(jí)将出(chū)现的(de)词语。它定义了哪些词能跟在上一个(gè)已经识(shí)别的(de)词(cí)的后面(匹配是一个顺序(xù)的处理(lǐ)过程),这样就可(kě)以为匹配过程排除(chú)一些(xiē)不可能的单(dān)词。
语言建模能够有效的结合汉(hàn)语语法和语义的知识,描述词(cí)之间的内在关系,从而(ér)提高识别率,减少搜(sōu)索范围。对训练(liàn)文本数(shù)据(jù)库进行(háng)语法、语义分析,经过基于(yú)统计模型训(xùn)练得到(dào)语(yǔ)言(yán)模(mó)型。
(5)语音解码和搜索(suǒ)算法
解码器是指语音技术(shù)中的识别(bié)过程。针对(duì)输入的语音信(xìn)号,根(gēn)据己经训练好的HMM声学模(mó)型(xíng)、语言模型(xíng)及字典(diǎn)建立一个识别网络,根据搜(sōu)索(suǒ)算法在(zài)该网络(luò)中寻找(zhǎo)最佳的(de)一条(tiáo)路径,这个路径就是能够以最(zuì)大(dà)概率输出该语音信(xìn)号的词串(chuàn),这样就(jiù)确定这个语音(yīn)样本所(suǒ)包含(hán)的文字(zì)了。所以(yǐ),解(jiě)码操作即(jí)指搜索算法,即在解码端通过搜索技术寻找最(zuì)优词(cí)串的(de)方法。
连续语音识别(bié)中(zhōng)的搜索,就是寻找一个词模型序列以(yǐ)描述输入(rù)语(yǔ)音信号(hào),从而得(dé)到词解码序列。搜索(suǒ)所(suǒ)依据的(de)是(shì)对公式中的声学模型打分和(hé)语言模型打分。在实际使用中,往(wǎng)往要依据经验给语言(yán)模型加上一(yī)个(gè)高权重,并设置一个长词惩罚分数。
语音识别本质上是一种(zhǒng)模式识别的过程,未知语(yǔ)音的模式与已知语音的参考模式逐一进行比较,最佳(jiā)匹配的参考模(mó)式被作(zuò)为识别结果。当今语音识别技术的主(zhǔ)流算(suàn)法,主要有(yǒu)基于动态时间规整(DTW)算(suàn)法、基于非参数模型(xíng)的(de)矢量(liàng)量化(VQ)方法、基于参数模型(xíng)的隐马尔可夫模型(xíng)(HMM)的方法、以及近(jìn)年来基于深(shēn)度学(xué)习和支(zhī)持向量机等语音识别方法。
站在巨人的肩(jiān)膀(bǎng)上:开源框架(jià)
目前开源(yuán)世界(jiè)里提供了多种(zhǒng)不同的(de)语音(yīn)识(shí)别(bié)工(gōng)具包,为开发者构建(jiàn)应用提(tí)供了很大帮助。但这些(xiē)工具各有优劣(liè),需要根据具(jù)体情况选(xuǎn)择使用。下表为目前相对流(liú)行的工具包间的对(duì)比,大(dà)多基于(yú)传统的 HMM 和N-Gram 语言模型的开源工具包。
portant;" />
对于普通用户而言,大多数人都会知道(dào) Siri 或 Cortana 这样的产品。而对于研发工程师来说,更灵(líng)活、更(gèng)具专注性的解(jiě)决方案更(gèng)符合需(xū)求(qiú),很多公司都会研发自己的语音识别工具(jù)。
(1)CMU Sphinix是卡(kǎ)内(nèi)基梅隆大(dà)学的研究成果。已有 20 年历(lì)史了(le),在 Github和 SourceForge上都已(yǐ)经开(kāi)源了,而且两个平台上(shàng)都有较高的活跃(yuè)度。
(2)Kaldi 从 2009 年的研讨(tǎo)会起(qǐ)就有它的(de)学术根基了,现在已(yǐ)经在 GitHub上开源,开(kāi)发活跃(yuè)度较高。
(3)HTK 始于剑(jiàn)桥大学,已经商用较长时间,但是(shì)现在版权(quán)已经不再开源软件了。它的最(zuì)新(xīn)版本更新(xīn)于 2015 年 12 月。
(4)Julius起源(yuán)于(yú) 1997 年,最后一个主版本发布于2016 年 9 月,主要(yào)支持的是日语。
(5)ISIP 是(shì)第一个最新型的开源语音识别(bié)系统(tǒng),源于(yú)密西西比(bǐ)州立大学。它主要发展于 1996 到 1999 年间(jiān),最后版本(běn)发布于 2011 年,遗憾的是,这个项目已经不复存在。
语音识别技术研究难点
目前,语音识别研(yán)究工作进展(zhǎn)缓(huǎn)慢,困难具体表现在:
(1)输入(rù)无(wú)法(fǎ)标准统一
比如,各地方(fāng)言的(de)差(chà)异(yì),每个人独有的发音习惯(guàn)等,如下图所示,口腔中元(yuán)音随着舌头部位的(de)不同可以发(fā)出多种(zhǒng)音调,如果组合变化多端的(de)辅音(yīn),可以(yǐ)产生(shēng)大量的、相似(sì)的发音,这(zhè)对语音识别提出了挑(tiāo)战(zhàn)。除(chú)去(qù)口音参差不齐(qí),输(shū)入设备不统一也(yě)导(dǎo)致(zhì)了语音输入的不标准(zhǔn)。
portant;" />
(2)噪声的困扰
噪声(shēng)环境的各类声源处理是目前公(gōng)认(rèn)的技术难题,机器无法从各层次(cì)的背(bèi)景噪音中(zhōng)分辨出(chū)人声,而且,背景噪声千(qiān)差(chà)万别,训(xùn)练的情况也不能完(wán)全匹配真实环境。因而,语音(yīn)识别在噪声中比在安静的环境下要(yào)难得多。
目前(qián)主流的技术思路是,通过算法提升(shēng)降低误差。首先,在收(shōu)集(jí)的原始语音中,提(tí)取抗(kàng)噪性较高的语(yǔ)音(yīn)特征。然后,在模型训练的时候,结合噪声处理算法训练语音模(mó)型,使模型在噪声环境里的鲁棒性较高。最后(hòu),在语音解(jiě)码的过程中进行(háng)多重选择,从(cóng)而提高语(yǔ)音识别在噪声环境中的准(zhǔn)确率(lǜ)。完全消除噪声的干扰,目前而言,还停留在理论层面。
(3)模型的(de)有效性
识别(bié)系统中的语言(yán)模型、词法(fǎ)模型在大词(cí)汇量、连续(xù)语音识别(bié)中还不能完全正确的(de)发挥作用,需要有(yǒu)效地结(jié)合语言(yán)学(xué)、心理学及生理学等其(qí)他学科的知识(shí)。并且,语(yǔ)音识别系统从实验室演示系统向商(shāng)品(pǐn)的转化过程中还有许多具体细节技术问题需要解决。
智能(néng)语音(yīn)识别系统研发方向
今天,许(xǔ)多用户(hù)已经能享(xiǎng)受到语音识别技术带来的方便,比如智能手机的语音操作(zuò)等。但(dàn)是,这与实现(xiàn)真正(zhèng)的人机交(jiāo)流还有相当遥远的距离。目前,计算机对用户语(yǔ)音的识(shí)别程度不高,人机交互上还存在一定(dìng)的问(wèn)题,智能语音识别系(xì)统技术还有(yǒu)很长的(de)一段路(lù)要走,必须取得突破性的进展,才能做到更好的商业(yè)应(yīng)用,这也(yě)是未来语音识别技术的发展方向。
在(zài)语音(yīn)识别的商业化落(luò)地(dì)中,需要(yào)内容(róng)、算法等各个方面的协同支撑,但是良好(hǎo)的用户体验是商业应用的第一(yī)要素,而识(shí)别算法是提升(shēng)用户(hù)体验的核心因素。目前语音识(shí)别在(zài)智能家居、智能车载、智能(néng)客服机器人(rén)方面有广泛的应用(yòng),未来将会深入(rù)到学(xué)习、生(shēng)活、工(gōng)作(zuò)的各个环(huán)节。许多科幻片中的(de)场景正在逐步(bù)走入我们(men)的平(píng)常生活。
本期福利:近(jìn)日,苏宁金(jīn)融研究院发布了(le)《中国居民消费升级(jí)报(bào)告(2019)》,读者可在“苏宁(níng)财富资讯”公众号后台回复“2019消费(fèi)升级”,获得网(wǎng)盘链接(jiē)和提取码~
编(biān)辑:陈(chén)霞 汪华嫱