人工智能让(ràng)手机语(yǔ)音输入法快速(sù)增长
大家都知道,在每(měi)个人每天高(gāo)频使用的手机应用清单中,有一个低调而重要的存在:手机输入法。赛诺不久前发布的(de)《2018上(shàng)半年中(zhōng)国手机输入法分(fèn)析报告(gào)》显示:2018年(nián)手机输入法市场规模将突破9.8亿,环比增长(zhǎng)22.5%,其(qí)中活跃用户占比(bǐ)超过(guò)54%,用户(hù)规模和数(shù)量都(dōu)保持持续增长。
这并不难理解(jiě),输入法是目前人机交互最重要的入口之(zhī)一。而经(jīng)过二十余年发展,手机输(shū)入法(fǎ)在“文字键入”这(zhè)条单一(yī)路(lù)径上,已几乎抵(dǐ)达(dá)技术(shù)演化的尽头——颇为欣喜的(de)是,如今,在智能语音等(děng)AI技术的加持下,手(shǒu)机输(shū)入(rù)法这(zhè)个最接地气(qì)的入口,正在摆(bǎi)脱文(wén)字键入的单一(yī)束缚,开拓新的发展路径,甚至在一定程度(dù)上担当(dāng)着新(xīn)技术(shù)“桥头堡”的使(shǐ)命。
譬如百度8月1日公(gōng)布的2018年第二季度未经(jīng)审计的财(cái)务报告显示(shì),百度营收260亿元(yuán)人民币(约合(hé)39.3亿(yì)美元(yuán)),同(tóng)比增长(zhǎng)32%,净利润64亿元(约(yuē)合9.67亿美元),同比增长45%。其中(zhōng)AI对百(bǎi)度业务的驱动力显著,除了DuerOS和(hé)Apollo,百度AI也为百(bǎi)度APP、信息流、手机输(shū)入法等移动端业务带来了高效增长,李彦宏(hóng)表示,百度输入法语音输入请求量短(duǎn)短一年时间内成长到日均3.35亿次。相比于(yú)去(qù)年3月百(bǎi)度AI技术平台体系(AIG)成立时(shí),日均语音请求量(liàng)增长5倍。在(zài)我看来,这种迅猛上扬,一方面受益于百度语音识别自身体验的日趋完善;另一(yī)方面则受益于语音输入已渡过市(shì)场教育阶段,正在处于大规模爆(bào)发的风口。
而通过百度输入法的不断迭代(dài)可以发现,作为(wéi)一(yī)款具备(bèi)入口(kǒu)意义(yì)的应用,手机输(shū)入法早已不再是一个简单的“插件”,而是AI时代一(yī)款需要不断(duàn)打磨用户体验(yàn)的(de)服务型(xíng)产品。
效率至上
如你所知,在最新一版(bǎn)百度输入法中,除了支持拼音、笔画、五(wǔ)笔(bǐ)、手写和智(zhì)能英文等基础(chǔ)功能,最关键(jiàn)的技术跃(yuè)迁,是智能语(yǔ)音输入和AR表(biǎo)情两大全新功能的上线,这极(jí)大丰富(fù)了用(yòng)户的输入体验。
先说语音(yīn)。
从诺(nuò)基(jī)亚到iphoness,从功能机到智能机,整个(gè)移动时代,就是一部人机(jī)交互难度不断下(xià)降(jiàng),交互方式不断丰富的历史。而诚(chéng)如(rú)“互(hù)联网(wǎng)女皇(huáng)”米克尔所言:在最近(jìn)数十年(nián),人机(jī)交互(hù)每隔十(shí)年(nián)就会发生一(yī)次重(chóng)大创(chuàng)新,语音(yīn)则是当下最高效的(de)输入方式。
在(zài)如今所有语音场景之中,大多数(shù)人最先接(jiē)触(chù)到的,就是手机(jī)输入法的语音输入功能。相(xiàng)较于手写和拼(pīn)音等传统方(fāng)式,语音输(shū)入效(xiào)率更高,交互(hù)方式(shì)更自然,无论是(shì)主动的技术尝鲜(xiān)者(zhě),还是(shì)快节奏生活(huó)下的(de)被(bèi)动选择(zé),这种巨(jù)大的便捷性,都让(ràng)输(shū)入(rù)法从文字向语音的大规模(mó)迁徙(至少(shǎo)在不方便打字的情(qíng)景下),成为不可逆(nì)的演化趋势。
数据也证明这一(yī)点:《2018上半年中国手机输入法(fǎ)分析(xī)报(bào)告》就显示(shì),在输(shū)入方式选择上,语音输入占比已提升至41%,用户(hù)习惯日趋养成;此外,更像是(shì)某种交叉印证,最近搜狗发布的第二季度财报显示,其日均语音请(qǐng)求量也(yě)超(chāo)3亿(yì)次(颇值得玩味的是,作为一家“非(fēi)专(zhuān)门(mén)”做输入法的(de)公司(sī),百度输入法官方(fāng)公(gōng)布的日均语(yǔ)音请求量是(shì)超过3.35亿次,和搜狗不相上下)。
总之,一切都指向一点:语音(yīn)正(zhèng)在成为(wéi)更(gèng)多人输入方式(shì)的必选项,且他们一旦开(kāi)始用上语音,产生的黏性往往非常高,属(shǔ)于典型的“一旦用(yòng)上就离(lí)不开(kāi)”系列。
不过,语音(yīn)输入(rù)的顺(shùn)畅(chàng),必须拜(bài)深厚(hòu)的技术功(gōng)底所赐(cì),倘若准确(què)率不堪重用(yòng),反而会造成效率下(xià)降(jiàng)——所(suǒ)以说,“准”是语音输入(rù)最(zuì)基本的素养。
令(lìng)人欣喜的(de)是,依托“百(bǎi)度大脑”的进化,作为百度(dù)AI技(jì)术率先(xiān)落地的产品之一,百度输(shū)入(rù)法凝聚了(le)百度(dù)深耕多(duō)年的语音、图像、NLP和知识图谱等AI能力(lì)——尤其是AI语音技术,业内皆知,目前(qián)识别(bié)率(lǜ)高达(dá)97%的(de)百度语(yǔ)音曾入选MIT“全球十大突破技术”,并且在(zài)手机(jī)百度和百度(dù)地图等产品中(zhōng)早已广泛(fàn)应用(yòng),而随着(zhe)DuerOS朋友圈的持续扩张,也会(huì)不断“反哺”百(bǎi)度的语音(yīn)技术,这种得天独厚的技术和(hé)生(shēng)态优势,是其他公司不具备的,也势必会夯(bèn)实百(bǎi)度输入法语音(yīn)请(qǐng)求量的领先(xiān)地位。
当然,在提高(gāo)识别准确率方面,百度(dù)输入(rù)法并未停止进化脚步,最(zuì)近(jìn)一次重大突破,就(jiù)是(shì)其搭载了(le)百度第二代深度(dù)尖峰技术(Deep Peak2)。“DeepPeak2模型(xíng)”的全称是(shì)基于LSTM和CTC的上下文无关音(yīn)素组合建(jiàn)模(mó),它最大(dà)的技术蜕变,就(jiù)是将(jiāng)高频出现的音(yīn)素(sù)联(lián)合在(zài)一起,形成一(yī)个音素组合体,然后(hòu)将这(zhè)个音素组(zǔ)合体视作一个基(jī)本建模单元。
这意味着,与在过(guò)往数十(shí)年业界常用(yòng)的上(shàng)下文相关建(jiàn)模方式相比,DeepPeak2能最大程度发挥神经网(wǎng)络(luò)模型的参(cān)数优(yōu)势,大幅(fú)提升中英(yīng)文,多种口音和(hé)多种风格(gé)(譬如朗读,聊天,轻(qīng)声(shēng))混合输入的稳定性和准(zhǔn)确度,目前其相对正确率较行(háng)业领先水平提升20%。另外,难能可贵的一点是,不同于一些输入法遇上“中(zhōng)英混输”后瞬间变成“车祸现场(chǎng)”,DeepPeak2同时支持中英文混合建(jiàn)模(mó),让百度输入法具备了非常强大的(de)中英文(wén)混合识别(bié)能力(lì)。
事实(shí)上,此次百度输入法(fǎ)的技术突破,并(bìng)不令人意外。百(bǎi)度是中国最早通过(guò)深度(dù)学习技术在语音(yīn)识别(bié)领域取得(dé)突破的公司之一,早在(zài)2012年就率先(xiān)上线了(le)基于DNN的(de)语(yǔ)音识别(bié)模型。过去(qù)6年,百度语音一直没有停止进(jìn)化,几乎(hū)每年(nián)都会上线新的语音识(shí)别技术——如今(jīn)DeepPeak2的上(shàng)线,亦是语音科技(jì)史(shǐ)上的一次巨大跃迁,要(yào)知道(dào),之前国际上也(yě)曾有(yǒu)过(guò)类似(sì)建模方(fāng)式,但却没法(fǎ)避免建模时出现的过拟合(hé)问(wèn)题,而百度(dù)通过声学模(mó)型学(xué)习和语(yǔ)言信息学习相分(fèn)离(lí)的特殊训练(liàn)方(fāng)法,将(jiāng)建模(mó)单元数目减少了10倍,从本质上解决过(guò)渡拟合的问题,极大提升了识别准确(què)率,殊为不易(yì)。
而除了准确率(lǜ)上的(de)不断精益,百度输入(rù)法在语音输入功能(néng)上,也不(bú)断产生(shēng)惊喜。譬如,百度(dù)输(shū)入法具备轻声识别能力,无论会(huì)场还是课(kè)堂,都能降低(dī)语(yǔ)音输(shū)入(rù)的尴尬;它(tā)还具(jù)备语音(yīn)速记(jì)功能,在这一功能的“多人(rén)模式”场景下,声纹识(shí)别技术可以自动区分发言人,大幅降低工作者(zhě)后期处理的成本(běn);除此之外,百度输入法(fǎ)支持中文普通话,中文(wén)粤语,英语和日语等多语(yǔ)种识(shí)别(bié);且能让用户通过语音完成语(yǔ)音拨号(hào)和语音搜索等功能(néng),后(hòu)者尤为重要,企业(yè)基因所致,百(bǎi)度输入法(fǎ)拥有很强的搜索元素(sù),你知道(dào),聊天时(shí)突然出现(xiàn)搜索需(xū)求(qiú),是(shì)很常见的交叉应用场(chǎng)景,通过(guò)百度输入法自带(dài)的搜索(suǒ)功能,可免去切换应用带来的时间折损(sǔn)。
总之不(bú)难(nán)发现,在效率维度(dù),百度正不断推(tuī)陈出新(xīn),让输入法(fǎ)成为人们日常最值得仰仗的工具,通过(guò)不(bú)断夯实用户的语(yǔ)音输入习惯(guàn),延续着移动时代人机交互难度不断下降,交互方式(shì)不断丰富的历史脉络。
打磨用户体验
如果说(shuō)“效率(lǜ)至上”是一款(kuǎn)输入法的基本(běn)素养,那(nà)么“可玩性”——或者说愉悦感,则能进(jìn)一步丰富用户体验的维度。而(ér)考虑到社交是(shì)手机输入法应用最(zuì)多的(de)场景(数据显示(shì),社交(jiāo)类APP中(zhōng)输入(rù)法占比高达(dá)74%),百度输入法也一直在提升用户(hù)在社(shè)交场景下的愉悦感。
举个例子,百度输入法中(zhōng)有(yǒu)70%是90后,其中60%的人(rén)经常玩“斗图”。针对于此,百度手机输入法开发(fā)了(le)AR表情功能,基于百度(dù)多模态人脸识别系统(tǒng)(支持104点(diǎn)基础模型加眼睛、嘴部、眉毛(máo)单例(lì)模型;全脸识别(bié)278点),能准(zhǔn)确(què)识别面部轮廓和表情,用户可制作(zuò)出只属于自己的表情、感觉和(hé)动作,并(bìng)直(zhí)接(jiē)通过输入法搜索,语(yǔ)音输入和键(jiàn)盘(pán)输入时展示(shì)出来。且受益于AR表(biǎo)情功能识别速度快,表情文件小等特(tè)点,用户可在聊天中轻松使用,刻画出自(zì)己在虚拟世界中的独特形象。
百度AR趣味表情
AR表情功能的上线也意味着(zhe),百度输入(rù)法是首家同时支持2D、3D表情(qíng)以及通过人脸控制虚拟(nǐ)形象(xiàng)制作表情。而我相信,在可预(yù)见(jiàn)的未来(lái),AI和AR等新技术对输入法产品的(de)作用(yòng)会(huì)越来越大,将会有更(gèng)多新技(jì)术被添置(zhì)到输入法中(zhōng)。在百度(dù)的(de)带领下,作为新技术“桥头(tóu)堡”的输入(rù)法,有可能进入一个更灵动的全感(gǎn)官输入时代。
未来由(yóu)现在筑造(zào)。不难发现,依托百度强大的(de)AI基础(chǔ),无论是在“准”这个基本面(miàn)上(shàng)的不断(duàn)深耕,输(shū)入功能的不(bú)断完善,还是可(kě)玩性和愉悦感的不断提升,都是百度在输入领域全方位了解用户需求,不断打磨用(yòng)户体验(yàn)的体现。这种对用户体验的打磨(mó),也让昔(xī)日功能单一的手机输入法,具备了“语(yǔ)音助(zhù)手”,“效率工具”和“聊天伴侣”等多重身份(fèn),并在不(bú)同(tóng)用户手上,得到不同程度的释放。
正如百度高级副总裁、AI技术(shù)平(píng)台体系(AIG)总(zǒng)负责人(rén)王海峰所言:“AI的发展最终还是要(yào)回到‘服务用(yòng)户需求’的(de)本(běn)质,这(zhè)是我们(men)每一位(wèi)人工(gōng)智能从业者都需要铭记在心的。利用好(hǎo)人工智能来服务(wù)好我(wǒ)们的用户和客户,以及更好地打磨(mó)AI能(néng)力(lì)来推动各行(háng)各业的效率提(tí)升,是每(měi)一位人工(gōng)智(zhì)能(néng)领域从业者的期望。”
作为你我最重要的工具(jù)伴侣,手机输入法本身(shēn)正在变得“复杂(zá)”,却(què)让生活和工作变(biàn)得(dé)更为简(jiǎn)单。在我看来,这(zhè)才是技术的本(běn)分。