早上,王爷爷吃完饭,机器人“小明”赶紧提醒(xǐng)王(wáng)爷爷要在半小(xiǎo)时之内吃(chī)药,吃完(wán)药王爷爷坐(zuò)在电视机前,“小(xiǎo)明”告诉王爷爷老花镜(jìng)在茶几的第(dì)一个抽屉中。午休(xiū)过后,王爷爷要出门散步,“小明”告诉王爷(yé)爷外面只(zhī)有10度,需要穿外套,并拿上伞。
以上的情(qíng)景(jǐng)绝对不只是(shì)畅想,随着老龄化和少子(zǐ)化程度的加深,机器人会(huì)越来越(yuè)多走进(jìn)老(lǎo)年人家庭(tíng),成为智(zhì)能养老小助手。但是每个老人的脾(pí)气、性格、需求(qiú)各不相同,因此要(yào)求机器人能够不断学(xué)习,理解老(lǎo)人的隐性(xìng)需求,真正能(néng)够(gòu)陪伴老(lǎo)人。如何满足这些个性化的需(xū)求?从人工智(zhì)能的角度(dù)分析(xī),就要让机器人不断(duàn)学(xué)习,认识老人的家庭(tíng)环境,理解(jiě)老人的需求,但是目前,不管是从机器视觉方面(miàn),还是自然语言(yán)理解方面都面临巨大的挑(tiāo)战。
在英(yīng)特尔(ěr)中国研究院2018年媒体开放日上,英特(tè)尔(ěr)的研究人员从(cóng)计(jì)算机视觉、自然语言识别、强(qiáng)化(huà)学习等领域分享了英特尔的研(yán)究成(chéng)果,让我们看(kàn)到未来(lái)机器人的(de)发(fā)展方向。
目前的技术瓶(píng)颈
机器人进入家庭,首先(xiān)需要(yào)认(rèn)识主人,只有认识(shí)了主人才能进行全方位的服务,比如主人习惯什么时候起(qǐ)床,如果(guǒ)起床晚了是否需要进行提醒?喜欢(huān)吃什(shí)么食物,当(dāng)家里没有了是否需要提醒子女购买(mǎi)?对(duì)于主(zhǔ)人和重要物(wù)品,目前是(shì)基(jī)于(yú)深度学习(xí),进行大量训练进行识别,但是即使进行了大量训练,可能有时(shí)候(hòu)还会出错,比如(rú)针对老花镜进行(háng)了一万张图片的训练,人工智能(néng)还(hái)是有(yǒu)可能认(rèn)错主人的(de)老花(huā)镜。
另(lìng)外,由于每个家庭(tíng)的需求不(bú)同,机器人无法进行预编(biān)译处理,需要个性(xìng)化定制。比(bǐ)如有些人喜欢(huān)静,家里不能随便走动,有(yǒu)些人喜欢动,需要随时满足主人的呼(hū)唤。主人的起床时(shí)间不同,无法预先编程,需要根据个人的特点进行观察。因(yīn)此,做好机器人不(bú)仅需要人脸识别、底层语义分析,还需要高层语义分析,从而(ér)让机器人(rén)的智能程度(dù)满(mǎn)足个(gè)性化需求(qiú)。
进(jìn)入家庭后需要自主学习
现在的人脸识(shí)别一般是对正脸进(jìn)行识别,对于侧脸识别可能就没有(yǒu)那么(me)灵了(le),如果在家中机器人只能识(shí)别正脸将(jiāng)会发生很多尴尬(gà),用户的交互体(tǐ)验也会大打(dǎ)折扣,因此有(yǒu)人想出了(le)通过人体特征进行辨识,比如衣服,但是当主人换了衣服机器人(rén)又无法辨识。英特尔所(suǒ)采取的(de)方式是将人脸特(tè)征和人体(tǐ)特征相结(jié)合,人体特征不(bú)需要预(yù)先把人各种各样的衣服都要看一(yī)遍或者(zhě)姿态看一遍才能认,通过人体特征认人,而(ér)是通(tōng)过(guò)人(rén)脸开始不(bú)断地自我学习,机器人刚开始通过人(rén)脸识别主(zhǔ)人,经过一周的交互和(hé)观(guān)察,可以(yǐ)从各个(gè)角度把主(zhǔ)人准确地(dì)识别出来。
因为主人可能会(huì)换衣服,机器人还(hái)会(huì)发(fā)生错误(wù),这时候机(jī)器人需要和主人(rén)主动交(jiāo)互,把可能的(de)错误进行确认,这是自(zì)我学(xué)习的认人功能。同时,英特(tè)尔还研发了一些自适应物体(tǐ)识别,比(bǐ)如:药瓶(píng),通过对一帧的图像标注(zhù)之后,把物体在线(xiàn)建一个模型,后续可以把这个物体的边界准确的分割出(chū)来,这等于认识(shí)物体是可以通(tōng)过向用户(hù)学习的过程实现。
portant;" />
机器人的主动学习和强化学习
让机(jī)器人理(lǐ)解:“昨天我在客厅里吃(chī)药,药瓶去(qù)哪(nǎ)里了?”
在家庭生活中(zhōng),王爷爷可能问机(jī)器人:昨天我在客厅里吃药,药瓶去哪里了?这个(gè)问(wèn)题貌似非(fēi)常简单,可能三岁小朋(péng)友(yǒu)也能(néng)理解(jiě),但是对机器人来说里面有(yǒu)很难跨越的(de)技术鸿沟。其中王爷爷是对人(rén)的识别(bié),吃药是动作识别,药瓶是物(wù)体(tǐ)识别,这些需要底层识别模块(kuài)来实现。再看“昨天”和(hé)“客厅”这两个关键词(cí),客(kè)厅是对空间的理解,昨天是对时间信的理(lǐ)解。如何让(ràng)机器人理解这句话?首先最底层要进行人物识别、物体识别、情绪检测、动作检测(cè),接下来(lái),有一个三维语(yǔ)义环境,就是把底层检(jiǎn)测到的信(xìn)息和物理环境对(duì)应起来,比如(rú)人在(zài)什么位置,物体在什么位置,这件事发(fā)生在什么位置,这些信息只有在三维语(yǔ)义环境(jìng)的模块中对(duì)应上,机(jī)器(qì)人才能够理解事(shì)件发生(shēng)的意(yì)义。
英(yīng)特尔利用三维语义环境和个性化知识库这(zhè)两个(gè)模块来解决这些问题,从(cóng)底层(céng)的感知模块走到应用,但是底层的感知模块不可能做(zuò)到百(bǎi)分之百(bǎi)精准。这(zhè)个错误会往上层(céng)传(chuán)播,到了空间层,我们希望把底层的这些(xiē)信息打上空间(jiān)智(zhì)能的(de)标签,位置(zhì)跟空(kōng)间相对的情况,包括跟空间的三维(wéi)建(jiàn)模,都是在这一层次进行的。理想(xiǎng)的情况机(jī)器人到了家里,马上建立空间模(mó)型,并且能够(gòu)理解空间的(de)含义(yì)。到了知识库层面(miàn),能够很(hěn)好(hǎo)的记忆这个知识(shí),基(jī)于这个知(zhī)识进行推理、应用,但是目前的技术(shù)还(hái)存在问题,不可能做到百分(fèn)之百精准。
三维(wéi)语义环境所(suǒ)做(zuò)的是从感知(zhī)层得到信息(xī),比如药瓶的位置,用坐标的方式标记(jì)出来,接下(xià)来空间智能(néng)要理解这个空(kōng)间是客厅(tīng)还是餐厅,到 这一层次才能跟人交流(liú),进而判断出客厅(tīng),然后顺利(lì)在客厅找(zhǎo)到药(yào)瓶。可以看出,空间智能(néng)主要的工作是快(kuài)速对(duì)空(kōng)间进行建模,并理解这个(gè)空(kōng)间。关于个性化(huà)的知识图谱,主要功能(néng)是记忆和推理,所面临的最大挑战来自于我们想记录的知识(shí)。人类知识分两块:一块是(shì)稳定的(de)知识(shí),就像谷歌和Facebook力图想存的(de)知识,谷歌叫Google Graph,这些知识可(kě)以事先做好,并且经(jīng)过(guò)专家审核;另(lìng)外一种(zhǒng)是个性化知(zhī)识,是动态变(biàn)化(huà)的,机(jī)器(qì)人来到家庭(tíng)之前无法提前获取,为了获(huò)取这样的知识,我们的(de)挑战必(bì)须要有一个合适的(de)知识(shí)表示(shì),合适的知识推理,而且这个(gè)知识图谱要能容(róng)忍底层产生的错误。
强化学习让机器(qì)人能够完成主动服务(wù)
当机器人能够理解语言的时候,说明机器人(rén)已经具备了和人沟通(tōng)的能力,但(dàn)是想要实(shí)现真正的(de)照顾别人,机器人需要(yào)更(gèng)深的理(lǐ)解能力,不光是被动(dòng)地去服务,还能(néng)主动的猜测主人的意(yì)图。从王爷爷的例子(zǐ)来看,当王爷爷需要药瓶(píng)时机器人可以拿给他是一(yī)种(zhǒng)情况,如(rú)果(guǒ)机器人看到王爷爷在找东西,能够猜测他想找药瓶还是找水,就能提供主动服务。这里会用到强化学习,它教给机器人(rén)三个功(gōng)能:一是如何学习新的能力(lì);二是(shì)如何(hé)做(zuò)的一(yī)次比一(yī)次好(hǎo);三是如何主(zhǔ)动地提供正确服务。
关于一次比一次(cì)做的好(hǎo)这一点(diǎn),需要通过小(xiǎo)样本的强化学习来解决。我们希(xī)望机器人一(yī)次(cì)比一次做得好,需要猜测,而猜测本身也是需(xū)要优化的。猜测的目的主要有两方面,一是有时候不能进行标注,比如王爷爷走向桌(zhuō)子可能是找水,走向柜子可能是(shì)找药,但(dàn)是这个事情无法去标注,机器人需(xū)要去主动采集样本,通过(guò)回报自己(jǐ)进行标注。强化学习需要(yào)不断探(tàn)索和(hé)优化,从而(ér)让机器人更加智(zhì)能。
当然,机器人的学习还面临巨大的(de)挑战,比如:人的关节都是全向关节,而机器人(rén)不能做到(dào)这一点,每(měi)一个关节只能向一(yī)个(gè)方向旋转。如果我们希望把人的一个(gè)动作映射到机器人上,需要(yào)做(zuò)一个(gè)推广,使它能够适(shì)应机(jī)器(qì)人独(dú)特的(de)运(yùn)动(dòng)特(tè)性(xìng)。另外(wài),我们应用时(shí)还(hái)要(yào)考虑到采样(yàng)成(chéng)本的预算,当学习一个新(xīn)的(de)性能时,机器人必须一次学会。我们(men)需要考虑采样(yàng)成本和(hé)比较更高级的(de)需求,来达到对于实际(jì)机器(qì)人学习来说可(kě)用的程度。
关于(yú)人(rén)工智能会替代人类的(de)说法已经深(shēn)入人心,曾经引来(lái)一波恐慌(huāng),听完英特尔研究院的工程师讲解(jiě),笔者觉得那个时代还很(hěn)遥(yáo)远,机(jī)器人需要经(jīng)过漫长的(de)自我学习(xí)才能达到熟练理解空间和(hé)语义的阶(jiē)段,要实现真正的智(zhì)能似(sì)乎还(hái)需要计(jì)算能力和(hé)存储能力的进一步的提高,硬件技术和软件算(suàn)法还(hái)需要很大的进(jìn)步空间(jiān)。