自2012年(nián)以(yǐ)来,随(suí)着欣顿(Hinton)、乐(lè)昆(kūn) (LeCun)和吴恩达(Andrew Ng)对深度学习的研究,使其在机器学习方面(miàn)的应用取得了显著成就,深度学(xué)习成为(wéi)计算机科学的一个新兴(xìng)领(lǐng)域。谷歌、脸谱、百度、腾讯等互(hù)联(lián)网公司纷纷投入巨(jù)资研究深度学习,并兴起(qǐ)了基于深度学习的创业(yè)大潮(cháo)。然而,对深度学习(xí)原理(lǐ)的(de)困惑。对其应用(yòng)的质疑也一直存在。在ImageNet目标检(jiǎn)测中,人脸识别(bié)率已达(dá)99.5%,甚至超(chāo)越人眼的识别准确率,在(zài)此情况下(xià),深度学(xué)习何以(yǐ)为(wéi)继?又该如何提升?深(shēn)度学习是处于热潮(cháo)的初始(shǐ)?还是强弩之末?是一直(zhí)所向披靡?还是(shì)很快走(zǒu)向终点(diǎn)?作为(wéi)沉寂了20余年的(de)神经(jīng)网络领域,深度学习到底还能走多远?
神经网(wǎng)络(luò)与人(rén)脑的区别(bié):
目前,深度学习在几(jǐ)个主(zhǔ)要(yào)领域都获得了突破:在语(yǔ)音(yīn)识别领域,深度学习用深(shēn)层模型(xíng)替(tì)换声学(xué)模型中的混合高斯模型,错误率降低了30%;在(zài)图像识别领域(yù),通(tōng)过构造(zào)深度卷积神经网(wǎng)络,将Top5错误率由26%降低至15%,又通过(guò)加大加深网络结(jié)构(gòu),进一(yī)步降低到11%;在自然语(yǔ)言处理领域,深度学习与其他方(fāng)法水平相当,但免去了繁琐的特(tè)征提取步骤。深度学习是最接近人类大脑的智能学习(xí)方(fāng)法。
然而,与(yǔ)人(rén)脑(nǎo)相(xiàng)比,深(shēn)度学习(xí)目前在处理(lǐ)问(wèn)题的能(néng)力上还有(yǒu)不小的差距(jù)。当前的深(shēn)层(céng)网络在结构(gòu)、功能(néng)、机制上都与人脑有较大差距。从(cóng)结构上看,人脑有1000亿左右的神(shén)经元,这(zhè)些神经元形成了(le)1000到1万(wàn)层(céng)的连接。而目前的深(shēn)层网(wǎng)络通常只有几百万个神(shén)经元(yuán),层数不超过10,因此深层(céng)网(wǎng)络(luò)的规模(mó)远小于人脑。另外,人(rén)脑是高度结构化的,每一个部分执行一个特定的(de)功(gōng)能(néng),而且不同部分之间(jiān)会协作,但深层网络(luò)在高(gāo)度结构化方(fāng)面(miàn)目前(qián)还没有太多(duō)考虑。从功能(néng)上看,人脑(nǎo)善于处理各种问题,能够完成复杂任(rèn)务。而当前深层网络的功能单一,基本是用处理(lǐ)识别与分类问(wèn)题,没有综合处理问题(tí)的(de)能力(lì)。从机制上看,人脑的数(shù)据存储与处理机制(zhì)更为复杂(zá)。人脑中的数(shù)据以知识的形式组织起来,存储与应(yīng)用密切相(xiàng)联,而当前计算机的数据(jù)存储方(fāng)式远(yuǎn)远没有做到这一点。人(rén)的(de)感知器(qì)官并非(fēi)感知器,而是依(yī)靠(kào)大量的(de)反馈搜(sōu)寻有用的信息。另外人脑具有知(zhī)识反(fǎn)馈机制,在(zài)深层网络中并未得到体现。而研究者的研究对象从一个函(hán)数变(biàn)成了一(yī)个过程,难度(dù)骤然增(zēng)大(dà)。
人脑的学习能力是(shì)通过先天进化和后天学习得到的。先天进化可以理解为物种(zhǒng)在长时间学习大量知识后演变得到的结果(guǒ),后天学(xué)习(xí)包(bāo)括(kuò)对新接(jiē)触知识的(de)总结与演绎。而深度学习的网络结构(gòu)是由(yóu)人来设计的,网络(luò)参(cān)数是从训练数(shù)据集(jí)中学习得到的(de)。就数据量而言,人脑在先天(tiān)进化(huà)与后天学习中(zhōng)所接触(chù)的数据量远大于深层网络。
深度学习(xí)的局限性(xìng):
随着(zhe)大数据(jù)的(de)出(chū)现(xiàn)和大(dà)规模计算能力的(de)提升,深度学习(xí)已然(rán)成为非常活(huó)跃的计算机研究领(lǐng)域。然(rán)而,在(zài)不断的研究中,深度学习的局限性也(yě)日益(yì)突显。
缺乏理(lǐ)论支持,对于深度学习架构,存在一(yī)系列的疑问:卷积神经网络为什么(me)是一个好的架(jià)构?深度学习的结构需(xū)要多少隐层?在一个大的(de)卷积网络中到底需要多少有效的(de)参数?虽然深度学习在很(hěn)多实际(jì)应用中取得了突出的(de)成(chéng)效,但这些问题一直困扰着深度学习的(de)研究(jiū)人员。深度学习方法常常被视为黑盒(hé),大多数(shù)的(de)结(jié)论(lùn)都由经验而(ér)非理论来确认。不论是(shì)为了构建(jiàn)更好的深度学习系(xì)统,还是(shì)为了提供更好的解释,深度学习都需要(yào)更(gèng)完善的理论支撑(chēng)。
缺乏短时记(jì)忆能力,人(rén)类大脑有惊人(rén)的(de)记忆(yì)功能,不仅能够识别个体案例(lì),也能分析输入信息(xī)之间的整体逻辑序列。这些信息序列包含(hán)有大量的内容(róng),信(xìn)息彼此间有(yǒu)着复(fù)杂的时间(jiān)关联(lián)性。例如在自然语(yǔ)言理解(jiě)的许多任务(如问答系统)中需要(yào)一种方法来临时存(cún)储分隔的(de)片段,正确解释视频中的事件,并能够回答有关(guān)问(wèn)题,需要记住视频(pín)中(zhōng)发生事件的抽(chōu)象表示。而包括递归神经(jīng)网络在内的(de)深度学习系统,却不能很好地存(cún)储多(duō)个时间(jiān)序列上的记忆。近年来,研究人员提(tí)出了在神经网络中增加独立的记(jì)忆模块,如长短时记忆(Long Short-Term Memory,LSTM)、记忆网络(memory networks)、神经图灵机(jī)(neural Turing machines)和Stack增强递归神经网络(stack-augmented recurrent neural network),虽然(rán)有一定的成果,但(dàn)仍需扩展(zhǎn)更多新思路。
缺乏执行无监督学习的能(néng)力,无监督学习在(zài)人类和动物的学习中(zhōng)占据主导地位,我们通过(guò)观察能(néng)够(gòu)发现世(shì)界的内在结(jié)构,而不是被(bèi)告知每一个客观(guān)事物的(de)名称。虽然无监督学习可以帮助特定的(de)深度(dù)网络(luò)进行“预(yù)训练”,但最终能(néng)够(gòu)应用于实践(jiàn)的绝大部分深度学习方法都是(shì)纯粹(cuì)的有监督(dū)学习。因为(wéi)无标记数据远远多(duō)于标(biāo)记数据,因此无监督(dū)学习(xí)具有巨大的研究潜力。找到合适的(de)无监督学习(xí)算(suàn)法,对深(shēn)度(dù)学习的发展至关重要。

深度学(xué)习(xí)未来的发展方向:
深(shēn)度学习在人脸(liǎn)识别(bié)、目标检测等领域都取得了很大进展,识别准确(què)率甚至超过人类,但这并不代表深度(dù)学习的发(fā)展已走到尽头。以(yǐ)下几个方面的研究(jiū)对深(shēn)度学习(xí)的继(jì)续(xù)发展具有重大意义(yì)。
1. 开发深度(dù)学习的演(yǎn)绎能力:人类在学习的过程中(zhōng),除了对已(yǐ)有知识的(de)归纳总结,还伴随(suí)对知识(shí)的演(yǎn)绎推理,如对定理(lǐ)进行推论(lùn)等。当前(qián)的深(shēn)度学习还停留在对数据的归纳上。如果深层网络(luò)对(duì)数据的归纳(nà)能力达到饱(bǎo)和,提升其演绎推(tuī)理能力将(jiāng)是深度学(xué)习继续(xù)发展的突破口。
2. 提升综合处理问题的能力:当前(qián)的深度学习主要用于处理单一问(wèn)题,但(dàn)一套模(mó)型往往不(bú)能通用于(yú)多(duō)个问(wèn)题,如(rú)人脸识别、语音(yīn)识别等。但人(rén)脑可以实现这一功能(néng),比如视觉皮层可以辅助(zhù)听觉等。因此,提(tí)升深层网络综合处(chù)理问(wèn)题的(de)能力对于人工智能的实现具有重要意义。
3. 减少(shǎo)对硬件的(de)依(yī)赖:随着GPU及高性能并行计算的发展,硬件设备的数据处理能力得到巨大提升。但过(guò)度依赖硬件会(huì)造成深度学习偏(piān)离(lí)人的思维,而(ér)陷(xiàn)入(rù)计(jì)算机思维。与(yǔ)计算机相比,人(rén)脑的计算速度(dù)极慢,但功耗(hào)极低,且能够完(wán)成复杂的任务。学(xué)习人(rén)脑,使用(yòng)相对弱的硬(yìng)件(jiàn)来实现强大(dà)的功能,是(shì)使深度学习向人工智能发展的关键。
综(zōng)上所述,深度学习通过(guò)建(jiàn)立类似于人脑(nǎo)的分层模型结构,对输入数据(jù)逐层提取(qǔ)从底层到高层的特征,从(cóng)而建立从底层信号(hào)到(dào)高层语(yǔ)义的映射(shè)关系。但在规模、功能、机制、设(shè)计等方面(miàn),当前深(shēn)度学习所采用的(de)深层网络与(yǔ)人脑存在很大差异。虽然深(shēn)度(dù)学(xué)习在很多方(fāng)面取得(dé)了巨大成功,但(dàn)仍存在一些缺陷(xiàn)。当前的深度学习框架(jià)缺乏(fá)理论支撑,不能很好地存(cún)储时间序列(liè)上的记忆,缺少对无(wú)标记数据(jù)的学习能力。这些(xiē)缺陷限制了深度学习的进一步发展。深度学习作为计(jì)算机科学的新兴领域,还有(yǒu)很长的路要走。深度学习掀起了(le)机(jī)器学习的新浪潮(cháo),在语音(yīn)图像(xiàng)的智能识别与理解等方面取得了很大进展。但(dàn)深度学习(xí)还(hái)面临着一系列难(nán)题,在对知(zhī)识的演绎(yì)能力、对问题的(de)综合处理(lǐ)能力等方面还有很大的提升空间,在(zài)深层网(wǎng)络的设计规则(zé)上也需要进一步(bù)探索(suǒ)。