大数(shù)据”突然间变得无处不在,似乎每个人都(dōu)想收集、分析(xī)大数据、并从中获利,同时(shí)也有人在夸耀或者害(hài)怕它的巨大影响(xiǎng)。不(bú)论我们是(shì)在讨论利用谷(gǔ)歌庞大(dà)的搜索数据来预测流感的(de)爆发还是利用通话记录来预测恐怖活动,又或者是(shì)利用航空公司的(de)数据找到买机票(piào)的最佳(jiā)时机,大数据都可以(yǐ)帮上忙。将现代计(jì)算技术和(hé)数字时代众(zhòng)多的数据结合起来(lái),似乎可以解决任何(hé)问题——犯罪(zuì),公共卫生,用语的(de)变(biàn)化,约会(huì)的危险,只要我(wǒ)们(men)把这些数据利用起来。
似乎它的(de)拥(yōng)护者这样宣称。“在接下(xià)来(lái)的二十年,”记者帕特里克·塔克在他最近的大数据(jù)声明中这样写道,“是透明的未来,”“我们可以以一种前(qián)所未有的准确度预(yù)测未(wèi)来的诸多领域,甚至包括一(yī)些长久以来被认为人类无(wú)法干预的领(lǐng)域。”但大数据其实从来没有听上去那么好。
大数据真的像说的那么好?毫无疑(yí)问大数据确实是一(yī)个有价值(zhí)的(de)工具(jù),并在某些领域产(chǎn)生了至关重要(yào)的(de)影响。比如,几(jǐ)乎近二十年人工(gōng)智能计算机程序的成功,从谷歌的搜索引擎到IBM的(de)沃森(sēn)电脑问(wèn)答(dá)系(xì)统,都包括了大(dà)量数据的(de)处理。但是正是(shì)因为它最(zuì)近(jìn)如此受(shòu)欢(huān)迎(yíng)并得到广泛应用,我们需要清晰的(de)看待大数据究竟能做什么(me)和不能做什(shí)么。
大数(shù)据能告(gào)诉(sù)我们是什(shí)么,但不能告诉我们为什么
首先,尽(jìn)管(guǎn)大数据能(néng)够非常好(hǎo)地检测相关性,特别是那些用小数据集(jí)可能无法测出的微妙相关性,但是它(tā)并不(bú)会告诉我们哪一种相关性是有意(yì)义的。比如,大数据(jù)分析可能会揭(jiē)示(shì)从2006年(nián)到(dào)2011你那美国谋杀(shā)案比例与IE浏览器的市场份额是(shì)极(jí)度相关的(de),都(dōu)呈急速下降趋势。但是很难相信这(zhè)两(liǎng)者之间有什么因果关(guān)系。又比如,从1998到2007被诊断出的自闭症患者与有机食物(wù)的销售具有相(xiàng)关性(都呈急(jí)速上升趋势),但(dàn)是这(zhè)种相关(guān)性本身不会告诉我(wǒ)们饮食和自闭症的关(guān)系。
大数据(jù)只能是辅助工具
第二(èr),大数据(jù)可以辅(fǔ)助科(kē)学调查,但不可能成(chéng)功地完(wán)全代替。比如,分子(zǐ)生物学家很想从潜在的DNA序列(liè)中(zhōng)推断出蛋白质的三维结构,有一些科学家已经在用(yòng)大数(shù)据来解决(jué)这个(gè)难(nán)题。但是没有任何科学家认为(wéi)你可以完(wán)全依靠(kào)处理数据来解决这个(gè)难题,不论这个(gè)数据分析是(shì)多么的强有(yǒu)力,你依旧需要基于对物理和生物化学(xué)的理解上(shàng)来处理(lǐ)这些数据。
基于大数据(jù)的工具易造假
第(dì)三(sān),基于大数据的很多工具很容易造假。批(pī)改(gǎi)学生(shēng)作文的大(dà)数据程序通常依(yī)赖于句子长度和用(yòng)词(cí)的复杂(zá)性,数据表明这(zhè)和老师批改的(de)分数很(hěn)相关(guān)。但(dàn)是(shì)一旦学生知(zhī)道这个(gè)程序(xù)如(rú)何运作,他们就开始写一些长句子并(bìng)用晦涩(sè)的词语而不(bú)是去学会如何规范清晰的表达(dá),组成连贯的篇章。甚至谷歌的(de)著名的搜索引擎(qíng),这个通常被认为成功的大数(shù)据案(àn)例也(yě)不能免于信息(xī)繁(fán)杂,无(wú)用的搜索结果,一(yī)些人(rén)为的原因使得一些(xiē)搜索结果排在前(qián)面(搜(sōu)索广告)。
通(tōng)过大数据下结论是有风险(xiǎn)的
第四,即便大数据的结果没有(yǒu)人为地(dì)造假,但是它(tā)看上去也不(bú)那么(me)有效。比(bǐ)如谷歌预(yù)测流感的案(àn)例(lì)曾经是大数(shù)据的典范。2009年,谷歌通过相当大的宣传称它可以通(tōng)过分析与流感(gǎn)相关的搜索预测流(liú)感(gǎn)爆(bào)发的(de)趋(qū)势(shì),这种(zhǒng)准确性和快(kuài)速甚至超过了疾病控制和预防中心等官方(fāng)机构(gòu)。但是几年后,谷歌宣称的流感预测并没有得到好(hǎo)的结(jié)果,最(zuì)近两年(nián),它做的更多地是不准的(de)预测(cè)。
最(zuì)近一(yī)篇《科(kē)学杂志》的文章(zhāng)解释道,谷歌(gē)流感预测的(de)失败很大(dà)程度上是因(yīn)为谷歌搜索引擎自己在不断的更新,这个时候收集的数据(jù)未必能够适(shì)用于(yú)下一个时候收(shōu)集(jí)的数据。正如(rú)统计学家冯启思(《数(shù)据统治(zhì)世界》的作者)所说的(de),依赖于网站的大(dà)数据收集常常(cháng)把一些用不同方法、有不同目的数据整合起(qǐ)来,有时候这会产生负面的影响。从这样的数据样本(běn)得出结论是需要冒风(fēng)险的。
大数据的智(zhì)能(néng)应用会导致错误被(bèi)加强
第五个(gè)需要注意的就是“恶性循环”,这也是因为大(dà)量(liàng)的数据都来自于网(wǎng)络。不论何时,大(dà)数据分析的信(xìn)息(xī)源(yuán)本(běn)身就是一(yī)种大数据产品(pǐn),这很可能会导致恶性(xìng)循环。谷歌翻译等翻译程序是从(cóng)不(bú)同语言(yán)中抽取(qǔ)相(xiàng)似(sì)的文本(běn)去辨别这些语言的(de)翻(fān)译模式(shì),比如同样的维基百(bǎi)科条目有两种语言。这是一个很合(hé)理的策略,要不是有很多语(yǔ)言并(bìng)不具(jù)有(yǒu)太多相(xiàng)似性,维(wéi)基(jī)百科自己都可以用(yòng)谷歌翻译写条目。在(zài)这种情况下,任何谷歌翻(fān)译的错误都会影响维(wéi)基百科,而(ér)这又会反映(yìng)到(dào)谷歌翻译(yì)上,使这(zhè)种错误不(bú)断(duàn)加强。
大数据(jù)可能会导致大错误
第六个(gè)需(xū)要担心的就是(shì)太多相关性导致的危险。如果你在两个变量中不断(duàn)地寻找相关性,那么你很(hěn)可能会纯(chún)粹出于偶然发现(xiàn)虚假(jiǎ)的相关性,即便在(zài)这些变量(liàng)中并没有实际意义的联系。缺乏谨(jǐn)慎的检查,大数据(jù)的量级(jí)会扩(kuò)大这些错误。
听(tīng)上去科学的解释(shì)未必(bì)正确
第七,大数据很容易对那(nà)些无(wú)法精确的(de)问(wèn)题给出(chū)听上去很科学的解释。比如在过去几个月(yuè),基于维基百科的数据给人们排名(míng)有两个不同的尝试:根据历史重(chóng)要性或者文化贡献。其中一(yī)本(běn)书(shū)叫做《谁更强?历史人物(wù)真实的排名在哪里》,作者(zhě)是电脑工程师Steven Skiena 和工程师(shī)Charles Ward,另一本叫做(zuò)《万神殿》,来自于麻省理工学院(yuàn)媒体实验室项目(mù)。
这些尝试在(zài)某些方面是(shì)正确的,耶稣、林肯、莎士比(bǐ)亚确实(shí)是(shì)极(jí)为重要的人物,但是两者都犯了一些(xiē)严重的(de)错误。《谁(shuí)更强?》指出法兰西(xī)斯.史考(kǎo)特.凯(kǎi)伊(Francis Scott Key )在历史上是(shì)19世纪最(zuì)重要的作家,远远超过简(jiǎn)·奥斯汀(第78名)和乔治·爱略特(第380名)。更(gèng)严重(chóng)的(de)是,两本书呈现出(chū)了利用所谓的精确误(wù)导人,而(ér)在本质上是模糊升值无意(yì)义的。大数据可以把任(rèn)何事都简化为数字(zì),但是你不应该被这些“科学”的表现愚弄。
罕见(jiàn)事件,大数据不起作用(yòng)
最后(hòu),大数(shù)据在(zài)分析那些普通事件很在行,但是(shì)在分析(xī)罕见事件常失败(bài)。比如,用大数据(jù)处(chù)理文本的程序如搜索引擎和(hé)翻(fān)译程序,常(cháng)常依赖于(yú)所(suǒ)谓的(de)“三字(zì)”:连续(xù)三个词的序(xù)列(比如“in a row”)。可靠的数(shù)据信息(xī)可以编制常规的三(sān)字模型,正是因为他(tā)们常出(chū)现,但(dàn)是现有(yǒu)的(de)数(shù)据(jù)并(bìng)没(méi)有多到(dào)足够包(bāo)括人们(men)可能(néng)使(shǐ)用(yòng)的(de)所(suǒ)有“三字(zì)”,因(yīn)为(wéi)人们在不断创造新语言。
随便挑一个例子,Rob Lowe 最近为报纸写的书评有(yǒu)九个(gè)“三词(cí)序列”比如“dumbed-down escapist fare”,这在谷(gǔ)歌的文(wén)本里从未出现过。对于(yú)这(zhè)些(xiē)新鲜词汇谷歌有很多限制(zhì),谷歌将“dumbed-down escapist fare”西安翻译为德文然后再(zài)翻译为英文(wén),最后出现了这(zhè)样(yàng)一个不(bú)合逻辑的词语“scaled-flight fare.”Lowe先生(shēng)的本意和利用(yòng)大数据(jù)的(de)翻译真(zhēn)是完全不搭(dā)边(biān)。
等等,我(wǒ)们几(jǐ)乎(hū)忽略了(le)最(zuì)后一个问题:炒作。大数(shù)据的支(zhī)持者宣称它是革命性的进步。但(dàn)是即便是给(gěi)出大(dà)数据的成功例(lì)子,比如谷歌流感趋势的预测,即便有用但对于一些更大(dà)的事(shì)这些显得微不(bú)足道。相(xiàng)比19世(shì)纪(jì)和20世(shì)纪的伟(wěi)大发(fā)明(míng)比如抗生素,汽车,飞机,大数据所得出的东(dōng)西实在算不(bú)了什么。
我们需要大数据,毫无疑问。但是我(wǒ)们也需要更(gèng)加清(qīng)醒的认识到(dào),这只是一种每个人(rén)都可(kě)以分析的重(chóng)要资源,并(bìng)不是(shì)什么新技(jì)术。