怎样利(lì)用大数据变废为宝?
这(zhè)几(jǐ)年很多人都在讨(tǎo)论(lùn)大数据,如果(guǒ)数据不经过处理,其实并不是有用的(de)。例如(rú)每天跑步带个手环收(shōu)集的也是数据(jù),网(wǎng)上(shàng)这么多网站也是数(shù)据(jù),简称为Data,数据(jù)本身并没有什么作用,但是数据里面包含一些很重要(yào)的东西(xī),叫(jiào)做信息(xī)(Information),数据(jù)杂乱无章,只有经过(guò)了梳理(lǐ)和清(qīng)洗(xǐ),才(cái)能够(gòu)称(chēng)为(wéi)信(xìn)息。信息里面包含了很多规律,我们需(xū)要从众(zhòng)多信息中将规律总结出来,才(cái)能称为知(zhī)识,知识才能改变命运(yùn)。
信息是很多的,但是(shì)很多人(rén)看到了信息相当于白看,但(dàn)是(shì)有人(rén)就能从(cóng)信息中看(kàn)到了(le)电商的未来,有人看到了直播的(de)未来,所以人家(jiā)就牛了,如果没有从信(xìn)息中提取出知识,天天(tiān)只知道刷朋友(yǒu)圈,也只能在如今互联网滚滚(gǔn)大潮中做个看(kàn)客。有了知识,然后利用这些知识(shí)去应(yīng)用于实践,有的人就会做得非(fēi)常好,这个东西叫做(zuò)智慧Intelligence。有知(zhī)识(shí)并不一(yī)定有智慧(huì),很多学者很有知(zhī)识,已经发生(shēng)的事情可以从各个(gè)角(jiǎo)度分析的头(tóu)头(tóu)是道(dào),但一到实(shí)践(jiàn)就歇菜,并不能转化成为真正的智慧。而很多的创业家之所以(yǐ)伟大,就是通过获得的知识应用于实践,最后做成了很大的生意。
数(shù)据的处理分五个步(bù)骤(zhòu),全部完成了才(cái)最后才会升华智慧(huì)。第一(yī)个步骤:数据的收集。首先得(dé)有数据,数据的收(shōu)集有(yǒu)两个方式,第(dì)一个(gè)方式是拿(Pull),专业点的叫爬取或者抓取,常见的搜索引(yǐn)擎就是这么干的,它把(bǎ)网上的信息都下载到它的数据中心,然后被你搜(sōu)索(suǒ)出来(lái)。比如你去搜索的时候,返回的是(shì)一个列表,这个列表为什么会在搜索(suǒ)引擎的公司里(lǐ)面呢,就是因为他把这个数据(jù)都爬下来了。
但是你一(yī)点(diǎn)链接,点出来这个网站就不在(zài)搜(sōu)索(suǒ)引擎它(tā)们公(gōng)司了。比如说搜狐有个新(xīn)闻(wén),你拿百(bǎi)度搜出来,你(nǐ)不点(diǎn)的时候,那一页在百度数据中(zhōng)心,一点出来的网页就(jiù)跳转到搜狐的数据中心了。另外一个方式就是推送,有(yǒu)很(hěn)多终端(duān)可以帮我收集(jí)数据,比如(rú)说智能(néng)手环,可(kě)以将(jiāng)你每(měi)天跑步的数据,血压的数据,心跳的数据都上传到数据中心里(lǐ)面。
第二个步骤是数据的(de)传输。常见的会通过队列(liè)方式(shì)进行,数据(jù)量实(shí)在是太大了,数据必须经过处理才会有用,但是系统处理不过(guò)来(lái),只好排(pái)排队,一条条(tiáo)地处理。
第三个步骤是数据的存储。现在数据就是Money,掌(zhǎng)握了数(shù)据就相当于掌握了(le)金钱。要不然你看购物网站怎么知道你想买什么呢?就(jiù)是因为它(tā)有你(nǐ)历史的交易信(xìn)息,然后通过这个信息分析(xī)出你的购物习惯。
第四个步骤(zhòu)是数(shù)据的处理和分析。上面(miàn)存储(chǔ)的数据(jù)是原始数据,原始(shǐ)数(shù)据多是(shì)杂乱的,还有很多垃圾(jī)数据,因而需要(yào)清洗和过(guò)滤。对于整理过的数据,就可(kě)以进(jìn)行分析,从而对数(shù)据(jù)进行归类(lèi),或者(zhě)发现数据之间的相互关系。比如著名(míng)的啤酒(jiǔ)和纸尿布的故事,就是通过对(duì)人们的购买(mǎi)数据进行比对(duì)分析,发现(xiàn)了(le)男人在买尿布的时候,会同时想要购(gòu)买(mǎi)啤(pí)酒,这样就(jiù)发现了啤酒和尿布之间(jiān)的对应(yīng)关系,掌握了规律,然后应用到实践(jiàn)中,将(jiāng)啤酒(jiǔ)和尿布的柜台放到一起(qǐ),这就是一种智慧(huì)。
第五个(gè)步(bù)骤就是对于数据的检索和挖掘。检(jiǎn)索就是搜(sōu)索,俗话说外(wài)事不决问谷歌,内事不决问百度。两大搜索引擎都(dōu)是将分析归(guī)纳后的数(shù)据放入(rù)搜索引擎,从而方便(biàn)人们找到想要的(de)信息。还有一个就是挖掘(jué),搜(sōu)索出来的信息还(hái)需要从中挖掘出相互的(de)关系。例如财经(jīng)检索,当搜索某个公(gōng)司股票的时候,该公(gōng)司的管理层(céng)是不是也应该被挖掘出来?如果仅仅搜索出这个公司的(de)股票涨的特别好,你(nǐ)就去买了,结果第二天就(jiù)跌了,这不坑人么?所以通过各种算(suàn)法挖掘数据中的(de)关系,形成知(zhī)识数据库,十分(fèn)重(chóng)要。
数据分析(xī)是(shì)一项很(hěn)有意思的技术,其功能就是(shì)帮我们(men)梳理数据,存储信息,并从信息中总结规律。当数据量很小的时(shí)候,几台机器就能分析(xī)并解决问题(tí)。但是,慢慢的当数据量越来越大,大到最(zuì)强的(de)超级计算机(jī)都解(jiě)决不了问题(tí)的时候,该(gāi)怎么办呢(ne)?这(zhè)时就要聚合多(duō)台机器的力量(liàng),也就(jiù)是(shì)使用云计算的(de)力量(liàng)。
对于数据的收集,以物联网(wǎng)为例,外面部署这(zhè)成千上亿的检测设备,将大量的温度,湿度,PH值,PM2.5等等数据统统收集上来(lái),对于网页的搜索引(yǐn)擎来讲,需要(yào)将整个互联(lián)网所(suǒ)有的(de)网页都下载(zǎi)下(xià)来(lái),这显然一台服务器做不到,需要多台服务(wù)器组(zǔ)成分布式系统,每(měi)台机(jī)器下载(zǎi)一部分,同(tóng)时工作,才能在有(yǒu)限的时间内(nèi),将海量的网页(yè)下载完毕。
对于(yú)数据的传输,一(yī)个内存里面的队列肯定会被大量(liàng)的数据挤爆,于是就产生了基于存储系统(tǒng)的分布式队列(liè),这样的队列可以多台服务器同(tóng)时传输,随你数据量多大,只要我的队(duì)伍足够多,队列足够粗,就能够撑得住。
对于数据的存储也(yě)是一样,一台服(fú)务器的文件系统(tǒng)肯定(dìng)是放(fàng)不下了,那我们(men)就做一个很大的分布式文件(jiàn)系统来做这件事情,把多台机(jī)器的硬盘打成一块大的文件系统。再比如数据的分析,可能需要对大量的数据做分类,统(tǒng)计,聚合,一台(tái)服务(wù)器(qì)肯定搞不(bú)定,处理几百(bǎi)年也分(fèn)析不(bú)完(wán),于是就有了分布式计算的方法,将大量的数据分(fèn)成小份,每(měi)台服(fú)务器处理(lǐ)一小份,多台服务器并(bìng)行处理,很快就能算完。