九游网页版-九游（中国）

怎样利（lì）用大数据变废为宝？

这（zhè）几（jǐ）年很多人都在讨（tǎo）论（lùn）大数据，如果（guǒ）数据不经过处理，其实并不是有用的（de）。例如（rú）每天跑步带个手环收（shōu）集的也是数据（jù），网（wǎng）上（shàng）这么多网站也是数（shù）据（jù），简称为Data，数据（jù）本身并没有什么作用，但是数据里面包含一些很重要（yào）的东西（xī），叫（jiào）做信息（xī）(Information)，数据（jù）杂乱无章，只有经过（guò）了梳理（lǐ）和清（qīng）洗（xǐ），才（cái）能够（gòu）称（chēng）为（wéi）信（xìn）息。信息里面包含了很多规律，我们需（xū）要从众（zhòng）多信息中将规律总结出来，才（cái）能称为知（zhī）识，知识才能改变命运（yùn）。

信息是很多的，但是（shì）很多人（rén）看到了信息相当于白看，但（dàn）是（shì）有人（rén）就能从（cóng）信息中看（kàn）到了（le）电商的未来，有人看到了直播的（de）未来，所以人家（jiā）就牛了，如果没有从信（xìn）息中提取出知识，天天（tiān）只知道刷朋友（yǒu）圈，也只能在如今互联网滚滚（gǔn）大潮中做个看（kàn）客。有了知识，然后利用这些知识（shí）去应（yīng）用于实践，有的人就会做得非（fēi）常好，这个东西叫做（zuò）智慧Intelligence。有知（zhī）识（shí）并不一（yī）定有智慧（huì），很多学者很有知（zhī）识，已经发生（shēng）的事情可以从各个（gè）角（jiǎo）度分析的头（tóu）头（tóu）是道（dào），但一到实（shí）践（jiàn）就歇菜，并不能转化成为真正的智慧。而很多的创业家之所以（yǐ）伟大，就是通过获得的知识应用于实践，最后做成了很大的生意。

数（shù）据的处理分五个步（bù）骤（zhòu），全部完成了才（cái）最后才会升华智慧（huì）。第一（yī）个步骤：数据的收集。首先得（dé）有数据，数据的收（shōu）集有（yǒu）两个方式，第（dì）一个（gè）方式是拿(Pull)，专业点的叫爬取或者抓取，常见的搜索引（yǐn）擎就是这么干的，它把（bǎ）网上的信息都下载到它的数据中心，然后被你搜（sōu）索（suǒ）出来（lái）。比如你去搜索的时候，返回的是（shì）一个列表，这个列表为什么会在搜索（suǒ）引擎的公司里（lǐ）面呢，就是因为他把这个数据（jù）都爬下来了。

大数据拥抱云计算，让（ràng）数据变得智（zhì）能（néng）化（huà）

但是你一（yī）点（diǎn）链接，点出来这个网站就不在（zài）搜（sōu）索（suǒ）引擎它（tā）们公（gōng）司了。比如说搜狐有个新（xīn）闻（wén），你拿百（bǎi）度搜出来，你（nǐ）不点（diǎn）的时候，那一页在百度数据中（zhōng）心，一点出来的网页就（jiù）跳转到搜狐的数据中心了。另外一个方式就是推送，有（yǒu）很（hěn）多终端（duān）可以帮我收集（jí）数据，比如（rú）说智能（néng）手环，可（kě）以将（jiāng）你每（měi）天跑步的数据，血压的数据，心跳的数据都上传到数据中心里（lǐ）面。

第二个步骤是数据的（de）传输。常见的会通过队列（liè）方式（shì）进行，数据（jù）量实（shí）在是太大了，数据必须经过处理才会有用，但是系统处理不过（guò）来（lái），只好排（pái）排队，一条条（tiáo）地处理。

第三个步骤是数据的存储。现在数据就是Money，掌（zhǎng）握了数（shù）据就相当于掌握了（le）金钱。要不然你看购物网站怎么知道你想买什么呢？就（jiù）是因为它（tā）有你（nǐ）历史的交易信（xìn）息，然后通过这个信息分析（xī）出你的购物习惯。

第四个步骤（zhòu）是数（shù）据的处理和分析。上面（miàn）存储（chǔ）的数据（jù）是原始数据，原始（shǐ）数（shù）据多是（shì）杂乱的，还有很多垃圾（jī）数据，因而需要（yào）清洗和过（guò）滤。对于整理过的数据，就可（kě）以进（jìn）行分析，从而对数（shù）据（jù）进行归类（lèi），或者（zhě）发现数据之间的相互关系。比如著名（míng）的啤酒（jiǔ）和纸尿布的故事，就是通过对（duì）人们的购买（mǎi）数据进行比对（duì）分析，发现（xiàn）了（le）男人在买尿布的时候，会同时想要购（gòu）买（mǎi）啤（pí）酒，这样就（jiù）发现了啤酒和尿布之间（jiān）的对应（yīng）关系，掌握了规律，然后应用到实践（jiàn）中，将（jiāng）啤酒（jiǔ）和尿布的柜台放到一起（qǐ），这就是一种智慧（huì）。

第五个（gè）步（bù）骤就是对于数据的检索和挖掘。检（jiǎn）索就是搜（sōu）索，俗话说外（wài）事不决问谷歌，内事不决问百度。两大搜索引擎都（dōu）是将分析归（guī）纳后的数（shù）据放入（rù）搜索引擎，从而方便（biàn）人们找到想要的（de）信息。还有一个就是挖掘（jué），搜（sōu）索出来的信息还（hái）需要从中挖掘出相互的（de）关系。例如财经（jīng）检索，当搜索某个公（gōng）司股票的时候，该公（gōng）司的管理层（céng）是不是也应该被挖掘出来?如果仅仅搜索出这个公司的（de）股票涨的特别好，你（nǐ）就去买了，结果第二天就（jiù）跌了，这不坑人么?所以通过各种算（suàn）法挖掘数据中的（de）关系，形成知（zhī）识数据库，十分（fèn）重（chóng）要。

数据分析（xī）是（shì）一项很（hěn）有意思的技术，其功能就是（shì）帮我们（men）梳理数据，存储信息，并从信息中总结规律。当数据量很小的时（shí）候，几台机器就能分析（xī）并解决问题（tí）。但是，慢慢的当数据量越来越大，大到最（zuì）强的（de）超级计算机（jī）都解（jiě）决不了问题（tí）的时候，该（gāi）怎么办呢（ne）？这（zhè）时就要聚合多（duō）台机器的力量（liàng），也就（jiù）是（shì）使用云计算的（de）力量（liàng）。

对于数据的收集，以物联网（wǎng）为例，外面部署这（zhè）成千上亿的检测设备，将大量的温度，湿度，PH值，PM2.5等等数据统统收集上来（lái），对于网页的搜索引（yǐn）擎来讲，需要（yào）将整个互联（lián）网所（suǒ）有的（de）网页都下载（zǎi）下（xià）来（lái），这显然一台服务器做不到，需要多台服务（wù）器组（zǔ）成分布式系统，每（měi）台机（jī）器下载（zǎi）一部分，同（tóng）时工作，才能在有（yǒu）限的时间内（nèi），将海量的网页（yè）下载完毕。

对于（yú）数据的传输，一（yī）个内存里面的队列肯定会被大量（liàng）的数据挤爆，于是就产生了基于存储系统（tǒng）的分布式队列（liè），这样的队列可以多台服务器同（tóng）时传输，随你数据量多大，只要我的队（duì）伍足够多，队列足够粗，就能够撑得住。

对于数据的存储也（yě）是一样，一台服（fú）务器的文件系统（tǒng）肯定（dìng）是放（fàng）不下了，那我们（men）就做一个很大的分布式文件（jiàn）系统来做这件事情，把多台机（jī）器的硬盘打成一块大的文件系统。再比如数据的分析，可能需要对大量的数据做分类，统（tǒng）计，聚合，一台（tái）服务（wù）器（qì）肯定搞不（bú）定，处理几百（bǎi）年也分（fèn）析不（bú）完（wán），于是就有了分布式计算的方法，将大量的数据分（fèn）成小份，每（měi）台服（fú）务器处理（lǐ）一小份，多台服务器并（bìng）行处理，很快就能算完。