九游网页版-九游(中国)



  • 咨询热线:021-80392549

    九游网页版-九游(中国) QQ在线 九游网页版-九游(中国) 企业微信
    九游网页版-九游(中国)
    九游网页版-九游(中国) 资讯 > 大(dà)数据 > 正(zhèng)文(wén)

    四个特征(zhēng)带(dài)你了解大数据的定义

    2020/05/18智(zhì)品会427

    四个特征带你了解大数据的定义


    大(dà)数(shù)据是当前较为火爆的一(yī)个词汇,究竟什(shí)么(me)是大数据、大(dà)数据的概念是怎样的?大数据有哪些特质,大数据有哪些技术方面(miàn)的要求,大数据对当前社(shè)会产生(shēng)了哪些重(chóng)要的影响?

    国内知名大数据专家、中科院计算所博(bó)士(shì)、职(zhí)品(pǐn)汇创始人龚才春博士对此做了详尽的分析,他指出:“从常规定义来讲,大数据就是大小超出(chū)常规数据库工具(jù)获(huò)取、存储、管理和分析能力的数据库(kù),并且(qiě)也强(qiáng)调(diào),不是说(shuō)一定要超过(guò)特定TB的数(shù)据集才是大数据。这个(gè)定义并(bìng)没有诠释什么(me)是(shì)常规的数据库(kù)工具(jù),也没有诠释大(dà)数据与数据量的关系,是一个比较原始(shǐ)的大数据(jù)定义。”

    而国际数据公(gōng)司(International Data CorporaTIon,简称IDC)则从四个特征(zhēng)定(dìng)义(yì)大(dà)数据:数据规(guī)模(mó)庞大(Volume)、数据更(gèng)新频(pín)繁(Velocity)、数(shù)据类型多样(yàng)(Variety)和数据价值巨大(Value)。

    龚博士认为,在(zài)上述四大定义的(de)基础上,一般偏向于再加上数据处理(lǐ)复杂(Complexity),构成(chéng)相对完整的大数据的定义,这(zhè)就是大家耳熟能详的4V+1C。

    1.数据(jù)规模庞大(dà)(Volume)

    当数据规模很小时,属于传统的“小数据”时代的问题,已(yǐ)有非常成熟的数据存储、计算、分析、呈现方案,数据模(mó)型也有(yǒu)非常多的研究。大数据必须(xū)是规模异常(cháng)庞(páng)大的数据,只有当规模庞大时候(hòu),才有新的研(yán)究价值。

    前面(miàn)已经提到,大数据的大,不是说一定要超过特定TB的(de)数据(jù)集才是大(dà)数据。由于计算能力(lì)、存储能(néng)力(lì)、分析(xī)能力的有限,现在看(kàn)起来(lái)很简单的问题,在历史上可能(néng)都(dōu)是大数据的问题。辽沈战役中,司令(lìng)员林彪对战报(bào)要求很(hěn)细,包(bāo)括每支部(bù)队歼敌(dí)多(duō)少、俘虏(lǔ)多少;缴获的(de)火炮、车辆多少;枪支、物资多少(shǎo)……一天深夜,值班参谋正(zhèng)读着一份某(mǒu)师(shī)上报的战斗缴(jiǎo)获报告(gào),那是(shì)该师的下属部队偶然碰上的一个不大的遭遇战,他们歼灭(miè)了一部分敌(dí)人,缴获(huò)了一(yī)些战利品,敌人余部逃走。林彪听了汇(huì)报(bào)后,立即(jí)口授命令,全力追击从(cóng)胡家窝(wō)棚逃走的那(nà)股敌人,一定(dìng)要把它彻底打掉。果(guǒ)然(rán)活捉了国民(mín)党新(xīn)编第六(liù)军军(jun1)长廖(liào)耀湘。这些数(shù)据在今(jīn)天看来,规模非(fēi)常非常小(xiǎo)。但在当时这已(yǐ)经是“大(dà)数据”了,林(lín)彪懂得分析(xī)数据,从缴获(huò)中手枪和冲锋枪的比例准确判断(duàn)出敌方的指挥部(bù)在(zài)胡家窝(wō)棚,这也算是(shì)大数据分析的(de)魅力。

    2.数(shù)据(jù)更新频(pín)繁(Velocity)

    我们知道摩尔定律揭示(shì)了处理器分析能力与时间的关系,也就是(shì)说,每隔18个月左右(yòu)处理器的分析(xī)能力翻一番。对于一个静止(zhǐ)的数据集,哪怕(pà)今天我们的处理器无法处理,存储器不(bú)好存储。随着技术的进步,未来可能变(biàn)成非(fēi)常容(róng)易处(chù)理,就像(xiàng)我们现(xiàn)在(zài)看着当年林彪分析(xī)战(zhàn)报一样,这些战报(bào)数据的处理今天已经变得(dé)非常非常容易了(le),在今天已(yǐ)经不算“大数(shù)据”了。

    大(dà)数(shù)据技术,要(yào)求(qiú)我们(men)更多地想(xiǎng)出“巧妙”的分析办(bàn)法(fǎ),提成(chéng)更“优秀”的处理模(mó)型,而不能只依(yī)赖存储(chǔ)能(néng)力、处理(lǐ)水平、网络(luò)带宽等硬件设备的性能改进。所以大数据(jù)技术,对分(fèn)析对象(xiàng)要(yào)求是频繁更(gèng)新的数据集。

    3.数据类型多样(Variety)

    传统的关(guān)系型数据库,无论从理(lǐ)论上(shàng),还是(shì)在(zài)应用(yòng)上都非(fēi)常成(chéng)熟了。关系型数据库一(yī)般保(bǎo)存格式固定、类型(xíng)单(dān)一(yī)的数据,几十年的数据库理论、数据挖掘、数据(jù)仓库的研究,已经有相当多的研究成(chéng)果。

    大数据要求我(wǒ)们的分(fèn)析对象是(shì)异构、异(yì)质的(de)数据(jù)集,可(kě)能包括文本、音频、视频等多种形式,也(yě)可能是结构化、半结构化的或无结构的。

    4.数据价值巨大(Value)

    如果数据没有(yǒu)价值,我们就没有分析的必要。因此,大数据要求我们处(chù)理的数(shù)据集是有巨大商业价值或社会价(jià)值的。阿里巴巴愿意花巨大(dà)代价提高推(tuī)荐系统的准确性,就是在(zài)于其(qí)推荐系统的(de)准确率的提高(gāo),能(néng)大大(dà)提高平台的(de)交易量,从而(ér)具有非常巨大的商业价(jià)值。我们在全国部(bù)署“天眼(yǎn)”系统,提高大数据技术在(zài)天眼系统的分(fèn)量,就是因(yīn)为天眼系统分析能力的一小步提升,都能在降低犯罪率、打击犯罪、保障(zhàng)人民群众安全、信用取证等方面都有巨(jù)大的社会价值。

    在(zài)Value这个层面,我们(men)除了要求价值巨大外,我们一般会增加(jiā)一点要求(qiú),那就是(shì)价值(zhí)密度极低。我们常(cháng)说(shuō),大数据是(shì)一个“金(jīn)矿”,金矿就包含两个方面的含(hán)义:一方面,黄金很值钱,金矿很有价值;另一方面,金矿不(bú)是(shì)金(jīn)库,几万顿的矿砂(shā),也许只有(yǒu)几十公斤黄金,也就是说金(jīn)库的价值密度是非常(cháng)低的。大数据的(de)价值方面的含(hán)义,也要求价值密度非(fēi)常低。如果数据集中每一条数(shù)据(jù)都是非常有价值的,那也就无(wú)所谓“挖(wā)掘”了(le),没有挖掘,大数据的意义也(yě)荡然无存了(le)。

    5.数据处理复杂(Complexity)

    IDC公(gōng)司的大数(shù)据只有(yǒu)4V的特征,我们一般偏向于增加另一个维(wéi)度的要求:数据处理复杂。例(lì)如(rú),统(tǒng)计中国人口的平(píng)均年龄,这(zhè)个数据量(liàng)是非常庞大的,有(yǒu)接近14亿条(tiáo)记录;这个数(shù)据也是动态更新(xīn)的,每年都有几千万人出生,几千万死亡;这个数据(jù)集也可(kě)以是多样的,湖南的数据(jù)可以放在mysql中,湖北的(de)数(shù)据可以在oracle中,北京的数据(jù)可能在Txt文(wén)件中,上海的数据可能(néng)在Word文(wén)档中;这个数据集和这个分析(xī)都是(shì)有价(jià)值(zhí)的,但是平均到每一条数据,价值又非常有限。也就是说,这个(gè)问(wèn)题是符合(hé)4V特征的,但是这个(gè)问题怎么看(kàn)都“太简(jiǎn)单(dān)”了,年龄(líng)加(jiā)起来求平均即可,不能(néng)成为(wéi)真正意义上的(de)“大数据问题”。

    大数(shù)据要求数(shù)据处理复杂(zá),不能脑袋一拍就可以想出办法,不能套用现有(yǒu)的、成(chéng)熟的数据库工(gōng)具简单得到答案。

    【其他定义】

    除了上述主流的(de)定义(yì),还有人使用3S或者3I描述大数据的(de)特征(zhēng)。

    3S指(zhǐ)的是:大小(xiǎo)(Size)、速度(Speed)和结(jié)构(gòu)(Structure)。

    3I指的是:

    (1)、定义不明确的(de)(Ill-de.ned):多(duō)个主流(liú)的大数据(jù)定义都强调了数据规模需要超过(guò)传统(tǒng)方法处理数(shù)据(jù)的规模,而随着技术的进步,数据分析的(de)效(xiào)率(lǜ)不断提高,符合大数据定(dìng)义的数据规模(mó)也会(huì)相应不断(duàn)变大,因(yīn)而并(bìng)没有一(yī)个(gè)明(míng)确的(de)标准。

    (2)、令人生畏的(InTImidaTIng):从(cóng)管理大数据到使(shǐ)用正确的工(gōng)具获取它的价值,利用(yòng)大数据(jù)的过(guò)程中充(chōng)满了各(gè)种(zhǒng)挑(tiāo)战(zhàn)。

    (3)、即时的(Immediate):数据的(de)价值会(huì)随着时间快速衰减,因此为(wéi)了保证大数据的可控性(xìng),需要缩短数据搜集(jí)到获得数据(jù)洞察之间的时间,使得大数(shù)据成为真正的即时大数据,这意味(wèi)着能尽快(kuài)地分析数据对获得(dé)竞争优势至关重要。

    大数(shù)据就是互联网发展到现今阶段的一种表(biǎo)象(xiàng)或特(tè)征而已(yǐ),没有必要神话它或对(duì)它保持敬畏(wèi)之心,在(zài)以云计算为代表的技术(shù)创(chuàng)新大幕(mù)的衬托下(xià),这些原本很难收集和使(shǐ)用的(de)数(shù)据(jù)开始(shǐ)容易被利用起来了,通(tōng)过各行各业的不断创(chuàng)新,大数据(jù)会逐(zhú)步为(wéi)人类创造更多(duō)的价值。

    关键词: 大数据




    AI人工智能网声明:

    凡资(zī)讯来源(yuán)注明为其他媒体来(lái)源的信息(xī),均为转载自其(qí)他媒体,并不代表本网站赞(zàn)同其观点,也(yě)不代表本网站对其真(zhēn)实性负责。您若对(duì)该文章内容有(yǒu)任何(hé)疑问或质(zhì)疑,请立即与(yǔ)网(wǎng)站(www.zhiguan.chaozhou.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系(xì),本网站将(jiāng)迅速给(gěi)您回应并做处(chù)理。


    联系(xì)电(diàn)话:021-31666777   新闻、技术(shù)文章投稿(gǎo)QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资(zī)讯更多

    相关资讯更多

    热门搜索

    工博士人(rén)工智能网
    九游网页版-九游(中国)
    扫描(miáo)二维码关注微信
    扫码反馈

    扫一扫,反馈当前页面(miàn)

    咨(zī)询反馈
    扫码关注

    微信公众号

    返回顶部(bù)

    九游网页版-九游(中国)

    九游网页版-九游(中国)