四个特征带你了解大数据的(de)定义(yì)
大数据(jù)是(shì)当前较为(wéi)火爆的(de)一个词汇(huì),究(jiū)竟(jìng)什么是大数据、大数(shù)据的概念是(shì)怎样的?大(dà)数(shù)据有(yǒu)哪些特质,大数据有哪些(xiē)技术方面的(de)要求,大数据(jù)对(duì)当前(qián)社会(huì)产生了哪些重要(yào)的(de)影响(xiǎng)?
国内知名大数据专家、中(zhōng)科院计算所(suǒ)博(bó)士(shì)、职品汇创始人龚才春博士(shì)对此做了(le)详(xiáng)尽的分析,他指出:“从常规定(dìng)义来讲,大数据(jù)就是大小(xiǎo)超(chāo)出(chū)常规(guī)数据库工具获取、存储、管(guǎn)理和分(fèn)析(xī)能(néng)力的数据库,并且也强调,不是说一定要超过特定TB的数据集才是大数(shù)据。这个定(dìng)义并没有诠释什么(me)是常规的数据(jù)库工具(jù),也没有诠释大(dà)数据与数(shù)据量的关系,是(shì)一个比较(jiào)原始的大(dà)数据(jù)定义。”
而国际数据公司(sī)(International Data CorporaTIon,简称IDC)则(zé)从四个特征定义(yì)大数据(jù):数据规模庞大(Volume)、数据更新频繁(Velocity)、数(shù)据类(lèi)型多样(Variety)和数据(jù)价值巨(jù)大(Value)。
龚(gōng)博士认为,在上述四大定义的基础(chǔ)上,一般偏向于再加(jiā)上数据处理复杂(Complexity),构(gòu)成相对完整的大数据的定义,这就是大家耳熟能详的4V+1C。
1.数据规模庞大(dà)(Volume)
当数据规模(mó)很小(xiǎo)时,属于传统(tǒng)的(de)“小(xiǎo)数据”时代的问题,已有非(fēi)常成熟的数据存储、计算、分析、呈现方案,数据模(mó)型也有非常多的研究。大数据必须是规模异常庞大的数据,只有当规模庞大(dà)时候,才(cái)有(yǒu)新的研究价值。
前面已经提到,大数据的大,不是说一定要超过特定TB的(de)数据集才是大数据。由(yóu)于计算能力、存储能力、分析能力(lì)的(de)有限,现在看起来很(hěn)简(jiǎn)单的问(wèn)题,在历(lì)史(shǐ)上可能都是大(dà)数据的问题。辽(liáo)沈战(zhàn)役中(zhōng),司令员(yuán)林彪对战报要求很细,包括每(měi)支部(bù)队歼敌多少、俘虏(lǔ)多少;缴获的火炮、车(chē)辆多少(shǎo);枪支、物资多少……一天深夜,值班参谋正读着一份某师上报的战斗缴(jiǎo)获报告,那(nà)是该师的下(xià)属(shǔ)部队偶然碰上的一(yī)个不大(dà)的遭遇战,他们歼(jiān)灭了一部分敌人,缴获了一些(xiē)战利品,敌人余部(bù)逃(táo)走。林(lín)彪听了汇报后,立即口授(shòu)命令(lìng),全力追击从胡家窝(wō)棚逃(táo)走的那股(gǔ)敌人,一(yī)定(dìng)要把它彻底打掉。果然活捉了国民党新(xīn)编第六(liù)军军长廖耀湘。这些数据在今天看来,规(guī)模(mó)非常非常小。但在当时这已经是“大(dà)数据”了(le),林(lín)彪(biāo)懂(dǒng)得分析(xī)数据,从缴获中手枪和冲锋枪的比例准确判断出敌(dí)方的(de)指挥(huī)部在胡家窝棚,这也算是(shì)大数据(jù)分析的魅力。
2.数据更新频繁(Velocity)
我(wǒ)们知道摩尔定(dìng)律揭示了处理器(qì)分析能力与(yǔ)时间的关系,也就是说,每隔18个月左右处理器(qì)的分析能力翻(fān)一番。对于一(yī)个静止的数(shù)据(jù)集,哪怕今天我(wǒ)们(men)的处理(lǐ)器无法处理,存储器(qì)不好(hǎo)存储。随着技术(shù)的(de)进步(bù),未来可能变成非常(cháng)容易处理,就(jiù)像我们现在看着当年林(lín)彪(biāo)分析战报一样,这些战报数据的处理(lǐ)今天已经变得(dé)非常非常容易了,在(zài)今天已经不算“大数据”了。
大数(shù)据技术,要求我们更多(duō)地想出“巧妙(miào)”的(de)分(fèn)析(xī)办法(fǎ),提成更“优(yōu)秀”的处理模(mó)型,而不能只依赖存储(chǔ)能力(lì)、处理水(shuǐ)平、网络带宽等硬件设备的性(xìng)能改(gǎi)进。所以大数(shù)据技(jì)术,对分析对象要求(qiú)是频繁更(gèng)新(xīn)的数据集。
3.数据(jù)类型多样(Variety)
传统的关系型数据库,无论从理论(lùn)上,还是在应用上都(dōu)非常(cháng)成(chéng)熟了。关系型数据库(kù)一般(bān)保存格(gé)式固定、类型(xíng)单一的数据,几十年的数(shù)据库理(lǐ)论、数据挖(wā)掘、数据仓库的研究,已经有相当多的研究成(chéng)果。
大数据要求我们(men)的分(fèn)析对象是异构、异质的数据集,可能包括文本、音频、视(shì)频等多种形式,也可能(néng)是结(jié)构化(huà)、半(bàn)结(jié)构化的(de)或无结构的(de)。
4.数(shù)据价值巨(jù)大(Value)
如果数据没有(yǒu)价值,我们就(jiù)没有分析的必(bì)要。因此,大数(shù)据要求我们处理的数据集是有巨大商业价值或社会价(jià)值的。阿里巴巴愿意花巨(jù)大代价提高(gāo)推荐(jiàn)系统的准确(què)性,就是在于其推荐系统(tǒng)的准确率的提高,能大(dà)大提高平台的交(jiāo)易量,从而具有非常巨(jù)大的商业价值。我(wǒ)们在(zài)全国部署“天眼”系统,提高大(dà)数(shù)据(jù)技术(shù)在天眼(yǎn)系(xì)统的分量(liàng),就(jiù)是(shì)因为天(tiān)眼系(xì)统分析能力的一(yī)小步提升,都能在降低犯罪率、打(dǎ)击犯罪、保障人民群众安全(quán)、信用(yòng)取证等方(fāng)面都有巨大的社会价值。
在Value这个层(céng)面,我们除了要(yào)求价值巨大外,我(wǒ)们一(yī)般会(huì)增加一(yī)点要(yào)求,那就是价值密度极低。我们常说,大数(shù)据是一个“金矿”,金(jīn)矿就包(bāo)含两个方面(miàn)的含义(yì):一方面,黄金很值(zhí)钱,金矿(kuàng)很有价值;另一(yī)方面,金(jīn)矿不是金库,几万顿的矿(kuàng)砂(shā),也许只(zhī)有几(jǐ)十公(gōng)斤黄金,也就是说金(jīn)库的价值密度是非(fēi)常(cháng)低(dī)的(de)。大(dà)数据的(de)价(jià)值方面的含(hán)义,也要(yào)求价(jià)值密度非常低(dī)。如果数据(jù)集中每一条数据都是非常有价值的(de),那也就(jiù)无所谓“挖掘”了,没有挖掘,大数据(jù)的(de)意义也(yě)荡(dàng)然无存了。
5.数据(jù)处理(lǐ)复杂(zá)(Complexity)
IDC公司的(de)大数据只有4V的特征,我们一般偏向于增加另一(yī)个(gè)维度的要求:数据处(chù)理复杂。例如,统计中(zhōng)国(guó)人口的平均年龄,这(zhè)个(gè)数据量(liàng)是非(fēi)常庞(páng)大的,有(yǒu)接近(jìn)14亿条(tiáo)记录;这个数(shù)据(jù)也是动态更(gèng)新(xīn)的(de),每年都有(yǒu)几千(qiān)万(wàn)人出生,几千(qiān)万死(sǐ)亡;这(zhè)个数据集也可以(yǐ)是多样(yàng)的,湖南的数据可以放在mysql中,湖北的数据可以在(zài)oracle中,北京(jīng)的(de)数据可能在Txt文件(jiàn)中,上海的数据可能(néng)在(zài)Word文档中(zhōng);这个(gè)数据集和这个分析都是有(yǒu)价值的,但是平均到每一条(tiáo)数据,价值又非常有限。也就(jiù)是说,这个问题是(shì)符合4V特征的,但(dàn)是这个问题怎么看(kàn)都“太简(jiǎn)单”了,年(nián)龄加起来求平均(jun1)即可,不能成(chéng)为真(zhēn)正意(yì)义上的(de)“大数据(jù)问题”。
大数(shù)据要(yào)求数据处理(lǐ)复杂,不能脑(nǎo)袋(dài)一拍就可以想出办法,不能套用现有(yǒu)的、成熟的数据库(kù)工具简(jiǎn)单得到答案。
【其他定义(yì)】
除(chú)了上述主(zhǔ)流的定(dìng)义,还有人使用3S或者(zhě)3I描述大数据的特征(zhēng)。
3S指的是:大小(xiǎo)(Size)、速(sù)度(Speed)和结构(gòu)(Structure)。
3I指的是:
(1)、定义不明确的(Ill-de.ned):多个主流的大数据定义都强调了数(shù)据规模需(xū)要超(chāo)过传统方法处理数据的规模,而随着技术的(de)进步,数据分(fèn)析(xī)的效率不断提高(gāo),符合大数据定义的数据规模(mó)也会(huì)相(xiàng)应不断变大,因而并没有一个(gè)明确的标准。
(2)、令人生(shēng)畏的(InTImidaTIng):从管理大(dà)数据到使(shǐ)用正确(què)的工具获取它(tā)的价值,利用大数据的过程(chéng)中充(chōng)满了(le)各种(zhǒng)挑战(zhàn)。
(3)、即(jí)时的(de)(Immediate):数据的价值(zhí)会随着(zhe)时(shí)间快速衰减,因此(cǐ)为了保证大数据(jù)的(de)可控性,需要缩短数(shù)据搜(sōu)集到(dào)获得数(shù)据洞察之间(jiān)的时间,使得(dé)大数据成(chéng)为(wéi)真正的即(jí)时大数据,这意(yì)味着能尽快(kuài)地(dì)分析(xī)数据对获得竞(jìng)争(zhēng)优势至关重要(yào)。
大(dà)数据就是互联网发展到(dào)现今阶段的一种表(biǎo)象或特征而已,没有必要(yào)神话它(tā)或对它保持敬畏之(zhī)心,在以云计(jì)算为代表的(de)技术创新(xīn)大幕的衬托(tuō)下,这些原本(běn)很难收集和使用的数(shù)据开(kāi)始(shǐ)容易被利用起来了,通过各(gè)行各业的不断创新(xīn),大数据会(huì)逐步为人(rén)类创造(zào)更多的(de)价值。