数据的五个特征三道难题一种自大腾讯云开发者社区

“数据是新石油”(Clive Humby,2006)。如果一定要找出一样,数据最像的还真是石油。两者都是重要的战略资源,都是驱动世界的动力。但数据只是数据,它不是其它任何东西。

数据是一种客观存在,是关于事物的事实描述,可通过测量、记录、发现等方式去获得。数据具有无限性、易复制性、非均质性、易腐性和原始性五个特征。

(1)无限性。与实物不同,数据不会因使用而耗尽,反而是因使用而产生,会不断被创造,会越来越多。“数据将成为最基本的客观产物,无论做什么,我们都在产生数据”(Paul Sonderegger,2017)。根据DASA R&T《2016-2045年新兴科技趋势》,全球新产生的数据量大约每两年翻一番。这堪称大数据摩尔定律,数据大爆炸是必然。

(2)易复制性。数据可以快速地以近乎零成本的方式进行复制,可供多人同时使用,可多次循环使用,一个人的使用可以不排斥和妨碍别人对其使用,不同人之间在使用上不存在直接的利益冲突。易复制性使得数据具有一定程度的非竞争性和非排他性,但数据不是公共品,有公共数据、企业数据和个人数据之分。

(3)非均质性。《潜伏》中谢若林有句话:“现在两根金条放在这儿,你告诉我哪一根是高尚的,哪一根是龌龊的?”这说明了一个道理——金条是均质的,两根金条有着同等的价值表现。均质性普遍存在,例如出厂的商品、油电气等能源。而数据是非均质的,一比特数据跟另一比特数据所包含的价值完全不同,同一份数据对不同人的价值也不一样。正如王钦敏(2023)所说:“数据价值因使用对象而异,因应用场景而异,因专业化数据质量标准而异。”

(5)原始性。数据是原始的,本身并没有意义,只有对它进行处理分析,才能转变成对人们有用的信息。如果说数据是新石油,那么分析就是内燃机。信息是数据提炼后的产物;信息经人脑加工后形成知识,知识具有主观性;数据、信息和知识是历史的,而智慧是关于未来的,是人们运用知识做出决策和判断的能力。

对数据、信息、知识和智慧之间的关系,福特汉姆大学Zeleny教授(1987)提出了DIKW金字塔模型(如下图所示),从底层到顶层依次是:

图 DIKW金字塔模型

一个人和周围人的差距主要在于掌握信息、理解信息和运用信息的能力不同。数据和信息至关重要。但当下有三道难题困扰着数据健康有序发展,即数据确权、数据交易和数据要素。我们要迎难而上、敢于作为,以极大的勇气和智慧破解一切困难。

(1)数据确权。关云长身在曹营心在汉。对物理存在的身体之归属,我们比较容易判断;而内心和灵魂是缥缈不定的,具有不确定性、隐秘性和多元性,不乏同时属于多个主体的情况。数据与之类似,人们很难清晰判定它属于谁,很难对其进行有效的物理切割和合理的权利分配。确权的复杂性与数据本身的特征有关,也与权利主体的多样性有关。数据链条涉及多个参与者,他们缺一不可且无法单独发挥作用,具有不同的诉求。加之,数据的价值密度低,所产生的效益难以清晰衡量,这使得数据确权的成本极高。

(2)数据交易。交易是一种互利互惠的行为,是人类社会中最具自发性和最具积极性的活动。唯有双方都从中获益,交易才会发生。对数据而言,交易则是一个难题。联合国贸发会议(2019)指出:“数据具有重要的使用(或滥用)价值,但不像大多数经济商品那样具有交换价值。”现实中的交易一般具有明确的价格,是可重复、可预期的。例如,商店把明码标价的奶茶重复售卖给不同的消费者,消费者获得的效用是可预期的——止渴、美味、社交。数据非均质、价值不易衡量、定价困难、预期效用难以管理、有“搭便车”风险……这都是数据交易中要面对的问题。

(3)数据要素。生产要素是人们用来生产商品和劳务所必备的基本资源。它促进生产,但不会成为产品和劳务的一部分,也不会因生产过程而发生显著变化。新古典学派创始人马歇尔在其名著《经济学原理》(1890)中提出了生产要素四元论,即土地、劳动、资本和企业家才能。梅宏院士指出(2023):“把数据确立为重要的生产要素是中国的首创。”然而,在经济学上定义数据生产要素是一件困难的事情,尚未看到有影响力和说服力的成果,迫切需要经济学家们加紧研究。

提起数据挖掘的经典案例,很多人会想到“啤酒加尿布”和谷歌流感趋势。实际上前者是一个故事,早在1992年就已出现,并没有真正发生过;后者曾提前预测出流感到来,不过因后来的准确性太低而早已被关闭。

数据的重要性毋庸置疑。人们喜欢在“数据”之前加一个“大”字,以彰显非同寻常。人们也时常陷入“大数据自大(big data hubris)”的误区。数据能解决很多问题,但有局限性,通过数据难以预测突变。一只岁月静好的猪,无法通过既往数据预测出春节的黑天鹅;马车的出行数据,可以使人们获得“一匹更快的马”,但不能使人们发明出汽车。数据是企业的竞争优势,但不是万能的。一个好的APP不会因有历史数据就能高枕无忧,它时刻受到创新者的挑战,只能“各领风骚仅几年”;创业者哪怕没有数据、没有积累,也可以推出创新产品,获得用户,取得成功。从这个角度上说,没有数据也不是不行。

大数据时代,“要相关,不要因果”被奉为圭臬。“关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值”(李国杰,2015)。只信“数”不如无“数”。我们要综合运用实验观察、逻辑演绎、归纳提炼等科学方法,探究事物之间的关系和规律,才能挖掘出有价值的信息和结论。

我们重视数据,根本上不是因为数据本身重要,而是尊重客观世界和客观规律的实事求是精神重要,数据即事实。正如李国杰院士(2015)所言:“重视数据就是强调用事实说话、按理性思维的科学精神。”

THE END
0.大数据时代的主要特征范文大数据时代的来临无疑会对我国医疗信息化建设起到巨大的推动作用,医疗大数据的相关技术将解决以往无法解决的一些难点和问题,如何利用好大数据技术并且让其充分发挥作用是今后相关科研工作者研究的重点。 1.2医疗大数据的特点 医疗大数据有以下几个主要特征: 1)数据巨量化jvzquC41yy}/i€~qq0ipo8mcqyko1;;7566/j}rn
1.大数据是什么的数据挖掘|帆软数字化转型知识库大数据是指在体量、速度和种类上都超出传统数据处理能力的数据集,数据挖掘是从这些大数据集中提取有价值信息的技术和过程。大数据具有四个主要特征:大体量、高速度、多样性、真实性。大体量指的是数据的规模巨大,以PB、EB甚至ZB为单位;高速度指的是数据生成和处理的速度极快,如实时数据流;多样性指的是数据来源多样,jvzquC41yy}/hjstwct/exr1dnuh1jwvkerf1?6673<0
2.干货|详解数据治理体系根据全国信息技术标准化技术委员会大数据标准工作组制定的大数据标准体系,大数据的标准体系框架共由七个类别的标准组成,分别为:基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准、行业应用标准。本文主要阐述其中的第二个类别:数据标准。 jvzquC41yy}/7=hvq0ipo8|gdcw03=:50jznn
3.计算机学院迎70周年校庆“四个面向”系列科技成果展之二:大数据陈云亮副教授团队,利用大数据及人工智能技术,实现了南方电网输电线路的智能健康监测。首先,利用局部二值模式、主成分分析和ReliefFt特征选择算法提取无人机影像数据(图6)、气象数据和机械数据的特征;然后,应用具有一个隐藏层的多层感知器建立输电线路健康水平的预测模型;最后,利用2013年至2016年南方电网的在线监测数据开jvzquC41eu4dwp3gfw4dp8nphq523=9158<:0qyo
4.教育信息化的发展转型:从“数字校园”到“智慧校园”下图给出了智慧校园内涵、特征与主要技术载体之间的联系。 四、智慧校园的发展策略 发展智慧校园,必然要有一个全面、正确的策略,在数字校园的基础中引领教育信息化继续向前发展。当前,发展智慧校园要重点考虑五个要素。 1.把智慧校园纳入学校发展战略中,加强信息化的凝聚力与协同力 jvzquC41yy}/gwfgc0kew7hp1r~{vwjy1igpfnsilkgp{~4423;hd}x1ectlcxknkgp3:6333723:4423;.3:2381834;>0jvsm
5.关于大数据时代的主要特征,以下说法不正确的是()关于大数据时代的主要特征,以下说法不正确的是( )。A.科学研究的方法手段发生了重大改变B.管理和决策模式由“业务驱动”向“数据驱动”转变C.大数据是信息产业持续高速增长的新引擎D.大数据的影响停留在技术层面的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuatijvzquC41yy}/uqzcuj{bvr3eqo5uk88d9dg8fk6;f::d5
6.Hadoop学习笔记——大数据概述(1)这四个特征称之为大数据的4V特征。 2. 大数据带来的技术变革 技术驱动 存储方式: 文件存储 => 分布式存储 大数据有数据量大的特点,对应的我们的存储方式会从文件存储变为分布式存储。分布式存储的方式可以将大的文件拆分成若干个block(块),不同的块存放到不同的地方。为了提高可靠性,相对应的我们还需要保存每个块jvzquC41dnuh0lxfp0tfv8qv74881jwvkerf1mjvckrt1:6;399339
7.大数据技术概述大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。 (二)大数据的特征 jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1::34;:8
8.张春艳:大数据时代的公共安全治理理论在当今时代,由于快速的社会变革而引发的各种危机事件将人类社会带入了一个真正的“风险社会”。风险社会的本质特征是“不确定性”,即对风险难以进行有效预测与控制。鉴于此,政府管理者乃至社会公众风险认知能力的提升成为改善公共安全治理效果的关键。近些年来信息技术的发展特别是“大数据”时代的来临带来了数据与信息jvzq<84vjgus{7ugqrrf0lto0et0p87236524:71e478;9:/487:8<860jznn
9.数字化转型与“一体化”税收风险管理新体系的建构四是智能算法的创新应用。依托大数据、人工智能、机器学习等现代信息技术,结合税收风险特征,进一步提升涉税风险感知能力,从原有以业务数据集成、人工线索上报为主的风险识别模式,提升为融合非结构化数据智能算法分析、应用操作行为洞察等在内的智能感知特征识别模式,利用智能算法将纳税人相关业务数据和操作行为作为风险智能感jvzq<84evk4dvj}0qtm/ew4zu{p41uq{l5532;8291z32;82938`3:7;33>/uqyon
10.大数据思维的“三性三化”特征大数据思维,是人类社会的一种高维度思维,就像牛顿、莱布尼茨发明微积分之后,数学科学才从初等数学上升到高等数学。 大数据思维具有六个特征,即资源性、相关性、全局性以及定量化、精准化和智能化,简称“三性三化”。 在大数据时代,应该具备怎样的大数据思维,才能引领人们在这个时代如鱼得水呢? jvzquC41yy}/rjqo{q{/exr1pf4kuyDkf?;9