大数据的四大特征

KiCad 华秋发行版 new

供应链、设计、制造,一体成就未来

华秋PCB

高可靠多层板制造商

华秋SMT

高可靠一站式PCBA智造商

华秋商城

自营现货电子元器件商城

PCB Layout

高多层、高密度产品设计

钢网制造

专注高品质钢网制造

BOM配单

专业的一站式采购解决方案

华秋DFM

一键分析设计隐患

华秋认证

认证检测无可置疑

发资料

发帖

提问

发视频

扫码添加小助手

加入工程师交流群

中国高度重视大数据发展。我们秉持创新、协调、绿色、开放、共享的发展理念,围绕建设网络强国、数字中国、智慧社会,全面实施国家大数据战略,助力中国经济从高速增长转向高质量发展。

大数据的定义

大数据是一个宽泛的概念,从2001年“大数据”一词在Gartner的研究报告出现至今,大数据一直没有统一的定义。

Gartner认为大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

无论各方对于大数据的定义有何不同,但均体现了大数据“大”的特征。但体量大、结构多样体现更多的是数据特征,对于数据的处理与应用,则需要新技术(新型计算架构、智能算法等)、新理念与新知识。因此大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。

对于大数据的处理与应用,则需要新技术(新型计算架构、智能算法等)、新理念与新知识。因此大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。

大数据的四大特征

在IT界虽然对大数据都有着自己不同的解读。但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)。

Variety意味着要在海量、种类繁多的数据间发现其内在关联。在互联网时代,各种设备连成一个整体,个人在这个整体中既是信息的收集者也是信息的传播者,加速了数据量的爆炸式增长和信息多样性。这就必然促使我们要在各种各样的数据中发现数据信息之间的相互关联,把看似无用的信息转变为有效的信息,从而做出正确的判断。

Velocity可以理解为更快地满足实时性需求。目前,对于数据智能化和实时性的要求越来越高,比如开车时会查看智能导航仪查询最短路线,吃饭时会了解其他用户对这家餐厅的评价,见到可口的食物会拍照发微博等诸如此类的人与人、人与机器之间的信息交流互动,这些都不可避免带来数据交换。而数据交换的关键是降低延迟,以近乎实时的方式呈献给用户。

大数据的关键技术

大数据作为一种新兴技术,目前尚未形成完善、达成共识的技术标准体系。对大数据的理解和分析,提出了大数据参考架构。

大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。“一个概念体系”是指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色—活动—功能组件”,用于描述参考架构中的逻辑构件及其关系;“二个价值链维度”分别为“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。这些内涵在大数据参考模型图中得到了体现。

大数据的关键技术有:

1、数据收集

大数据时代,数据的来源极其广泛,数据有不同的类型和格式,同时呈现爆发性增长的态势,这些特性对数据收集技术也提出了更高的要求。数据收集需要从不同的数据源实时的或及时的收集不同类型的数据并发送给存储系统或数据中间件系统进行后续处理。数据收集一般可分为设备数据收集和Web数据爬取两类,常常用的数据收集软件有Splunk、Sqoop、Flume、Logstash、Kettle以及各种网络爬虫,如Heritrix、Nutch等。

2、数据预处理

数据的质量对数据的价值大小有直接影响,低质量数据将导致低质量的分析和挖掘结果。广义的数据质量涉及许多因素,如数据的准确性、完整性、一致性、时效性、可信性与可解释性等。

数据预处理形式上包括数据清理、数据集成、数据归约与数据转换等阶段。

3、数据存储

分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类型和数据的组织管理形式直接相关。目前的主要数据存储介质类型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织;主要数据组织管理层次包括按块级组织、文件级组织以及数据库级组织等。

不同的存储介质和组织管理形式对应于不同的大数据特征和应用特点。

4、数据处理

分布式数据处理技术一方面与分布式存储形式直接相关,另一方面也与业务数据的温度类型(冷数据、热数据)相关。目前主要的数据处理计算模型包括MapReduce计算模型、DAG计算模型、BSP计算模型等。

(1)MapReduce分布式计算框架

MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据,并且可以处理数据量为TB和PB级别的超大规模数据。

(2)分布式内存计算系统

使用分布式共享内存进行计算可以有效的减少数据读写和移动的开销,极大的提高数据处理的性能。支持基于内存的数据计算,兼容多种分布式计算框架的通用计算平台是大数据领域所必需的重要关键技术。

(3)分布式流计算系统

在大数据时代,数据的增长速度超过了存储容量的增长,在不远的将来,人们将无法存储所有的数据,同时,数据的价值会随着时间的流逝而不断减少,此外,很多数据涉及用户的隐私无法进行存储。对数据流进行实时处理的技术获得了人们越来越多的关注。

5、数据分析

(1)聚类

聚类指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。

(2)分类

(3)关联分析

关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。关联分析在数据挖掘领域也称为关联规则挖掘。

(4)深度学习

6、数据可视化

大数据产业链

大数据产业链包括一切与大数据产生与聚集(数据源)、组织与管理(储存)、分析与发现(技术)、交易、应用与衍生产业相关的所有活动。按照数据价值实现流程,贵阳大数据交易所发布的《2016年中国大数据交易产业白皮书》将大数据产业链分为六大层级:数据源、大数据硬件支撑层、大数据技术层、大数据交易层、大数据应用层与大数据衍生层,其中每一层都包含相应的IT硬件设施、软件技术与信息服务等,构成了大数据产业链的完整闭环。

数据源:

大数据产业基础。数据源是大数据产业链的第一个环节,是大数据产业发展的基础。由于中国大数据流通在全社会还未形成规模,目前数据源区块主要集中在政府管理部门、互联网巨头、移动通讯企业等手中。随着互联网渗透不断深入,数据产生方式也变得更加多样,数据源已经呈现出爆炸式增长,越来越多的企业将加入数据生产和采集行业,数据源将进一步扩大。

硬件支撑:

技术层:

大数据价值实现手段。大数据技术层指实现一切大数据采集与预处理、存储管理、大数据分析挖掘、大数据安全和大数据可视化的技术手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度,是大数据价值实现的重要条件。

交易层:

应用层:

衍生层:

大数据下的新业态。大数据衍生层是指基于大数据分析和应用而衍生出来的各种新业态。大数据分析和应用,在经济社会各领域的扩散渗透,不仅促进相关产业生产率水平的提升,同时也衍生出很多与之相关联的新兴产业,使得人类生产生活、工作消费方式发生根本性转变。

我国大数据产业发展现状

1 、政策支撑大数据产业发展

2017年1月工信部发布《大数据产业发展规划(2016-2020年)》,规划认为我国大数据产业发展有五点现状:

1)、信息化积累了丰富的数据资源,我国已成为产生和积累数据量最大、数据类型最丰富的国家之一;

2)、大数据技术创新取得明显突破,在软硬件、平台建设、智能分析及开源技术方面均取得一定进展;

3)、大数据应用推进势头良好,在互联网服务中得到广泛应用,同时向传统产业积极渗透;

4)、我国大数据产业体系初具雏形。龙头企业引领下上下游企业互动的产业格局初步形成,同时基于大数据的创新创业日趋活跃,大数据技术、产业与服务成为社会资本投入的热点;

5)、大数据产业支撑能力日益增强,形成了大数据标准化工作机制,标准体系初步形成,同时大数据安全保障体系和法律法规不断完善。

应用为代表的下游产业将成为大数据主体。中国大数据应用市场规模重点集中在政府和金融等领域,与这几个领域数据量大有关。随着大数据产业上游格局逐渐稳定,硬件设备及技术逐渐成熟,以及政府的不断推动,大数据应用行业增速也将超过其他行业。

2、互联网巨头引领产业发展

BAT等互联网巨头引领大数据产业。国内互联网企业业务布局各个方向拥有大量用户,拥有巨量的数据,企业对这些数据进行采集于分析,用于支撑其自身的电子商务、定向广告和影视娱乐等传统业务,来获取更多的经济效益。同时,在互联网产业O2O的趋势下,互联网企业逐渐将业务延伸到金融、保险、旅游、教育、交通服务等多个领域,在这一过程中又进一步丰富了数据来源,促进了分析技术的发展,扩展了大数据分析在诸多行业的应用。

热门行业应用竞争较为激烈。随着大数据逐渐成熟,基础设施逐渐完善,产业上游已经初具规模,各种行业应用不断落地。从需求方来看,企业对于大数据应用的需求持续增强,并着力培育自身的数据资产,各类大数据应用逐渐落地,并成为产业链的核心。

从供给方来看,新兴技术推动大数据技术环境趋向成熟,行业大数据应用逐渐丰富,大数据生态系统多元化程度加强。相比于全球大数据应用于广泛的领域,我国应用主要集中在政府、金融、电商、医疗健康等领域,竞争较为激烈。

3、工业互联网下大数据价值凸显

数据是工业互联网的核心。工业互联网是互联网和新一代信息技术与全球工业系统深度融合集成所形成的产业的应用生态。工业互联网的实质首先是全面互联,在全面互联的基础上,通过数据流动和分析,形成智能化变革,形成新的模式和新的业态,因此工业互联网比互联网更强调数据,更强调充分的联接,数据的传输、集成以及分析和建模,数据是工业互联网的核心。

4 、“数字中国”加码大数据

数字经济已经成为带动中国经济增长的核心动力。根据腾讯研究院发布的《中国互联网+数字经济指数(2017)》数据,2016年,中国数字经济总量达到22.6万亿元,同比增长超过18.9%,显著高于当年GDP增速,占GDP的比重达到30.3%,对GDP的贡献已达到69.9%。同时,报告测算得出2016年数字经济对于我国新增就业的贡献已经超过1/5,成为带动就业增长的新引擎。

5、美国大数据发展领跑世界,中美仍有明显差异

根据贵阳大数据交易所发布的《2016 年中国大数据交易产业白皮书》的数据,2017 年美国大数据市场规模为 1431 亿美元,按当年人民币对美元平均汇率 6.75 计算,2017 年美国大数据市场规模为中国的 2.7 倍。同时,贵阳大数据交易所预计 2020 年美国大数据市场规模将达到 3823 亿美元,占全球市场份额达到 37.2%,远远超过排名第二的中国,发展领跑世界。虽然近年来中国大数据产业发展迅速,且日趋成熟,但与领跑者美国仍有三到五年的差距。

加快建设数字中国 , 更突显国家大数据战略在国家持续发展中的核心地位!明确了大数据战略的核心思想:大数据是信息化发展的新阶段;大数据产业生态要自主可控; 推动实体经济和数字经济融合发展;建设全国信息共享体系和平台;大数据要在改善民生领域有所作为;保障国家数据安全。

审核编辑 :李倩

浏览量

浏览量

原文标题:大数据战略打造"数字中国"

扫码添加小助手

加入工程师交流群

下载发烧友APP

电子发烧友观察

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)

THE END
0.大数据时代的主要特征范文大数据时代的来临无疑会对我国医疗信息化建设起到巨大的推动作用,医疗大数据的相关技术将解决以往无法解决的一些难点和问题,如何利用好大数据技术并且让其充分发挥作用是今后相关科研工作者研究的重点。 1.2医疗大数据的特点 医疗大数据有以下几个主要特征: 1)数据巨量化jvzquC41yy}/i€~qq0ipo8mcqyko1;;7566/j}rn
1.大数据是什么的数据挖掘|帆软数字化转型知识库大数据是指在体量、速度和种类上都超出传统数据处理能力的数据集,数据挖掘是从这些大数据集中提取有价值信息的技术和过程。大数据具有四个主要特征:大体量、高速度、多样性、真实性。大体量指的是数据的规模巨大,以PB、EB甚至ZB为单位;高速度指的是数据生成和处理的速度极快,如实时数据流;多样性指的是数据来源多样,jvzquC41yy}/hjstwct/exr1dnuh1jwvkerf1?6673<0
2.干货|详解数据治理体系根据全国信息技术标准化技术委员会大数据标准工作组制定的大数据标准体系,大数据的标准体系框架共由七个类别的标准组成,分别为:基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准、行业应用标准。本文主要阐述其中的第二个类别:数据标准。 jvzquC41yy}/7=hvq0ipo8|gdcw03=:50jznn
3.计算机学院迎70周年校庆“四个面向”系列科技成果展之二:大数据陈云亮副教授团队,利用大数据及人工智能技术,实现了南方电网输电线路的智能健康监测。首先,利用局部二值模式、主成分分析和ReliefFt特征选择算法提取无人机影像数据(图6)、气象数据和机械数据的特征;然后,应用具有一个隐藏层的多层感知器建立输电线路健康水平的预测模型;最后,利用2013年至2016年南方电网的在线监测数据开jvzquC41eu4dwp3gfw4dp8nphq523=9158<:0qyo
4.教育信息化的发展转型:从“数字校园”到“智慧校园”下图给出了智慧校园内涵、特征与主要技术载体之间的联系。 四、智慧校园的发展策略 发展智慧校园,必然要有一个全面、正确的策略,在数字校园的基础中引领教育信息化继续向前发展。当前,发展智慧校园要重点考虑五个要素。 1.把智慧校园纳入学校发展战略中,加强信息化的凝聚力与协同力 jvzquC41yy}/gwfgc0kew7hp1r~{vwjy1igpfnsilkgp{~4423;hd}x1ectlcxknkgp3:6333723:4423;.3:2381834;>0jvsm
5.关于大数据时代的主要特征,以下说法不正确的是()关于大数据时代的主要特征,以下说法不正确的是( )。A.科学研究的方法手段发生了重大改变B.管理和决策模式由“业务驱动”向“数据驱动”转变C.大数据是信息产业持续高速增长的新引擎D.大数据的影响停留在技术层面的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuatijvzquC41yy}/uqzcuj{bvr3eqo5uk88d9dg8fk6;f::d5
6.Hadoop学习笔记——大数据概述(1)这四个特征称之为大数据的4V特征。 2. 大数据带来的技术变革 技术驱动 存储方式: 文件存储 => 分布式存储 大数据有数据量大的特点,对应的我们的存储方式会从文件存储变为分布式存储。分布式存储的方式可以将大的文件拆分成若干个block(块),不同的块存放到不同的地方。为了提高可靠性,相对应的我们还需要保存每个块jvzquC41dnuh0lxfp0tfv8qv74881jwvkerf1mjvckrt1:6;399339
7.大数据技术概述大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。 (二)大数据的特征 jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1::34;:8
8.张春艳:大数据时代的公共安全治理理论在当今时代,由于快速的社会变革而引发的各种危机事件将人类社会带入了一个真正的“风险社会”。风险社会的本质特征是“不确定性”,即对风险难以进行有效预测与控制。鉴于此,政府管理者乃至社会公众风险认知能力的提升成为改善公共安全治理效果的关键。近些年来信息技术的发展特别是“大数据”时代的来临带来了数据与信息jvzq<84vjgus{7ugqrrf0lto0et0p87236524:71e478;9:/487:8<860jznn
9.数字化转型与“一体化”税收风险管理新体系的建构四是智能算法的创新应用。依托大数据、人工智能、机器学习等现代信息技术,结合税收风险特征,进一步提升涉税风险感知能力,从原有以业务数据集成、人工线索上报为主的风险识别模式,提升为融合非结构化数据智能算法分析、应用操作行为洞察等在内的智能感知特征识别模式,利用智能算法将纳税人相关业务数据和操作行为作为风险智能感jvzq<84evk4dvj}0qtm/ew4zu{p41uq{l5532;8291z32;82938`3:7;33>/uqyon
10.大数据思维的“三性三化”特征大数据思维,是人类社会的一种高维度思维,就像牛顿、莱布尼茨发明微积分之后,数学科学才从初等数学上升到高等数学。 大数据思维具有六个特征,即资源性、相关性、全局性以及定量化、精准化和智能化,简称“三性三化”。 在大数据时代,应该具备怎样的大数据思维,才能引领人们在这个时代如鱼得水呢? jvzquC41yy}/rjqo{q{/exr1pf4kuyDkf?;9