认证主体:于**(实名认证)
IP属地:天津
下载本文档
2、经让现有的数据库管理工具相 形见细,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. Wikipedia表述2大数据是指需要用新的处理模式处理才能使其具有更强的决策力、洞察发 现力和流程
3、优化能力的海量、高增长率和多样化的信息资产。从数据的类别上 看,大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超 出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。表述3大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合 理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目 的的资讯。表述4美国咨询公司麦肯锡给出的大数据定义:大数据是指其大小超出常规数据 库工具的采集、存储、管理和分析能力的数据集。由于传统数据库有效工作的数据上限一般为 10100TB;因而10100TB 通常成为大数据的“门槛”。无独有偶,IDC (国际数据公司)在给大数
4、据做定义时,也把大数据的 “门槛”设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰 的数值来指导对大数据的判断总是好事。表述5维基百科给出的大数据定义:所谓大数据在当今的互联网业界是指这样一种现象:一个网络公司日常运营所生成和积累的用户网络行为数据增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、 存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不能用我们以所熟知的多少 G和多少T为单位来衡量,而要以P、E或Z为计量单 位来衡量,所以称之为大数据。表述6国际数据公司(IDC)是从大数据的4V特点来定义的,即:海量的数据规 模(Vol
5、ume)、快速的数据流转和动态的数据体系( Velodty)、多样的数据 类型(Variety)、巨大的数据价值(Value)。表述7大数据是指以多元形式、从许多来源搜集而来的往往具有实时性的庞大数 据组。在企业对企业销售的情况下,这些数据可能来源于社交网络、电子商务 网站、顾客来访纪录,还有许多其他来源。这些数据并非公司顾客关系管理数 据库的常态数据组。表述8大数据是指所涉及的数据量规模巨大到无法通过人工、在合理时间内达到 掘取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨 大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。表述9故名思意,大数据便是数量巨大,类
6、型众多,结构复杂的数据集合。数据 具有较小的价值;而数据集合因为数量众多,量变引起质变,所以其价值无可 估量。表述10大数据是指所有数据的集合,具有4V特点,即:数据量大(Volume)、数据类型多样(Variety )、生成速度快(Velocity )、蕴含巨大价值(Value)二、记者访谈:大数据有多大据报道,有记者就大数据有关问题与有关专家进行了访谈。现将其访谈录 介绍如下,供读者参考。记者:对于大数据有一个形象的说法:现在即使是一个孩子也可以把一个 小小的存储器放入书包,随身携带 TB级的数据去学校上课,甚至把整个人类 文明背上都不是问题。经过大量数据的训练和装备,未来的电子产品或者机
7、器 可以成为大有裨益的终身数据伴侣:它可以预测你是想要一包方便面还是一颗 感冒药;你想去旅游还是选择最不堵车的路线去看球赛;甚至还能以你的名义 饱蘸激情投入工作。大数据这个概念,看似从字面就能理解;但是确实以前没 有这么火过。首先,我们想知道的是,大数据到底有多大?专家:互联网搜索、电子商务交易平台和微博等社交网站所产生的各种数 据内容,经常被用来证明大数据之大。其实,在传统产业和我们的生活中,大 数据比比皆是。以北京市交通智能化分析平台为例,它的数据源是路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化学危险品运输、停车、租 车等运输行业等。4万辆浮动车每天产生2000万条
8、记录;交通卡刷卡记录每天 1900万条;手机定位数据每天1800万条;出租车运营数据每天100万条;高 速ETC (Electronic Toll Collection,(不停车)电子收费(系统)数据每天 50万条这些信息,从数据体量和速度上,都达到了大数据的规模。发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之 未做、前人所不能做的机会。这也正是大数据最主要的特证。比如,交通状况与其它领域的数据都存在较强的关联性。研究发现,可以 从供水系统数据中发现,晨洗的高峰时间加上一个偏移量,通常是4045分钟,这就是交通早高峰时间。同样,可以从电网数据中,统计出傍晚办公楼集 中关灯的时
9、间加上偏移量来估计出晚上的堵车时间。国外的研究甚至发现了交 通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。记者:IT业界所指的数据诞生不过60多年。而一直到个人电脑普及以前,由于存储、计算和分析工具的技术和成本限制,因而许多自然界和人类社 会值得记录的信息,并未形成数据。大数据到底有没有一个门槛”?关于大数据的一些定义准确吗?专家:国际数据统计机构(IDC)对全世界每年创建和复制的信息的体量 做了估计和预测:2011年为1.8ZB, 2012年为2.8ZB。按照每两年翻一番的速 度,2020年将达到40ZB。这个数据怎么算出来的呢?IDC秘而不宣。1.8ZB是什么概念?它相当于45
10、00亿张DVD,或6500万年的高清视频,或1130亿台 装满数据的iPad。如果把这些iPad覆盖到足球场并往上堆叠,其高度可达到 10.3公里,比珠穆朗玛峰还高。思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB。其实,所有这些数据加起来都不如谷歌的前CEO施密特的下述说法有感染力:从人类文明曙光到 2003年数以万年计的时间长河里,人 类一共产生了 5EB (天知道他是怎么算出来的),而到 2010年每两大人类就能 产生5EB的数据。这类数据的预测对于存储和网络企业的投资者来说无疑能提升信心;但是 对其他人来说没有太大意义。他们更关心的是个体行业、企业和个人数据的状 况。
11、美国咨询公司麦肯锡对大数据的定义就是从个体数据集的大体量入手的: 大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存 储、管理和分析。传统数据库有效工作的数据上限,一般来说为10100TB;因此,10100TB通常就成为大数据的“门槛”。无独有偶,IDC在给大数据 做定义时,也把其 门槛”设在100TB。其实,这种方法未必科学。不管怎样, 有一个简单明晰的数值来指导企业对大数据的判断总是好事。三、大数据的4V特点1、大数据4V特点解读(1)大数据的4V特点是指大数据在Volume (大量)、Variety (多样)、Velocity (高速)、Value (价值)这4个方面(
12、层面)的特点。、Volume (大量)Volume (大量)是指大数据的体量(规模、容量或尺寸)巨大,从 TB级 别跃升到PB级别。二进制信息最小基本单位为Bit (比特),按顺序其所有单位为:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。其中,1 Byte (字节)=8bit其它按照进率1024 ( = 210)来计算,即:1KB ( Kilobyte ,千字节)=1024Bytes= 1024B1MB (Megabyte,兆字节,简称兆)=1024KB1GB (Gigabyte,吉字节)=1024MB1TB (Terabyte,太字节)=1024GB1PB (
13、Petabyte,拍字节)=1024TB1EB (Exabyte,艾字节)=1024PB1ZB (Zettabyte,泽字节)=1024EB1YB (Yottabyte,尧字节)=1024ZB1BB (Brontobyte) = 1024YB1NB= 1024BB1DB= 1024NB、Variety (多样)Variety (多样)是指大数据类型繁多,如网络日志、视频、图片、地理位 置信息等等。、Velocity (高速)Velocity (高速)是指大数据处理速度快,要求满足 1秒定律。所谓1秒定 律,或称秒级定律,是指对大数据处理速度有一定要求,一般要求在秒级时间 范围内给出分析结果,时
14、间太长就失去价值了。这个速度要求是大数据处理技 术和传统数据挖掘技术之间的最大区别。、Value (价值)Value (价值)是指大数据价值密度低。以视频为例,在连续不间断视频监 控过程中可能有用的数据仅仅只有一两秒。2、大数据4V特点解读(2)虽然对大数据的特点有不同说法,但是业界一般认为,大数据具有4V特点,即:大数据在 Volume (容量)、Variety (种类)、Velocity (速度)和最 重要的Value (价值)这4个方面(层面)的特点。、Volume (容量)Volume (容量)是指大数据巨大的数据量与数据完整性。IT业界所指的数据诞生不过60多年。而一直到个人电脑普及
15、之前,由于存储、计算和分析工具 的技术和成本限制,许多自然界和人类社会值得记录的信号并未形成数据。几 十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出 信号的行业,但是那时 90%以上采用的是存储模拟信号,难以通过计算设备和 软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键 的信号,进行抽取、转换、装载到数据库中。尽管业界对达到怎样的数量级才算是大数据并无定论,但是在很多行业的 应用场景里,数据集本身的大小并不是最重要的,而是否具有完整性才是最重 要的。、Variety (种类)Variety (种类)意味着要在海量、种类繁多的数据之间发现其内在关联。
16、在互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的 Web 2.0时代,个人计算机用户不仅可以通过网络获取信息,而且已成为信息的制造 者和传播者。在这个阶段,不仅是数据量开始爆炸式增长,数据种类也开始变 得繁多。这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关 系的那些数据之间的关联性,把似乎没有用的数据变成有用的信息,以支持我 们做出正确的判断。、Velocity (速度)Velocity (速度)可以理解为更快地满足实时性需求。数据的实时化需求正 越来越清晰和迫切。对普通人而言,开车去吃饭,会先用移动终端中的地图查 询餐厅的位置,预计行车路线的拥堵情况,了解停
17、车场信息甚至是其他用户对 餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或 者微信上。还可以用 LBS (基于位置的服务)应用查找在同一间餐厅吃饭的 人,看有没有好友在附近。如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之 间产生无处不在的连接。这些连接不可避免地带来数据交换。而数据交换的关 键是降低延迟,以近乎实时(这意味着小于 250毫秒)的方式呈献给用户。、Value (价值)比前面3个特点更重要的就是 Value (价值)。它是大数据的最终意义, 即:获得洞察力和价值。大数据的崛起,正是在人工智能、机器学习和数据挖 掘等技术的迅速发展驱动下,呈现这么
18、一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,最后以知识促成决策和行动就大数据的价值而言,就像在沙子里淘金,大数据规模越大,真正有价值 的数据相对越少。所以,真正好的大数据系统,重要的不是越多越好,其实越少越好。开始 数据要多,最好还是要少,把 ZB、PB最终变成一个比特,也就是最后的决 策。这才是最关键的。四、大数据的海量、多样性、高速、易变性1、海量企业面临着数据量的大规模增长。例如,IDC最近的报告预测,到 2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标, 单一数据集的规模范围从几十 TB到数PB不等。简而言之,存储1PB数据将 需要两万台
19、配备50GB硬盘的个人电脑。止匕外,各种意想不到的来源都能产生数据。例如,从巴塞罗那至沙特首府 利雅得的单程航行中,一架商用喷气式飞机上收集的传感器数据量将超过 1PB。当用一次飞行的数据量,乘以每天所有飞行的航班数,数据总量将非常 惊人。2、多样性普遍认为,人们使用互联网搜索是形成数据多样性的主要原因。这一看法 部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网 络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型所造 成的。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数 据的多样性。3、高速高速描述的是数据被创建和移动的速度。在高速网络时代,通
20、过基于实现 软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。 企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回 给用户,以满足他们对信息的实时需求。根据IMS Research研究机构关于数据创建速度的调查,通过跟踪互联网设 备的激活量发现,联网设备增长的第二波浪潮正在加速到来。在本轮增长以 后,将涌现更多新型互联网设备增长的浪潮。据预测,到 2020年,全球将拥有 220亿部互联网连接设备。4、易变性大数据具有多层结构。这意味着大数据会呈现出多变的形式和类型。与传 统的业务数据相比较,大数据存在不规则和模糊不清的特性,导致很难甚至无 法使用传统的应用软
21、件对其进行分析。传统业务数据随时间演变已拥有标准的 格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是,处理数据 并从以各种形式呈现的复杂数据中挖掘其价值。五、大数据的7大特点有的研究者还归纳出大数据的7大特点,它们是:1、容量(Volume)数据的大小决定所考虑的数据的价值和潜在的信息。2、种类(Variety )数据类型的多样性。3、速度(Velocity)获得数据的速度。4、可变性(Variability )妨碍处理和有效地管理数据的过程。5、真实性(Veracity )数据的质量。6、复杂性(Complexity )数据量巨大,来源多渠道。7、价值(Value)合理运用大数据,
22、以低成本创造高价值。六、大数据的3种特性1、数据的完整性和综合性大数据的特性之一是数据的完整性和综合性。很多业内朋友一谈起大数据,就习惯性地盘点起自己那点存货,或者那些 可以直接从自身服务中可以获取的东西。考虑到目前互联网的发展还在非常初 级的阶段,现有网络服务都是简化、扭曲、片面地对现实世界的浓缩和裁剪。 由此产生的数据是零乱的、破碎的、局部的;其中所含有的含金量是极其有限 的。如果同意这个世界上的万事万物可以而且正在被数据化和网络化,那么由 此产生的大数据就必然是完整的和综合的。它不仅包括网络公司通过自身服务 所获得的用户行为数据,而且还包括社会的、经济的、政治的、自然的方方面 面的数据。
23、这些数据当然分散在不同的企业、机构和政府部门,汇聚整合在一 起绝非易事。但是,操作上的困难并不能否定大数据本身的完整性和综合性。今天之所以讨论大数据时代的到来,是因为互联网发展到目前阶段使得现 实世界数据化发展到了一定程度,各种信息终端普及到了一定程度,数据获取 的成本降到了一定程度,使得完整和综合的数据不仅是一种理想,也正在变为现实。2、数据的开放性和公共性大数据的特性之二是数据的开放性和公共性。正是因为完整、综合的大数据难以由一家公司、机构或政府部门所获得, 所以大数据必然产生于一个开放的、公共的网络环境之中。这种开放性和公共 性的实现,取决于若干个网络开放平台或云服务以及一系列受到法律支
24、持或社 会公认的数据标准和规范。任何封闭的或单向获取的数据,都不可能是大数 据,无论这些数据的规模有多大。3、数据的动态性和及时性大数据的特性之三是数据的动态性和及时性。天体物理学和理论物理学早就依赖于从宇宙间获取的大量数据。类似的学 科还有:环境生态学、医药学和自控技术。但是,这和我们今天讨论的大数据 不是一回事。今天的大数据是基于互联网的及时动态数据,不是历史的或严格 控制环境下产生的东西。总之,今天我们谈论的大数据是完整综合的、开放公共的、动态及时的。 这样的大数据是我们过去从未有机会获取利用过的全新挑战,也是我们未来应 该努力去争取利用的全新战略机会。如果有人以为过去积累的那点数据就是
25、大 数据,或者过去积累的数据处理利用能力和经验就可以在大数据时代自然领 先,那不是无知就是狂妄。七、大数据的价值大数据最核心的价值在于对海量数据进行存储和分析。与现有的其他技术 相比较,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。大数据的价值并不在“大”,而在于“有用”。价值含量、挖掘成本,比 数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关 键。1、大数据的主要价值归纳起来,对企业而言,大数据的主要价值体现在以下几个方面:、精准营销对为大量消费者提供产品或服务的企业,可以利用大数据进行精准营销;、服务转型对做小而美模式的中长尾企业,可以利用大数据做服务转型;、
26、传统企业转型在面临互联网压力之下必须转型的传统企业,需要与时俱进充分利用大数 据的价值。2、大数据及其分析对企业的有利情况不过,大数据在经济发展中的巨大意义,并不代表其能够取代一切对于社 会问题的理性思考;科学发展的逻辑不能被湮没在海量数据中。著名经济学家 路德维希冯米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益积 累,以致于对问题之说明与解决,丧失了其对特殊经济意义的了解。”这确实 是需要警惕的。在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如 何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织 利用相关数据和分析,可以帮助它们降低成本、提高效率、开发
27、新产品、做出 更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对 企业有益的情况都可能会发生:、为企业节省支出及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。、为快递车辆规划实时交通路线为成千上万的快递车辆规划实时交通路线,躲避拥堵。、以利润最大化为目标来定价和清理库存分析所有SKU,以利润最大化为目标来定价和清理库存。SKU是英文Stock Keeping Unit的缩写,意思是最小存货单位(库存量单 位)。例如,食品公司同品牌同包装同重量的食品,若一种是苹果口味,一种 是西瓜口味,则这是两个不同 SKU的产品。如果一家公司的同一种产品有两个 品牌,那么这两个
28、不同品牌的同一种产品的SKU号码也是不同的。也就是说,同一家公司生产的一类产品的品牌、包装形式、形状、重量(数量)、口味(配方)、颜色、产地、等级等参数,只要有一个参数变化,都会产生新的 SKU。、为客户推送感兴趣的优惠信息根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。、快速识别出金牌客户从大量客户中快速识别出金牌客户。、规避欺诈行为使用点击流分析和数据挖掘来规避欺诈行为。八、大数据时代早在1980年,著名未来学家阿尔文托夫勒便在第三次浪潮一书中, 将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从 2009年开 始,大数据才成为互联网信息技术行业的流行词汇。美国互联网数据中心指 出,互联网上的数据每年将增长50%,每两年便将
0/150
联系客服
本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!