本文转自:http://www.199it.com/archives/167397.html
在写这篇文章之前,我发现身旁很多IT人对这些热门的新技术、新趋势常常趋之若鹜却又很难说的透彻,如果你问他大数据和你有甚么关系?估计很少能说出123来。究其缘由,1是由于大家对新技术有着相同的原始渴求,最少知其然在聊天时不会显得很“土鳖”;2是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。
我希望有些不1样,所以对该如何去认识大数据进行了1番思索,包括查阅了资料,翻阅了最新的专业书籍,但我其实不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来构成毫无价值的转述或评论,我很真诚的希望进入事物探访本质。
如果你说大数据就是数据大,或侃侃而谈4个V,或许很有深度的谈到BI或预测的价值,又或拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud Computing,不管对错,只是没法勾画对大数据的整体认识,不说是片面,但最少有些管窥蠡测、隔衣瘙痒了。……或许,“解构”是最好的方法。
首先,我认为大数据就是互联网发展到当今阶段的1种表象或特点而已,没有必要神话它或对它保持畏敬之心,在以云计算为代表的技术创新大幕的衬托下,这些本来很难搜集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐渐为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从3个层面来展开:
第1层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特点定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的久长博弈。
第2层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、散布式处理技术、存储技术和感知技术的发展来讲明大数据从收集、处理、存储到构成结果的全部进程。
第3层面是实践,实践是大数据的终究价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据4个方面来描绘大数据已展现的美好景象及行将实现的蓝图。
最早提出大数据时期到来的是麦肯锡:“数据,已渗透到现今每个行业和业务职能领域,成为重要的生产因素。人们对海量数据的发掘和应用,预示着新1波生产率增长和消费者盈余浪潮的到来。”
业界(IBM 最早定义)将大数据的特点归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或说特点有4个层面:第1,数据体量巨大。大数据的起始计量单位最少是P(1000个T)、E(100万个T)或Z(10亿个T);第2,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第3,价值密度低,商业价值高。第4,处理速度快。最后这1点也是和传统的数据发掘技术有着本质的不同。
其实这些V其实不能真正说清楚大数据的所有特点,下面这张图对大数据的1些相干特性做出了有效的说明。
古语云:3分技术,7分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已不用去论证了。维克托·迈尔-舍恩伯格在《大数据时期》1书及第了百般例证,都是为了说明1个道理:在大数据时期已到来的时候要用大数据思惟去发掘大数据的潜伏价值。书中,作者提及最多的是Google如何利用人们的搜索记录发掘数据2次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和阅读历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去10年所有的航线机票价格打折数据,来预测用户购买机票的时机是不是适合。
那末,甚么是大数据思惟?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效力而不是精确度;3-关注相干性而不是因果关系。
阿里巴巴的王坚对大数据也有1些独特的见解,比如,
“今天的数据不是大,真正成心思的是数据变得在线了,这个恰正是互联网的特点。”
“非互联网时期的产品,功能1定是它的价值,今天互联网的产品,数据1定是它的价值。”
“你千万不要想着拿数据去改进1个业务,这不是大数据。你1定是去做了1件之前做不了的事情。”
特别是最后1点,我是非常认同的,大数据的真正价值在于创造,在于弥补无数个还未实现过的空白。
有人把数据比喻为蕴藏能量的煤矿。煤炭依照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的发掘本钱又不1样。与此类似,大数据其实不在“大”,而在于“有用”。价值含量、发掘本钱比数量更加重要。
大数据是甚么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部份都是其社交网站上的数据。
如果把大数据比作1种产业,那末这类产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行动相干性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就能够有针对的在每一个怀孕顾客的不同阶段寄送相应的产品优惠卷。
Target的例子是1个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的1个很有指点意义的观点:通过找出1个关联物并监控它,就能够预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的2次利用的典型案例。如果,我们通过收集驾驶员手机的GPS数据,就能够分析出当前哪些道路正在堵车,并可和时发布道路交通提示;通过收集汽车的GPS位置数据,就能够分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据合适卖给广告投放商。
不管大数据的核心价值是否是预测,但是基于大数据构成决策的模式已为很多的企业带来了盈利和名誉。
从大数据的价值链条来分析,存在3种模式:
1- 手握大数据,但是没有益用好;比较典型的是金融机构,电信行业,政府机构等。
2- 没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。
3- 既有数据,又有大数据思惟;比较典型的是Google,Amazon,Mastercard等。
未来在大数据领域最具有价值的是两种事物:1-具有大数据思惟的人,这类人可以将大数据的潜伏价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被发掘的油井,金矿,是所谓的蓝海。
Wal-Mart作为零售行业的巨头,他们的分析人员会对每一个阶段的销售记录进行了全面的分析,有1次他们无意中发现虽不相干但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵抗飓风物品居然销量都有大幅增加,因而他们做了1个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。
还有1个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“逐日军情汇报”,由值班顾问读出下属各个纵队、师、团用电台报告确当日战况和缉获情况。那几近是重复着千篇1律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缉获的火炮、车辆多少,枪枝、物质多少……有1天,顾问照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战役的缉获,你们听到了吗?”大家都很茫然,由于如此战役每天都有几10起,不都是差不多1模1样的枯燥数字吗?林彪扫视1周,见无人回答,便接连问了3句:“为何那里缉获的短枪与长枪的比例比其它战役略高?”“为何那里缉获和击毁的小车与大车的比例比其它战役略高?”“为何在那里俘虏和击毙的军官与兵士的比例比其它战役略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我料想,不,我判定!敌人的指挥所就在这里!”果然,部队很快就捉住了敌方的指挥官廖耀湘,并获得这场重要战役的成功。
这些例子真实的反应在各行各业,探求数据价值取决于掌控数据的人,关键是人的数据思惟;与其说是大数据创造了价值,不如说是大数据思惟触发了新的价值增长。
我们先看看大数据在当下有怎样的杰出表现:
其实,这些还远远不够,未来大数据的身影应当无处不在,就算没法准确预测大数据终会将人类社会带往到哪一种终究形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每个角落。
比如,Amazon的终究期望是:“最成功的书籍推荐应当只有1本书,就是用户要买的下1本书。”
Google也希望当用户在搜索时,最好的体验是搜索结果只包括用户所需要的内容,而这其实不需要用户给予Google太多的提示。
而当物联网发展到达1定范围时,借助条形码、2维码、RFID等能够唯1标识产品,传感器、可穿着装备、智能感知、视频收集、增强现实等技术可实现实时的信息收集和分析,这些数据能够支持智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的收集数据来源和服务范围。
未来的大数据除将更好的解决社会问题,商业营销问题,科学技术问题,还有1个可预感的趋势是以人为本的大数据方针。人材是地球的主宰,大部份的数据都与人类有关,要通过大数据解决人的问题。
比如,建立个人的数据中心,将每一个人的平常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从诞生那1刻起的每分每秒,将除思惟外的1切都贮存下来,这些数据可以被充分的利用:
……
固然,上面的1切看起来都很美好,但是不是是以牺牲了用户的自由为条件呢?只能说当新鲜事物带来了革新的同时也一样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在1起聊天,自从手机普及后特别是有了互联网,大家不用聚在1起也能够随时随地的聊天,只是“病菌”滋生了另外1种情形,大家渐渐习惯了和手机共渡时光,人与人之间情感交换恍如永久隔着1张“网”。
你也许其实不敏感,当你在不同的网站上注册了个人信息后,可能这些信息已被分散出去了,当你稀里糊涂的接到各种邮件,电话,短信的滋扰时,你不会想到自己的电话号码,邮箱,生日,购买记录,收入水平,家庭住址,亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。
更可怕的是,这些信息你永久没法删除,它们永久存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。
用户隐私问题1直是大数据利用难以绕开的1个问题,如被央视暴光过的分众无线、罗维邓白氏和网易邮箱都触及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相干问题时多采取其他相干法规条例来解释。但随着民众隐私意识的日趋增强,合法合规地获得数据、分析数据和利用数据,是进行大数据分析时必须遵守的原则。
说到隐私被侵犯,爱德华•斯诺登应当占据1席之地,这位前美国中央情报局(CIA)雇员1手引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项目是1项由美国国家安全局(NSA)自2007年起开始实行的绝密电子监听计划,年耗资近2000亿美元,用于监听全美电话通话记录,据称还可使情报人员通过“后门”进入9家主要科技公司的服务器,包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。
再看看我们身旁,当微博,微信,QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,你就不要期望你还有隐私权了,就算你在某个地方删除,但或许这些信息已被其他人转载或保存了,更有可能已被百度或Google存为快照,早就提供给任意用户搜索了。
因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这类大数据和个体之间的博弈还会1直继续下去……
专家给予了我们1些如何有效保护大数据背景下隐私权的建议:1-减少信息的数字化;2-隐私权立法;3-数字隐私权基础设施(类似DRM数字版权管理);4-人类改变认知(接受疏忽过去);5-创造良性的信息生态;6-语境化。
但是这些都很难立即见效或有实质性的改良。
比如,现在有1种职业叫删帖人,专门负责帮人到各大网站删帖,删除评论。其实这些人就是通过黑客技术侵入各大网站,破获管理员的密码然落后行手工定向删除。只不过他们保护的不是客户的隐私,而大多是丑闻。还有1种职业叫人肉专家,他们负责从互联网上找到1个与他们根本就无关系用户的任意信息。这是很可怕的事情,也就是说,如果有人想找到你,只需要两个条件:1-你上过网,留下过痕迹;2-你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其1,人肉专家就能够很轻松的找到你,可能还知道你现在正在某个餐厅和谁1起共进晚饭。
当很多互联网企业意想到隐私对用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,比如google许诺仅保存用户的搜索记录9个月,阅读器厂商提供了无痕冲浪模式,社交网站谢绝公共搜索引擎的爬虫进入,并将提供出去的数据全部采取匿名方式处理等。
在这类复杂的环境里面,很多人仍然没有建立对信息隐私的保护意识,让自己1直处于被滋扰,被精心设计,被利用,被监视的处境中。可是,我们能做的几近微不足道,由于个人隐私数据已没法由我们自己掌控了,就像1首诗里说到的:“如果你现在继续麻痹,那就别期望这麻痹能抵挡得住被”扒光”那1刻的惊骇和失望……”
大数据常和云计算联系到1起,由于实时的大型数据集分析需要散布式处理框架来向数10、数百或乃至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为1种像水和电1样的公用事业提供给用户。
如今,在Google、Amazon、Facebook等1批互联网企业引领下,1种行之有效的模式出现了:云计算提供基础架构平台,大数据利用运行在这个平台上。
业内是这么形容二者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。
那末大数据到底需要哪些云计算技术呢?
这里暂且罗列1些,比如虚拟化技术,散布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式辨认和自然语言理解)等。
云计算和大数据之间的关系可以用下面的1张图来讲明,二者之间结合后会产生以下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展下降大数据业务的创新本钱。
如果将云计算与大数据进行1些比较,最明显的辨别在两个方面:
第1,在概念上二者有所不同,云计算改变了IT,而大数据则改变了业务。但是大数据必须有云作为基础架构,才能得以顺畅运营。
第2,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是1个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。
散布式处理系统可以将不同地点的或具有不同功能的或具有不同数据的多台计算机用通讯网络连接起来,在控制系统的统1管理控制下,调和地完成信息处理任务—这就是散布式处理系统的定义。
以Hadoop(Yahoo)为例进行说明,Hadoop是1个实现了MapReduce模式的能够对大量数据进行散布式处理的软件框架,是以1种可靠、高效、可伸缩的方式进行处理的。
而MapReduce是Google提出的1种云计算的核心计算模式,是1种散布式运算技术,也是简化的散布式编程模式,MapReduce模式的主要思想是将自动分割要履行的问题(例如程序)拆解成map(映照)和reduce(化简)的方式, 在数据被分割后通过Map 函数的程序将数据映照成不同的区块,分配给计算机机群处理到达散布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。
再来看看Hadoop的特性,第1,它是可靠的,由于它假定计算元素和存储会失败,因此它保护多个工作数据副本,确保能够针对失败的节点重新散布处理。其次,Hadoop 是高效的,由于它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。另外,Hadoop 依赖于社区服务器,因此它的本钱比较低,任何人都可使用。
你也能够这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相干)+Hbase(数据库)+MapReduce(数据处理)+……Others
Hadoop用到的1些技术有:
说了这么多,举个实际的例子,虽然这个例子有些陈腐,但是淘宝的海量数据技术架构还是有助于我们理解对大数据的运作处理机制:
如上图所示,淘宝的海量数据产品技术架构分为5个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。
数据来源层。寄存着淘宝各店的交易数据。在数据源层产生的数据,通过DataX,DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。
计算层。在这个计算层内,淘宝采取的是Hadoop集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部份。在云梯上,系统每天会对数据产品进行不同的MapReduce计算。
存储层。在这1层,淘宝采取了两个东西,1个使MyFox,1个是Prom。MyFox是基于MySQL的散布式关系型数据库的集群,Prom是基于Hadoop Hbase技术的1个NoSQL的存储集群。
查询层。在这1层中,Glider是以HTTP协议对外提供restful方式的接口。数据产品通过1个唯1的URL来获得到它想要的数据。同时,数据查询即是通过MyFox来查询的。
最后1层是产品层,这个就不用解释了。
大数据可以抽象的分为大数据存储和大数据分析,这二者的关系是:大数据存储的目的是支持大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩大至PB乃至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。
提到存储,有1个著名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加1倍。所以,存储器的本钱大约每18⑵4个月就降落1半。本钱的不断降落也造就了大数据的可存储性。
比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩大都是基于在便宜服务器和普通存储硬盘的基础上进行的,这大大下降了其服务本钱,因此可以将更多的资金投入到技术的研发当中。
以Amazon举例,Amazon S3 是1种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络范围计算。Amazon S3 提供1个简明的 Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。 此服务让所有开发人员都能访问同1个具有高扩大性、可靠性、安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能够承受两个设施中的数据同时丢失。
S3很成功也确切卓有成效,S3云的存储对象已到达万亿级别,而且性能表现相当良好。S3云已拥万亿跨地域存储对象,同时AWS的对象履行要求也到达百万的峰值数量。目前全球范围内已有数以10万计的企业在通过AWS运行自己的全部或部份平常业务。这些企业用户遍及190多个国家,几近世界上的每一个角落都有Amazon用户的身影。
大数据的收集和感知技术的发展是紧密联系的。以传感器技术,指纹辨认技术,RFID技术,坐标定位技术等为基础的感知能力提升一样是物联网发展的基石。全球的工业装备、汽车、电表上有着无数的数码传感器,随时丈量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物资的变化,都会产生海量的数据信息。
而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除地理位置信息被广泛的利用外,1些新的感知手段也开始登上舞台,比如,最新的”iPhone 5S”在home键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过穿着进行人物辨认。
除此以外,还有很多与感知相干的技术革新让我们线人1新:比如,牙齿传感器实时监控口腔活动及饮食状态,婴儿穿着装备可用大数据去养育宝宝,Intel正研发3D笔记本摄像头可追踪眼球读懂情绪,日本公司开发新型可监控用户心率的纺织材料,业界正在尝试将生物测定技术引入支付领域等。
其实,这些感知被逐步捕获的进程就是就世界被数据化的进程,1旦世界被完全数据化了,那末世界的本质也就是信息了。
就像1句名言所说,“人类之前延续的是文明,现在传承的是信息。”
互联网上的数据每一年增长50%,每两年便将翻1番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共具有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时期的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享和记录并回想。
互联网上的大数据很难清晰的界定分类界限,我们先看看BAT的大数据:
百度具有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获得的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,和精准的搜索引擎关键字广告,实质上就是1个数据的获得、组织、分析和发掘的进程。搜索引擎在大数据时期面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。
阿里巴巴具有交易数据和信誉数据。这两种数据更容易变现,发掘出商业价值。除此以外阿里巴巴还通过投资等方
上一篇 Java小程序之服务器的UI实现
下一篇 编译期注解之JavaPoet