国内最全IT社区平台 联系我们 | 收藏本站
华晨云阿里云优惠2
您当前位置:首页 > 互联网 > 浪潮集团云计算技术总监张东:激活行业大数据,挑战与解决之道

浪潮集团云计算技术总监张东:激活行业大数据,挑战与解决之道

来源:程序员人生   发布时间:2014-09-09 10:08:03 阅读次数:2375次

【CSDN现场报道】第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。本次大会立足实践,以国际化的视野,帮助与会者了解全球云计算技术的发展趋势;从应用出发,探讨交通、医疗、教育、金融、制造、数字娱乐等行业领域的实践经验;并通过技术专场、产品发布和培训课程等方式,深度剖析云计算大数据的核心技术。

浪潮集团云计算技术总监 张东

浪潮集团云计算技术总监张东发表演讲“激活行业大数据:挑战与解决之道”。他首先简单介绍了当下大数据技术的应用情况,随后张东立足应用挑战和价值体现分享了行业大数据的几个特点:数据价值密度更高,更具可挖掘性;数据具备独立性,共享存在各种障碍;行业间数据综合分析处理是未来的发展重点;更加关注数据转化为服务过程中的独特需求。之后张东还从数据处理的生命周期着手,详细的分享了数据收集/清洗/过滤、数据模型、数据存储、数据处理、数据展现过程中所存在的挑战。

以下为演讲实录:

张东:

很高兴连续几年能够有机会在这里跟各位专家、各位来宾一起来分享浪潮在云计算方面的一些理念和发展情况。在前面,我们也讲过了很多浪潮对于云计算的理念,我们讲行业云,我们在行业里面来推动中国的云计算发展,行业云如何落地,怎么一步一步走向大数据。

今年的主题是讲云计算和大数据推动智慧中国。我今天要讲的就是我们看到的从行业云到行业里的大数据,整个大数据的推广和应用过程中存在的挑战,以及浪潮在这方面面向更多的行业推出了我们的大数据解决之道。

这是我们连续几年都在讲的一个发展路径,我们从最早开始讲浪潮的云计算战略,云海战略的时候,就在讲云计算第一步只是把我们的资源能够聚集起来,聚集起来的目的一方面是说我们云计算有云计算的好处,可以降低资源消耗,提高我们的资源利用率。但是,更多的我们是如何能够将这些资源所承载的业务、所承载的数据,能够把它聚集起来、把它融合起来,通过我们对数据的进一步挖掘和利用,从而推动我们的经济和社会服务走向更高的高度。

所以,从这个意义上来讲,我们认为从云计算到大数据实际上是一条从我们把资源聚集到数据聚集到数据利用的一个完整路径。特别是在现在,我们云计算已经谈了几年了,很多的系统可能也建起来了,如何能够真正实现在一个云里面实现数据间的融合,打破数据间的壁垒,可能就是现在这个阶段要做的最重要的工作。

因此,对于数据来讲,如果这些数据还像以前我们经常讲的中国最大的问题就是信息孤岛,所有的数据可能分散在不同的地方,有不同的格式、有不同的掌握,那么我们现在所谈到的大数据的挖掘和应用就是没有基础的。

我们认为从数据的角度来看,可能跟云计算差不多,比如说云计算我们需要先做物理的集中、业务的集中和数据的融合,对数据挖掘来讲,也是一开始我们有数据的那一小部分人,我可能有自己的数据,我去挖掘自己的数据,逐步到我如何实现不同用户之间的数据相互交互,再到最后,真正意义上所有的大数据。

大数据之大不仅仅在于它的规模大,而是更多的说我这些数据来自不同的来源,可能有我自身产生的,也可能有外面很多比如说互联网扒来的,或者是自媒体产生的。

行业发展三个阶段,从组织内部进行数据的挖掘和应用,到组织内部不同业务模块的数据共享和应用,一直到跨行业的数据应用。

应该说大数据现在也谈了几年,但是我们的感觉在互联网领域,它的确很热,可能在科学领域,很多专业数据的人也很热心,但是相反在我们看到的这样一些行业里,比如公安、工商、税务等等,很多中国很重要的经济部门和行业部门里面,实际上数据应用还面临很多问题。

大数据行业特点

行业大数据的特点是什么呢?我们简单总结了一个,可能跟我们一般意义上讲的大数据略有不同的一些特点:

首先第一个是价值密度。我们讲大数据的几个V的时候,大家都会讲到价值密度,因为它数据来源复杂、数量量很大,价值密度可能比较低,需要更好的处理技术来处理。而我们认为在行业里面,它的价值密度可能会更高一点,因为它的数据采集往往都是有目的的,比如说我们在工商也好、税务也好,它的数据可能就是针对它的业务采集的数据。针对这样一些数据来进行挖掘,其实能够产生更大更好的价值。

我们知道做任何事情大家可能都愿意去找最好处理、而且能够快速看到收益的地方,比如说像水总是找下降最快的地方流。同样在寻找这样的机会时,我们也觉得在行业里面通过对它的大数据挖掘,能够更好的发现这里面的一些机会,找到这里面的一些规律,能更好的为我们的经济服务。

第二点不容乐观,我们认为这是对大数据的一个共享和挖掘来讲不太好的特点。就是在这些行业里面,这些数据往往是具有很强的独立性,你想让它共享,其实存在了很多的障碍。大家可能都知道这些数据把它分享出来,综合处理一下可能是有好处的,但是,由于种种的原因,可能有管理制度上的,也可能有这些人的动机或者说没有这个动力去做事情的原因,数据共享的比例是非常低的。我们现在看到的一些数字,当然可能是低于10%,甚至有的地方数据共享率更低,而且这种现象不仅仅是在一些我刚才讲到的偏政府一类的行业存在,甚至在我们很多的企业内部也同样存在,比如说财务数据和人力的数据有可能就是没有办法共享,也不是没有办法共享,或者说他现在压根就没有共享在一起,当然这里面存在种种问题。

其中有一个很重要的问题,就是因为这些数据的所有者往往是不同的,因为所有者的不同,其实你也很难把这些数据留在一起。你要解决所有者的一些顾虑,比如说放在一起了,我会不会泄密?放在一起了,会不会有一些别人不该看到的东西看到,或者篡改,它的安全性如何保证?

第三个特点是我们认为大数据不同于以前的数据分析很大的一点那就是它强调的是我们在行业间,甚至于包括我们在企业场合产生的一些数据,综合分析才叫大数据。如果只是简单的把内部一个ERP里面,或者财务报表里面的财务数据拿出来跑一跑,这个可能在十年前、20年前很多人都能做到,根本谈不上是什么大数据。大数据一定要更多的来源,跨行业、跨领域的数据碰撞,才能真正称之为大数据。

最后一个就是说在这些行业,数据最终的目的。我们从前面讲行业云到后面讲行业大数据,都是讲数据最终一定是要为人服务的,所有的东西都要转化成数据服务才有意义,否则的话,这些东西你即使做了分析、做了挖掘,最后还是放在你的数据库里面,没有把结果跟大家分享,或者说没有为更多的人产生服务的话,那这个云的建设、大数据系统的建设可能意义就不是那么大了。

但是,这样一个本来在内部的数据转化成一个服务,在这个过程中,这些数据本来不该公开的,或者说是如何防止它被外面的人篡改,我数据的可靠性、可用性怎么办,以及在这里面的一些服务质量问题怎么办,这些都是在行业大数据发展过程中一些不同于我们前面泛泛的讲到的,或者说它更鲜明的一些特征。

数据处理周期中所遭遇的挑战

这里面它面临哪些问题呢?首先,我们还是把大数据从一个数据的收集聚集起来开始,一直到最后,我们把它进行分析,进行决策,把它展现出来这样一个过程,包括采集、存储、分析、可视化,以及最终为决策来服务。在每一个阶段,实际上现在还有很多的问题,我们如果要想将大数据推广到更多的领域,能够让更多的行业用户,或者说传统的一些信息化用户用起来,那么我们必须要来解决这个问题。

挑战1:数据收集/清洗/过滤

第一个,就是在采集和汇总领域的问题。因为我们在这一两年里面顶着大数据的名头去找了很多用户,很多用户听说大数据很好,搞完预算以后,要搞大数据,他们也很热心。但是,你去看一看他的系统,首先第一个问题,数据在哪?很多人想做东西,实际上并没有他要做这个东西的数据,第一个问题就是数据的归集,可能很多数据产生了,但是对他来讲,他没有一个有效的办法把它归集到系统里面去。当然,这个归集可能是技术手段原因,也可能是一些管理上的原因。

第二个,就算他归集来了一些数据,这些数据的来源也非常复杂,可能是自己产生的,比如说他自己去采集,用机器采集也好、用人去采集也好,也有的是从别人那拷过来的,然后你也没有办法去保证这些数据都是好的,或者说都很适合于来做他后期的业务。也就是说在这里面数据质量是个很大的问题,数据格式不统一也是个很大的问题。

最后在一些政策或者管理制度上的限制,造成了很多数据没办法统一起来,我们后面可能会讲到一个例子,是国内一个很典型的部门,就是公安,大家都觉得它应该是一个部门,但后来发现里面是N多部门,里面所有的数据在原来都是互补连通的,这个现象不仅仅在这样一个行业,我们在很多行业都看到了这样的问题,上下级之间可能不通的,平级部门之间可能也是不通的。

第一个要解决的问题就是怎么把这些东西归集起来,解决归集里面一些技术的手段,和我们怎么去做标准,怎么把它规范化的问题。

挑战2:数据存储和管理

第二个问题,这项数据归集起来了,就会遇到一个问题,就是存储和管理的问题。其实也有很多人说我有很好的采集手段,我有很多摄像头和传感器,但是这些东西传回来很困难,后台没那么大的存储能力,过两天就得重新把它滚一次。在这里面,随着数据规模的日益庞大,同时,数据类型也越来越复杂,可能有图片、视频,有能放到数据库里面的,有放不到数据库里面的,现在很多的那里保存了很多放到数据库里面的东西,放不到数据库的慢慢就被替换掉了,因为实在太大,放不下。

还有就是在统一存储过程中的共享和隐私的问题,这个我们在不止一个用户那边都会跟我们提出一个要求。我们现在建了一个统一的大池子,以前的数据都放在我这儿,我现在要把数据放到他那去了,你怎么保证我放在他那的数据是安全的?你一定要给我上这个手段、那个手段,当然很多用户听到的都是传统的手段,比如说强制访问控制、要加密等等,但是在这里面,传统安全的一些手段,应该说这是在云计算模式产生之后大家一直在探讨的问题,而且也是一直没有非常好的答案的问题,也就是说我聚集起来以后,怎么防止用户之间互相渗透,第二怎么防止后台的管理员,这个我以前根本没有见过的人,我要去信任他。

挑战3:数据分析过程

第三个问题是在分析过程中产生的问题,从前面的接触来看,分析过程中问题简单来讲就是两条。第一,懂业务的人不会写程序,会写程序的人不懂业务,如何将这些懂业务人的知识转化成计算机的知识,这实际上是一个很麻烦的事情。刚才前面很多专家也讲到了,现在在一些大企业里面做的一些尝试,做人脸模式识别,包括语音、视频、音频,如何训练机器像人的大脑一样工作。但是在很多的专业行业里,其实还有很多更专业的知识。比如说行政领域可能都是靠人,比如说现在我们的医疗,当然大家讲专家医疗已经逐步往前走了,但是在医疗系统里面也是一样的。前一阵子我们跟同事在一起讨论的时候,大家也在说这个问题,是不是可以通过计算机的网络,大家拿着自己的症状、化验单能够让计算机帮人看病,解决我们现在很多时候面临的医疗问题,当然这是另外一个话题了,但是在这里面,如何能够将人的经验转化成计算情感,这是很多人都会面临的,好不容易找到新应用的人了,其实写出来的应用做OA还可以,可能再做一个真的要结合他的业务就会很复杂,而且现在有很多算法层面或者更深层面的东西是没有突破、没有解决,需要更好的再往前进一步,真正实现通过我们所有的摄像头监控一个人,这个事情很难做到。

第二个,就是这个应用太复杂了,以前大家都用数据技术,后来都用数据仓库,再忽然有一天,大家说Hadoop是个好东西,大家全上Hadoop。是不是所有的应用都适合Hadoop,其实不是的,从原来的数据库切到Hadoop觉得不行又切回去了。如何找到多样性适合应用的一些技术来解决它的根本问题,也是现在面临的一个挑战。

挑战4:数据可视化

最后就是可视化的问题,现在很多人习惯用平板、手机将这些东西展现出来,也是一个很大的问题。前面我们讲到一些挑战,后面说一下浪潮在这方面做的一些工作。

首先,我们刚才讲了,大数据也是浪潮整个云计算战略的逐步往前迈进的其中一步,我们从行业云开始,帮助用户做运算、聚集资源、分析数据,这由于我们现在这个云计算的解决方案。浪潮还是专注在我们的数据中心方面,从底层机房建设到服务器、到存储,到我们提供基础的系统软件,一直到上面来提供大数据的咨询服务、规划的服务等等,来帮助用户建立一套云计算和大数据体系。

浪潮的应对之道

在过去的一年里面,浪潮在云计算方面也推出了很多新产品,包括我们的模块化数据中心,面向互联网高密度的数据中心,现在在互联网市场占有率已经很高了,包括我们面向行业的大数据领域等等这样的一些产品,大家感兴趣的话可以看一下我们展厅里的介绍。

刚才讲了为一个用户规划云计算需要一步一步走,我们认为前面的步骤不是说我们从零一下子蹦到三,而是逐步从建云开始到聚集数据,我们也为用户提供整个一套建设方案的咨询。

具体到大数据方面,我们提供的方案一个关键词,就是一体化,我们如何理解一体化?我们认为分三个部分,第一是我们前面讲到的所有处理过程的,从采集、存储、分析、可视化,都可以用这样一套系统解决。第二,发挥浪潮在硬件方面的优势,通过软硬结合来提升整体性能,包括硬件方面的加速算是,以及现在专门面向大内存计算的能力,提升整个大数据处理的性能。最后就是解决方案的一体化,面向不同的行业,像今年我们发布了面向金融行业的一体机,未来还会发布面向公安行业的一体机,来做整体的解决方案。

最后为大家分享几个解决方案的例子,这个实际上也是我们的案例,我们现在还在建设过程当中,这是一个省级公安从云到大数据的整体案例。前面列到的这些问题在刚才已经说到了,比如说我们也觉得一个政府部门可能领导一句话,大家什么事都好办,实际上什么事都不好办。这里面的很多东西,比如说数据共享,在这之前可能刑警、经济、户籍、海关、出入境全都是分开的,数据之间的共享度在这之前非常差,业务系统重复建设很严重,所有的系统都是单机运行的,数据处理能力也较差。

这个就是刚才我们说的,每一个系统都对应了一套硬件,对应了一套数据库,对应了一套独立数据,当你要做应用的时候,你给这个做应用,可能在那个上面就没法跑。通过我们给他从底层进行规划,包括底层的IaaS层,到中间的基于浪潮开放的大数据处理平台,我们可理解为一个PaaS,但是我们还是一个初步的数据共享连通的平台,将它所有的IT系统集中在一起,将它所有的数据集中在一起,实际上它原有的应用,这个业务系统可以不动,它只要说我跑在这个上面,访问那个地方的特殊数据,就形成了一个新的平台,将内部所有数据共享起来,同时将外面的数据拿进来,可以进行多点碰撞,实现更多的它以前解决不了的问题,或者说没有办法快速解决的问题,这样就形成了一个整体的云计算和大数据的平台。

这个是我们具体的一些方案,这是物理上的一个结构,通过统一监控管理,将全省的平台联合在一起,这是在大数据方面通过多种处理数据的手段,比如说它里面有很传统的数据库的东西,比如说很多人的户籍信息可能都在数据库里面,但是它更有大量的音视频数据,采用了多种平台,包括数据库、类似Hadoop这样的新式平台,来构建一个统一的平台。

在上面是我们浪潮的一个数据共享平台,也叫IOP,将底层所有的云数据进行统一抽取,统一进行处理,在上面把它展现出来,这样就形成了我们面向公安的一个大数据解决方案。

今天我们在这里给大家分享了浪潮怎么把大数据进一步深入到行业的理解和我们的做法,欢迎大家到我们的展厅参观浪潮过去一年在云计算和大数据方面更新的成果。

更多精彩内容,敬请关注第六届中国云计算大会专题报道,关注新浪微博直播 @CSDN云计算。

生活不易,码农辛苦
如果您觉得本网站对您的学习有所帮助,可以手机扫描二维码进行捐赠
程序员人生
------分隔线----------------------------
分享到:
------分隔线----------------------------
关闭
程序员人生