您当前位置：首页 > 互联网 > 皮皮网陈超：易用与性能兼备，Spark蓬勃发展！

皮皮网陈超：易用与性能兼备，Spark蓬勃发展！

来源：程序员人生发布时间：2014-09-15 07:47:49 阅读次数：3123次

2014年4月19日“中国Spark技术峰会”（Spark Summit China 2014）将在北京召开，国内外Apache Spark社区成员和企业用户将首次齐聚北京。AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享他们在生产环境中的Spark项目经验和最佳实践方案。

Spark是下一代In Memory MR计算框架，性能上有数量级提升，同时支持Interactive Query、流计算、图计算等。在Spark技术峰会召开前夕，记者和本次Spark峰会的演讲嘉宾陈超做了一次简单的沟通，他表示将会在4月19日“中国Spark技术峰会”和大家分享Spark的核心原理，并在此基础上探讨几个Spark性能的优化点！点击报名！

陈超 @CrazyJVM

就职于皮皮网，担任数据平台负责人，负责公司所有数据分析与数据挖掘相关的项目。近年来一直专注于分布式计算与机器学习相关领域。国内较早的Spark研究与使用者，Spark Contributor。目前专注于基于Spark平台的大数据处理。

以下是记者采访原文：

什么原因吸引你钻研Spark技术？

在使用Spark之前一直是使用Hadoop（MapReduce）来做一些机器学习方面的工作，但是深感运行效率低下，并且代码写起来也比较冗长。所以当时就想试试看能不能换个方式来做，当我调研到Spark时，我觉得Spark非常适合我的需求，极好的易用性的同时也有着极高的性能。其实还有一点，我本身算是一个Scala爱好者，而Spark是使用Scala写的，这也算是一个促使我研究与使用Spark的因素吧。

对于解决哪些问题Spark独具优势？

就目前来说，Spark在机器学习方面有着无与伦比的优势，特别适合需要多次迭代计算的算法。当然Spark的容错和调度也自有其特点和优势。最后Spark能把批处理和流处理做到一个很好的平衡。

目前企业应用Spark最大的困难是什么？

对于一般规模的企业来讲，只要有相应的Spark工程师，部署Spark我想都没什么大问题。但是对于BAT规模的企业来讲，需要考虑的问题就比较多了。

根据您的了解，目前Spark发展的情况如何？

目前Spark社区极其活跃。众所周知，Spark现在已经成为了Apache的顶级项目，到目前为止已经有159位来自世界各地的Contributor，并且这个数字还在继续增加中。Spark生态系统正在朝着一个健康的方向发展！

请谈谈你在这次大会上即将分享的话题。

我这次主要想讲一下Spark性能相关的话题，其中也会涉及到Spark的一些原理。讲这个话题初衷是我收到好多邮件，描述他们在工作中遇到一些Spark带来的性能问题。其中一些问题可能解决方法很简单，但是如果不解决的话却会对性能造成极大的影响。

哪些听众最应该了解这些话题，这个话题可以帮助听众解决哪些问题？

想要学习Spark，特别是想在公司部署Spark的朋友们一定会有所收获。这些话题一来可以帮助他们了解Spark的应用场景，二来可以提醒大家在使用Spark过程中应该注意的一些问题。

更多精彩尽在2014年4月19日中国Spark技术峰会，3月31日前购票订票可享受最低票价优惠。马上报名！

往期采访内容：

淘宝明风：基于Graphx的图计算实践分享

Spark独门秘籍：打造结构一体化、功能多元化的高效数据流水线

网易王健宗：革命Hadoop，Spark带来百亿市场价值！

尹绪森：打开圈子拥抱变化，谈Spark玩家的自我修养

以“ 云计算大数据推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨，内容丰富，干货十足。票价优惠，马上报名！

生活不易，码农辛苦
如果您觉得本网站对您的学习有所帮助,可以手机扫描二维码进行捐赠
程序员人生

------分隔线----------------------------

上一篇 如何以1.68美元/小时的成本获取百万TPS

下一篇 Beep：前Google员工打造的流媒体音乐控制器

分享到:

------分隔线----------------------------

为码而活

积分：4237

15粉丝

7关注

栏目热点