2014年4月19日“中国Spark技术峰会”(Spark Summit China 2014)将在北京召开,国内外Apache Spark社区成员和企业用户将首次齐聚北京。AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享他们在生产环境中的Spark项目经验和最佳实践方案。
Spark是下一代In Memory MR计算框架,性能上有数量级提升,同时支持Interactive Query、流计算、图计算等。在Spark技术峰会召开前夕,记者和本次Spark峰会的演讲嘉宾陈超做了一次简单的沟通,他表示将会在4月19日“中国Spark技术峰会”和大家分享Spark的核心原理,并在此基础上探讨几个Spark性能的优化点!点击报名!
陈超 @CrazyJVM
就职于皮皮网,担任数据平台负责人,负责公司所有数据分析与数据挖掘相关的项目。近年来一直专注于分布式计算与机器学习相关领域。国内较早的Spark研究与使用者,Spark Contributor。目前专注于基于Spark平台的大数据处理。
以下是记者采访原文:
什么原因吸引你钻研Spark技术?
在使用Spark之前一直是使用Hadoop(MapReduce)来做一些机器学习方面的工作,但是深感运行效率低下,并且代码写起来也比较冗长。所以当时就想试试看能不能换个方式来做,当我调研到Spark时,我觉得Spark非常适合我的需求,极好的易用性的同时也有着极高的性能。其实还有一点,我本身算是一个Scala爱好者,而Spark是使用Scala写的,这也算是一个促使我研究与使用Spark的因素吧。
对于解决哪些问题Spark独具优势?
就目前来说,Spark在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。当然Spark的容错和调度也自有其特点和优势。最后Spark能把批处理和流处理做到一个很好的平衡。
目前企业应用Spark最大的困难是什么?
对于一般规模的企业来讲,只要有相应的Spark工程师,部署Spark我想都没什么大问题。但是对于BAT规模的企业来讲,需要考虑的问题就比较多了。
根据您的了解,目前Spark发展的情况如何?
目前Spark社区极其活跃。众所周知,Spark现在已经成为了Apache的顶级项目,到目前为止已经有159位来自世界各地的Contributor,并且这个数字还在继续增加中。Spark生态系统正在朝着一个健康的方向发展!
请谈谈你在这次大会上即将分享的话题。
我这次主要想讲一下Spark性能相关的话题,其中也会涉及到Spark的一些原理。讲这个话题初衷是我收到好多邮件,描述他们在工作中遇到一些Spark带来的性能问题。其中一些问题可能解决方法很简单,但是如果不解决的话却会对性能造成极大的影响。
哪些听众最应该了解这些话题,这个话题可以帮助听众解决哪些问题?
想要学习Spark,特别是想在公司部署Spark的朋友们一定会有所收获。这些话题一来可以帮助他们了解Spark的应用场景,二来可以提醒大家在使用Spark过程中应该注意的一些问题。
更多精彩尽在2014年4月19日中国Spark技术峰会,3月31日前购票订票可享受最低票价优惠。马上报名!
往期采访内容:
淘宝明风:基于Graphx的图计算实践分享
Spark独门秘籍:打造结构一体化、功能多元化的高效数据流水线
网易王健宗:革命Hadoop,Spark带来百亿市场价值!
尹绪森:打开圈子拥抱变化,谈Spark玩家的自我修养