【编者按】前段时间,Cloudera对比了Spark与Hadoop,取代MapReduce,宣布该公司将加大Spark的投入。实际上,Cloudera已经开始了向Spark的迁移,其中包括了所有Hive SQL-on-Hadoop的部分。同时,Cloudera称并不会使用Spark替换Impala,他们坚信Impala将是交互式SQL on Hadoop查询的未来,处理Hive的速度远超现有的所有软件。
免费订阅“CSDN云计算”微信公众号,实时掌握第一手云中消息!
CSDN作为国内最专业的云计算服务平台,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点,云计算技术,云计算平台,云计算实践,云计算产业资讯等服务。
以下为译文:
这周的大数据排行榜上有很多关于Spark的新闻,同时还有一些猜测。来自Cloudera的Mike Olson说,他们公司正在广泛拥抱Spark――包括运行Hive――但是不存在替换Impala行为。
对于计划将Hive SQL-on-Hadoop引擎设置在Spark上引来的非议,Cloudera的联合创始人兼首席战略官Mike Olson的回应是“并没有什么改变”。也就是说,Cloudera的Impala的产品没有发生任何变动。然而在Hadoop与Spark生态圈中,巨大的变化正在发生。
Olson表示,正如Cloudera所关注的那样,Impala就是交互式SQL on Hadoop查询的未来,Impala速度高于任何Hive相关产品,即使是Hortonworks出品。
Cloudera联合IBM、MapR和Databricks(Spark发布公司)一起致力将Hive设置在Spark上。Hive的功能是企业迫切需要的,但运行在MapReduce上的Hive却并不能满足用户需求。关于这一点,几家公司已经达成了共识。Olson坚持,Hive本质就是一个运行在MapReduce上的批处理架构,虽然它在Spark或Hortonworks驱动的Apache Tez框架上运行的更快,但仍然是一个批处理作业。
他补充说,实际上,Cloudera等公司正致力于将几乎现存的每一个MapReduce负载都转移到Spark上,像Sqoop和Pig等,Spark具有美好的应用前景,大家相信它将会在不远的未来超过MapReduce。
The Spark stack
有人可能会问Shark应用在哪里。Olson承认Databricks将会把Shark推迟到下一次Spark发布会,这次峰会集中精力在一个公司四月份发布的叫做Spark SQL的项目上。
这段时间,Databricks 的CEO Ion Stoica对数据库行业分析师Curt Monash同样提到了继续开发一个被称为BlinkDB的交互引擎的项目,Ion Stoica说: “如果我要重绘Spark栈图,SparkSQL将会取代Shark,而Shark则会介于SparkSQL和BlinkDB层面中间。”
Olson没有提到BlinkDB,但是他说对于Spark SQL的想法他并不感到兴奋。他承认,Databricks是一个有智慧的公司,也可能会用Spark SQL做一项很成功的任务,但是他补充说,将Hive转移到Spark上并不是一个快速的过程,因为SparkSQL仍是一个进展中的作品。
“我希望看到那些家伙能将他们的努力放在其他事情上”,他说“……我认为Spark框架中的Hive将会做的相当不错”。
原文链接: Cloudera: Impala’s it for interactive SQL on Hadoop; everything else will move to Spark (编译/史臣敏 责编/仲浩)