2014年4月19日,由CSDN和《程序员》杂志联合举办的“2014中国Spark技术峰会”(Spark Summit China)将在北京召开,国内外Apache Spark社区成员和企业用户将首次齐聚一堂。来自AMPLab、Databricks、Intel、淘宝、腾讯、网易等国内外多家机构的Spark贡献者及一线开发者将分享Spark的现状与未来,各种计算范式的实际操作,新创业公司基于Spark的产品发布,以及生产环境中使用Spark及相关项目的第一手经验和最佳实践方案。
随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业:传统Hadoop MapReduce最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等。在Spark出现前,要在一个组织内同时完成以上数种大数据分析任务,就不得不与多套独立的系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持(活跃开发者人数已超过Hadoop MapReduce),技术也逐渐走向成熟。
对企业来说,搭建Spark配合现有平台,需要拥有专业的团队实现与维护――对Spark拥有全面和深入的理解,才能开发出高效可靠的应用。本次大会将围绕Spark的多个方面做出权威而全面的解读,多个案例将在大会中首次分享。
Spark的现状与未来
Andy Konwinski是Spark创始团队AMPLab成员,集群调度系统Mesos作者,Databricks联合创始人,美国Spark Summit组织者。他将带来有关Spark发展现状与未来的权威解读。
基于Spark Graphx的大规模用户图计算和应用
明风是淘宝技术部数据挖掘与计算团队负责人,带领团队构建了国内第一个100台规模的Spark on Yarn集群,并基于Spark进行大量机器学习,实时计算和图计算的先行尝试,并将实践成果成功地应用于淘宝网数据相关的业务和产品。
面对淘宝的海量用户,如何基于亿级别的用户和十亿级别的关系链,进行高效的关系构建,社区发现和属性传播,一个高效强大的分布式图计算引擎必不可少。开发时,如何提升性能,计算的结果怎样才能得到高效应用?本演讲将带给你满意的答案。
当机器学习遇到大数据系统――从Spark MLlib看两者的混合发展
尹绪森是Intel工程师,对Spark、Mahout、GraphLab等开源项目拥有实际经验和深度理解。MLlib的出现让我们看到在一个成熟的大数据栈上构建简洁、易用、高效的机器学习算法的希望。当机器学习遇到大数据系统,究竟会产生怎样的火花?他的演讲将从MLlib看两者的混合发展。
Spark性能优化
陈超就职于皮皮网,担任数据平台负责人,负责公司所有数据分析与数据挖掘相关的项目。他是国内较早的Spark研究与使用者,Spark Contributor,目前专注于基于Spark平台的大数据处理。演讲将分享Spark的核心原理,并在此基础上探讨几个Spark性能的优化点。
快速模型更新在精准广告推荐中的应用
薛伟是腾讯精准推荐中心广告推荐负责人,2011年加入腾讯数据平台部,之后一直从事云计算、海量数据分析和数据挖掘、精准推荐相关的研发工作。腾讯广点通团队长期从事社交网络展示广告的技术研究和应用,从Spark诞生之初就开始关注这项技术和这个开源项目,并在广点通项目中进行了长期的应用实践。在这个报告中,他将介绍如何综合运用包括Spark在内的技术来实现广告推荐模型的快速更新。
Tranwarp Inceptor:基于Spark引擎的高速内存分析和挖掘工具
孙元浩是星环科技联合创始人及CTO,他将介绍如何构建分布式内存列式存储,以及如何利用PL/SQL和R语言对内存数据进行高速数据统计和挖掘。
Spark内核探索与性能优化
连城是Spark Contributor,即将加入Databricks工作。Catalyst/Spark SQL是新近加入Spark主线版本的alpha组件,它是一套简洁强大的SQL查询计划优化框架。随着时间的推移,已逐渐进化为一整套完整的SQL on Spark解决方案并更名为Spark SQL。 它的主要特点包括:向下兼容HiveQL,支持针对原生RDD对象的关系查询,可对用户编写的HQL/SQL查询进行有效优化,实现了一套可扩展的代码生成框架,可以针对特定逻辑直接生成字节码,进一步提升性能。它将成为Shark的新引擎。
面向实时计算和ETL处理的Shark应用
王健宗是网易大数据高级研究员,负责网易游戏大数据框架的研究和部署工作,在其推广下成功将Spark稳定应用在生产环境中。他的演讲将介绍应用Spark时的经验和教训,希望这些经验总结能为大家应用落地Spark提供参考和帮助。
为了保证“Spark中国技术峰会”内容的高品质,国内Spark领域的最权威专家组成了程序委员会,成员包括Databricks联合创始人,Spark、Shark、GraphX等项目核心作者辛