【CSDN现场报道】第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。本次会议以技术、应用、创新、标准、国际交流为方向,共设置了近20个分论坛,特邀了十大院士与百余位企业一线实践者,共同技术把脉云计算及大数据发展趋势,深入探讨云计算大数据在生产环境中的核心技术、实践经验、革新方向与国际标准等。
在Hadoop应用实战技术培训专场首先登台的是ChinaHadoop小象社区核心成员叶琪,他是一位Hadoop的开发者与实践者,专注于Hadoop的底层模块(HDFS、YARN、MapReduce、HBase和Hive),擅长将传统业务系统迁移到基于Hadoop的解决方案,对Hadoop集群的构建和各种运维问题有着丰富的实践经验。他给大家介绍了Hadoop在电信行业的应用实践。
叶琪主要从四个方面介绍了Hadoop在电信行业的应用实践:第一,电信行业数据应用现状和挑战;第二,Hadoop在电信领域的成功应用;第三,如何从零开始设计一个Hadoop集群;第四,如何调优及高效运维一个Hadoop集群。
电信行业数据应用现状和挑战
众所周知Hadoop不是万能钥匙,同样有很多不适用的场景,比如说:
1、低延迟的数据访问,除了Hbase,Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办法代替的。
2、数据量并不大的时候,Hadoop一般适用于百TB 及PB以上的数据量。当你的数据只有几十GB时,使用Hadoop是没有任何好处的。按照企业的需求有选择性的的使用Hadoop,不要盲目追随潮流。
3、大量的小文件,小文件指的是那些size比HDFS的block size(默认64M)小得多的文件。如果在HDFS中存储大量的小文件,每一个个文件对应一个block,那么就将要消耗namenode大量的内存来保存这些block的信息。
4、太多的写入和文件更新,HDFS天然适用于一次写入多次读取的场景。当有太多文件更新需求,Hadoop没有办法支持。
电信行业系统数据类型中有很多适用于Hadoop的类型。