Disco旨在较大的利用程序轻松集成,比如web服务,那样要求计算的任务可以拜托给独立于核心利用程序的集群去履行。Disco提供了1个非常紧凑的Python API――通常只需要两个函数,和1个rest样式的Web API的工作控制和简单易用的状态监控Web界面。另外,Disco还具有了1个简单的工作协议,允许作业以任何语言编写,实现协议。
Disco对LINUX商业服务器集群非常友好,新节点可以通过单击Web界面动态地添加到系统。如果服务器崩溃,能够自动将失败的任务重新分配,这样就没有任何中断。在自动配置机制的帮助下,如全自动安装,乃至是保护大型集群,也只有少许的人工工作。作为1个观念的验证,在帕洛阿尔托的诺基亚研究中心使用Disco这类设置来保护1个800核心集群。
・证明范围数以百计的CPU和不计其数的同步任务
・用于处理数以万计范围为tb的数据集
・简单易用:1个典型的任务由用Python编写的两个函数和两个调用Disco API
・通过实行Disco工作协议,可以任何其他语言指定任务。
・输入数据可以在任何格式,乃至2进制数据,如图象。位于任何源的数据可以通过HTTP得到或分发到本地磁盘
・容错:服务器崩溃不中断工作。能够自动将失败的任务重新分配
・灵活:除核心的map和reduce函数、组合器功能,配分函数和1个输入浏览器可以由用户提供
・使用标准的Disco模块和Web api轻松集成较大的利用程序
・带有1个内置的散布式存储系统(Disco散布式文件系统)。
数据输入:
disco可分散计算,需要确保数据能被分割,1般来讲,将数据放入ddfs文件系统中,该文件系统类似于hdfs,是1个散布式文件系统,能处理好数据的分配和复制。