2010 HotCloud Spark Cluster Computing with Working Sets

分享一篇论文:Zaharia M, Chowdhury M, Franklin M J, et al. Spark: cluster computing with working sets[J]. HotCloud, 2010, 10: 10-10.

论文下载链接:http://pan.baidu.com/s/1bo7EnQR

这篇论文提出了大名鼎鼎的Spark,一种分布式计算平台。虽然年代久远,但是对理解Spark的原理还是很有帮助。

主要内容:

虽然Hadoop及其变种得到了广泛应用,但是由于其每次Map和Reduce时都需要从磁盘中加载数据,因此不适合下面的两种情形。

  1. 迭代计算。许多机器学习算法需要不断地使用同一个数据集来优化参数。如果使用Hadoop,每次迭代都需要从磁盘加载数据,性能不佳。

  2. 交互式分析。Hadoop使用Pig或者Hive的接口,是即席查询的。理想中,用户需要将数据加载到内存中,然后用户不断地使用内存中的数据。但是Hadoop每次都使用单独的MapReduce作业从磁盘中加载数据。

Spark主要解决上述问题。

这篇文章介绍了RDD的基本概念以及在RDD上的操作,并介绍了如何实现容错机制,然后举了用Spark实现的三个例子:日志分析、逻辑回归和最小二乘法。虽然这篇文章是Spark的早期版本,但是基本原理未变。对于理解Spark的工作机制非常有用。

0 条评论

    发表评论

    电子邮件地址不会被公开。 必填项已用 * 标注