页面树结构

2017-07-25 Apache Spark 2.2.0 官方文档中文版发布 : http://spark.apachecn.org/docs/cn/2.2.0/


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

Discretized Stream(离散化流)或者 DStream(离散流)是 Spark Streaming 提供的基本抽象。它代表了一个连续的数据流,无论是从源接收到的输入数据流,还是通过变换输入流所产生的处理过的数据流。在内部,一个离散流(DStream)被表示为一系列连续的 RDDsRDDSpark 的一个不可改变的,分布式的数据集的抽象(查看 编程指南了解更多)。在一个 DStream 中的每个 RDD 包含来自一定的时间间隔的数据,如下图所示。

应用于 DStream 的任何操作转化为对于底层的 RDDs 的操作。例如,在先前的例子,转换一个行(lines)流成为单词(words)中,flatMap 操作被应用于在行离散流(lines DStream)中的每个 RDD 来生成单词离散流(words DStream)的 RDDs 。如下图所示。

这些底层的 RDD 变换由 Spark 引擎(engine)计算。 DStream 操作隐藏了大多数这些细节并为了方便起见,提供给了开发者一个更高级别的 API 。这些操作细节会在后边的章节中讨论。