页面树结构

2017-07-25 Apache Spark 2.2.0 官方文档中文版发布 : http://spark.apachecn.org/docs/cn/2.2.0/


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

Spark StreamingSpark Core API 的扩展,它支持弹性的,高吞吐的,容错的实时数据流的处理。数据可以通过多种数据源获取,例如 KafkaFlumeKinesis 以及 TCP sockets,也可以通过例如 mapreducejoinwindow 等的高阶函数组成的复杂算法处理。最终,处理后的数据可以输出到文件系统,数据库以及实时仪表盘中。事实上,你还可以在数据流上使用 Spark机器学习 以及 图形处理算法

Spark Streaming

在内部,它工作原理如下,Spark Streaming 接收实时输入数据流并将数据切分成多个批数据,然后交由 Spark 引擎处理并分批的生成结果数据流。

Spark Streaming

Spark Streaming 提供了一个高层次的抽象叫做离散流(discretized stream)或者 DStream,它代表一个连续的数据流。DStream 可以通过来自数据源的输入数据流创建,例如 KafkaFlume 以及 Kinesis,或者在其他 DStream 上进行高层次的操作创建。在内部,一个 DStream 是通过一系列的 RDD 来表示。

本指南告诉你如何使用 DStream 来编写一个 Spark Streaming 程序.你可以使用 ScalaJava 或者 PythonSpark 1.2 版本后引进)来编写程序。

注意 :

Python 有些 API 可能会有不同或不可用,在这个指南里你将会发现 Python API 的标签来高亮显示这些不同。