Page tree

2017-07-25 Apache Spark 2.2.0 官方文档中文版发布 : http://spark.apachecn.org/docs/cn/2.2.0/


MachineLearning 优酷地址 : http://i.youku.com/apachecn

Skip to end of metadata
Go to start of metadata

除了 Spark 自己的 监控功能 之外,针对 Spark Streaming 它也有一些其他的功能。当使用 StreamingContext 时,Spark Web UI 显示了一个额外的 Streaming 标签,它显示了有关正在运行的 Receivers(接收器)(是否 Receivers 处于活动状态,记录接受数量,接收器误差,等等)和已完成的 Batches(批处理时间,查询延迟,等等)的统计信息。这可以用于监控 Spark 应用程序的进度。

Web UI 中以下两个指标特别重要 : 

  • Processing Time(处理时间)- 用来处理每批数据的时间。
  • Scheduling Delay(调度延迟)- 一批数据在队列中等待,直到上一批数据处理完成所需的时间。

如果批处理时间始终大于批的间隔 并且(或者)队列延迟不断增加,那么说明系统不能尽可能快的处理 Batches,它们(Batches)正在被生成并且落后(处理),在这种情况下,可以考虑 降低 批处理时间。

Spark Streaming 应用程序处理的进度,也可以使用 StreamingListener 接口监控,它允许你获取 Receiver 的状态以及批处理时间。注意,这是一个开发者 API 并且在将来它很可能被改进(即上报更多的信息)。