页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

Spark 指南

Apache Spark 是一个用于分布式计算的通用框架,在批处理和交互式处理上提供了很高的性能。它暴露了用于 Java,Python 和 Scala 的 API,由 Spark core 和下列相关的项目组成 : 

  • Spark SQL - 用于处理结构化数据的模块,使您能够无缝的混合 SQL 查询与 Spark 程序。
  • Spark Streaming - 使您能够去构建可伸缩的,容错的流式应用程序的 API。
  • MLib - 实现了常见的 机器学习 算法的 API。
  • GraphX - 用于 graphs(图) 和 graph-parallel(并行图) 计算的 API。

您可以在本地或者群集中运行 Spark 应用程序,既可以通过使用 交互式 Shell 的方式, 又可以通过 提交一个应用程序 的方式。通常在执行数据探索阶段和为了 Ad-Hoc 分析 时运行交互式的 Spark 应用程序。

为了在群集中运行应用程序,Spark 需要一个 Cluster Manager(群集管理者)。Cloudera 支持两种 Cluster Manager : YARN 和 Spark Standlone。当运行在 YARN 上时,Spark 应用程序的进程被 YARN ResourceManager 和 NodeManager 角色管理。当运行在 Spark Standlone 上时,Spark 应用程序的进程被 Spark Master 和 Worker 角色管理。

为支持的特性

下列的 Spark 特性未支持 : 

  • Spark SQL:
    • Thrift JDBC/ODBC server
    • Spark SQL CLI
  • Spark Dataset API
  • SparkR
  • GraphX
  • Spark on Scala 2.11
  • Mesos 集群管理