页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

使用 Spark 构建以及运行一个 Crunch 应用程序

开发以及运行 Spark WordCount 应用程序 在编写,编译,和运行一个 Spark 应用程序提供了一个教程。使用该教程作为一个起始点,如下所示使用 Spark 构建并且运行一个 Crunch 应用程序。

  1. 在教程中和其它的依赖一样, 添加合适的 crunch-core 版本 和 crunch-spark 依赖到 Maven 工程。

    <dependency>
        <groupId>org.apache.crunch</groupId>
        <artifactId>crunch-core</artifactId>
        <version>${crunch.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.crunch</groupId>
        <artifactId>crunch-spark</artifactId>
        <version>${crunch.version}</version>
    </dependency>
  2. 在定义你 Crunch pipeline 中使用 MRPipeline 的地方使用 SparkPipeline。SparkPipeline 需要一个包含 Spark master(本地模式的 local,YARN 模式的 yarn) 链接的字符串或者一个 JavaSparkContext 实例。
  3. 当您想要运行 Spark 应用程式序时,使用 spark-submit 启动 pipeline 与您的 Crunch 应用程序 app-jar-with-dependencies.jar 文件。

作为一个例子,请看 Crunch 示例。在构建玩这个例子之后,运行下面的命令 : 

spark-submit --class com.example.WordCount crunch-demo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://namenode_host:8020/user/hdfs/input hdfs://namenode_host:8020/user/hdfs/output