Page tree

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

Skip to end of metadata
Go to start of metadata

使用 Spark 构建以及运行一个 Crunch 应用程序

开发以及运行 Spark WordCount 应用程序 在编写,编译,和运行一个 Spark 应用程序提供了一个教程。使用该教程作为一个起始点,如下所示使用 Spark 构建并且运行一个 Crunch 应用程序。

  1. 在教程中和其它的依赖一样, 添加合适的 crunch-core 版本 和 crunch-spark 依赖到 Maven 工程。

    <dependency>
        <groupId>org.apache.crunch</groupId>
        <artifactId>crunch-core</artifactId>
        <version>${crunch.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.crunch</groupId>
        <artifactId>crunch-spark</artifactId>
        <version>${crunch.version}</version>
    </dependency>
  2. 在定义你 Crunch pipeline 中使用 MRPipeline 的地方使用 SparkPipeline。SparkPipeline 需要一个包含 Spark master(本地模式的 local,YARN 模式的 yarn) 链接的字符串或者一个 JavaSparkContext 实例。
  3. 当您想要运行 Spark 应用程式序时,使用 spark-submit 启动 pipeline 与您的 Crunch 应用程序 app-jar-with-dependencies.jar 文件。

作为一个例子,请看 Crunch 示例。在构建玩这个例子之后,运行下面的命令 : 

spark-submit --class com.example.WordCount crunch-demo-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://namenode_host:8020/user/hdfs/input hdfs://namenode_host:8020/user/hdfs/output