页面树结构

2017-07-25 Apache Spark 2.2.0 官方文档中文版发布 : http://spark.apachecn.org/docs/cn/2.2.0/


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始
  • SparkSession 现在是 Spark 新的切入点, 它替代了老的 SQLContext HiveContext。注意 : 为了向下兼容,老的 SQLContextHiveContext 仍然保留。可以从 SparkSession 获取一个新的 catalog 接口—— 现有的访问数据库和表的 API,如 listTablescreateExternalTable, dropTempViewcacheTable 都被移到该接口。
  • Dataset API DataFrame API 进行了统一。在 Scala 中,DataFrame 变成了 Dataset[Row] 类型的一个别名,而 Java API 使用者必须将 DataFrame 替换成 Dataset<Row>Dataset 类既提供了强类型转换操作(如 mapfilter 以及 groupByKey)也提供了非强类型转换操作(如 selectgroupBy)。由于编译期的类型安全不是 PythonR 语言的一个特性,Dataset 的概念并不适用于这些语言的 API。相反,DataFrame 仍然是最基本的编程抽象, 就类似于这些语言中单节点数据帧的概念。

  • DatasetDataFrame APIunionAll 已经过时并且由 union 替代。
  • DatasetDataFrame APIexplode 已经过时,作为选择,可以结合 selectflatMap 使用 functions.explode()
  • DatasetDataFrame APIregisterTempTable 已经过时并且由 createOrReplaceTempView 替代。