页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

从 Spark SQL 应用中访问 Parquet 数据文件

Spark SQL 支持从各种数据源加载以及保存 DataFrame,并且原生的支持 Parquet。更多关于 Parquet 的信息,请看 使用 Apache Parquet 数据文件与 CDH

为了在 Spark SQL 中读取 Parquet 文件,使用 SQLContext.read.parquet("path") 方法。

为了在 Spark SQL 中写入 Parquet 文件,使用 DataFrame.write.parquet("path") 方法。

为了设置压缩类型,配置 spark.sql.parquet.compression.codec 属性 : 

sqlContext.setConf("spark.sql.parquet.compression.codec","codec") 

支持的 codec 值是 : uncompressed,gzie,lzo 和 snappy。默认值是 gzip。

一个写 Parquet 文件到 Amazon S3 中的例子,请看 从 Amazon S3 读取数据源并且写入到 Amazon S3