页面树结构

2017-07-25 Apache Spark 2.2.0 官方文档中文版发布 : http://spark.apachecn.org/docs/cn/2.2.0/


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

下面的选项也可以用来提升查询执行的性能。随着 Spark 自动地执行越来越多的优化操作,这些选项在未来的发布版本中可能会过时。

属性名默认值含义
spark.sql.files.maxPartitionBytes134217728 (128 MB)读取文件时单个分区可容纳的最大字节数。
spark.sql.files.openCostInBytes4194304 (4 MB)

打开文件的估算成本,按照同一时间能够扫描的字节数来测量。当往一个分区写入多个文件的时候会使用。高估更好, 这样的话小文件分区将比大文件分区更快 (先被调度)。

spark.sql.autoBroadcastJoinThreshold10485760 (10 MB)

配置一个表在执行 join 操作时能够广播给所有 worker 节点的最大字节大小。通过将这个值设置为-1,可以禁用广播。注意,目前的数据统计仅支持已经运行了 ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan 命令的 Hive metastore

spark.sql.shuffle.partitions200配置为连接或聚合操作混洗(shuffle)数据时使用的分区数。