标签(空格分隔): Spark
[toc]
前言
Spark SQL的介绍只包含官方文档的Getting Started、DataSource、Performance Tuning和Distributed
SQL Engine部分。不含其他的迁移和PySpark等部分。
Spark SQL介绍
Spark SQL是一个Spark模块用于结构化数据处理。与基本的Spark RDD API不同,Spark
SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。 在内部,Spark SQL使用此额外信息来执行额外的优化。 有几种与Spark
SQL交互的方法,包括SQL和Dataset API。 在使用相同的执行引擎计算结果时,与使用表达计算的API或者语言无关。
这种统一意味着开发人员可以轻松地在不同的API之间来回切换,从
热门工具 换一换