Like

Spark 指南：Spark SQL（二）—— 结构化操作

2021-08-05T06:16:46.000Z

从定义上讲，DataFrame 由一系列行和列组成，行的类型为 Row，列可以表示成每个单独行的计算表达式。Schema 定义了每个列的名称和类型，Partition 定义了整个集群中 DataFrame 的物理分布。

Schema

Schema 定义了 DataFrame 的列名和类型，我们可以让数据源定义 Schema（schema-on-read），也可以自己明确地进行定义。对于临时分析，schema-on-read 通常效果很好，但是这也可能导致精度问题，例如在读取文件时将 Long 型错误地设置为整型，在生产环境中手动定义 Schema 通常是更好的选择，尤其是在使用 CSV 和 JSON 等无类型数据源时。

Schema 是一种 structType，由很多 StructFields 组成，每个 StructField 具有名称、类型和布尔值标识（用于指示该列是否可以为 null），最后用户可以选择指定与该列关联的元数据，元数据是一种存储有关此列的信息的方式（Spark 在其机器学习库中使用此信息）。如果数据中的类型与 Schema 不匹配，Spark 将引发错误。

import org.apache.spark.sql.types._
import org.apache.spark.sql.Row

val schema = StructType(
    Array(
        StructField("name", StringType, true),
        StructField("age", IntegerType, false)
    )
)
val data = spark.sparkContext.parallelize(Seq(
    Row("like", 18),
    Row("arya", 24)
))
val df = spark.createDataFrame(data, schema)
df.show()
+----+---+
|name|age|
+----+---+
|like| 18|
|arya| 24|
+----+---+

// 打印 DataFrame 的 Schema
df.printSchema
root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = false)

Columns and Expressions

列只是表达式（Columns are just Expressions）：列以及列上的转换与经过解析的表达式拥有相同的逻辑计划。这是极为重要的一点，这意味着你可以将表达式编写为 DataFrame 代码或 SQL 表达式，并获得完全相同的性能特性。

Columns

对 Spark 而言，Columns 是一种逻辑构造，仅表示通过表达式在每条记录上所计算出来的值。这意味着要有一个列的实际值，我们就需要有一个行，要有一个行，我们就需要有一个 DataFrame，你不能在 DataFrame 上下文之外操作单个列，你必须在 DataFrame 中使用 Spark 转换来修改列的内容。

在 DataFrame 中引用列的方式有很多，以下几种语法形式是等价的：

df.columns
Array[String] = Array(name, dob, gender, salary)

df.select('dob, $"dob", df("dob"), col("dob"), df.col("dob"), expr("dob")).show()
+-----+-----+-----+-----+-----+
|  dob|  dob|  dob|  dob|  dob|
+-----+-----+-----+-----+-----+
|36636|36636|36636|36636|36636|
|40288|40288|40288|40288|40288|
|42114|42114|42114|42114|42114|
|39192|39192|39192|39192|39192|
+-----+-----+-----+-----+-----+

Expressions

Expressions 是对 DataFrame 记录中一个或多个值的一组转换，可以将其视为一个函数，该函数将一个或多个列名作为输入，进行解析，然后可能应用更多表达式为数据集中每个记录创建单个值（可以是诸如 Map 或 Array 之类的复杂类型）。在最简单的情况下，通过 expr() 函数创建的表达式仅仅是 DataFrame 列引用，expr("col_name") 等价于 col("col_name")。

列提供了表达式功能的子集，如果使用 col() 并想在该列上执行转换，则必须在该列引用上执行那些转换，使用表达式时， expr 函数实际上可以解析字符串中的转换和列引用，例如：expr("col_name - 5") 等价于 col("col_name") - 5，甚至等价于 expr("col_name") - 5。

import org.apache.spark.sql.functions.expr
(((col("col_name") + 5) * 200) - 6) < col("other_col")
expr("(((col_name + 5) * 200) - 6) < other_col")

Records and Rows

DataFrame 中的每一行都是一条记录，Spark 将此记录表示为 Row 类型的对象，Spark 使用列表达式操纵 Row 对象，以产生可用的值。Row 对象在内部表示为字节数组，但是字节数组接口从未显示给用户，因为我们仅使用列表达式来操作它们。

可以通过手动实例化具有每个列中的值的 Row 对象来创建行，但是务必注意只有 DataFrame 有 Schema，Row 本身没有模式。

import org.apache.spark.sql.Row
val myRow = Row("hello", null, 1, false)

访问行中的数据很容易，只需要指定位置或列名：

df.collect().foreach(row=>{
    val name = row(0).asInstanceOf[String]
    val age = row.getAs[Integer]("age")
    println(s"name:$name age:$age")
})

DataFrame 转换

DataFrame 转换不会改变原有的 DataFrame，而是生成一个新的 DataFrame。很多 DataFrame 转换/函数被包含在 org.apache.spark.sql.functions 模块，使用前推荐先导入相关模块：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
import org.apache.spark.sql.Row

本文主要用到的示例数据：

val data = Seq(
      Row(Row("James ","","Smith"),"36636","M","3000"),
      Row(Row("Michael ","Rose",""),"40288","M","4000"),
      Row(Row("Robert ","","Williams"),"42114","M","4000"),
      Row(Row("Maria ","Anne","Jones"),"39192","F","4000"),
      Row(Row("Jen","Mary","Brown"),"","F","-1")
)

val schema = new StructType()
      .add("name",new StructType()
          .add("firstname",StringType)
          .add("middlename",StringType)
          .add("lastname",StringType)
      )  
      .add("dob",StringType)
      .add("gender",StringType)
      .add("salary",StringType)

val df = spark.createDataFrame(spark.sparkContext.parallelize(data),schema)
df.show()
df.printSchema

+--------------------+-----+------+------+
|                name|  dob|gender|salary|
+--------------------+-----+------+------+
|   [James , , Smith]|36636|     M|  3000|
|  [Michael , Rose, ]|40288|     M|  4000|
|[Robert , , Willi...|42114|     M|  4000|
|[Maria , Anne, Jo...|39192|     F|  4000|
|  [Jen, Mary, Brown]|     |     F|    -1|
+--------------------+-----+------+------+

root
 |-- name: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- dob: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: string (nullable = true)

列操作

select —— 筛选列

功能：select() 用于筛选/操作列；
语法：有两种语法形式，但是两种形式不能混用；

// 传入列名字符串
select(col : scala.Predef.String, cols : scala.Predef.String*) : org.apache.spark.sql.DataFrame
// 传入多个列对象
select(cols : org.apache.spark.sql.Column*) : org.apache.spark.sql.DataFrame

示例：

// 可以是列名字符串、*代表所有列、a.b 代表 struct 中的子域、不可用 as
df.select("name.firstname", "dob", "*").show()
+---------+-----+--------------------+-----+------+------+
|firstname|  dob|                name|  dob|gender|salary|
+---------+-----+--------------------+-----+------+------+
|   James |36636|   [James , , Smith]|36636|     M|  3000|
| Michael |40288|  [Michael , Rose, ]|40288|     M|  4000|
|  Robert |42114|[Robert , , Willi...|42114|     M|  4000|
|   Maria |39192|[Maria , Anne, Jo...|39192|     F|  4000|
|      Jen|     |  [Jen, Mary, Brown]|     |     F|    -1|
+---------+-----+--------------------+-----+------+------+

// 列对象有多种表示方法：$"col_name"、col("col_name")、df("col_name")
// 列可以通过.as(col_name) 起别名
// 列可以通过.cast() 改变列的类型
// 列字面量用 lit(c) 表示
df.select($"name.firstname".cast("String"), col("dob").as("f_dob"), df("*"), lit(1).as("new_col")).show()
+---------+-----+--------------------+-----+------+------+-------+
|firstname|f_dob|                name|  dob|gender|salary|new_col|
+---------+-----+--------------------+-----+------+------+-------+
|   James |36636|   [James , , Smith]|36636|     M|  3000|      1|
| Michael |40288|  [Michael , Rose, ]|40288|     M|  4000|      1|
|  Robert |42114|[Robert , , Willi...|42114|     M|  4000|      1|
|   Maria |39192|[Maria , Anne, Jo...|39192|     F|  4000|      1|
|      Jen|     |  [Jen, Mary, Brown]|     |     F|    -1|      1|
+---------+-----+--------------------+-----+------+------+-------+

selectExpr —— 通过 SQL 语句筛选列

功能：selectExpr 和 select 作用相同，只是 selectExpr 更加简洁、灵活、强大；
语法：可以通过构造任意有效的非聚合 SQL 语句来生成列（如果使用了聚合函数，则只能应用于整个 DataFrame）；这释放了 Spark 的真正力量，我们可以将 selectExpr 视为构建复杂表达式以生成新的 DataFrame 的简单方法；如果列名中包含了保留字或关键字，例如空格或破折号，可以通过反引号（`）字符引用列名；

selectExpr(exprs : scala.Predef.String*) : org.apache.spark.sql.DataFrame
select(cols : org.apache.spark.sql.Column*, expr())

示例：

df.selectExpr("name.firstname", "dob as f_dob", "*", "dob + salary as new_col").show()
df.select(col("name.firstname"), expr("dob as f_dob"), df("*"), expr("dob + salary as new_col"), lit(1).as("f_one")).show()

+---------+-----+--------------------+-----+------+------+-------+-----+
|firstname|f_dob|                name|  dob|gender|salary|new_col|f_one|
+---------+-----+--------------------+-----+------+------+-------+-----+
|   James |36636|   [James , , Smith]|36636|     M|  3000|39636.0|    1|
| Michael |40288|  [Michael , Rose, ]|40288|     M|  4000|44288.0|    1|
|  Robert |42114|[Robert , , Willi...|42114|     M|  4000|46114.0|    1|
|   Maria |39192|[Maria , Anne, Jo...|39192|     F|  4000|43192.0|    1|
|      Jen|     |  [Jen, Mary, Brown]|     |     F|    -1|   null|    1|
+---------+-----+--------------------+-----+------+------+-------+-----+

df.selectExpr("max(salary) as max_salary", "avg(salary) as `avg salary`").show()
+----------+----------+
|max_salary|avg salary|
+----------+----------+
|      4000|    2999.8|
+----------+----------+

selectExpr 的灵活用法使其可以替代大部分的列操作算子，但是考虑到代码的简洁性，对于一些具体的操作，往往会有更简单直接的算子。事实上，DataFrame 操作使用最多的算子是 withColumn，withColumn 算子将单列处理逻辑封装到独立的子句中，更具可读性，也方便了代码维护。

withColumn —— 添加或更新列

功能：withColumn() 可以用来添加新列、改变已有列的值、改变列的类型；
语法：withColumn 有两个参数，列名和将为 DataFrame 各行创建值的表达式；

withColumn(colName: String, col: Column): DataFrame

示例：

// 添加新的列
df.withColumn("CopiedColumn",col("salary")* -1)
// 改变列类型
df.withColumn("salary",col("salary").cast("Integer"))
// 改变已有列的值
df.withColumn("salary",col("salary")*100)

withColumnRenamed —— 重命名列

功能：withColumnRenamed 用于重命名列；
语法：

withColumnRenamed(existingName: String, newName: String): DataFrame

示例：有多种方式可以用于重命名单个列、多个列、所有列、嵌套列

// 重命名单个列，withColumnRenamed(x, y) 将 y 列重名为 x
df.withColumnRenamed("dob","DateOfBirth")

// 重命名嵌套列，col("name").cast(schema2) 将嵌套列重命名为 schema2 中定义的列名
val schema2 = new StructType()
    .add("fname",StringType)
    .add("middlename",StringType)
    .add("lname",StringType)
df.select(col("name").cast(schema2), col("dob"), col("gender"), col("salary")).printSchema
root
 |-- name: struct (nullable = true)
 |    |-- fname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lname: string (nullable = true)
 |-- dob: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: string (nullable = true)

// 重命名嵌套列，col("x.y").as("z") 可以将 x 中的 y 抽离出来作为单独的列
val df4 = df.select(col("name.firstname").as("fname"),
  col("name.middlename").as("mname"),
  col("name.lastname").as("lname"),
  col("dob"),col("gender"),col("salary"))
df4.show()
+--------+-----+--------+-----+------+------+
|   fname|mname|   lname|  dob|gender|salary|
+--------+-----+--------+-----+------+------+
|  James |     |   Smith|36636|     M|  3000|
|Michael | Rose|        |40288|     M|  4000|
| Robert |     |Williams|42114|     M|  4000|
|  Maria | Anne|   Jones|39192|     F|  4000|
|     Jen| Mary|   Brown|     |     F|    -1|
+--------+-----+--------+-----+------+------+

// 重命名多列，col() 函数
val old_columns = Seq("dob","gender","salary","fname","mname","lname")
val new_columns = Seq("DateOfBirth","Sex","salary","firstName","middleName","lastName")
val columnsList = old_columns.zip(new_columns).map(f=>{col(f._1).as(f._2)})
val df5 = df4.select(columnsList:_*)
df5.show()
+-----------+---+------+---------+----------+--------+
|DateOfBirth|Sex|salary|firstName|middleName|lastName|
+-----------+---+------+---------+----------+--------+
|      36636|  M|  3000|   James |          |   Smith|
|      40288|  M|  4000| Michael |      Rose|        |
|      42114|  M|  4000|  Robert |          |Williams|
|      39192|  F|  4000|   Maria |      Anne|   Jones|
|           |  F|    -1|      Jen|      Mary|   Brown|
+-----------+---+------+---------+----------+--------+

// 重命名所有列，toDF() 方法
val newColumns = Seq("newCol1","newCol2","newCol3","newCol4")
df.toDF(newColumns:_*).show()
+--------------------+-------+-------+-------+
|             newCol1|newCol2|newCol3|newCol4|
+--------------------+-------+-------+-------+
|   [James , , Smith]|  36636|      M|   3000|
|  [Michael , Rose, ]|  40288|      M|   4000|
|[Robert , , Willi...|  42114|      M|   4000|
|[Maria , Anne, Jo...|  39192|      F|   4000|
|  [Jen, Mary, Brown]|       |      F|     -1|
+--------------------+-------+-------+-------+

drop —— 删除列

功能：drop() 用于删除 DataFrame 中单个或多个列，如果指定列不存在则忽略，在两个表进行 join 时通常可以利用这一点来保证两个表除了关联键之外不存在同名字段。
语法：

// drop 有三种不同的形式：
1) drop(colName : scala.Predef.String) : org.apache.spark.sql.DataFrame
2) drop(colNames : scala.Predef.String*) : org.apache.spark.sql.DataFrame
3) drop(col : org.apache.spark.sql.Column) : org.apache.spark.sql.DataFrame

示例：

val df = spark.range(3)
    .withColumn("today_str",lit("2020-11-04"))
    .withColumn("today", current_date())
    .withColumn("now", current_timestamp())
    .orderBy(rand())
df.show(false)
+---+----------+----------+-----------------------+
|id |today_str |today     |now                    |
+---+----------+----------+-----------------------+
|0  |2020-11-04|2020-11-04|2020-11-04 20:57:06.515|
|1  |2020-11-04|2020-11-04|2020-11-04 20:57:06.515|
|2  |2020-11-04|2020-11-04|2020-11-04 20:57:06.515|
+---+----------+----------+-----------------------+
// 删除单列
df.drop("today_str").show()
+---+----------+--------------------+
| id|     today|                 now|
+---+----------+--------------------+
|  0|2020-11-04|2020-11-04 22:19:...|
|  1|2020-11-04|2020-11-04 22:19:...|
|  2|2020-11-04|2020-11-04 22:19:...|
+---+----------+--------------------+

// 删除多列
df.drop("today_str", "today").show()
+---+--------------------+
| id|                 now|
+---+--------------------+
|  0|2020-11-04 22:19:...|
|  1|2020-11-04 22:19:...|
|  2|2020-11-04 22:19:...|
+---+--------------------+

// 删除不存在的列
df.drop("xxx").show()
+---+----------+----------+--------------------+
| id| today_str|     today|                 now|
+---+----------+----------+--------------------+
|  0|2020-11-04|2020-11-04|2020-11-04 22:19:...|
|  1|2020-11-04|2020-11-04|2020-11-04 22:19:...|
|  2|2020-11-04|2020-11-04|2020-11-04 22:19:...|
+---+----------+----------+--------------------+

行操作

where | filter —— 筛选行

功能：where 和 filter 是完全等价的，用于按照指定条件筛选 DataFrame 中满足条件的行；
语法：传入一个布尔表达式，过滤掉 false 所对应的行；

// 有四种形式
1) filter(condition: Column): Dataset[T]
2) filter(conditionExpr: String): Dataset[T]
3) filter(func: T => Boolean): Dataset[T]
4) filter(func: FilterFunction[T]): Dataset[T]

示例：

df.show()
+--------------------+------------------+-----+------+
|                name|         languages|state|gender|
+--------------------+------------------+-----+------+
|    [James, , Smith]|[Java, Scala, C++]|   OH|     M|
|      [Anna, Rose, ]|[Spark, Java, C++]|   NY|     F|
| [Julia, , Williams]|      [CSharp, VB]|   OH|     F|
|[Maria, Anne, Jones]|      [CSharp, VB]|   NY|     M|
|  [Jen, Mary, Brown]|      [CSharp, VB]|   NY|     M|
|[Mike, Mary, Will...|      [Python, VB]|   OH|     M|
+--------------------+------------------+-----+------+

// Column 形式表达式
df.filter(df("state") === "OH" && df("gender") === "M")
// String 形式表达式 == 和 = 等价
df.filter("gender == 'M'")
df.filter("gender = 'M'")
// Filtering on an Array column
df.filter(array_contains(df("languages"),"Java"))
// Filtering on Nested Struct columns
df.filter(df("name.lastname") === "Williams")

distinct —— 行去重

功能：distinct() 方法可以移除 DataFrame 中重复的行，dropDuplicates() 方法用于移除 DataFrame 中在某几个字段上重复的行（默认保留重复行中的第一行）。
语法：

distinct(): Dataset[T] = dropDuplicates()
dropDuplicates(colNames: Seq[String]): Dataset[T]

示例：

df.show()
+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|        James|     Sales|  3000|
|      Michael|     Sales|  4600|
|       Robert|     Sales|  4100|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|        Scott|   Finance|  3300|
|          Jen|   Finance|  3900|
|         Jeff| Marketing|  3000|
|        Kumar| Marketing|  2000|
|         Saif|     Sales|  4100|
+-------------+----------+------+

// Distinct all columns
val distinctDF = df.distinct()
println("Distinct count: "+distinctDF.count())
distinctDF.show(false)

Distinct count: 9
+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|James        |Sales     |3000  |
|Michael      |Sales     |4600  |
|Maria        |Finance   |3000  |
|Robert       |Sales     |4100  |
|Saif         |Sales     |4100  |
|Scott        |Finance   |3300  |
|Jeff         |Marketing |3000  |
|Jen          |Finance   |3900  |
|Kumar        |Marketing |2000  |
+-------------+----------+------+

// Distinct using dropDuplicates
val dropDisDF = df.dropDuplicates("department","salary")
println("Distinct count of department & salary : "+dropDisDF.count())
dropDisDF.show(false)

Distinct count of department & salary : 8
+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|Jen          |Finance   |3900  |
|Maria        |Finance   |3000  |
|Scott        |Finance   |3300  |
|Michael      |Sales     |4600  |
|Kumar        |Marketing |2000  |
|Robert       |Sales     |4100  |
|James        |Sales     |3000  |
|Jeff         |Marketing |3000  |
+-------------+----------+------+

groupBy —— 行分组

功能：和 SQL 中的 group by 语句类似，groupBy() 函数用于将 DataFrame/Dataset 按照指定字段分组，返回一个 RelationalGroupedDataset 对象
语法：RelationalGroupedDataset 对象包含以下几种聚合方法：
- count()/max()/min()/mean()/avg()/sum(): 返回每个分组的行数/最大/最小/平均值/和；
- agg(): 可以同时计算多个聚合；
- pivot(): 用于行转列；
示例：

import spark.implicits._
val simpleData = Seq(("James","Sales","NY",90000,34,10000),
    ("Michael","Sales","NY",86000,56,20000),
    ("Robert","Sales","CA",81000,30,23000),
    ("Maria","Finance","CA",90000,24,23000),
    ("Raman","Finance","CA",99000,40,24000),
    ("Scott","Finance","NY",83000,36,19000),
    ("Jen","Finance","NY",79000,53,15000),
    ("Jeff","Marketing","CA",80000,25,18000),
    ("Kumar","Marketing","NY",91000,50,21000)
  )
val df = simpleData.toDF("employee_name","department","state","salary","age","bonus")
df.show()

+-------------+----------+-----+------+---+-----+
|employee_name|department|state|salary|age|bonus|
+-------------+----------+-----+------+---+-----+
|        James|     Sales|   NY| 90000| 34|10000|
|      Michael|     Sales|   NY| 86000| 56|20000|
|       Robert|     Sales|   CA| 81000| 30|23000|
|        Maria|   Finance|   CA| 90000| 24|23000|
|        Raman|   Finance|   CA| 99000| 40|24000|
|        Scott|   Finance|   NY| 83000| 36|19000|
|          Jen|   Finance|   NY| 79000| 53|15000|
|         Jeff| Marketing|   CA| 80000| 25|18000|
|        Kumar| Marketing|   NY| 91000| 50|21000|
+-------------+----------+-----+------+---+-----+

// 计算每个分组的行数
df.groupBy("department").count().show()
+----------+-----+
|department|count|
+----------+-----+
|     Sales|    3|
|   Finance|    4|
| Marketing|    2|
+----------+-----+

// 在某个列上聚合
df.groupBy("department").sum("salary").show(false)
+----------+-----------+
|department|sum(salary)|
+----------+-----------+
|Sales     |257000     |
|Finance   |351000     |
|Marketing |171000     |
+----------+-----------+

// 同时在多列应用相同的聚合函数
df.groupBy("department","state")
    .sum("salary","bonus")
    .show(false)

+----------+-----+-----------+----------+
|department|state|sum(salary)|sum(bonus)|
+----------+-----+-----------+----------+
|Finance   |NY   |162000     |34000     |
|Marketing |NY   |91000      |21000     |
|Sales     |CA   |81000      |23000     |
|Marketing |CA   |80000      |18000     |
|Finance   |CA   |189000     |47000     |
|Sales     |NY   |176000     |30000     |
+----------+-----+-----------+----------+

// agg() 可以同时在多个列上应用不同聚合函数，并为每个聚合结果起别名
import org.apache.spark.sql.functions._
df.groupBy("department")
    .agg(
      sum("salary").as("sum_salary"),
      avg("salary").as("avg_salary"),
      sum("bonus").as("sum_bonus"),
      max("bonus").as("max_bonus"))
    .show(false)
+----------+----------+-----------------+---------+---------+
|department|sum_salary|avg_salary       |sum_bonus|max_bonus|
+----------+----------+-----------------+---------+---------+
|Sales     |257000    |85666.66666666667|53000    |23000    |
|Finance   |351000    |87750.0          |81000    |24000    |
|Marketing |171000    |85500.0          |39000    |21000    |
+----------+----------+-----------------+---------+---------+

sort —— 行排序

功能：在 Spark 中，可以使用 sort() 或 orderBy() 方法来根据某几个字段的值对 DataFrame/Dataset 进行排序。
语法：

// sort
sort(sortCol : scala.Predef.String, sortCols : scala.Predef.String*) : Dataset[T]
sort(sortExprs : org.apache.spark.sql.Column*) : Dataset[T]
// orderBy
orderBy(sortCol : scala.Predef.String, sortCols : scala.Predef.String*) : Dataset[T]
orderBy(sortExprs : org.apache.spark.sql.Column*) : Dataset[T]

示例：

df.sort("department","state").show(false)
df.sort(col("department"),col("state")).show(false)

df.orderBy("department","state").show(false)
df.orderBy(col("department"),col("state")).show(false)

// 默认即为升序 asc
df.sort(col("department").asc,col("state").desc).show(false)
df.orderBy(col("department").asc,col("state").desc).show(false)

// Spark SQL 函数提供了 asc desc asc_nulls_first asc_nulls_last 函数
df.select($"employee_name",asc("department"),desc("state"),$"salary",$"age",$"bonus").show(false)
df.createOrReplaceTempView("EMP")
spark.sql(" select employee_name,asc('department'),desc('state'),salary,age,bonus from EMP").show(false)

map —— 映射

功能：map() 和 mapPartitions() 转换将函数应用于 DataFrame/Dataset 的每个元素/记录/行，并返回新的 DataFrame/Dataset，需要注意的是这两个转换都返回 Dataset[U] 而不是 DataFrame（在Spark 2.0中，DataFrame = Dataset [Row]）。
语法: Spark 提供了 2 个映射转换签名，一个以 scala.function1 作为参数，另一个以 Spark MapFunction 作为签名，注意到这两个函数都返回 Dataset [U]，但不返回DataFrame，即Dataset [Row]。如果希望将 DataFrame 作为输出，则需要使用 toDF() 函数将 Dataset 转换为 DataFrame。

1) map[U](func : scala.Function1[T, U])(implicit evidence$6 : org.apache.spark.sql.Encoder[U]) 
        : org.apache.spark.sql.Dataset[U]
2) map[U](func : org.apache.spark.api.java.function.MapFunction[T, U], encoder : org.apache.spark.sql.Encoder[U]) 
        : org.apache.spark.sql.Dataset[U]

示例:

// 示例数据
val structureData = Seq(
    Row("James","","Smith","36636","NewYork",3100),
    Row("Michael","Rose","","40288","California",4300),
    Row("Robert","","Williams","42114","Florida",1400),
    Row("Maria","Anne","Jones","39192","Florida",5500),
    Row("Jen","Mary","Brown","34561","NewYork",3000)
    )

val structureSchema = new StructType()
    .add("firstname",StringType)
    .add("middlename",StringType)
    .add("lastname",StringType)
    .add("id",StringType)
    .add("location",StringType)
    .add("salary",IntegerType)

val df2 = spark.createDataFrame(
    spark.sparkContext.parallelize(structureData),structureSchema)
df2.printSchema()
df2.show(false)

root
 |-- firstname: string (nullable = true)
 |-- middlename: string (nullable = true)
 |-- lastname: string (nullable = true)
 |-- id: string (nullable = true)
 |-- location: string (nullable = true)
 |-- salary: integer (nullable = true)

+---------+----------+--------+-----+----------+------+
|firstname|middlename|lastname|id   |location  |salary|
+---------+----------+--------+-----+----------+------+
|James    |          |Smith   |36636|NewYork   |3100  |
|Michael  |Rose      |        |40288|California|4300  |
|Robert   |          |Williams|42114|Florida   |1400  |
|Maria    |Anne      |Jones   |39192|Florida   |5500  |
|Jen      |Mary      |Brown   |34561|NewYork   |3000  |
+---------+----------+--------+-----+----------+------+

// 为了通过实例解释 map() 和 mapPartitions()，我们再创建一个 Util 类，这个类具有一个 combine() 方法，该方法接收三个字符串参数，通过逗号合并三个参数并输出。
class Util extends Serializable {
  def combine(fname:String,mname:String,lname:String):String = {
    fname+","+mname+","+lname
  }
}

// map 是在 worker 节点上执行的，而我们在 map 函数内部创建了 Util 实例，初始化将发生在 DataFrame 中的每一行，当您进行了大量复杂的初始化时，这会导致性能问题
import spark.implicits._
val df3 = df2.map(row=>{
    val util = new Util()
    val fullName = util.combine(row.getString(0),row.getString(1),row.getString(2))
    (fullName, row.getString(3),row.getInt(5))
})
val df3Map =  df3.toDF("fullName","id","salary")

df3Map.printSchema()
df3Map.show(false)

root
 |-- fullName: string (nullable = true)
 |-- id: string (nullable = true)
 |-- salary: integer (nullable = false)

+----------------+-----+------+
|fullName        |id   |salary|
+----------------+-----+------+
|James,,Smith    |36636|3100  |
|Michael,Rose,   |40288|4300  |
|Robert,,Williams|42114|1400  |
|Maria,Anne,Jones|39192|5500  |
|Jen,Mary,Brown  |34561|3000  |
+----------------+-----+------+

// mapPartitions() 提供了一种功能，可以对每个分区进行一次初始化（例如，数据库连接），而不是对每个行进行一次初始化，这有助于提提高效率，下面代码将得到和上例相同的结果
val df4 = df2.mapPartitions(iterator => {
    val util = new Util()
    val res = iterator.map(row=>{
        val fullName = util.combine(row.getString(0),row.getString(1),row.getString(2))
        (fullName, row.getString(3),row.getInt(5))
    })
    res
})
val df4part = df4.toDF("fullName","id","salary")
df4part.printSchema()
df4part.show(false)

foreach —— 遍历

功能：foreach() 方法用于在 RDD/DataFrame/Dataset 的每个元素上应用函数，主要用于操作累积器共享变量，也可以用于将 RDD/DataFrame 结果写入数据库，生产消息到 kafka topic 等。foreachPartition() 方法用于在 RDD/DataFrame/Dataset 的每个分区上应用函数，主要用于在每个分区进行复杂的初始化操作（比如连接数据库），也可以用于操作累加器变量。foreach() 和 foreachPartition() 方法都是不会返回值的 action。
语法:

foreachPartition(f : scala.Function1[scala.Iterator[T], scala.Unit]) : scala.Unit

示例:

// foreach 操作累加器
val longAcc = spark.sparkContext.longAccumulator("SumAccumulator")
df.foreach(f=> {
    longAcc.add(f.getInt(1))
  })
println("Accumulator value:"+longAcc.value)

// foreachPartition 写入数据
val df = spark.createDataFrame(data).toDF("Product","Amount","Country")
df.foreachPartition(partition => {
    //Initialize database connection or kafka
    partition.foreach(fun=>{
      //apply the function to insert the database 
      // or produce kafka topic
    })
    //If you have batch inserts, do here.
  })

// rdd foreach 和 DataFrame foreach 是等价的 action
val rdd2 = spark.sparkContext.parallelize(Seq(1,2,3,4,5,6,7,8,9))
val longAcc2 = spark.sparkContext.longAccumulator("SumAccumulator2")
  rdd.foreach(f=> {
    longAcc2.add(f)
  })
println("Accumulator value:"+longAcc2.value)

sample —— 随机抽样

功能：从 DataFrame 中抽取一些随机记录；
语法：

// withReplacement: 是否是有放回抽样; fraction: 抽样比例; seed: 抽样算法初始值
sample(fraction: Double)
sample(fraction: Double, seed: Long)
sample(withReplacement: Boolean, fraction: Double)
sample(withReplacement: Boolean, fraction: Double, seed: Long)

示例：

df.sample(0.2).show()
+--------------------+-----+------+------+
|                name|  dob|gender|salary|
+--------------------+-----+------+------+
|[Maria , Anne, Jo...|39192|     F|  4000|
+--------------------+-----+------+------+

df.sample(0.5, 1000L).show()
+------------------+-----+------+------+
|              name|  dob|gender|salary|
+------------------+-----+------+------+
| [James , , Smith]|36636|     M|  3000|
|[Jen, Mary, Brown]|     |     F|    -1|
+------------------+-----+------+------+

df.sample(true, 0.5, 1000L).show()
+--------------------+-----+------+------+
|                name|  dob|gender|salary|
+--------------------+-----+------+------+
|[Maria , Anne, Jo...|39192|     F|  4000|
|[Maria , Anne, Jo...|39192|     F|  4000|
|  [Jen, Mary, Brown]|     |     F|    -1|
+--------------------+-----+------+------+

split —— 随机分割

功能：将原始 DataFrame 随机拆分，这通常与机器学习算法一起使用以创建训练、验证和测试集；
语法：返回 Array(DataFrame)；

randomSplit(weights: Array[Double])
randomSplit(weights: Array[Double], seed: Long)

示例：

val dfs = df.randomSplit(Array(0.8, 0.2))
dfs(0).show()
dfs(1).show()
+--------------------+-----+------+------+
|                name|  dob|gender|salary|
+--------------------+-----+------+------+
|   [James , , Smith]|36636|     M|  3000|
|  [Michael , Rose, ]|40288|     M|  4000|
|[Maria , Anne, Jo...|39192|     F|  4000|
+--------------------+-----+------+------+

+--------------------+-----+------+------+
|                name|  dob|gender|salary|
+--------------------+-----+------+------+
|[Robert , , Willi...|42114|     M|  4000|
|  [Jen, Mary, Brown]|     |     F|    -1|
+--------------------+-----+------+------+

limit —— 限制

功能：限制从 DataFrame 中提取的内容，当你需要一个空的 DataFrame 但又想保留 Schema 信息时可以通过 df.limit(0) 来实现；
语法：

df.limit(n)

示例：

df.orderBy("dob").limit(3).show()
+--------------------+-----+------+------+
|                name|  dob|gender|salary|
+--------------------+-----+------+------+
|  [Jen, Mary, Brown]|     |     F|    -1|
|   [James , , Smith]|36636|     M|  3000|
|[Maria , Anne, Jo...|39192|     F|  4000|
+--------------------+-----+------+------+

df.limit(0).show()
+----+---+------+------+
|name|dob|gender|salary|
+----+---+------+------+
+----+---+------+------+

first | last —— 首行或末行

功能：获取某列第一行/最后一行的值
语法：

first(e: Column, ignoreNulls: Boolean)
first(columnName: String, ignoreNulls: Boolean)

示例：

df.select(first("name"), first("dob"), last("gender"), last("salary")).show()
+------------------+-----------------+-------------------+-------------------+
|first(name, false)|first(dob, false)|last(gender, false)|last(salary, false)|
+------------------+-----------------+-------------------+-------------------+
| [James , , Smith]|            36636|                  F|                 -1|
+------------------+-----------------+-------------------+-------------------+

表操作

union —— 合并

功能：在 Spark 中 union() 和 unionAll() 作用相同，用于合并两个 schema 相同（不会校验schema，只会校验字段数是否相同）的 DataFrame，但是都不会对结果进行去重，如果需要去重，可以通过去重算子对结果去重。
语法：

df.union(df2)

示例：

// 没有什么好展示的
val df5 = df.union(df2).distinct()

join —— 连接

功能：Spark SQL 支持传统 SQL 中可用的所有基本联接操作（这里不再赘述），尽管 Spark 核心联接在设计时不小心会产生巨大的性能问题，因为它涉及到跨网络的数据 shuffe，另一方面，Spark SQL 连接在默认情况下具有更多的优化（多亏了 DataFrames & Dataset），但是在使用时仍然会有一些性能问题需要考虑；
语法: 三要素为连接表、连接谓词、连接类型；

1) join(right: Dataset[_]): DataFrame

// 使用 usingColumn：join 结果中只会保留左表的 usingColumn，以及左右表其他列
2) join(right: Dataset[_], usingColumn: String): DataFrame
3) join(right: Dataset[_], usingColumns: Seq[String]): DataFrame
4) join(right: Dataset[_], usingColumns: Seq[String], joinType: String): DataFrame

// 使用 joinExprs：joinExprs 返回一个布尔型 Column，join 结果会包含两个表的所有列
5) join(right: Dataset[_], joinExprs: Column): DataFrame
6) join(right: Dataset[_], joinExprs: Column, joinType: String): DataFrame

// 笛卡尔积：将左表中的每一行与右表中的每一行进行连接
7) crossJoin(right: Dataset[_])

join 类型: 对于上面语句 4 和语句 5，你可以使用 JoinType 或 Join String 中的一种，如果要使用 JoinType，应该先导入 import org.apache.spark.sql.catalyst.plans._，以下示例将采用上面语句 6 的形式

JoinType	Join String	Equivalent SQL Join
Inner.sql	inner	INNER JOIN
FullOuter.sql	outer, full, fullouter, full_outer	FULL OUTER JOIN
LeftOuter.sql	left, leftouter, left_outer	LEFT JOIN
RightOuter.sql	right, rightouter, right_outer	RIGHT JOIN
Cross.sql	cross	-
LeftAnti.sql	anti, leftanti, left_anti	-
LeftSemi.sql	semi, leftsemi, left_semi	-

示例数据:

val emp = Seq((1,"Smith",-1,"2018","10","M",3000),
    (2,"Rose",1,"2010","20","M",4000),
    (3,"Williams",1,"2010","10","M",1000),
    (4,"Jones",2,"2005","10","F",2000),
    (5,"Brown",2,"2010","40","",-1),
      (6,"Brown",2,"2010","50","",-1)
  )
val empColumns = Seq("emp_id","name","superior_emp_id","year_joined",
   "emp_dept_id","gender","salary")
import spark.sqlContext.implicits._
val empDF = emp.toDF(empColumns:_*)
empDF.show(false)

+------+--------+---------------+-----------+-----------+------+------+
|emp_id|name    |superior_emp_id|year_joined|emp_dept_id|gender|salary|
+------+--------+---------------+-----------+-----------+------+------+
|1     |Smith   |-1             |2018       |10         |M     |3000  |
|2     |Rose    |1              |2010       |20         |M     |4000  |
|3     |Williams|1              |2010       |10         |M     |1000  |
|4     |Jones   |2              |2005       |10         |F     |2000  |
|5     |Brown   |2              |2010       |40         |      |-1    |
|6     |Brown   |2              |2010       |50         |      |-1    |
+------+--------+---------------+-----------+-----------+------+------+

val dept = Seq(("Finance",10),
("Marketing",20),
("Sales",30),
("IT",40)
)

val deptColumns = Seq("dept_name","dept_id")
val deptDF = dept.toDF(deptColumns:_*)
deptDF.show(false)

+---------+-------+
|dept_name|dept_id|
+---------+-------+
|Finance  |10     |
|Marketing|20     |
|Sales    |30     |
|IT       |40     |
+---------+-------+

Inner Join

Inner Join 内连接，只返回匹配成功的行。

empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"inner").show(false)

+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|emp_id|name    |superior_emp_id|year_joined|emp_dept_id|gender|salary|dept_name|dept_id|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|1     |Smith   |-1             |2018       |10         |M     |3000  |Finance  |10     |
|2     |Rose    |1              |2010       |20         |M     |4000  |Marketing|20     |
|3     |Williams|1              |2010       |10         |M     |1000  |Finance  |10     |
|4     |Jones   |2              |2005       |10         |F     |2000  |Finance  |10     |
|5     |Brown   |2              |2010       |40         |      |-1    |IT       |40     |
+------+--------+---------------+-----------+-----------+------+------+---------+-------+

Full Join

Outer/Full,/Fullouter Join 全外连接，匹配成功的 + 左表有右表没有 + 右表有左表没有

empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"outer").show(false)
empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"full").show(false)
empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"fullouter").show(false)

+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|emp_id|name    |superior_emp_id|year_joined|emp_dept_id|gender|salary|dept_name|dept_id|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|2     |Rose    |1              |2010       |20         |M     |4000  |Marketing|20     |
|5     |Brown   |2              |2010       |40         |      |-1    |IT       |40     |
|1     |Smith   |-1             |2018       |10         |M     |3000  |Finance  |10     |
|3     |Williams|1              |2010       |10         |M     |1000  |Finance  |10     |
|4     |Jones   |2              |2005       |10         |F     |2000  |Finance  |10     |
|6     |Brown   |2              |2010       |50         |      |-1    |null     |null   |
|null  |null    |null           |null       |null       |null  |null  |Sales    |30     |
+------+--------+---------------+-----------+-----------+------+------+---------+-------+

Left Join

Left/Leftouter Join 左连接，匹配成功的 + 左表有右表没有的

empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"left").show(false)
empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"leftouter").show(false)

+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|emp_id|name    |superior_emp_id|year_joined|emp_dept_id|gender|salary|dept_name|dept_id|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|1     |Smith   |-1             |2018       |10         |M     |3000  |Finance  |10     |
|2     |Rose    |1              |2010       |20         |M     |4000  |Marketing|20     |
|3     |Williams|1              |2010       |10         |M     |1000  |Finance  |10     |
|4     |Jones   |2              |2005       |10         |F     |2000  |Finance  |10     |
|5     |Brown   |2              |2010       |40         |      |-1    |IT       |40     |
|6     |Brown   |2              |2010       |50         |      |-1    |null     |null   |
+------+--------+---------------+-----------+-----------+------+------+---------+-------+

Right Join

Right/Rightouter Join 右连接，匹配成功的 + 右表有左表没有的

empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"right").show(false)
empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"rightouter").show(false)

+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|emp_id|name    |superior_emp_id|year_joined|emp_dept_id|gender|salary|dept_name|dept_id|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|4     |Jones   |2              |2005       |10         |F     |2000  |Finance  |10     |
|3     |Williams|1              |2010       |10         |M     |1000  |Finance  |10     |
|1     |Smith   |-1             |2018       |10         |M     |3000  |Finance  |10     |
|2     |Rose    |1              |2010       |20         |M     |4000  |Marketing|20     |
|null  |null    |null           |null       |null       |null  |null  |Sales    |30     |
|5     |Brown   |2              |2010       |40         |      |-1    |IT       |40     |
+------+--------+---------------+-----------+-----------+------+------+---------+-------+

Left Semi Join

Left Semi Join 左半连接，匹配成功的，只保留左表字段。

empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"leftsemi").show(false)

+------+--------+---------------+-----------+-----------+------+------+
|emp_id|name    |superior_emp_id|year_joined|emp_dept_id|gender|salary|
+------+--------+---------------+-----------+-----------+------+------+
|1     |Smith   |-1             |2018       |10         |M     |3000  |
|2     |Rose    |1              |2010       |20         |M     |4000  |
|3     |Williams|1              |2010       |10         |M     |1000  |
|4     |Jones   |2              |2005       |10         |F     |2000  |
|5     |Brown   |2              |2010       |40         |      |-1    |
+------+--------+---------------+-----------+-----------+------+------+

Left Anti Join

Left Anti Join 反左半连接，没有匹配成功的，只返回左表字段

empDF.join(deptDF,empDF("emp_dept_id") ===  deptDF("dept_id"),"leftanti").show(false)

+------+-----+---------------+-----------+-----------+------+------+
|emp_id|name |superior_emp_id|year_joined|emp_dept_id|gender|salary|
+------+-----+---------------+-----------+-----------+------+------+
|6     |Brown|2              |2010       |50         |      |-1    |
+------+-----+---------------+-----------+-----------+------+------+

Self Join

虽然没有自连接类型，但是可以使用以上任意一种 join 类型与自己关联，但是要通过别名的方式。为DataFrame 起别名 "a" 后，原有字段名 "col" 就变成 "a.col"，可以通过 "a.*" 把原有的列“释放”出来。

empDF.as("emp1").join(empDF.as("emp2"), col("emp1.superior_emp_id") === col("emp2.emp_id"),"inner")
    .select(col("emp1.emp_id"),col("emp1.name"),
      col("emp2.emp_id").as("superior_emp_id"),
      col("emp2.name").as("superior_emp_name")
    )
    .show(false)
  
+------+--------+---------------+-----------------+
|emp_id|name    |superior_emp_id|superior_emp_name|
+------+--------+---------------+-----------------+
|2     |Rose    |1              |Smith            |
|3     |Williams|1              |Smith            |
|4     |Jones   |2              |Rose             |
|5     |Brown   |2              |Rose             |
|6     |Brown   |2              |Rose             |
+------+--------+---------------+-----------------+

Cross Join

Cross Join（笛卡尔连接、交叉连接）会将左侧 DataFrame 中的每一行与右侧 DataFrame 中的每一行进行连接，这将导致结果 DataFrame 中的行数发生绝对爆炸，仅在绝对必要时才应使用笛卡尔积，它们很危险！！！我们分几种场景来讨论和 Cross Join 相关的一些问题：

join 算子中如果指定了连接谓词，那么，即使将参数 joinType 设置为 “cross”，实际执行的仍然是 inner join

empDF.join(deptDF, empDF("emp_dept_id") === deptDF("dept_id"), "cross").show()
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|emp_id|    name|superior_emp_id|year_joined|emp_dept_id|gender|salary|dept_name|dept_id|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|     1|   Smith|             -1|       2018|         10|     M|  3000|  Finance|     10|
|     2|    Rose|              1|       2010|         20|     M|  4000|Marketing|     20|
|     3|Williams|              1|       2010|         10|     M|  1000|  Finance|     10|
|     4|   Jones|              2|       2005|         10|     F|  2000|  Finance|     10|
|     5|   Brown|              2|       2010|         40|      |    -1|       IT|     40|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+

join 算子中，如果将连接谓词设置为恒等式，可以实现笛卡尔积（joinType需同时设置为 “cross”）

empDF.join(deptDF, lit(1) === lit(1), "cross").show()
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|emp_id|    name|superior_emp_id|year_joined|emp_dept_id|gender|salary|dept_name|dept_id|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|     1|   Smith|             -1|       2018|         10|     M|  3000|  Finance|     10|
|     1|   Smith|             -1|       2018|         10|     M|  3000|Marketing|     20|
|     1|   Smith|             -1|       2018|         10|     M|  3000|    Sales|     30|
|     1|   Smith|             -1|       2018|         10|     M|  3000|       IT|     40|
|     2|    Rose|              1|       2010|         20|     M|  4000|  Finance|     10|
|     2|    Rose|              1|       2010|         20|     M|  4000|Marketing|     20|
|     2|    Rose|              1|       2010|         20|     M|  4000|    Sales|     30|
|     2|    Rose|              1|       2010|         20|     M|  4000|       IT|     40|
|     3|Williams|              1|       2010|         10|     M|  1000|  Finance|     10|
|     3|Williams|              1|       2010|         10|     M|  1000|Marketing|     20|
|     3|Williams|              1|       2010|         10|     M|  1000|    Sales|     30|
|     3|Williams|              1|       2010|         10|     M|  1000|       IT|     40|
|     4|   Jones|              2|       2005|         10|     F|  2000|  Finance|     10|
|     4|   Jones|              2|       2005|         10|     F|  2000|Marketing|     20|
|     4|   Jones|              2|       2005|         10|     F|  2000|    Sales|     30|
|     4|   Jones|              2|       2005|         10|     F|  2000|       IT|     40|
|     5|   Brown|              2|       2010|         40|      |    -1|  Finance|     10|
|     5|   Brown|              2|       2010|         40|      |    -1|Marketing|     20|
|     5|   Brown|              2|       2010|         40|      |    -1|    Sales|     30|
|     5|   Brown|              2|       2010|         40|      |    -1|       IT|     40|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+

join 算子中，如果省略了连接谓词，则会报 AnalysisException 错误，一种解决办法是设置 spark.conf.set("spark.sql.crossJoin.enabled",true)，以允许笛卡尔积而不会发出警告或 Spark 不会尝试为您执行另一种连接

empDF.join(deptDF).show()
org.apache.spark.sql.AnalysisException: Detected implicit cartesian product for INNER join between logical plans
LocalRelation [emp_id#940, name#941, superior_emp_id#942, year_joined#943, emp_dept_id#944, gender#945, salary#946]
and
LocalRelation [dept_name#981, dept_id#982]
Join condition is missing or trivial.
Either: use the CROSS JOIN syntax to allow cartesian products between these
relations, or: enable implicit cartesian products by setting the configuration
variable spark.sql.crossJoin.enabled=true;

spark.conf.set("spark.sql.crossJoin.enabled",true)
empDF.join(deptDF).show()
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|emp_id|    name|superior_emp_id|year_joined|emp_dept_id|gender|salary|dept_name|dept_id|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|     1|   Smith|             -1|       2018|         10|     M|  3000|  Finance|     10|
|     1|   Smith|             -1|       2018|         10|     M|  3000|Marketing|     20|
|     1|   Smith|             -1|       2018|         10|     M|  3000|    Sales|     30|
|     1|   Smith|             -1|       2018|         10|     M|  3000|       IT|     40|
|     2|    Rose|              1|       2010|         20|     M|  4000|  Finance|     10|
|     2|    Rose|              1|       2010|         20|     M|  4000|Marketing|     20|
|     2|    Rose|              1|       2010|         20|     M|  4000|    Sales|     30|
|     2|    Rose|              1|       2010|         20|     M|  4000|       IT|     40|
|     3|Williams|              1|       2010|         10|     M|  1000|  Finance|     10|
|     3|Williams|              1|       2010|         10|     M|  1000|Marketing|     20|
|     3|Williams|              1|       2010|         10|     M|  1000|    Sales|     30|
|     3|Williams|              1|       2010|         10|     M|  1000|       IT|     40|
|     4|   Jones|              2|       2005|         10|     F|  2000|  Finance|     10|
|     4|   Jones|              2|       2005|         10|     F|  2000|Marketing|     20|
|     4|   Jones|              2|       2005|         10|     F|  2000|    Sales|     30|
|     4|   Jones|              2|       2005|         10|     F|  2000|       IT|     40|
|     5|   Brown|              2|       2010|         40|      |    -1|  Finance|     10|
|     5|   Brown|              2|       2010|         40|      |    -1|Marketing|     20|
|     5|   Brown|              2|       2010|         40|      |    -1|    Sales|     30|
|     5|   Brown|              2|       2010|         40|      |    -1|       IT|     40|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
only showing top 20 rows

以上方式虽然可以实现 cross Join，但并不推荐使用，从 spark-sql_2.11 2.1.0 之后的版本专门提供了 crossJoin 算子来实现笛卡尔积，使用 crossJoin 不用修改配置

empDF.crossJoin(deptDF).show()
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|emp_id|    name|superior_emp_id|year_joined|emp_dept_id|gender|salary|dept_name|dept_id|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+
|     1|   Smith|             -1|       2018|         10|     M|  3000|  Finance|     10|
|     1|   Smith|             -1|       2018|         10|     M|  3000|Marketing|     20|
|     1|   Smith|             -1|       2018|         10|     M|  3000|    Sales|     30|
|     1|   Smith|             -1|       2018|         10|     M|  3000|       IT|     40|
|     2|    Rose|              1|       2010|         20|     M|  4000|  Finance|     10|
|     2|    Rose|              1|       2010|         20|     M|  4000|Marketing|     20|
|     2|    Rose|              1|       2010|         20|     M|  4000|    Sales|     30|
|     2|    Rose|              1|       2010|         20|     M|  4000|       IT|     40|
|     3|Williams|              1|       2010|         10|     M|  1000|  Finance|     10|
|     3|Williams|              1|       2010|         10|     M|  1000|Marketing|     20|
|     3|Williams|              1|       2010|         10|     M|  1000|    Sales|     30|
|     3|Williams|              1|       2010|         10|     M|  1000|       IT|     40|
|     4|   Jones|              2|       2005|         10|     F|  2000|  Finance|     10|
|     4|   Jones|              2|       2005|         10|     F|  2000|Marketing|     20|
|     4|   Jones|              2|       2005|         10|     F|  2000|    Sales|     30|
|     4|   Jones|              2|       2005|         10|     F|  2000|       IT|     40|
|     5|   Brown|              2|       2010|         40|      |    -1|  Finance|     10|
|     5|   Brown|              2|       2010|         40|      |    -1|Marketing|     20|
|     5|   Brown|              2|       2010|         40|      |    -1|    Sales|     30|
|     5|   Brown|              2|       2010|         40|      |    -1|       IT|     40|
+------+--------+---------------+-----------+-----------+------+------+---------+-------+

同源 DataFrame JOIN 陷阱

当同源 DataFrame（衍生于同一个 DataFrame ）之间进行 Join 时，可能会导致一些意想不到的错误。

var x = empDF.groupBy("superior_emp_id").agg(count("*").as("f_cnt"))
x.show()
+---------------+-----+
|superior_emp_id|f_cnt|
+---------------+-----+
|             -1|    1|
|              1|    2|
|              2|    3|
+---------------+-----+

// join 后的结果不应该为空
empDF.join(x, empDF("emp_id") === x("superior_emp_id")).show()
+------+----+---------------+-----------+-----------+------+------+---------------+-----+
|emp_id|name|superior_emp_id|year_joined|emp_dept_id|gender|salary|superior_emp_id|f_cnt|
+------+----+---------------+-----------+-----------+------+------+---------------+-----+
+------+----+---------------+-----------+-----------+------+------+---------------+-----+

有多种方式可以解决这个问题：

使用 SQL 表达式

empDF.createOrReplaceTempView("empDF")
x.createOrReplaceTempView("x")

val sql = """
select * 
from empDF join x 
on empDF.emp_id = x.superior_emp_id
"""
spark.sql(sql).show()
+------+---------+---------------+-----------+-------+------+------+---------------+-----+
|emp_id|dept_name|superior_emp_id|year_joined|dept_id|gender|salary|superior_emp_id|f_cnt|
+------+---------+---------------+-----------+-------+------+------+---------------+-----+
|     1|    Smith|             -1|       2018|     10|     M|  3000|              1|    2|
|     2|     Rose|              1|       2010|     20|     M|  4000|              2|    3|
+------+---------+---------------+-----------+-------+------+------+---------------+-----+

为 DataFrame 起别名

empDF.as("a").join(x.as("b"), col("a.emp_id") === col("b.superior_emp_id")).show()
+------+---------+---------------+-----------+-------+------+------+---------------+-----+
|emp_id|dept_name|superior_emp_id|year_joined|dept_id|gender|salary|superior_emp_id|f_cnt|
+------+---------+---------------+-----------+-------+------+------+---------------+-----+
|     1|    Smith|             -1|       2018|     10|     M|  3000|              1|    2|
|     2|     Rose|              1|       2010|     20|     M|  4000|              2|    3|
+------+---------+---------------+-----------+-------+------+------+---------------+-----+

withColumn 重命名列

val x = empDF.groupBy("superior_emp_id").agg(count("*").as("f_cnt"))
    .withColumnRenamed("superior_emp_id", "superior_emp_id")
empDF.join(x, empDF("emp_id") === x("superior_emp_id")).show()
+------+---------+---------------+-----------+-------+------+------+---------------+-----+
|emp_id|dept_name|superior_emp_id|year_joined|dept_id|gender|salary|superior_emp_id|f_cnt|
+------+---------+---------------+-----------+-------+------+------+---------------+-----+
|     1|    Smith|             -1|       2018|     10|     M|  3000|              1|    2|
|     2|     Rose|              1|       2010|     20|     M|  4000|              2|    3|
+------+---------+---------------+-----------+-------+------+------+---------------+-----+

val x = empDF.groupBy("superior_emp_id").agg(count("*").as("f_cnt"))
    .withColumn("superior_emp_id", col("superior_emp_id"))
empDF.join(x, empDF("emp_id") === x("superior_emp_id")).show()
+------+-----+---------------+-----------+-----------+------+------+---------------+-----+
|emp_id| name|superior_emp_id|year_joined|emp_dept_id|gender|salary|superior_emp_id|f_cnt|
+------+-----+---------------+-----------+-----------+------+------+---------------+-----+
|     1|Smith|             -1|       2018|         10|     M|  3000|              1|    2|
|     2| Rose|              1|       2010|         20|     M|  4000|              2|    3|
+------+-----+---------------+-----------+-----------+------+------+---------------+-----+

toDF 重新定义其中一个 DataFrame 的 Schema：

x = x.toDF(x.columns:_*)
empDF.join(x, empDF("emp_id") === x("superior_emp_id")).show()
+------+-----+---------------+-----------+-----------+------+------+---------------+-----+
|emp_id| name|superior_emp_id|year_joined|emp_dept_id|gender|salary|superior_emp_id|f_cnt|
+------+-----+---------------+-----------+-----------+------+------+---------------+-----+
|     1|Smith|             -1|       2018|         10|     M|  3000|              1|    2|
|     2| Rose|              1|       2010|         20|     M|  4000|              2|    3|

usingColumn 陷阱

usingColumn 语法得到的结果 DataFrame 中会自动去除被 join DataFrame 的关联键，只保留主调 DataFrame 中的关联键，所以不能通过 select 或 expr 选择被调 DataFrame 中的关联键，但是却可以在 filter 中引用被调 DataFrame 中的关联键：

val x = deptDF.limit(2).select("dept_id").toDF("dept_id")
x.show()
+-------+
|dept_id|
+-------+
|     10|
|     20|
+-------+

val res = deptDF.join(x, Seq("dept_id"), "left")
res.show()
res.printSchema
+-------+---------+
|dept_id|dept_name|
+-------+---------+
|     10|  Finance|
|     20|Marketing|
|     30|    Sales|
|     40|       IT|
+-------+---------+

res.filter(x("dept_id").isNull).show()
+-------+---------+
|dept_id|dept_name|
+-------+---------+
|     30|    Sales|
|     40|       IT|
+-------+---------+

res.select(expr("x.dept_id")).show()
org.apache.spark.sql.AnalysisException: cannot resolve '`x.dept_id`' given input columns: [dept_id, dept_name]; line 1 pos 0;
'Project ['x.dept_id]
+- Project [dept_id#456, dept_name#455]
   +- Join LeftOuter, (dept_id#456 = dept_id#497)

res.select(x("dept_id")).show()
org.apache.spark.sql.AnalysisException: Cannot resolve column name "dept_id" among (superior_emp_id, f_cnt);
  at org.apache.spark.sql.Dataset$$anonfun$resolve$1.apply(Dataset.scala:223)
  at org.apache.spark.sql.Dataset$$anonfun$resolve$1.apply(Dataset.scala:223)

处理 join 中的同名字段

如果参与 join 的两个 DataFrame 之间存在相同名称的字段，很容易在后续的转换操作中出现 Reference is ambiguous 的错误，整体上有两种解决思路：

如果需要的字段少：那就 select 你所需要的字段就行了；
如果需要的字段多：那就 drop 不需要的字段；

在 join 前中后又可以有不同的处理方式：

join 前：修改/删除其中一方 DataFrame 的同名字段名；
join 中：如果同名字段是 join 的关联键，使用 usingColumn 语法，join 后只会保留左表关联字段；
join 后：
1. 要么通过 select(Expr) 明确指定需要的表字段；
2. 要么通过 drop 删除不需要的表字段；
3. 要么通过 withColumn 添加新的字段，此时 withColumn 如果用于修改已有同名字段的内容，将会同时修改所有同名字段，修改后的结果仍会保留同名字段；

示例：

// 示例数据
val emp = Seq((1,"Smith",-1,"2018","10","M",3000),
    (2,"Rose",1,"2010","20","M",4000),
    (3,"Williams",1,"2010","10","M",1000),
    (4,"Jones",2,"2005","10","F",2000),
    (5,"Brown",2,"2010","40","",-1),
      (6,"Brown",2,"2010","50","",-1)
  )
val empColumns = Seq("emp_id","dept_name","superior_emp_id","year_joined",
   "dept_id","gender","salary")
import spark.sqlContext.implicits._
val empDF = emp.toDF(empColumns:_*)
empDF.show(false)

+------+---------+---------------+-----------+-------+------+------+
|emp_id|dept_name|superior_emp_id|year_joined|dept_id|gender|salary|
+------+---------+---------------+-----------+-------+------+------+
|1     |Smith    |-1             |2018       |10     |M     |3000  |
|2     |Rose     |1              |2010       |20     |M     |4000  |
|3     |Williams |1              |2010       |10     |M     |1000  |
|4     |Jones    |2              |2005       |10     |F     |2000  |
|5     |Brown    |2              |2010       |40     |      |-1    |
|6     |Brown    |2              |2010       |50     |      |-1    |
+------+---------+---------------+-----------+-------+------+------+

val dept = Seq(("Finance",10),
("Marketing",20),
("Sales",30),
("IT",40)
)

val deptColumns = Seq("dept_name","dept_id")
val deptDF = dept.toDF(deptColumns:_*)
deptDF.show(false)

+---------+-------+
|dept_name|dept_id|
+---------+-------+
|Finance  |10     |
|Marketing|20     |
|Sales    |30     |
|IT       |40     |
+---------+-------+

// usingColumn 会去掉右侧 DataFrame 的关联键，这里使用 deptDF("*") 会报无法找到 dept_id 的错误
res.select(deptDF("*")).show()
org.apache.spark.sql.AnalysisException: Resolved attribute(s) dept_id#477 missing from emp_id#435,salary#441,year_joined#438,gender#440,dept_name#436,dept_id#439,dept_name#476,superior_emp_id#437 in operator !Project [dept_name#476, dept_id#477]. Attribute(s) with the same name appear in the operation: dept_id. Please check if the right attribute(s) are used.;;

// 选择 empDF 中所有字段，以及 deptDF 中的 dept_name 字段
res.select(empDF("*"), deptDF("dept_name")).show()
+------+---------+---------------+-----------+-------+------+------+---------+
|emp_id|dept_name|superior_emp_id|year_joined|dept_id|gender|salary|dept_name|
+------+---------+---------------+-----------+-------+------+------+---------+
|     1|    Smith|             -1|       2018|     10|     M|  3000|  Finance|
|     2|     Rose|              1|       2010|     20|     M|  4000|Marketing|
|     3| Williams|              1|       2010|     10|     M|  1000|  Finance|
|     4|    Jones|              2|       2005|     10|     F|  2000|  Finance|
|     5|    Brown|              2|       2010|     40|      |    -1|       IT|
+------+---------+---------------+-----------+-------+------+------+---------+

// 上面结果包含了同名字段 dept_name，如果直接引用字段名则会报 ambiguous 错误
res.select(empDF("*"), deptDF("dept_name")).select("dept_name").show()
org.apache.spark.sql.AnalysisException: Reference 'dept_name' is ambiguous, could be: dept_name, dept_name.;

// 想通过先删除左表的 dept_name 再选择左表中所有字段，但 empDF("*") 仍然会包含已经删掉的字段
res.drop(empDF("dept_name")).select(empDF("*"), deptDF("dept_name")).show()
org.apache.spark.sql.AnalysisException: Resolved attribute(s) dept_name#436 missing from

// 其实只要先 select 再 drop 就可以了，但是这种方法有很大局限，一个是当用列对象参数时， drop(column) 只能删除一列，而且这一列还必须已存在，当用列名时，drop 又会把所有同名的列删除掉
res.select(empDF("*"), deptDF("dept_name")).drop(empDF("dept_name"))
.select("dept_name")
.show()
+---------+
|dept_name|
+---------+
|  Finance|
|Marketing|
|  Finance|
|  Finance|
|       IT|
+---------+

// 值得说明的是 withColumn 并不会消除同名字段的分歧，只会同时改变同名字段的值
res.withColumn("dept_name", lit(1)).show()
+-------+------+---------+---------------+-----------+------+------+---------+
|dept_id|emp_id|dept_name|superior_emp_id|year_joined|gender|salary|dept_name|
+-------+------+---------+---------------+-----------+------+------+---------+
|     10|     1|        1|             -1|       2018|     M|  3000|        1|
|     20|     2|        1|              1|       2010|     M|  4000|        1|
|     10|     3|        1|              1|       2010|     M|  1000|        1|
|     10|     4|        1|              2|       2005|     F|  2000|        1|
|     40|     5|        1|              2|       2010|      |    -1|        1|
+-------+------+---------+---------------+-----------+------+------+---------+

// 综上，比较好的做法是在join前 drop 掉最后不需要的列（如果需要对其 select("*")的话）
val res = empDF.drop("dept_name").as("a").join(deptDF.as("b"), Seq("dept_id"))
res.show()
+-------+------+---------------+-----------+------+------+---------+
|dept_id|emp_id|superior_emp_id|year_joined|gender|salary|dept_name|
+-------+------+---------------+-----------+------+------+---------+
|     10|     1|             -1|       2018|     M|  3000|  Finance|
|     20|     2|              1|       2010|     M|  4000|Marketing|
|     10|     3|              1|       2010|     M|  1000|  Finance|
|     10|     4|              2|       2005|     F|  2000|  Finance|
|     40|     5|              2|       2010|      |    -1|       IT|
+-------+------+---------------+-----------+------+------+---------+

res.select("a.*", "b.dept_name").show()
+-------+------+---------------+-----------+------+------+---------+
|dept_id|emp_id|superior_emp_id|year_joined|gender|salary|dept_name|
+-------+------+---------------+-----------+------+------+---------+
|     10|     1|             -1|       2018|     M|  3000|  Finance|
|     20|     2|              1|       2010|     M|  4000|Marketing|
|     10|     3|              1|       2010|     M|  1000|  Finance|
|     10|     4|              2|       2005|     F|  2000|  Finance|
|     40|     5|              2|       2010|      |    -1|       IT|
+-------+------+---------------+-----------+------+------+---------+

res.selectExpr("a.*", "b.dept_name as f_new_name").show()
+-------+------+---------------+-----------+------+------+----------+
|dept_id|emp_id|superior_emp_id|year_joined|gender|salary|f_new_name|
+-------+------+---------------+-----------+------+------+----------+
|     10|     1|             -1|       2018|     M|  3000|   Finance|
|     20|     2|              1|       2010|     M|  4000| Marketing|
|     10|     3|              1|       2010|     M|  1000|   Finance|
|     10|     4|              2|       2005|     F|  2000|   Finance|
|     40|     5|              2|       2010|      |    -1|        IT|
+-------+------+---------------+-----------+------+------+----------+

join 最佳实践

DataFrame API 的 JOIN 操作有诸多需要注意的地方，除了正确使用 JOIN 类型和 JOIN 语法外，经常引起困惑的地方在于如何从 JOIN 结果中选择我们需要的字段，对此，我们总结了一些最佳实践：

当 DataFrame 不方便通过一个变量来引用时，可以在 JOIN 语句中为 DataFrame 起别名：
1. 可以通过 "表别名.字段名" 来引用对应字段；
2. 如果不存在同名字段，也可以省略掉表别名，直接用 "字段名" 来应用对应字段；
当 JOIN 的两个 DataFrame 中包含同名字段时：
1. 可以在 JOIN 前删除/重命名无用的同名字段；
2. 如果同名字段作为关联字段，usingColumn 语法将只会保留左表关联字段；
3. 可以在 JOIN 后 select(Expr) 需要的字段，drop 不需要的字段，withColumn 添加新的字段；
同源 DataFrame 之间 JOIN，在 JOIN 前通过 toDF() 转化其中一个 DataFrame；

看过上面的示例，你可能会觉得 DataFrame 的 JOIN 太不方便了，还不如直接写 SQL 表达式呢！事实上，DataFrame API 更加紧凑，更便于编写结构化代码，能够帮助我们完成大部分的语法检查，如果要在 DataFrame 中穿插 SQL 表达式，就使用 expr() 或 selectExpr() 函数吧！

repartition —— 重分区

功能：repartition 会导致数据的完全随机洗牌（shuffle），这意味着通常仅应在将来的分区数大于当前的分区数时或在按一组列进行分区时重新分区；如果经常要按照某个列进行过滤，则值得按该列重新分区；
语法：

// 指定所需的分区数
repartition(numPartitions: Int)
// 指定按照某列进行分区
repartition(partitionExprs: Column*)
repartition(numPartitions: Int, partitionExprs: Column*)

示例：

df.repartition(3)
df.repartition(col("dob"))
df.repartition(5, col("dob"))

coalesce —— 分区合并

功能：coalesce 不会引起 full shuffle，并尝试合并分区（将来的分区数小于当前的分区数）；
语法：

coalesce(numPartitions: Int)

示例：

df.repartition(5, col("dob")).coalesce(2)

cache | persist —— 缓存

功能：虽然 Spark 提供的计算速度是传统 Map Reduce 作业的 100 倍，但是如果您没有将作业设计为重用重复计算，那么当您处理数十亿或数万亿数据时，性能会下降。使用 cache() 和 persist() 方法，每个节点将其分区的数据存储在内存/磁盘中，并在该数据集的其他操作中重用它们，真正缓存是在第一次被相关 action 调用后才缓存。Spark 在节点上的持久数据是容错的，这意味着如果数据集的任何分区丢失，它将使用创建它的原始转换自动重新计算。Spark 会自动监视您进行的每个 persist（）和cache（）调用，并检查每个节点上的使用情况，如果不再使用或通过 least-recently-used (LRU) 算法，删除持久化数据，也可以使用 unpersist（）方法手动删除。unpersist（）将数据集标记为非持久性，并立即从内存和磁盘中删除它的所有块。
语法:

// StorageLevel 
1) persist() : Dataset.this.type
2) persist(newLevel : org.apache.spark.storage.StorageLevel) : Dataset.this.type

// cache() 调用的也是 persist()，df.cache() 的默认存储级别为 MEMORY_AND_DISK，而RDD.chache() 的默认存储级别为 MEMORY_ONLY
def cache(): this.type = persist()

// 手动取消持久化
unpersist() : Dataset.this.type
unpersist(blocking : scala.Boolean) : Dataset.this.type

示例:

// cache
val df = spark.read.options(Map("inferSchema"->"true","delimiter"->",","header"->"true")).csv("src/main/resources/zipcodes.csv")
  
val df2 = df.where(col("State") === "PR").cache()
df2.show(false)
println(df2.count())
val df3 = df2.where(col("Zipcode") === 704)
println(df2.count())

// persist
val dfPersist = df.persist(StorageLevel.MEMORY_ONLY)
dfPersist.show(false)
// unpersist
val dfPersist = dfPersist.unpersist()

StorageLevel 有以下几个级别：

级别	使用空间	CPU时间	是否内存	是否磁盘	备注
MEMORY_ONLY	高	低	是	否	-
MEMORY_ONLY_2	高	低	是	否	数据存2份
MEMORY_ONLY_SER_2	低	高	是	否	数据序列化，数据存2份
MEMORY_AND_DISK	高	中等	部分	部分	内存放不下，则溢写到磁盘
MEMORY_AND_DISK_2	高	中等	部分	部分	数据存2份
MEMORY_AND_DISK_SER	低	高	部分	部分	-
MEMORY_AND_DISK_SER_2	低	高	部分	部分	数据存2份
DISK_ONLY	低	高	否	是
DISK_ONLY_2	低	高	否	是	数据存2份
NONE	-	-	-	-	-
OFF_HEAP	-	-	-	-	-

collect —— 收集到 driver

功能：collect() 和 collectAsList() 用于将 RDD/DataFrame/Dataset 中所有的数据拉取到 Driver 节点，然后你可以在 driver 节点使用 scala 进行进一步处理，通常用于较小的数据集，如果数据集过大可能会导致内存不足，很容易使 driver 节点崩溃并时区应用程序的状态，这也很昂贵，因为是逐条处理，而不是并行计算。
语法：

collect() : scala.Array[T]
collectAsList() : java.util.List[T]

示例：

df.show()
+---------------------+-----+------+------+
|name                 |id   |gender|salary|
+---------------------+-----+------+------+
|[James , , Smith]    |36636|M     |3000  |
|[Michael , Rose, ]   |40288|M     |4000  |
|[Robert , , Williams]|42114|M     |4000  |
|[Maria , Anne, Jones]|39192|F     |4000  |
|[Jen, Mary, Brown]   |     |F     |-1    |
+---------------------+-----+------+------+

val colList = df.collectAsList()
val colData = df.collect()
colData.foreach(row => {
    val salary = row.getInt(3)
    val fullName:Row = row.getStruct(0) 
    val firstName = fullName.getString(0)
    val middleName = fullName.get(1).toString
    val lastName = fullName.getAs[String]("lastname")
    println(firstName+","+middleName+","+lastName+","+salary)
  })

James ,,Smith,3000
Michael ,Rose,,4000
Robert ,,Williams,4000
Maria ,Anne,Jones,4000
Jen,Mary,Brown,-1

其他操作

when —— 条件判断

功能：when otherwise 类似于 SQL 中的 case when 语句；
语法：可以由多个 when 表达式（不满足前一个 when 条件则继续匹配下一个 when 条件），也可以不带 otherwise 表达式（不满足 when 条件则返回 null）；

when(condition: Column, value: Any): Column
otherwise(value: Any): Column

示例：

df.withColumn("new_gender", when(col("gender") === "M", "Male")).show()
+--------------------+-----+------+------+----------+
|                name|  dob|gender|salary|new_gender|
+--------------------+-----+------+------+----------+
|   [James , , Smith]|36636|     M|  3000|      Male|
|  [Michael , Rose, ]|40288|     M|  4000|      Male|
|[Robert , , Willi...|42114|     M|  4000|      Male|
|[Maria , Anne, Jo...|39192|     F|  4000|      null|
|  [Jen, Mary, Brown]|     |     F|    -1|      null|
+--------------------+-----+------+------+----------+

df.withColumn("new_gender", when(col("gender") === "M", "Male").otherwise("Unknown")).show()
+--------------------+-----+------+------+----------+
|                name|  dob|gender|salary|new_gender|
+--------------------+-----+------+------+----------+
|   [James , , Smith]|36636|     M|  3000|      Male|
|  [Michael , Rose, ]|40288|     M|  4000|      Male|
|[Robert , , Willi...|42114|     M|  4000|      Male|
|[Maria , Anne, Jo...|39192|     F|  4000|   Unknown|
|  [Jen, Mary, Brown]|     |     F|    -1|   Unknown|
+--------------------+-----+------+------+----------+
df.withColumn("new_gender", 
       when(col("gender") === "M", "Male")
      .when(col("gender") === "F", "Female")
      .otherwise("Unknown"))
+--------------------+-----+------+------+----------+
|                name|  dob|gender|salary|new_gender|
+--------------------+-----+------+------+----------+
|   [James , , Smith]|36636|     M|  3000|      Male|
|  [Michael , Rose, ]|40288|     M|  4000|      Male|
|[Robert , , Willi...|42114|     M|  4000|      Male|
|[Maria , Anne, Jo...|39192|     F|  4000|    Female|
|  [Jen, Mary, Brown]|     |     F|    -1|    Female|
+--------------------+-----+------+------+----------+

flatten —— 列拆多列

功能：在 Spark SQL 中，扁平化 DataFrame 的嵌套结构列对于一级嵌套很简单，而对于多级嵌套和存在数百个列的情况下则很复杂。
扁平化嵌套 struct: 如果哦列数有限，可以通过引用列名似乎很容易解决，但是请想象一下，如果您有100多个列并在一个select中引用所有列，那么会很麻烦。可以通过创建一个递归函数 flattenStructSchema（）轻松地将数百个嵌套级别列展平。

val structureData = Seq(
    Row(Row("James ","","Smith"),Row(Row("CA","Los Angles"),Row("CA","Sandiago"))),
    Row(Row("Michael ","Rose",""),Row(Row("NY","New York"),Row("NJ","Newark"))),
    Row(Row("Robert ","","Williams"),Row(Row("DE","Newark"),Row("CA","Las Vegas"))),
    Row(Row("Maria ","Anne","Jones"),Row(Row("PA","Harrisburg"),Row("CA","Sandiago"))),
    Row(Row("Jen","Mary","Brown"),Row(Row("CA","Los Angles"),Row("NJ","Newark")))
  )

val structureSchema = new StructType()
    .add("name",new StructType()
      .add("firstname",StringType)
      .add("middlename",StringType)
      .add("lastname",StringType))
    .add("address",new StructType()
      .add("current",new StructType()
        .add("state",StringType)
        .add("city",StringType))
      .add("previous",new StructType()
        .add("state",StringType)
        .add("city",StringType)))

val df = spark.createDataFrame(
    spark.sparkContext.parallelize(structureData),structureSchema)
df.printSchema()

root
 |-- name: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- address: struct (nullable = true)
 |    |-- current: struct (nullable = true)
 |    |    |-- state: string (nullable = true)
 |    |    |-- city: string (nullable = true)
 |    |-- previous: struct (nullable = true)
 |    |    |-- state: string (nullable = true)
 |    |    |-- city: string (nullable = true)
 
df.show(false)
+---------------------+----------------------------------+
|name                 |address                           |
+---------------------+----------------------------------+
|[James , , Smith]    |[[CA, Los Angles], [CA, Sandiago]]|
|[Michael , Rose, ]   |[[NY, New York], [NJ, Newark]]    |
|[Robert , , Williams]|[[DE, Newark], [CA, Las Vegas]]   |
|[Maria , Anne, Jones]|[[PA, Harrisburg], [CA, Sandiago]]|
|[Jen, Mary, Brown]   |[[CA, Los Angles], [NJ, Newark]]  |
+---------------------+----------------------------------+

// 可以通过使用点符号（parentColumn.childColumn）来引用嵌套结构列，一种将嵌套结构打平的简单方法如下:
val df2 = df.select(col("name.*"),
    col("address.current.*"),
    col("address.previous.*"))
val df2Flatten = df2.toDF("fname","mename","lname","currAddState",
    "currAddCity","prevAddState","prevAddCity")
df2Flatten.printSchema()
df2Flatten.show(false)

root
 |-- name_firstname: string (nullable = true)
 |-- name_middlename: string (nullable = true)
 |-- name_lastname: string (nullable = true)
 |-- address_current_state: string (nullable = true)
 |-- address_current_city: string (nullable = true)
 |-- address_previous_state: string (nullable = true)
 |-- address_previous_city: string (nullable = true)

+--------+------+--------+------------+-----------+------------+-----------+
|fname   |mename|lname   |currAddState|currAddCity|prevAddState|prevAddCity|
+--------+------+--------+------------+-----------+------------+-----------+
|James   |      |Smith   |CA          |Los Angles |CA          |Sandiago   |
|Michael |Rose  |        |NY          |New York   |NJ          |Newark     |
|Robert  |      |Williams|DE          |Newark     |CA          |Las Vegas  |
|Maria   |Anne  |Jones   |PA          |Harrisburg |CA          |Sandiago   |
|Jen     |Mary  |Brown   |CA          |Los Angles |NJ          |Newark     |
+--------+------+--------+------------+-----------+------------+-----------+

def flattenStructSchema(schema: StructType, prefix: String = null) : Array[Column] = {
    schema.fields.flatMap(f => {
      val columnName = if (prefix == null) f.name else (prefix + "." + f.name)

      f.dataType match {
        case st: StructType => flattenStructSchema(st, columnName)
        case _ => Array(col(columnName).as(columnName.replace(".","_")))
      }
    })
  }
  
val df3 = df.select(flattenStructSchema(df.schema):_*)
df3.printSchema()
df3.show(false)

+--------------+---------------+-------------+---------------------+--------------------+----------------------+---------------------+
|name.firstname|name.middlename|name.lastname|address.current.state|address.current.city|address.previous.state|address.previous.city|
+--------------+---------------+-------------+---------------------+--------------------+----------------------+---------------------+
|James         |               |Smith        |CA                   |Los Angles          |CA                    |Sandiago             |
|Michael       |Rose           |             |NY                   |New York            |NJ                    |Newark               |
|Robert        |               |Williams     |DE                   |Newark              |CA                    |Las Vegas            |
|Maria         |Anne           |Jones        |PA                   |Harrisburg          |CA                    |Sandiago             |
|Jen           |Mary           |Brown        |CA                   |Los Angles          |NJ                    |Newark               |
+--------------+---------------+-------------+---------------------+--------------------+----------------------+---------------------+

扁平化嵌套 Array: 上个示例展示了如何打平嵌套 Row，对于嵌套 Array 则可以通过 flatten() 方法除去嵌套数组第一层嵌套。

val arrayArrayData = Seq(
    Row("James",List(List("Java","Scala","C++"),List("Spark","Java"))),
    Row("Michael",List(List("Spark","Java","C++"),List("Spark","Java"))),
    Row("Robert",List(List("CSharp","VB"),List("Spark","Python")))
  )

val arrayArraySchema = new StructType().add("name",StringType)
    .add("subjects",ArrayType(ArrayType(StringType)))

val df = spark.createDataFrame(
     spark.sparkContext.parallelize(arrayArrayData),arrayArraySchema)
df.printSchema()
df.show()

root
 |-- name: string (nullable = true)
 |-- subjects: array (nullable = true)
 |    |-- element: array (containsNull = true)
 |    |    |-- element: string (containsNull = true)


+-------+-----------------------------------+
|name   |subjects                           |
+-------+-----------------------------------+
|James  |[[Java, Scala, C++], [Spark, Java]]|
|Michael|[[Spark, Java, C++], [Spark, Java]]|
|Robert |[[CSharp, VB], [Spark, Python]]    |
+-------+-----------------------------------+

df.select($"name",flatten($"subjects")).show(false)
+-------+-------------------------------+
|name   |flatten(subjects)              |
+-------+-------------------------------+
|James  |[Java, Scala, C++, Spark, Java]|
|Michael|[Spark, Java, C++, Spark, Java]|
|Robert |[CSharp, VB, Spark, Python]    |
+-------+-------------------------------+

explode —— 行拆多行

功能：在处理 JSON，Parquet，Avro 和 XML 等结构化文件时，我们通常需要从数组、列表和字典等集合中获取数据。在这种情况下，explode 函数（explode，explorer_outer，posexplode，posexplode_outer）对于将集合列转换为行以便有效地在 Spark 中进行处理很有用。
语法：
示例：

// 示例数据
import spark.implicits._

val arrayData = Seq(
    Row("James",List("Java","Scala"),Map("hair"->"black","eye"->"brown")),
    Row("Michael",List("Spark","Java",null),Map("hair"->"brown","eye"->null)),
    Row("Robert",List("CSharp",""),Map("hair"->"red","eye"->"")),
    Row("Washington",null,null),
    Row("Jefferson",List(),Map())
)

val arraySchema = new StructType()
    .add("name",StringType)
    .add("knownLanguages", ArrayType(StringType))
    .add("properties", MapType(StringType,StringType))

val df = spark.createDataFrame(spark.sparkContext.parallelize(arrayData),arraySchema)
df.printSchema()
df.show(false)

root
 |-- name: string (nullable = true)
 |-- knownLanguages: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- properties: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

+----------+--------------+-----------------------------+
|name      |knownLanguages|properties                   |
+----------+--------------+-----------------------------+
|James     |[Java, Scala] |[hair -> black, eye -> brown]|
|Michael   |[Spark, Java,]|[hair -> brown, eye ->]      |
|Robert    |[CSharp, ]    |[hair -> red, eye -> ]       |
|Washington|null          |null                         |
|Jefferson |[]            |[]                           |
+----------+--------------+-----------------------------+

// 将数组爆炸成行，爆炸后的列名默认为 "col"，如果数组为 null 或空则会被跳过，值为null则会返回 null
df.select($"name",explode($"knownLanguages")).show(false)
+-------+------+
|name   |col   |
+-------+------+
|James  |Java  |
|James  |Scala |
|Michael|Spark |
|Michael|Java  |
|Michael|null  |
|Robert |CSharp|
|Robert |      |
+-------+------+

// 将字典爆炸成行，爆炸后键列默认列名为 "key"，值列默认为 "value"
df.select($"name",explode($"properties")).show(false)
+-------+----+-----+
|name   |key |value|
+-------+----+-----+
|James  |hair|black|
|James  |eye |brown|
|Michael|hair|brown|
|Michael|eye |null |
|Robert |hair|red  |
|Robert |eye |     |
+-------+----+-----+

// explode_outer 遇到 null 或空的数组、字典将返回 null
df.select($"name",explode_outer($"knownLanguages")).show(false)
+----------+------+
|name      |col   |
+----------+------+
|James     |Java  |
|James     |Scala |
|Michael   |Spark |
|Michael   |Java  |
|Michael   |null  |
|Robert    |CSharp|
|Robert    |      |
|Washington|null  |
|Jeferson  |null  |
+----------+------+

df.select($"name",explode_outer($"properties")).show(false)
+----------+----+-----+
|name      |key |value|
+----------+----+-----+
|James     |hair|black|
|James     |eye |brown|
|Michael   |hair|brown|
|Michael   |eye |null |
|Robert    |hair|red  |
|Robert    |eye |     |
|Washington|null|null |
|Jeferson  |null|null |
+----------+----+-----+

// posexplode 会在 explode 基础上添加位置列 "pos"
df.select($"name",posexplode($"knownLanguages")).show(false)
+-------+---+------+
|name   |pos|col   |
+-------+---+------+
|James  |0  |Java  |
|James  |1  |Scala |
|Michael|0  |Spark |
|Michael|1  |Java  |
|Michael|2  |null  |
|Robert |0  |CSharp|
|Robert |1  |      |
+-------+---+------+

df.select($"name",posexplode($"properties")).show(false)
+-------+---+----+-----+
|name   |pos|key |value|
+-------+---+----+-----+
|James  |0  |hair|black|
|James  |1  |eye |brown|
|Michael|0  |hair|brown|
|Michael|1  |eye |null |
|Robert |0  |hair|red  |
|Robert |1  |eye |     |
+-------+---+----+-----+

// posexplode_outer 会在 explode_outer 的基础上添加位置列 "pos"
df.select($"name",posexplode_outer($"knownLanguages")).show(false)
+----------+----+------+
|name      |pos |col   |
+----------+----+------+
|James     |0   |Java  |
|James     |1   |Scala |
|Michael   |0   |Spark |
|Michael   |1   |Java  |
|Michael   |2   |null  |
|Robert    |0   |CSharp|
|Robert    |1   |      |
|Washington|null|null  |
|Jeferson  |null|null  |
+----------+----+------+

df.select($"name",posexplode_outer($"properties")).show(false)
+----------+----+----+-----+
|name      |pos |key |value|
+----------+----+----+-----+
|James     |0   |hair|black|
|James     |1   |eye |brown|
|Michael   |0   |hair|brown|
|Michael   |1   |eye |null |
|Robert    |0   |hair|red  |
|Robert    |1   |eye |     |
|Washington|null|null|null |
|Jeferson  |null|null|null |
+----------+----+----+-----+

pivot | stack —— 行转列 | 列转行

功能：
- pivot() 是一种聚合方法（类似于 Excel 中的数据透视表），用于将 DataFrame/Dataset 的行转列，该过程可以被分为三个步骤，① 按 x 列分组，x 的不同取值作为行向标签 ② 将 y 列的不同取值作为列向标签 ③ 将行列标签 (x,y) 对应 z 的聚合结果作为值，如果源表没有 (x,y) 对应的数据则补 null；
- stack() 方法可以将 DataFrame/Dataset 的列转行，注意 Spark 没有 unpivot 方法；
语法：

groupBy(x).pivot(y).sum(z)  // x 列不同值作为行标签，y 列不同值作为列标签，z 列的聚合作为值
stack(n, expr1, ..., exprk) // 会将 expr1, ..., exprk 折叠为 n 行

示例：

// 创建一个 DataFrame
val data = Seq(("Banana",1000,"USA"), ("Carrots",1500,"USA"), ("Beans",1600,"USA"),
      ("Orange",2000,"USA"),("Orange",2000,"USA"),("Banana",400,"China"),
      ("Carrots",1200,"China"),("Beans",1500,"China"),("Orange",4000,"China"),
      ("Banana",2000,"Canada"),("Carrots",2000,"Canada"),("Beans",2000,"Mexico"))

import spark.sqlContext.implicits._
val df = data.toDF("Product","Amount","Country")
df.show()

+-------+------+-------+
|Product|Amount|Country|
+-------+------+-------+
| Banana|  1000|    USA|
|Carrots|  1500|    USA|
|  Beans|  1600|    USA|
| Orange|  2000|    USA|
| Orange|  2000|    USA|
| Banana|   400|  China|
|Carrots|  1200|  China|
|  Beans|  1500|  China|
| Orange|  4000|  China|
| Banana|  2000| Canada|
|Carrots|  2000| Canada|
|  Beans|  2000| Mexico|
+-------+-----+-------+

// 行转列：不同 Product、不同 Country 下，Amount 的和
val pivotDF = df.groupBy("Product").pivot("Country").sum("Amount")
pivotDF.show()

+-------+------+-----+------+----+
|Product|Canada|China|Mexico| USA|
+-------+------+-----+------+----+
| Orange|  null| 4000|  null|4000|
|  Beans|  null| 1500|  2000|1600|
| Banana|  2000|  400|  null|1000|
|Carrots|  2000| 1200|  null|1500|
+-------+------+-----+------+----+

// pivot 是一个非常耗时的操作，Spark 2.0 以后的版本对 pivot 的性能进行了优化，如果使用的是更低的版本，可以通过传递一个列值参数来加速计算过程
val pivotDF = df.groupBy("Product").pivot("Country", Seq("USA","China")).sum("Amount")
pivotDF.show()

+-------+----+-----+
|Product| USA|China|
+-------+----+-----+
| Orange|4000| 4000|
|  Beans|1600| 1500|
| Banana|1000|  400|
|Carrots|1500| 1200|
+-------+----+-----+

// stack(n, 列1显示名, 列1, ..., 列n显示名, 列n)
val unPivotDF = pivotDF.select($"Product", expr("stack(2, 'USA', USA, 'China', China) as (Country,Total)"))
    .where("Total is not null")
unPivotDF.show()

+-------+-------+-----+
|Product|Country|Total|
+-------+-------+-----+
| Orange|    USA| 4000|
| Orange|  China| 4000|
|  Beans|    USA| 1600|
|  Beans|  China| 1500|
| Banana|    USA| 1000|
| Banana|  China|  400|
|Carrots|    USA| 1500|
|Carrots|  China| 1200|
+-------+-------+-----+

参考

《Spark 权威指南》_online/)
Spark 2.2.x 中文文档
Spark By Examples
org.apache.spark.sql.Dataset：Dataset 对象方法
org.apache.spark.sql.Dataset.Column：Column 对象方法

数据科学：因果推断（二）—— Rubin 因果模型（RCM）

2021-02-08T07:29:53.000Z

鲁宾因果模型（Rubin causal model, RCM），也称内曼-鲁宾因果模型（Neyman–Rubin causal model），是一种基于潜在结果框架（framework of potential outcomes）的因果推断方法，以杰西·内曼（Jerzy Neyman）和唐纳德·鲁宾（Donald Rubin）的名字命名。潜在结果的概念最早是由 Neyman（1923）在研究重复随机化农业实验中提出的，由于该文用波兰语写成，当时没有引起学界的关注。Rubin（1974）重新独立地提出了潜在结果的概念，并将它的使用推广到观测研究领域，从而形成了目前的潜在结果框架。RCM 有三个基本要素：潜在结果、稳定性假设、分配机制。

潜在结果

干预

在因果推断中，必须有干预（Intervention），没有干预就没有因果（Rubin，1974）。干预可以是一项政策、一项措施或一项活动等，比如实施 4 万亿财政刺激方案，服用某种新药等。本文主要讨论二值干预变量，两个值分别对应于积极的行动和被动的行动，分别称为干预和控制，受到对应干预的个体分别称为干预组和控制组。

干预和控制只是干预变量的两种状态的标签，具体哪个状态被称为干预，哪个状态称为控制并不重要，两种状态实际上是对称的，可以互换，取决于研究者的目的和偏好。比如，对于药物试验来说，干预是服用药物，控制是不服用药物。

潜在结果

在干预状态实现之前，有几个干预状态就有几个潜在结果（Potential outcome），而干预状态实现之后，只有一个潜在结果是可以观测到的。可以将潜在结果看作常数，对于每个特定的个体，他在两种干预状态下的潜在结果是给定的，不依赖于最终实现的干预状态，这一点对于理解 Rubin 因果模型很关键。

比如，考察大学教育对个人收入的影响，干预变量或原因变量是大学教育，那么对于任意个体 $i$ 有两种干预状态，用 $Di$ 来表示，$D_i=1$ 表示个体 $i$ 完成了大学教育，$D_i=0$ 表示个体 $i$ 完成高中教育。无论个体实际是完成大学教育还是高中教育，事前每个个体均有两种可能的状态：完成高中教育或完成大学教育。每一个状态下对应于一个潜在结果，$Y{1i}$ 表示个体 $i$ 在状态$Di=1$ 下的潜在结果，$Y{0i}$ 表示个体 $i$ 在状态 $Di=0$ 下的潜在结果。对个体而言，这两个潜在结果可以看作是确定性的变量，不因个体干预变量的实现状态而改变。比如个体 $i$ 完成大学教育状态下的收入为 $8000$ 元，即 $Y{1i}=8000$，仅完成高中教育状态下收入为 6000 元，即 $Y_{0i}=6000$。如果个体 $i$ 最后实际完成了大学教育，那么其两种干预状态下的潜在结果仍然是（8000，6000），如果个体 $i$ 最后实际完成的是高中教育，其两种干预状态下的潜在结果还是（8000，6000），不因个体最后实现的状态而改变。

观测结果 VS 反事实结果

当干预状态实现之后，我们仅能观测到实现状态下的潜在结果，称为观测结果（Observation outcome），没有实现状态下的潜在结果是无法观测的，通常称为反事实结果（Counterfactual outcome）。比如个体 $i$ 最终完成了大学教育，那么观测到的干预状态是 $Di=1$，我们可以观测到潜在结果 $Y{1i}$，即个体 $i$ 完成大学教育后的收入。他完成了大学教育，我们就不能观测到他没有完成大学教育时的潜在结果 $Y_{0i}$，即仅完成高中教育时的收入。一个人不可能同时踏入两条河流，不可能同时处于两种状态，因而，观测研究中，不可能同时看到个体所有的潜在结果。无法同时观测到个体所有潜在结果的现象称为因果推断的基本问题（Holland，1986）。

观测结果 $Y_i$ 与潜在结果之间的关系，可以用下面的公式表示：

$\begin{align*}Y_i&=D_iY_{1i}+(1-D_i)Y_{0i}\\&=\left\{\begin{matrix}Y_{1i}, & \text{如果}\ D_i = 1 \\ Y_{0i}, & \text{如果}\ D_i = 0\end{matrix}\right.\end{align*}\tag {1}$

潜在结果和观测结果的区分是现代统计学和现代计量经济学的重要标志，是经济学经验研究“可信性革命”的关键，也是区分描述性研究（descriptive study）和因果研究（causal study）的标志。

干预效应/因果效应

有了潜在结果的概念，个体因果效应的定义非常直观，不需要对分配机制进行任何内生性或外生性的假设，也不需要对结果变量的函数形式进行任何假设，对于个体 $i$，某项干预的因果效应是两种状态下的潜在结果的比较：

$\tau_i=Y_{1i}-Y_{0i} \tag {2}$

关于因果效应的定义有两点说明：

因果效应仅依赖于潜在结果，与观测结果无关：回到大学教育如何影响收入的例子，无论个体 $i$ 是否完成了大学教育，大学教育对其个人的因果影响都取决于其两种状态下的潜在结果，并且是固定不变的，不依赖于个体最终实现的干预状态；如果个体 $i$ 完成了大学教育，大学教育对其收入的影响是每个月收入增加 2000 元；如果个体 $i$ 仅完成高中教育，那么，如果他能完成大学教育，则其收入的影响也是每月增加 2000 元。
因果效应是干预后同一时间、同一物理个体潜在结果的比较：比如考察某种药物对感冒的治疗效果，干预状态是吃药或不吃药，对应的潜在结果是治愈感冒或没有治愈；因果效应应该定义为我现在吃药和不吃药对应潜在结果的比较，而不能用我现在吃药和昨天我没有吃药时的潜在结果比较；因为昨天的我和今天的我不是同一个我，我今天不吃药的潜在结果和昨天不吃药的潜在结果可能是不一样的，所以在评价今天我吃药的因果效应时，应该是今天我吃药和今天我不吃药时潜在结果的比较。

反事实结果估计

因果效应的定义仅依赖于不同潜在结果的比较，对于给定个体，研究者只能观察到该个体一个状态下的潜在结果，因而，如果仅有一个个体，我们是没有办法得到个体因果效应的。因果推断的核心内容，实际上是想办法将未观测到的潜在结果估计出来，即反事实结果估计。估计反事实结果必须要用到多个个体，多个个体的选择方式有两种：

同一个体的不同时间：比如，判断一种药物是否对感冒有治疗效果，我们往往根据自己以往的经历。我以前感冒的时候吃药感冒就好了，我今天没吃药，头就很痛，因而，我们认为药物有治疗效果。其实这种推断中，我们进行了很强的假设，我们假设过去的经验可以作为今天吃药的反事实结果。如果这一假设不成立，我们就不能用过去吃药的结果作为今天吃药的反事实结果。因为今天的“我”与过去的“我”是不同的个体，我今天可能心情不好，不吃药头很痛，即使吃药，头仍然是痛的。这并不一定说明药没有治疗效果，而是因为我心情沮丧，使我的头更痛了，即我的头痛还混杂了其他的影响因素。
同一时间的不同个体：很多时候，我们的推断是利用同一时间不同个体的信息来估计反事实结果。比如考虑大学教育对收入的影响。在上大学之前，我们不确定大学能给我们带来什么。我们只知道目前我的结果是什么样子，或收入是什么水平。但不知道大学毕业之后收入会是什么水平。那我们在决定是否上大学时，是怎么作出决定的呢？我们可能会观察那些上了大学的人，可能是亲戚或朋友家的孩子，现在已经大学毕业了，有个很好的工作，获得比较满意的收入。那我们在作决策时是怎么做的呢？我们可能将他们的结果或收入作为我们上大学的潜在收入，从而决定是否上大学。

稳定性假设

RCM 的第二个要素是稳定个体干预值假（Stable Unit Treatment Value Assumption, SUTVA），简称稳定性假设（Rubin，1980），SUTVA 有两层含义：

不同个体的潜在结果之间不会交互影响：比如，我们住在同一间宿舍，我们两个都感冒了，如果药物对我头痛的治疗效果依赖于你有没有吃药，那就不满足稳定性假设；在社会科学中，没有交互影响的假设可能不成立，社会科学的研究对象往往是人的行为，个人行为之间往往存在交互影响；但是，在不存在交互影响的假设下，因果推断更加容易，通常假设不同个体之间不存在交互影响。
干预水平对所有个体都是相同的：比如考察药物的治疗效果，那么给所有病人的药物在药效上都应该是一样的，不能有的人有效成分是全额的，有的人是半额的；实际研究中，往往很难完全满足这一要求，通常会忽略掉这种差异，更加关注稳定性假设的第一项要求。

分配机制

分配机制是描述为什么有的人在干预组，有的人在控制组的机制。分配机制决定了个体哪个潜在结果会被实现，可以被观测到。在因果推断中，分配机制非常重要，来看一个“手术相对于药物的治疗效果”的例子：

在潜在结果列可以看出，对于病人 1 和病人 3 来说，手术治疗效果优于药物治疗，而对于病人 2 和病人 4 来说，药物治疗优于手术治疗。假设现实中医生具有很好的医术或鉴别力，可以让病人选择对他最有利的治疗方案，从而实现的分配机制如表中第 5 列所示，让 1 和 3 号病人接受手术治疗，让 2 和 4 号病人接受药物治疗，最终我们可以观测到 1、3 病人的 $Y{1i}$ 以及 2、4 病人的 $Y{0i}$，如观测结果列所示。如果不清楚分配机制，直接用两组观测结果进行比较，将会发现手术治疗平均寿命为 6 年，而药物治疗平均寿命为 7 年，从而得出药物治疗更有效的错误结论。而事实上，通过潜在结果计算出的平均因果效应，手术治疗要比药物治疗寿命长 2 年。

根据分配机制是否已知，可以将分配机制分成两类：

随机实验：分配机制是由实验者控制的，是已知的；
观测研究：分配机制是未知的，观测研究的目的就是想办法识别出未知的分配机制，从而估计因果效应；

协变量

为了搞清楚分配机制，往往需要一些协变量（Covariates），也称混淆变量（Confusion variable），协变量的基本特征是这些变量不受干预变量的影响，但是却往往决定个体的干预状态，协变量包括两种：

个体属性：不随干预状态变化而变化的变量，比如性别、民族等变量；
干预实施之前取值的变量：比如研究培训的作用时，培训前的收入水平及经济社会特征等；

条件独立性

非混杂性（Unconfoundedness），也称为条件独立性（Conditional independence），是指控制协变量 $X_i$ 后，个体干预状态的分配独立于潜在结果，非混杂性可以表示为：

$(Y_{0i},Y_{1i})\perp D_i|X_i \tag {3}$

根据分配机制是否满足条件独立性条件，可以将分配机制分成三类：

经典随机化实验：分配机制满足条件独立性，且函数形式已知；
规则分配机制（Regular assignment mechanism）：分配机制满足条件独立性，但函数形式未知；
不规则机制（Irregular assignment mechanism）：分配机制不满足条件独立性；

Lord 悖论

潜在结果的概念，对理清所要研究的因果问题、定义因果效应非常有帮助。有些因果问题的探讨，必须从潜在结果概念出发才能搞清楚因果效应是否有清晰的定义，从观测结果出发进行建模往往不能清晰地表述所研究的因果效应问题。

这一节介绍一个在统计学中很有名，但是在中文统计教科书中几乎从未介绍过的悖论 —— Lord 悖论（Lord’s Paradox）。这个悖论是由美国教育考试服务中心（EducationalTestingService, ETS）统计学家 FredericLord 于 1967 年提出来的，最终由同在 ETS 工作的另外两位统计学家 Paul Holland 和 Donald Rubin 于 1982 年圆满地找出了这个悖论的根源。

悖论描述

Lord（1967）构造了一个假想的案例，一所大学想考察其食堂膳食对于学生体重是否有差异性的影响，尤其关心食堂对于男女学生体重影响是否相同，为此，收集了学生 9 月份入学时的体重，然后次年 6 月份又获得了学生在校一学年后的体重。两个统计学家分别利用这个数据考察了学校食堂对学生体重的影响，但得到了完全不同的结论：

第一个统计学家用了比较初等的方法，计算了男生和女生入学时的平均体重，分别是 150 磅和 130 磅。然后又计算了入学一学年后男、女生的平均体重，发现仍然是 150 磅和 130 磅。因而，第一位统计学家认为学生食堂膳食对学生体重没有影响。
第二个统计学家采用了更加高等的方法 —— 回归分析，他认为为了考察食堂对学生体重的影响，必须比较两个初始体重相同的人，因而，他构造了一个回归模型，控制了个体入学时的体重，并考察了性别的差异。回归结果表明，同样体重的男生、女生相比，男生的体重增加更大，比女生平均高 7.3 磅。

两个统计学家利用同一数据，采用不同的方法，得到几乎相反的结果，一个说无因果影响，一个说对男生的影响更大，这种矛盾的结果被称为 Lord 悖论。那么，这两个统计学家的分析，哪一个正确呢？

悖论解释

我们首先用 Rubin 因果模型的框架套用到该问题上：

表中的问号（?）是解决 Lord 悖论的关键，尽管积极干预是非常清晰的——学校食堂膳食，它对学生体重的影响是想要研究的问题，但没有清晰的控制干预，不在学校食堂吃饭时是在家吃饭还是在外面下馆子，我们并不清楚，这意味着潜在结果 $Y_0$ 的定义是模糊的，我们权且将 $Y_0$ 看做是假如期间学生没有在学校食堂吃饭时的体重。然而，没有学生在控制组，所有学生都在学校食堂吃饭，为了回答食堂对学生体重的影响，必然要引入一些有关 $Y_0$ 的不可检验的假设，这也正是两位统计学家产生分歧的地方。

食堂膳食对学生体重的个体影响可以写作 $Y_1 - Y_0$，对男女学生的平均影响可以写作:

$\Delta_i = E[Y_1-Y_0|G=i],\ i=1,2 \tag {4}$

平均因果影响的性别差异为：

$\begin{align*}\Delta &= \Delta_1 - \Delta_2\\ &=E[Y_1-Y_0|G=1]-E[Y_1-Y_0|G=2]\\ &=(E[Y_1|G=1]-E[Y_1|G=2])-(E[Y_0|G=1]-E[Y_0|G=2])\end{align*}\tag {5}$

第一位统计学家根据男女学生入学前和放假后平均体重的对比，得到学校膳食没有影响的结论。他所依据的假设是“假如学生不在学校食堂吃饭，他们的体重变化相同”，即 $Y_0 = X + C$，其中 $C$ 对男女学生都是相同的常量，基于该假设可以计算平均因果影响的性别差异：

$\begin{align*}\Delta &= \Delta_1 - \Delta_2\\ &=E[Y_1-Y_0|G=1]-E[Y_1-Y_0|G=2]\\ &=E[Y_1-X-C|G=1]-E[Y_1-X-C|G=2]\\ &=E[Y_1-X|G=1]-E[Y_1-X|G=2]\\ &=0-0\\ &=0\end{align*}\tag {6}$

第二位统计学家认为应该控制开学时的体重，比较相同体重的人放假时体重的变化，对于初始体重为 X 的个体，体重的增加为 $\delta_i(X) = E[Y_i-X|X,G=i],\ i=1,2$，增量的性别差异为 $\delta(X) = \delta_1(X)-\delta_2(X)$，为简单起见，Lord 假设条件期望函数均为线性且男女生斜率相同，即 $E[Y_i|X,G=i]=a_i+bX,\ i=1,2$，则 $\delta(X)=a_1-a_2$。$\delta(X)$ 与因果效应参数 $\Delta$ 没有直接关系，但是在一定的假设下二者等价，比如假设“如果学生不在学校食堂吃饭，他们的体重是初始体重的线性函数”，即 $Y_0 = a + bX$，并且对所有性别的学生都一样，在此假设下，有：

$\begin{align*}\Delta &= \Delta_1 - \Delta_2\\ &=E[Y_1-Y_0|G=1]-E[Y_1-Y_0|G=2]\\ &=E[Y_1-a-bX|G=1]-E[Y_1-a-bX|G=2]\\ &=E[Y_1-bX|G=1]-E[Y_1-bX|G=2]\\ &=E[E[Y_1|X,G=1]-bX|G=1]-E[E[Y_1|X,G=2]-bX|G=2]\\ &=E[a_1+bX-bX|G=1]-E[a_2+bX-bX|G=2]\\ &=a_1-a_2\\\end{align*}\tag {7}$

关于 Lord’s Paradox，我们有如下结论：

Lord 悖论的根源在于整个研究没有控制组，我们甚至不知道什么是控制组，这导致 $Y_0$ 定义模糊；
统计学家一和二，都可能是对的，他们结论的正确性，依赖于不同的假定，而这些假定本身是不可能被检验的；
统计学家一和二，都是错的，他们有结论，但是却从未清楚地陈述结论回答的是什么问题；
潜在结果的概念，对理清所要研究的因果问题、定义因果效应非常有帮助；

因果效应参数

ATE & ATT & ATC 定义

实证研究中，我们关心的往往不是某一特定个体的因果效应，而是干预的平均因果效应。假设有 N 个个体，用 i=1,……,N 表示，$D_i \in {0,1}$ 表示干预变量，个体因果效应为：

$\tau_i=Y_{1i}-Y_{0i},\ i=1,\cdots ,N \tag {8}$

个体因果效应往往无法估计，因而，我们关注总体平均因果效应（Average Treatment Effect, ATE），它表示从总体中随机抽取一个个体进行干预的平均因果效应：

$\tau_{ATE}=E[Y_{1i}-Y_{0i}] \tag {9}$

在政策评价中，我们更关心那些受到政策影响的个体的平均因果效应，称为干预组平均因果效应（Average Treatment Effect for the Treated,ATT）：

$\tau_{ATT}=E[Y_{1i}-Y_{0i}\mid D_i=1] \tag {10}$

有些时候，我们关注那些没有受到政策影响的个体如果接受政策干预的话，其平均因果效应是多少，称为控制组平均因果效应（Average Treatment Effect for the Control, ATC）：

$\tau_{ATC}=E[Y_{1i}-Y_{0i}\mid D_i=0] \tag {11}$

不同的因果效应参数回答不同的问题，比如考察大学教育对个体收入的影响，将大学教育看作一项积极干预，高中教育看作一项控制干预：

ATE：如果想知道大学教育对所有国民的平均影响，估计的参数是总体的平均因果效应（ATE），它反映的是如果全部国民均接受大学教育相对于均接受高中教育全部国民的平均收入增长。
ATT：如果关心的政策问题是大学教育给接受者带来了多大程度的收入增加，需要估计的参数是干预组平均因果效应（ATT）。
ATC：如果想知道那些仅完成高中教育的个人，如果他们能够完成大学教育的话，他们的收入将增长多少，则需要估计的参数是控制组平均因果效应（ATC）。

ATE & ATT & ATC 计算

下面通过一个简单的例子来示范三个因果效应参数的计算，假设有四个个体，并且我们可以同时看到两种干预状态下的潜在结果（现实中只能看到一种状态下的结果）:

理论上，我们可以根据表中的潜在结果数据分别计算 ATE、ATT、ATC：

$\begin{align*}\tau_{ATE}&=E[Y_{1i}-Y_{0i}]=3\cdot 1/4 + 0 \cdot 1/4 + 1 \cdot 1/4 + 0 \cdot 1/4=1.0\\\tau_{ATT}&=E[Y_{1i}-Y_{0i}\mid D_i=1]=3\cdot 1/2 + 0 \cdot 1/2=1.5\\\tau_{ATC}&=E[Y_{1i}-Y_{0i}\mid D_i=0]=1\cdot 1/2 + 0 \cdot 1/2=0.5\end{align*}$

实际上，我们仅能观测到每个个体在其中一种状态下的潜在结果。对于前两个个体，他们在干预组，我们可以观测到他们在积极干预状态下的潜在结果 $Y{1i}=Y_i$，但观测不到他们在控制状态下的潜在结果 $Y{0i}$；相反对于后两个个体，他们在控制组，我们可以观测到他们在被动控制状态下的潜在结果 $Y{0i}=Y_i$，但却观测不到他们在干预状态下的潜在结果 $Y{1i}$。从而，前面计算的三个因果效应参数也就没有办法计算出来了，现在我们再来看各个因果效应参数的定义：

$\begin{align*}\tau_{ATE}&=E[Y_{1i}-Y_{0i}]\\&=E[E[Y_{1i}-Y_{0i}|D_i]]\\&=E[Y_{1i}-Y_{0i}|D_i=1]\cdot P(D_i=1)+E[Y_{1i}-Y_{0i}|D_i=0]\cdot P(D_i=0) \\&=\tau_{ATT}\cdot P_t+\tau_{ATC}\cdot P_c\\\tau_{ATT}&=E[Y_{1i}-Y_{0i}|D_i=1]=E[Y_i|D_i=1]-E[Y_{0i}|D_i=1]\\\tau_{ATC}&=E[Y_{1i}-Y_{0i}|D_i=0]=E[Y_{1i}|D_i=0]-E[Y_i|D_i=0]\end{align*}\tag {12}$

其中，反事实结果 $E[Y{0i}|D_i=1]$ 和 $E[Y{1i}|D_i=0]$ 是观测不到的，必须通过一定的方法将其估计出来，才能得到以上干预效应。

回归分析与因果效应

学过回归分析的学生可能禁不住想用 $Y_i$ 对 $D_i$ 回归，这也是计量经济学的基本建模方式，但是这种回归并不能识别出任何因果效应参数。比如我们建立一个简单的双变量回归模型：

$Y_i=\alpha + \tau D_i + \varepsilon_i \tag {13}$

根据初等计量经济学的知识，用一个容量为 N 的随机样本去估计上述简单回归模型，$D_i$ 的回归系数为：

$\hat{\tau}^{ols}=\frac{\sum_{i=1}^{N}(Y_i-\bar{Y})(D_i-\bar{D})}{\sum_{i=1}^{N}(D_i-\bar{D})^2} \tag {14}$

当干预变量是 $0-1$ 二值变量时，可以证明 $Y_i$ 对 $D_i$ 的回归系数 $\hat{\tau}^{ols}$ 等于干预组和控制组样本均值之差，在大样本的情况下：

$\hat{\tau}^{ols}=\bar{Y_t}-\bar{Y_c}\overset{p}{\rightarrow}E[Y_i|D_i=1]-E[Y_i|D_i=0]=\tau^{ols} \tag {15}$

$\tau^{ols}$ 是总体回归系数，一般不能反映因果效应参数，除非施加一定的假设。

首先，考察总体回归系数和干预组平均因果效应（ATT）之间的关系：

$\begin{align*}\tau^{ols}&=E[Y_i|D_i=1]-E[Y_i|D_i=0]\\&=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0]\\&=E[Y_{1i}-Y_{0i}|D_i=1]+(E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0])\\&=\tau_{ATT}+\Delta \tau_0\end{align*} \tag {16}$

回归系数和因果效应参数 ATT 之间相差 $E[Y{0i}｜D_i=1]-E[Y{0i}｜Di=0]$，它表示干预组和控制组个体在控制状态下的潜在结果差异，也称为基线潜在结果差异（difference in baseline potential outcomes），这一偏差通常称为选择偏差（selection bias）。$E[Y{0i}｜Di=1]$ 表示干预组个体在控制状态下的潜在结果，是观测不到的，但是在选择偏差为 0 的假设下，可以用控制组的观测结果 $E[Y{0i}｜Di=0]$ 来代替干预组的反事实结果 $E[Y{0i}|D_i=1]$。比如教育收益率的例子，如果潜在收入高的人倾向于选择上大学，那么，上大学的人即使仅完成了高中教育，他们的收入也会比高中组高，那么大学组合高中组观测到的收入均值差就不能解释为大学教育对个人收入的因果影响，选择偏差为正，回归系数将高估教育对收入的影响。

类似地，总体回归系数也不是控制组平均因果效应（ATC），只有假设干预组和控制组的干预潜在结果相同，即 $E[Y{1i}|D_i=1]=E[Y{1i}|D_i=0]$，回归系数才等于 ATC：

$\begin{align*}\tau^{ols}&=E[Y_i|D_i=1]-E[Y_i|D_i=0]\\&=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0]\\&=E[Y_{1i}-Y_{0i}|D_i=0]+(E[Y_{1i}|D_i=1]-E[Y_{1i}|D_i=0])\\&=\tau_{ATC}+\Delta \tau_1\end{align*} \tag {17}$

最后，总体回归系数通常也不是平均因果效应，只有同时施加假设 $\Delta \tau0=0$ 和$\Delta \tau_1=0$ 时，总体回归系数才可解释为总体平均因果效应。将式 $(16)$ 和 $(17)$ 带入到 $\tau{ATE}=\tau{ATT}\cdot P_t+\tau{ATC}\cdot P_c$，易得：

$\tau^{ols}=\tau_{ATE}+\Delta \tau_0+P_c\cdot (\tau_{ATT}-\tau_{ATC}) \tag {18}$

我们可以得到分配机制、潜在结果、干预效应和回归系数之间的一般关系，如下图所示：

需要注意的是，潜在结果框架仅关注因果效应，不能说明变量之间的影响机制，因果效应是一个“黑箱”，只能给出因果效应的大小，不能给出产生这一因果效应的内在机制。

参考

赵西亮. 基本有用的计量经济学 (高等院校经济学管理学系列教材)
因果推断简介之七：Lord’s Paradox

数据科学：因果推断（一）—— 辛普森悖论

2021-02-07T07:29:53.000Z

There are three kinds of lies: lies, damned lies, and statistics.
——Mark Twain

辛普森悖论——描述

辛普森悖论（Simpson’s paradox）是概率统计中的一种现象：在变量 Z 的每一个分层上，变量 X 和变量 Y 都表现出一致的相关性，但是在 Z 的整体上，X 和 Y 却呈现出与之相反的相关性。该现象于 20 世纪初就有人讨论，但一直到 1951 年 E.H.辛普森在他发表的论文中阐述此一现象后，该现象才算正式地被描述解释，辛普森悖论这个名字是由柯林·布莱斯（Colin R. Blyth）在 1972 年提出的。

以 BBG 药物（Bad/Bad/Good Drug）之谜为例，假设有一种新药 D，这种新药似乎可以降低心脏病发作的风险，我们通过临床观测收集到了如下数据（数据来自观测实验而非随机化实验）：

整体来看，服药组和未服药组各有 60 人，男性和女性各有 60 人，不同人群的心脏发病率表现如下：

对于女性患者：未服药组的心脏病发病率 5% < 服药组的心脏病发病率 8%；
对于男性患者：未服药组的心脏病发病率 30% < 服药组的心脏病发病率 40%；
对于所有患者：未服药组的心脏病发病率 22% > 服药组的心脏病发病率 18%；

这种药物似乎对女性有害，对男性也有害，但却对整个人类有益！一个表面的解决方案是，当我们知道病人的性别是男性或者是女性时，我们不采用这种药物疗法，但如果病人的性别是未知的，我们就应该采用这种疗法！但显然，这个结论是荒谬的。这三句话中一定有一句是错的，但错的是哪一句？为什么？这种令人迷惑不解的情况究竟是如何发生的呢？

辛普森悖论——解决

任何声称能够解决悖论的方法都应该能够回答一些关于悖论的基本问题：

解释悖论让人困惑的原因；
确定悖论出现的场景类别；
挖掘悖论掩盖的正确结论；

辛普森逆转

“辛普森逆转”是指在合并样本时，两个或多个不同样本关于某一特定事件的相对频率出现反转的现象。在上面的例子中，我们可以看到两组相对频率：1/20 < 3/40，12/40 < 8/20，然而 (1 + 12)/(20 + 40) > (3 + 8)/(40 + 20)。

为了直观理解辛普森逆转机制，我们通过混合不同浓度的溶液来类比混合不同性别心脏发病率的场景，其中容器的形状代表性别，女性用圆形容器来表示，男性则用方形容器来表示，患者发病率用黑色阴影来表示，混合前圆形容器和方形容器干预组液体浓度都要大于对照组，混合后干预组液体浓度却高于对照组：

辛普森逆转通常满足两个前提：

不同 Z 分层对应的 Y 值相差很大：男性患者的发病率(33.3%)远高于女性患者的发病率(6.7%)；
Z 在干预组和对照组的分布有明显差异：男性在对照组占比(66.7%)远高于在干预组占比(33.3%)；

辛普森悖论

辛普森逆转只是一个纯粹的数字事实，本身并无新奇之处，它最多只是纠正了人们对“平均表现”的错误概念。而悖论的含义不止于此，它应该能够引起两种为绝大部分人深信不疑的信念之间的冲突。在 BBG 药物悖论中，当“对男性有害”“对女性有害”“对人类有益”这三个陈述被简单理解为比例增减时，它们在数学上并不矛盾，但是你可能认为这种情况在现实世界中不可能存在，因为一种药物不可能既导致心脏病发作又防止心脏病发作。幸运的是，你的直觉是对的，BBG 药物确实不存在！

确凿性原则：假如无论事件 C 是否发生，某个行动都会增加某一结果的可能性，则该行动也将在我们不知道事件 C 是否发生的情况下增加这个结果的可能性，前提是该行动不会改变 C 的概率。

根据确凿性原则，以下三种陈述之一必定为假：

药物 D 增加了男性患者和女性患者的心脏病发作的概率；
药物 D 降低了整个总体的心脏病发作的概率；
药物 D 不会改变男性和女性的数量；

因为药物改变病人性别的事不太可能发生，所以前两句陈述中一定有一句为假。那么，哪句陈述是假的？要回答这个问题，我们必须在数据之外探寻数据生成的过程。我们可以通过以下因果图对 BBG 药物数据的产生过程建模，这张图对性别对心脏病发作风险的影响（男性患者的风险更大），以及性别对患者是否选择服用药物 D 的影响（女性更倾向于服用药物 D）进行了编码，性别因素构成了是否服用药物和心脏病发作的混淆因子：

为了客观估计药物对心脏病的影响，我们必须对混淆因子进行控制，或按照一般总体中性别分布对不同性别下药物效果进行加权：

对于女性患者：未服药组的心脏病发病率 5% < 服药组的心脏病发病率 8%；
对于男性患者：未服药组的心脏病发病率 30% < 服药组的心脏病发病率 40%；
对于所有患者：未服药组的心脏病发病率 5% × 0.5 + 30% × 0.5 = 17.5% < 服药组的心脏病发病率 8% × 0.5 + 40% × 0.5 = 24%；

至此，我们找到了关于 BBG 药物最清晰、明确的答案：药物 D 不是 BBG 药物，而是 BBB 药物，对女性有害、对男性有害、对人类有害。

至此，我们回答了 BBG 药物悖论中的基本问题：

解释悖论让人困惑的原因：从心脏病发病率来看，BBG 药物似乎对男性有害、对女性有害、对全体人类有益，这是荒谬的，违反了绝大多数人的直觉；
确定悖论出现的场景类别：BBG 药物悖论产生的前提有三，① 性别因素既是影响是否服用药物的原因，又是影响患者发病率的原因，即性别是药物服用和发病的混淆因子；② 不同性别下，发病率差别较大；③ 不同性别下，药物服用比例差别较大；
挖掘悖论掩盖的正确结论：控制混淆因子，分层看数据或者按混淆因子在一般总体中的分布情况对统计数据进行修正，可得正确结论，BBG 药物对男性有害、对女性有害、对人类有害；

分合取决于因果而非数据

关于辛普森悖论，还应明确：

辛普森悖论的存在并不意味着聚合数据总是错的：是分是合取决于数据的生成过程，而非数据本身；
辛普森悖论没有出现也不意味着混淆因子不存在：潜在的混淆因子仍然会干扰统计推断，只是没有达到辛普森悖论的极端表现；

假设高血压是心脏病发作的可能原因，而药物 B 能降低血压，研究人员向看看这种药物是否也能降低心脏病发作的风险，因此他们在病人服药后测量了病人的血压，并观察病人是否会出现心脏病发作的情况：

这些数据看起来非常熟悉，其中的数字和 BBG 药物的统计数据是完全一致的。我们可以通过以下因果图对服用药物 B、血压、心脏病发作三者建模，与 BBG 因果图不同的是，血压不再是药物服用和心脏病发作的混淆因子，而是二者之间的中介物：

“服用药物 B -> 心脏病发作”这一因果关系中没有混杂因子，所以数据分层是不必要的。事实上，如果控制血压会使其中一条因果路径失效（而且可能是最重要的那条因果路径），导致药物无法通过这条路径发挥作用。鉴于此，我们得出的结论与在 BBG 药物的例子中得到的结论完全相反：药物 B 能有效预防心脏病发作。

辛普森悖论——实例

肾结石疗法

1996 年发表的一篇观察性研究报告表明，对于摘除小型肾结石而言，开腹手术比内窥镜手术的恢复率高，对于摘除较大的肾结石而言，开腹手术也有更高的恢复率。然而就总体而言，开腹手术的恢复率反而较低。

小肾结石被认为是不太严重的病例，开腹手术比内窥镜手术更加激进，因此对于小肾结石，医生更有可能推荐保守内窥镜手术，因为病情不太严重，患者也更有可能首先成功恢复。对于严重的大肾结石，医生往往选择更激进的开腹手术，较大肾结石的病人本身的恢复率较低。

吸烟者存活率更高？

在 1995 年发表的一份关于甲状腺疾病的研究报告中，数据显示吸烟者的存活率（76%）比不吸烟者的存活率（69%）更高，寿命平均多出20年。然而，在样本的7个年龄组中，有6个年龄组中不吸烟者的存活率更高，而第7个年龄组中二者的差异微乎其微。年龄显然是吸烟和存活率的混杂因子：吸烟者的平均年龄比不吸烟者小（很可能是因为年老的吸烟者已经死了）。根据年龄来分割数据，我们就可以得出正确的结论：吸烟对存活率有负面影响。

运动水平与体内胆固醇水平

逆转也可能发生在包含连续变量的情况，假设有一项关于各年龄段群体每周的运动时间与其体内胆固醇水平之关系的研究。如左图所示，我们以 x 轴表示运动时间，以 y 轴表示胆固醇水平。一方面，我们在每个年龄组中都看到了向下的趋势，表明运动可能的确有降低人体胆固醇水平的效果。另一方面，如果我们使用相同的散点图，但不按年龄对数据进行分层，如右图所示，那么我们就会看到一个明显向上的趋势，表明运动得越多，人体胆固醇水平就越高。看起来我们再次遇到了 BBG 药物的情况，其中运动就是那个药物：它似乎对每个年龄组都产生了有益的影响，却对整个总体有害。

像往常一样，要决定运动是有益的还是有害的，我们需要考察数据背后的故事。数据显示，总体中年龄越大的人运动得越多。因为更可能发生的是年龄影响运动，而不是反过来。同时，年龄可能对胆固醇水平也有因果效应。因此我们得出结论，年龄可能是运动时间和胆固醇水平的混杂因子，我们应该对年龄进行变量控制。换言之，我们应该看的是按照年龄组别进行分层后的数据，并据其得出结论：无论年龄大小，运动都是有益的。

参考

为什么（美）朱迪亚·珀尔，（美）达纳·麦肯齐著；江生，于华译.北京：中信出版社，2019.7
辛普森悖论·维基百科
JUDEA PEARL, MADELYN GLYMOUR, NICHOLAS P. JEWELL CAUSAL INFERENCE IN STATISTICS: A PRIMER
因果推断简介之一：从 Yule-Simpson’s Paradox 讲起

数据科学：因果推断（〇）—— 综述

2021-02-06T07:29:53.000Z

我们生活在一个相信大数据能够解决所有问题的时代，然而数据远非万能，数据可以告诉你服药的病人比不服药的病人康复得快，却不能告诉你原因何在。也许，那些服药的人只是因为他们支付得起，即使不服用这种药，他们也能恢复得更快。正如 Kendall 和 Stuart 所说，统计关系无论有多强，有多紧密，也决不能建立起因果关系，因果关系的概念来自统计学之外的某个理论。

因果关系（causality）

因果观念是人类认知事物的重要方式，我们相信，世界并非是由简单的事实堆砌而成，相反，这些事实是通过错综复杂的因果网络联系在一起的，科学正是建立在因果律的基础之上的。关于因果的讨论，已经持续了上千年，至今仍没有统一定论，在正式讨论“因果推断”之前，我们有必要搞清楚，当我们提到“因果”时，究竟是在谈论着什么。

神话时代

在神话思维时代，人类对诸如雷电、地震等自然现象都会归结为某个神灵的意志。这种拟人化的目的归因，是人类试图捕捉现象背后本质因果思维的最初尝试，并发展出交感巫术、祈祷等手段与神灵沟通，从而对自然过程进行干预。

希腊时代

人类文明的轴心时代，是古希腊人最早发扬了理性精神。哲学和科学的诞生，不仅来自经验知识，更因为是有数学和几何。古希腊最早的哲学家，包括泰勒斯、毕达哥拉斯等，都同时也是数学家和自然科学家。数学对象之间的必然关系，放到经验世界，就产生了让哲学脱胎于神话的第一次天问：“世界是如何起源的？从此人类以理性思维探讨世界秩序成为了可能。

希腊哲学家对世界起源的回答，无论是水、气、火、数、逻各斯或无定形，最后都被亚里士多德总结为四种原因：

质料因（Matter - material cause）：构成事物的材料，例如木材就是桌子的质料因；
形式因（Form - formal cause）：构成事物的样式，例如木工心中桌子的样式，就是桌子的形式因；
动力因（Agent - efficient cause）：构成事物的过程，例如木工制作桌子的过程就是桌子的动力因；
目的因（Purpose - final cause）：构成事物的目的，例如放置物品就是桌子的目的因；

理性主义

17 世纪，德国数学家和哲学家莱布尼茨，将自己的哲学建立在两个逻辑前提之上：矛盾律（在同一时刻，某个事物不可能在同一方面既是这样又不是这样）和充分理由律（任何事物都有其存在的充足理由）。这两个前提又都建立在一种“分析”命题的概念之上，而所谓的分析命题就是谓项被包含在主项之中的命题 —— 例如，“所有的白种人都是人”。矛盾律所陈述的是“所有分析命题都是真命题”，充分理由律所陈述的则是“所有的真命题都是分析命题”。这一点不仅适用于逻辑陈述，甚至对于那些我们必须当作关于实际问题的经验性陈述也适用。如果“我”做一次旅行，“我”的概念一定自永恒以来就将这次旅行的概念包括在内了，这次旅行就是“我”的谓项。

19 世纪德国哲学家、唯意志论创始人叔本华，在博士论文《充足理由律的四重根》中给出了莱布尼茨的充足理由律的四种表现形式：

因果关系（Becoming）：生成/变化的充足理由律，适用于现实对象；
逻辑推论（Knowing）：认识的充足理由律，适用于逻辑对象；
数学证明（Being）：存在的充足理由律，解释时间和空间的必然性；
行为动机（Willing）：行动的充足理由律，解释动机和行为之间的必然性。

经验主义

18 世纪，英国经验主义哲学家休谟将因果关系限定在了经验世界的具体对象中，先后在《人性论》和《人类理智研究》中给出了因果关系两个定义：

我们无从得知因果之间的关系，只能得知某些事物总是会连结在一起，而这些事物在过去的经验里又是从不曾分开过的。我们并不能看透连结这些事物背后的理性为何，我们只能观察到这些事物的本身，并且发现这些事物总是透过一种恒常的连结而被我们在想像中归类。
—— 休谟.人性论.1739
我们可以给一个因下定义说，它是先行于、接近于另一个对象的一个对象，而且在这里，凡与前一个对象类似的一切对象都和与后一个对象类似的那些对象处在类似的先行关系和接近关系中。或者，换言之，假如没有前一个对象，那么后一个对象就不可能存在。
—— 休谟.人类理解研究.1748

在《人性论》中，休谟对因果关系的客观性提出了怀疑，认为我们只能观察到事物本身及其恒常相继发生，并不能观察到事物背后的因果链接。在《人类理解研究》中，休谟提到了反事实推理的必要因，也即“若非因”。

经典力学

17 世纪，牛顿创立经典力学之后，决定论占据了所有学科领域的核心：万事万物都被包含在确定性的因果链条之中。法国数学家皮埃尔-西蒙·拉普拉斯在他的概率论导论中说：

我们可以把宇宙现在的状态视为其过去的果以及未来的因，假若一位智者知道在某一时刻所有促使自然运动的力和所有物体的位置，假若他也能够对这些数据进行分析，则在宇宙里，从最大的物体到最小的粒子，它们的运动都包含在一条简单公式里。对于这位智者来说，没有任何事物会是含糊的，并且未来只会像过去般出现在他眼前。

拉普拉斯这里所说的“智者”（intelligence）便是后人所称的拉普拉斯妖。

概率论

从赖欣巴哈和萨普斯开始，哲学家们开始使用“概率提高”的概念来定义因果关系：如果 X 提高了 Y 的概率，那么我们就说 X 导致了 Y，即 $P(Y|X) > P(X) => X \rightarrow Y$。这个概念也存在于我们的直觉中，并且根深蒂固。但是这种解释是错的，因为“提高”是一个因果概念，意味着 X 对 Y 的因果效应。但是，这种概率提高完全可能是其他因素造成的，比如 Y 是 X 的原因，或者其他变量是它们二者的原因。

18 世纪，一位英国长老会牧师和业余数学家托马斯·贝叶斯（Thomas Bayes），将概率现象解释为主观信念程度的变化和更新，让概率本身也失去了客观性。但自 19 世纪中叶起，随着频率学派（经典统计学派）的兴起，贝叶斯解释逐渐被统计学主流所拒绝。现代贝叶斯统计学的复兴肇始于 Jeffreys(1939)，从 1950 年代开始，经过众多统计学家的努力，贝叶斯统计学才逐渐发展壮大。

$P(h|D)=P(h)\times \frac{P(D|h)}{P(D)}$

在形式上，贝叶斯定理只是条件概率定义的一个初等推论，但在认识论上，它远远超出了初等的范畴。事实上，它作为一种规范性规则，能够用于根据证据更新信念这一重要操作。从许多层面来说，贝叶斯定理都是对科学方法的提炼：1. 提出一个假设 $h$；2. 推断假设的可检验结果；3. 进行实验并收集证据 $D$；4. 更新对假设的信念 $P(h|D)$。

贝叶斯定理所描述的仍然是“证据”和“假设”之间的相关性，证据所带来的“信念增强”并不意味着“证据”是“假设”的原因。

统计学

然而“除了物理学之外，都是集邮”（卢瑟福），纷纷效法物理学的其他自然和社会科学并没有取得想象中确定性的成功。到了19 世纪，统计学创始人高尔顿在研究“遗传均值回归”现象的过程中，以寻找因果关系为起点，最终却发现了相关性 —— 一种无视因果的关系。高尔顿的学生，作为统计学之父的卡尔·皮尔逊，则干脆用相关关系（Correlation）取代了因果关系，认为因果关系只是相关关系的一个特例。

我认为……高尔顿的本意是，存在一个比因果关系更广泛的范畴，即相关性，而因果关系只是被囊括于其中的一个有限的范畴。这种关于相关性的新概念在很大程度上将心理学、人类学、医学和社会学引向了数学处理的领域。
—— 皮尔逊.1934
一个特定的事件序列在过去已经发生并且重复发生，这只是一个经验问题，对此我们可以借助因果关系的概念给出其表达式……在任何情况下，科学都不能证明该特定事件序列中存在任何内在的必然性，也不能绝对肯定地证明它必定会重复发生。
—— 皮尔逊.科学语法.1892

皮尔逊将因果关系从统计学中剔除，取而代之的是相关关系。统计学告诉我们“相关关系不等于因果关系”，但并没有告诉我们因果关系是什么。在统计学教科书的索引里查找“因果”这个词是徒劳的。统计学不允许学生们说 X 是 Y 的原因，只允许他们说 X 与 Y “相关”或“存在关联”。统计学唯一关注的是如何总结数据，而不关注如何解释数据。

继高尔顿和皮尔逊之后，罗纳德·艾尔默·费舍尔成为当时统计学界无可争议的领袖，他简洁地描述了这种差异：

一旦你从统计学中删除因果关系，那么剩下的就只有数据约简了。

量子力学

进入 20 世纪，就连在物理学中人们也发现了更多不确定性现象。量子力学对微观世界的描述，让很多人确信，世界在根基上就是不确定性的。混沌理论革命则让人们意识到，对复杂系统即使存在确定的关系，也会因为初始敏感导致计算不可约性。

在这些科学发展的背景下，不确定性完全占据了上风，大多数人认为可能只存在相关性，在科学实践和决策上也广泛采取统计学方法。科学反映客观实在的观念已一去不复返，物理定律也降格为基于某种观测数据拟合的理论模型。

因果革命

2020 年 6 月 21 日，在第二届北京智源大会开幕式及全体会议上，图灵奖得主、贝叶斯网络奠基人Judea Pearl 做了名为《The New Science of Cause and Effect with reflections on data science and artificial intelligence》的主题演讲。

在演讲中，Judea Pearl 站在整个数据科学的视角，简单回顾了过去的“大数据革命”，指出数据科学正在从当前以数据为中心的范式向以科学为中心的范式偏移，现在正在发生一场席卷各个研究领域的“因果革命”。

To Build Truly Intelligent Machines, Teach Them Cause and Effect 。
——Judea Pearl

因果革命和以数据为中心的第一次数据科学革命，也就是大数据革命（涉及机器学习，深度学习机器应用，例如 Alpha-Go、语音识别、机器翻译、自动驾驶等等）的不同之处在于，它以科学为中心，涉及从数据到政策、可解释性、机制的泛化，再到一些社会科学中的基础概念信用、责备和公平性，甚至哲学中的创造性和自由意志。可以说，因果革命彻底改变了科学家处理因果问题的方式。

Judea Pearl 认为，统计学的其他分支，以及那些依赖统计学工具的学科仍然停留在禁令时代，错误地相信所有科学问题的答案都藏于数据之中，有待巧妙的数据挖掘手段将其揭示出来。因果分析绝不只是针对数据的分析，在因果分析中，我们必须将我们对数据生成过程的理解体现出来，并据此得出初始数据不包含的内容。与相关性分析和大多数主流统计学不同，因果分析要求研究者做出主观判断。研究者必须绘制出一个因果图，其反映的是他对于某个研究课题所涉及的因果过程拓扑结构的定性判断，或者更理想的是，他所属的专业领域的研究者对于该研究课题的共识。为了确保客观性，他反而必须放弃传统的客观性教条。在因果关系方面，睿智的主观性比任何客观性都更能阐明我们所处的这个真实世界。

因果定义

数据科学所研究的因果关系是经验世界中事件之间的因果关系，正如休谟所言，在经验世界中，我们实际所能观测到的只是事件本身，而无法观测到隐藏在事件背后的“因果机理”，事件间的因果关系本质上是对事件序列间特定关系的概括性称谓。目前，一个被广泛接受的因果关系的定义是由 Lazarsfeld（1959）给出的：

如果变量 A 和变量 B 满足以下三个条件，则称 A 和 B 之间存在因果关系“A 导致 B”，其中 A 被称为 B 原因，B 被称为 A 的结果：
A 在时间上必须先于 B；
A 和 B 应当在经验上相互关联；
A 和 B 之间观测到的经验相关不能被第三个导致 A 和 B 两者的变量所解释；

相关性只是因果性的一个必要非充分条件，即“相关性不一定意味着因果性”，A 和 B 相关可能是以下情形的结果：

A 和 B 都由第三个变量 C 决定：如果通过控制 C，A 和 B 之间的相关性会消失，则说此相关是虚假的（spurious）；比如“是否携带打火机”与“癌症发病率”之间的相关性，本质上是因为抽烟的人通常会携带打火机，并且癌症发病率更高所导致的；
A 导致 B：我们对干扰变量进行了控制，但我们仍然观测到 A 和 B 之间高度相关；
B 导致 A：相关性本身并没有告诉我们因果关系的方向；比如“公鸡打鸣”和“太阳升起”有高度相关性，但是统计数据本身并不能告诉我们到底是公鸡打鸣导致了太阳升起，还是太阳升起导致了公鸡打鸣；

至此，我们已经查勘了因果观念的全景，现在可以对数据科学所涉及到的因果关系概括如下：

在经验世界中，我们所能观察到的只是事件（数据）本身，而如果仅凭数据间的关联，我们只能得到事件间的相关性，事件间的因果关系是对事件序列特定关系的概括：如果 A 和 B 同时满足以下条件 ① A 在时间上先于 B；② A 和 B 在经验上相关；③ A 和 B 间的相关性不能被其他变量所解释；则称 A 是 B 的原因，或称 A 导致了 B。

因果推断（Causal Inference）

因果推断是研究变量间因果关系的学科，作为一门学科，因果推断目前仍然处于大众视野之外。朱迪亚·珀尔（Judea Pearl）认为，一旦我们真正理解了因果思维背后的逻辑，就可以在现代计算机上模拟它，进而创造出一个“人工科学家”。这个智能机器人将会为我们发现未知的现象，解开悬而未决的科学之谜，设计新的实验，并不断从环境中提取更多的因果知识。

关于因果推断的讨论，可以有两个方向：

考察结果的原因：看到结果，寻找结果背后的原因，这种研究往往是科学的起点，但寻找结果背后的原因，非常复杂。某一种结果产生的原因可能有很多，需要通过详细的调查、深入的分析才能找到。
考察原因的结果：主要关注某一干预对结果的影响，一项干预对结果变量产生的影响，通常称为因果效应（causal effects）或干预效应（treatment effects）。

问题定义

按照所能回答问题的类型，Judea Pearl 将因果信息划分成了三个层级，其中，高层级信息可以回答低层级问题，但是低层级信息无法回答高层级问题：

层级	任务	活动	符号	问题	例子	评价
关联	基于被动观察做出预测	观察	$P(Y\mid X)$	如果观察到X，如何预测Y？	购买啤酒的用户多大可能会购买尿布？	好的预测无需好的解释（因果）当前机器学习/深度学习/统计学几乎完全是在关联层级下，由一系列观察数据拟合出一个函数
干预	基于主动干预做出评估	行动	$P(Y\mid do(X))$	如果改变X，Y会怎样？	如果价格提高两倍，销量会怎么变化？	预测干预结果的方法是在严格控制的条件下进行实验
反事实	通过因果模型做出预测	想象	$P(y_x \mid X’,Y’)$	假如观察到的不是X’，Y会怎样?	假如过去没有抽烟，现在身体会更好吗？	预测在尚未经历甚至未曾设想过的情况下会发生什么——这是所有科学的圣杯

Judea Pearl 在《The Book of Why》一书中对以上三种因果层级进行了详细描述，并将其称为“因果关系之梯”：

Judea Pearl 认为，人类的大脑拥有某种简洁的信息表示方式，同时还拥有某种十分有效的程序用以正确解释每个问题，并从存储的信息表示中提取正确答案，这就是因果图。Judea Pearl 通过一个被他称作“迷你图灵测试”的例子，借助因果图语言介绍了以上三种因果层级之间的差异。

如下图所示，假设一个犯人将要被执行枪决，这件事的发生必然会以一连串的事件发生为前提：首先，法院方面要下令处决犯人；命令下达到行刑队长后，他将指示行刑队的士兵（A 和 B）执行枪决；我们假设他们是服从命令的专业抢手，只听命令射击，并且只要其中任何一个抢手开了枪，囚犯都必死无疑。借助这个因果图，我们就可以回答来自因果关系之梯不同层级的因果问题了。

（1）首先，我们可以回答关联问题（一个事实告诉我们有关另一事实的什么信息）。一个可能的问题是，如果犯人死了，那么这是否意味着法院已下令处决犯人？我们（或一台计算机）可以通过核查因果图，追踪每个箭头背后的规则，并根据标准逻辑得出结论：如果没有行刑队队长的命令，两名士兵就不会射击。同样，如果行刑队队长没有接到法院的命令，他就不会发出执行枪决的命令。因此，这个问题的答案是肯定的。另一个可能的问题是，假设我们发现士兵 A 射击了，它告诉了我们关于 B 的什么信息？通过追踪箭头，计算机将断定B一定也射击了。（原因在于，如果行刑队队长没有发出射击命令，士兵A就不会射击，因此接收到同样命令的士兵B也一定射击了。）即使士兵 A 的行为不是士兵 B 做出某一行为的原因（因为从 A 到 B 没有箭头），该判断依然为真。

（2）沿着因果关系之梯向上攀登，我们可以提出有关干预的问题。如果士兵 A 决定按自己的意愿射击，而不等待队长的命令，情况会怎样？犯人会不会死？如果我们希望计算机能理解因果关系，我们就必须教会它如何打破规则，让它懂得“观察到某事件”和“使某事件发生”之间的区别。我们需要告诉计算机：“无论何时，如果你想使某事发生，那就删除指向该事的所有箭头，之后继续根据逻辑规则进行分析，就好像那些箭头从未出现过一样。”如此一来，对于这个问题，我们就需要删除所有指向被干预变量（A）的箭头，并且还要将该变量手动设置为规定值（真）。这种特殊的“外科手术”的基本原理很简单：使某事发生就意味着将它从所有其他影响因子中解放出来，并使它受限于唯一的影响因子——能强制其发生的那个因子。下图表示出了根据这个例子生成的因果图，显然，这种干预会不可避免地导致犯人的死亡，这就是箭头 A 到 D 背后的因果作用。同时，我们还能判断出：B（极有可能）没有开枪，A 的决定不会影响模型中任何不受 A 的行为的影响的其他变量。需要注意的是，仅凭收集大数据无助于我们登上因果关系之梯去回答上面的问题。假设你是一个记者，每天的工作就是记录行刑场中的处决情况，那么你的数据会由两种事件组成：要么所有 5 个变量都为真，要么所有都为假。在未掌握“谁听从于谁”的相关知识的情况下，这种数据根本无法让你（或任何机器学习算法）预测“说服枪手 A 不射击”的结果。

（3）最后，为了说明因果关系之梯的第三层级，我们提出一个反事实问题。假设犯人现在已倒地身亡，从这一点我们（借助第一层级的知识）可以得出结论：A射击了，B射击了，行刑队队长发出了指令，法院下了判决。但是，假如 A 决定不开枪，犯人是否还活着？这个问题需要我们将现实世界和一个与现实世界相矛盾的虚构世界进行比较。在虚构世界中，A 没有射击，指向 A 的箭头被去除，这进而又解除了 A 与 C 的听命关系。现在，我们将A的值设置为假，并让A行动之前的所有其他变量的水平与现实世界保持一致。如此一来，这一虚构世界就如下图所示。为通过迷你图灵测试，计算机一定会得出这样的结论：在虚构世界里犯人也会死，因为B会开枪击毙他。所以，A勇敢改变主意的做法也救不了犯人的命。

看起来，我们刚刚像是花了很大一番力气回答了一些答案显而易见的小问题。的确，因果推理对你来说很容易，其原因在于你是人类，在你还是三岁儿童时，你所拥有的功能神奇的大脑就比任何动物或计算机都更能理解因果关系。“迷你图灵问题”的重点就是要让计算机也能够进行因果推理，而我们能从人类进行因果推断的做法中得到启示。如上述三个例子所示，我们必须教会计算机如何有选择地打破逻辑规则。计算机不擅长打破规则，而这是儿童的强项。

数据来源

用于因果推断的数据来源一般有三种：

控制实验：对于实验组和控制组，严格控制混淆变量，结果的差异可以归因于原因变量的差异；控制实验对实验条件要求苛刻，一般用于自然科学研究领域；
随机实验：Fisher 认为我们不必控制其他变量差异，现实中也没有办法完全控制所有的其他变量，只要让随机机制决定干预变量的分配，就可以获得正确的因果效应；随机试验被称为因果推断的黄金标准；
观察实验：在很多场景下，尤其是在社会科学领域，我们既没有办法实施控制实验，也没有办法实施随机实验，只能获取到被动观察的自然数据；此时，可以通过一些近似手段模拟随机试验过程，进行因果推断；

理论基础

识别策略

参考

Judea Pearl.The Book of Why: the new science of cause and effect
赵西亮.基本有用的计量经济学
罗素.西方哲学史
因果观念新革命？万字长文，解读复杂系统背后的暗因果
Judea Pearl.The Seven Tools of Causal Inference, with Reflections on Machine Learning
图灵奖得主Judea Pearl：从“大数据革命”到“因果革命”
Judea Pearl.The New Science of Cause and Effect with reflections on data science and AI 视频
Foundations and new horizons for causal inference 研讨会, 2019（因果推断始于经济和生物统计等学科，它刚刚才开始成为人工智能的一个重要工具，数学基础依旧很零碎，该研讨会聚集了来自人工智能，生物统计学，计算机科学，经济学，流行病学，机器学习，数学和统计学的顶尖研究人员，研讨会上的报告和讨论将有助于在未来几年内塑造和改变这一领域的发展）
Causality for Machine Learning, Bernhard Schölkopf, 2019（这是一篇刚刚挂 arxiv 就被 Pearl 亲自 twitter 点赞的论文，是马普智能所所长 Bernhard Scholkopf 最引以为傲的论文之一，他将被 Pearl 点赞这事情写在其个人主页自我介绍的第一段中。Scholkopf 及其团队在因果结合机器学习方面做了最多的工作，此文总结和升华了提出了信息革命时代下因果结合机器学习的一般理论和深刻思考）
A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks, Miguel A. Hernán, John Hsu &Brian Healy, 2019（来自哈佛教授 Migual A. Hernan 对当前数据科学的深刻反思，澄清了数据科学任务如何分类的基本问题：prediction, deion and counterfactual prediction.）
Causal Inference and Data-Fusion in Econometrics, P. Hünermund, E. Bareinboim.Dec, 2019.(该论文是因果革命，Pearl 的因果图模型框架如何影响某一个特定领域—计量经济学的范例)

数据科学：综述（一）—— 工作内容

2020-12-28T07:23:53.000Z

本文转载自 One Data Science Job Doesn’t Fit All

在一家高速增长的公司里，当一名领导者的乐趣之一就是你不仅有机会去改变一些事情 —— 你还必须主动驱动变革以跟上步伐。而在数据科学（DS）这个新的、快速发展的领域工作，我们将同时置身于公司和行业的快速变化之中。

在 Airbnb，我们把数据看作是用户的声音，我们的目标是让数据科学家最大程度地发挥他们的影响，并对自己的工作充满期待。我们正在朝着这个方向努力，也一直在寻找改进的方法。作为这一演变的一部分，我们最近建立了一个角色定义框架，我希望我们在此过程中学到的知识可以对其他公司在定义数据科学角色方面具有参考意义。

我要分享的主要结论是：为了满足业务的需求，公司会考虑数据科学工作的三个通道 —— 分析、推断、算法。下面我将描述我们是如何发展到这三条工作通道上的，以及它是如何帮助我们的。

数据科学家的其他名称

我们从“分析团队”开始，最初雇用的是“分析专家”。 2012年，我被聘为“数据科学家”。后来，我们聘请了“数据架构师”来处理数据质量，然后聘请了“数据分析专家”来帮助解决数据访问和工具方面的空白。然后，我们看到了机器学习方面的其他需求，因此我们聘请了“机器学习数据科学家”。这些头衔的演变既是对团队需求的反应，也是对竞争格局的反应。我们在2015年成为了“数据科学”部门，尽管我们仍然使用“ A-team”，因为它很有趣并且拥有我们重视的历史。

当我在2017年中担任数据科学职能部门的负责人时，我们大约有80位数据科学家分布在各个团队中。一些正在构建报表，一些正在构建NLP（自然语言处理）模型，另一些正在构建用于决策和设计实验的模型。

新兴学科快速发展

这种变化并不完全出乎意料，数据科学相对较新，而且发展迅速。我们在数据中看到了这一点。首先，从内部来看，我们发现 Airbnb 数据科学角色在2015-2018年间增长了4倍：

而且，根据谷歌趋势数据，对数据科学的查询也在增长：

数据科学不仅是一个新的领域，人们所说的“数据科学”的含义也千差万别，有时候，这纯粹是机器学习。有时是科技公司的商业智能。它是新的，而且在进化。

认识到科学技能的多样性

我们发现人们对数据科学的预期并不明确。在一个给定的公司中，这种多样性的缺点是，它可能导致组织混乱和人员流失，因为合作伙伴团队不知道从数据科学家那里得到什么，而数据科学家自己可能也不清楚他们的角色。那些来自 DS 只做建模的地方的人可能不认为数据科学技能能很好地用于更简单的分析。其他来自 DS 只做分析的地方的人可能会觉得最好让工程师做建模。

我们还有一个额外的挑战：从事分析工作的团队成员觉得他们的工作没有机器学习工作那么重要，但他们的工作对业务至关重要。业务合作伙伴渴望更具可操作性的见解，以推动决策，并扩展工具以了解数据本身。我们通过我们非常受欢迎的数据大学对数据教育进行了投资，但我们仍然需要专家。我们确定的一个原因是，虽然团队成员是“数据科学”职能的一部分，但我们使用的是“数据分析专家”的头衔，而且我们谈论“数据科学工作”的方式中有一些暗示，给人的印象是，分析工作并不同等重要。

我与同行公司的领导进行了交谈，以了解其他团队是如何处理这一问题的——有一次，我甚至创建了一个与不同组织结构共享的电子表格。我听说过新的分析团队从零开始创建，团队从机器学习中分离出来，工具团队被整合到数据科学中，等等。

很明显，没有一刀切的方法，但在定义我们是谁以及如何增加价值方面，具有战略性和有意识的态度将是至关重要的。我们知道我们的目标是“捍卫使命”，即完成公司最需要的工作。因此，我们需要符合当前业务需求的角色，同时也允许个性化和明确的期望。

解决办法：数据科学工作的三种风味

我们决定沿着三个方向来重构数据科学，这三个方向描述了我们正在追寻的东西，也是我们想要吸引人才的领域：
The Algorithms track would be the home for those with expertise in machine learning, passionate about creating business value by infusing data in our product and processes. And the Inference track would be perfect for our statisticians, economists, and social scientists using statistics to improve our decision making and measure the impact of our work.

对于那些善于提出好的问题、善于以揭示性的方式探索数据、善于通过报表和可视化工具进行自动分析、善于通过建议来驱动业务变化的人来说，Analytics 通道是理想的选择；
对于那些在机器学习方面具有专业知识，热衷于通过在我们的产品和流程中注入数据来创造业务价值的人来说，Algorithms 通道将成为他们的家；
对于我们的统计学家，经济学家和社会科学家来说，Inference 通道将是完美的选择，他们可以使用统计信息来改善我们的决策制定并衡量工作的影响；

团队中的每一位数据科学家都应具备这些领域的专业知识，并根据业务需求和自身兴趣获得这些领域的技能。在每一个通道中都可以有进一步的专业化，但是每个人都有“数据科学家”的头衔，然后下面的描述提供了更清晰的描述。

如果我们看另一门学科，比如工程学，这里有“前端”和“后端”工程学的简写，它可以帮助你了解某人的技能或关注的领域。我意识到这是一个不完美的区别，但它比简单的“工程”更能让人感觉到某人的专业知识。数据科学离这一点还很远；这是我们正在朝着的方向发展。

明确预期

我们还修改了我们的绩效评估标准，以反映我们的新结构。我们有多层次的数据科学家和管理者，我们通过观察对业务的影响来定义成功。对于那些在技术通道上的人，我们修改了我们的评估框架，使之与这些主要领域保持一致。

技术方面：

分析：定义并监控指标，创建数据描述，并构建工具来推动决策；
算法：构建并解释驱动数据产品的算法；
推理：利用统计数据建立因果关系；
基础：展示数据质量和代码的所有权和责任（所有通道都需要）；

业务方面（适用于所有通道）：

Ownership：能够推动项目取得成功，帮助他人，拥有影响力；
影响力：清晰沟通，展示团队合作精神，建立人际关系；
Enrichment：通过指导、文化、招聘和多元化努力促进团队建设；

我们可以在这里写很多东西，但主要的收获是，我们也明确改变了我们评估绩效的方式，以反映工作的三个方面，并明确了期望。

何时专业化

Airbnb 足够大，拥有所有这些区别和细微差别是有意义的。当与那些想知道是否应该用专家组建团队的小公司交谈时，我建议他们从通用性开始。在早期，我们能够处理任何最紧迫的项目，而不是坐在一个僵硬的专业里，这真的很有帮助。随着时间的推移，专业化是有意义的，但最好是从通用开始，除非你能更早地看到它的商业案例。我们直到 2015 年左右才开始专攻，那时我们的团队只有 30 人。

我们还希望随着业务需求的变化，继续改变职能部门的角色。

从中获益

即使是在我们的专业领域，每个领域的数据科学家也会从事其他类型的工作，我们鼓励团队成员也成为多面手（有时这是一个混乱的问题）。总体而言，进行此更改后，我们所听到的混乱少了很多。我也开始听到合作伙伴说诸如“我们需要具有推理和算法专业知识的人”之类的东西。因此，该语言对于传达业务需求非常有用。

这有助于我们找出差距。我最近联系了一位产品经理，她表示担心团队没有想出创新的方法来在她富有挑战性的产品领域进行实验。我立刻诊断出了这个问题：在那个特定的数据科学团队中，没有一个具备推理专业知识的人。这是我们下一次招聘时可以解决的问题，或者鼓励团队成员向其他推理专家学习。

我们很高兴听到从事分析工作的团队成员不再感到疏远或自卑。分析专家了解，如果他们尝试将机器学习应用于他们正在处理的业务问题，那么它们的影响将较小。

Where we go from here

我希望与大家分享我们的故事，希望其他公司也能采用这个框架！当应聘者带着一个模糊的“数据科学”的名字，这可能意味着很多不同的东西，招聘就变得复杂起来。如果所有公司都使用类似的框架，这将使数据科学作为一个整体更容易传达我们的价值观。

如果您喜欢这个概念，请告诉您的数据科学领导者，或者如果您是数据科学的领导者，请自己进行更改。或者，如果你有一个更好的模型，我也很乐意听到这个-请伸出援手(data-science-org-ideas@airbnb.com). 考虑到数据科学领域是多么的新和快速发展，最好的命名约定将随着时间的推移而演变。在数据科学领域，我们越能联合起来制定规范，我们的行业就越快成熟，我们作为个人就越有能力驾驭它。

参考

Spark 指南：Spark 原理（三）—— 内存管理

2020-11-14T07:29:53.000Z

原文最初由 IBM developerWorks 中国网站发表，本文在此基础上进行了总结梳理，仅作为个人学习使用。

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块至关重要。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和性能调优。本文基于 Spark 2.1 版本，旨在梳理 Spark 内存管理的基本脉络。

在执行 Spark 应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程：

Driver 为主控进程，主要负责：
1. 创建 Spark 上下文；
2. 提交 Spark 作业（Job）；
3. 在各 Executor 进程间分配、协调任务（Task）调度；
Executor 主要负责：
1. 在工作节点上执行具体的计算任务（Task）；
2. 将结果返回给 Driver；
3. 为需要持久化的 RDD 提供存储功能；

由于 Driver 的内存管理相对简单，本文主要对 Executor 的内存管理进行分析，下文中 Spark 内存均指 Executor 内存。

内存规划

作为一个 JVM 进程，Executor 的内存管理建立在 JVM 的内存管理之上，Spark 对 JVM 的堆内（On-heap）空间进行了更为详细的分配，以充分利用内存。同时，Spark 引入了堆外（Off-heap）内存，使之可以直接在工作节点的系统内存中开辟空间，进一步优化了内存的使用。

堆内内存（On-Heap）

Executor 内运行的并发任务共享 JVM 堆内内存，堆内内存的大小由 Spark 应用程序启动时的 –executor-memory 或 spark.executor.memory 参数配置（默认 1g），Spark 对堆内内存进行了详细的规划：

统一内存（Unified）：Spark 1.6 之后引入了统一内存管理机制，存储内存和执行内存共享该块空间，可以动态占用对方的空闲区域，统一内存的大小（占堆内内存比例）可以通过 Spark 参数 spark.memory.fraction 来设置（默认 0.6）
1. 存储内存（Storage）：在缓存 RDD 或广播（Broadcast）数据时占用的内存被规划为存储内存，存储内存的大小（占统一内存比例）可以通过 Spark 参数 spark.memory.storagefraction 来设置（默认 0.5）；
2. 执行内存（Execution）：在执行 Shuffle、Join、Sort、Aggregation 等转换时占用的内存被规划为执行内存；
剩余内存（Other）：Spark 内部的对象实例，或者用户定义的 Spark 应用程序中的对象实例，元数据占用剩余内存，Spark 对剩余内存不做特殊规划；
预留内存（Reserved）：默认 300M 的系统预留内存，主要用于程序运行，参见SPARK-12081；

总结堆内内存的规划大小计算公式如下：

规划项	计算公式	默认值
堆内内存（On-Heap）	`spark.executor.memory`	1g
统一内存（Unified）	`spark.executor.memory * spark.memory.fraction`	1g * 0.6 = 600M
存储内存（Storage）	`spark.executor.memory * spark.memory.fraction * spark.memory.storagefraction`	1g 0.6 0.5 = 300M
执行内存（Execution）	`spark.executor.memory * spark.memory.fraction * (1 - spark.memory.storagefraction)`	1g 0.6 (1-0.5) = 300M
剩余内存（Other）	`spark.executor.memory * (1 - spark.memory.fraction)`	1g * (1-0.6) = 400M
预留内存（Reserved）	300M	300M

Spark 对堆内内存的管理只是一种”规划式“的管理，因为对象实例占用内存的申请和释放都由 JVM 完成，Spark 只能在申请和释放前记录这些内存，其具体流程为：

申请内存：
1. Spark 在代码中创建一个对象实例；
2. JVM 从堆内内存分配空间，创建对象并返回对象引用；
3. Spark 保存该对象的引用，记录该对象占用的内存；
释放内存：
1. Spark 记录该对象释放的内存，删除该对象的引用；
2. 等待 JVM 的垃圾回收机制释放该对象占用的堆内内存；

JVM 对象可以以序列化（将对象转化为二进制字节流）的方式存储，本质上可以理解为将非连续的链式存储转化为连续存储，在访问时则需要进行反序列化（将字节流转化为对象），这种方式节省了空间，但是增加了存储和读取的计算开销。对于序列化对象，由于是字节流的形式，其占用的内存大小可以直接计算，而对于非序列化对象，其占用的内存则通过周期采样近似估算，这种方式降低了时间开销但是可能误差较大，导致某一时刻的实际内存有可能远远超出预期。此外，在被 Spark 标记为释放的对象实例，很有可能在实际上并没有被 JVM 回收，导致实际可用的内存小于 Spark 记录的可用内存。所以 Spark 并不能准确记录实际可用的堆内内存，从而也就无法完全避免内存溢出（OOM, Out of Memory）的异常。

统一内存管理

Spark 1.6 之后引入了统一内存管理机制，存储内存和执行内存共享同一块空间，可以动态占用对方的空闲区域，如图所示：

统一内存的动态占用机制：

当存储内存和执行内存都不足时，则存储到磁盘；当己方空间不足而对方空间空余时，可借用对方空间；
执行内存被存储占用时，可以让对方将占用的部分转存到硬盘，归还借用的空间；
存储内存被执行占用时，无法让对方归还，因为考虑 Shuffle 过程的很多因素，不好实现；

凭借统一内存管理机制，Spark 在一定程度上提高了堆内和堆外内存资源的利用率，降低了开发者维护 Spark 内存的难度，但并不意味着开发者可以高枕无忧。譬如，所以如果存储内存的空间太大或者说缓存的数据过多，反而会导致频繁的全量垃圾回收，降低任务执行时的性能，因为缓存的 RDD 数据通常都是长期驻留内存的。所以要想充分发挥 Spark 的性能，需要开发者进一步了解存储内存和执行内存各自的管理方式和实现原理。

存储内存管理

RDD 持久化机制

弹性分布式数据集（RDD）作为 Spark 最根本的数据抽象，是只读的分区记录（Partition）的集合，只能基于在稳定物理存储中的数据集上创建，或者在其他已有的 RDD 上执行转换（Transformation）操作产生一个新的 RDD。转换后的 RDD 与原始的 RDD 之间产生的依赖关系，构成了血统（Lineage）。凭借血统，Spark 保证了每一个 RDD 都可以被重新恢复。但 RDD 的所有转换都是惰性的，即只有当一个返回结果给 Driver 的行动（Action）发生时，Spark 才会创建任务读取 RDD，然后真正触发转换的执行。

Task 在启动之初读取一个分区时，会先判断这个分区是否已经被持久化，如果没有则需要检查 Checkpoint 或按照血统重新计算。所以如果一个 RDD 上要执行多次 Action，可以在第一次 Action 中使用 persist 或 cache 方法，在内存或磁盘中持久化或缓存这个 RDD，从而在后面的行动时提升计算速度。事实上，cache 方法是使用默认的 MEMORY_ONLY 的存储级别将 RDD 持久化到内存，故缓存是一种特殊的持久化。堆内和堆外存储内存的设计，便可以对缓存 RDD 时使用的内存做统一的规划和管理。

RDD 的持久化由 Spark 的 Storage 模块负责，实现了 RDD 与物理存储的解耦合。Storage 模块负责管理 Spark 在计算过程中产生的数据，将那些在内存或磁盘、在本地或远程存取数据的功能封装了起来。在具体实现时 Driver 端和 Executor 端的 Storage 模块构成了主从式的架构，即 Driver 端的 BlockManager 为 Master，Executor 端的 BlockManager 为 Slave。Storage 模块在逻辑上以 Block 为基本存储单位，RDD 的每个 Partition 经过处理后唯一对应一个 Block（BlockId 的格式为 rdd_RDD-ID_PARTITION-ID ）。Master 负责整个 Spark 应用程序的 Block 的元数据信息的管理和维护，而 Slave 需要将 Block 的更新等状态上报到 Master，同时接收 Master 的命令，例如新增或删除一个 RDD。

在对 RDD 持久化时，Spark 规定了 MEMORY_ONLY、MEMORY_AND_DISK 等 7 种不同的存储级别，而存储级别是以下 5 个变量的组合：

class StorageLevel private(
    private var _useDisk: Boolean,      // 磁盘
    private var _useMemory: Boolean,    // 堆内内存
    private var _useOffHeap: Boolean,   // 堆外内存
    private var _deserialized: Boolean, // 是否为非序列化
    private var _replication: Int = 1   // 副本个数
)

通过对数据结构的分析，可以看出存储级别从三个维度定义了 RDD 的 Partition（同时也就是 Block）的存储方式：

存储位置：磁盘／堆内内存／堆外内存。如 MEMORY_AND_DISK 是同时在磁盘和堆内内存上存储，实现了冗余备份。OFF_HEAP 则是只在堆外内存存储，目前选择堆外内存时不能同时存储到其他位置；
存储形式：Block 缓存到存储内存后，是否为非序列化的形式。如 MEMORY_ONLY 是非序列化方式存储，OFF_HEAP 是序列化方式存储；
副本数量：大于 1 时需要远程冗余备份到其他节点。如 DISK_ONLY_2 需要远程备份 1 个副本；

RDD 缓存过程

RDD 缓存的过程是将对象从 other 内存区迁移至 Storage 区或 Disk 的过程：

RDD 在缓存到存储内存之前：Partition 中的数据一般以迭代器（Iterator）的数据结构来访问，这是 Scala 语言中一种遍历数据集合的方法。通过 Iterator 可以获取分区中每一条序列化或者非序列化的数据项(Record)，这些 Record 的对象实例在逻辑上占用了 JVM 堆内内存的 other 部分的空间，同一 Partition 的不同 Record 的空间并不连续；
RDD 在缓存到存储内存之后：Partition 被转换成 Block，Record 在堆内或堆外存储内存中占用一块连续的空间，当存储空间不足时会根据动态占用机制进行处理。将 Partition 由不连续的存储空间转换为连续存储空间的过程，Spark 称之为”展开”（Unroll）。Block 有序列化和非序列化两种存储格式，具体以哪种方式取决于该 RDD 的存储级别
1. 非序列化的 Block 以一种 DeserializedMemoryEntry 的数据结构定义，用一个数组存储所有的对象实例；
2. 序列化的 Block 则以 SerializedMemoryEntry的数据结构定义，用字节缓冲区（ByteBuffer）来存储二进制数据。每个 Executor 的 Storage 模块用一个链式 Map 结构（LinkedHashMap）来管理堆内和堆外存储内存中所有的 Block 对象的实例[6]，对这个 LinkedHashMap 新增和删除间接记录了内存的申请和释放；

因为不能保证存储空间可以一次容纳 Iterator 中的所有数据，当前的计算任务在 Unroll 时要向 MemoryManager 申请足够的 Unroll 空间来临时占位，空间不足则 Unroll 失败，空间足够时可以继续进行。对于序列化的 Partition，其所需的 Unroll 空间可以直接累加计算，一次申请。而非序列化的 Partition 则要在遍历 Record 的过程中依次申请，即每读取一条 Record，采样估算其所需的 Unroll 空间并进行申请，空间不足时可以中断，释放已占用的 Unroll 空间。如果最终 Unroll 成功，当前 Partition 所占用的 Unroll 空间被转换为正常的缓存 RDD 的存储空间，如下图所示：

淘汰和落盘

由于同一个 Executor 的所有的计算任务共享有限的存储内存空间，当有新的 Block 需要缓存但是剩余内存空间不足且无法动态占用时，就要对 LinkedHashMap 中的旧 Block 进行淘汰（Eviction），而被淘汰的 Block 如果其存储级别中同时包含存储到磁盘的要求，则要对其进行落盘（Drop），否则直接删除该 Block。

存储内存的淘汰规则为：

被淘汰的旧 Block 要与新 Block 的 MemoryMode 相同，即同属于堆外或堆内内存；
新旧 Block 不能属于同一个 RDD，避免循环淘汰；
旧 Block 所属 RDD 不能处于被读状态，避免引发一致性问题；
遍历 LinkedHashMap 中 Block，按照最近最少使用（LRU）的顺序淘汰，直到满足新 Block 所需的空间。其中 LRU 是 LinkedHashMap 的特性；

存储内存的落盘规则为：如果其存储级别符合 _useDisk 为 true 的条件，再根据其_deserialized 判断是否是非序列化的形式，若是则对其进行序列化，最后将数据存储到磁盘，在 Storage 模块中更新其信息。

执行内存管理

多任务间内存分配

Executor 内运行的任务同样共享执行内存，Spark 用一个 HashMap 结构保存了任务到内存耗费的映射。每个任务可占用的执行内存大小的范围为 1/2N ~ 1/N，其中 N 为当前 Executor 内正在运行的任务的个数。每个任务在启动之时，要向 MemoryManager 请求申请最少为 1/2N 的执行内存，如果不能被满足要求则该任务被阻塞，直到有其他任务释放了足够的执行内存，该任务才可以被唤醒。

Shuffle 内存占用

执行内存主要用来存储任务在执行 Shuffle 时占用的内存，Shuffle 是按照一定规则对 RDD 数据重新分区的过程，我们来看 Shuffle 的 Write 和 Read 两阶段对执行内存的使用：

Shuffle Write
1. 若在 map 端选择普通的排序方式，会采用 ExternalSorter 进行外排，在内存中存储数据时主要占用堆内执行空间；
2. 若在 map 端选择 Tungsten 的排序方式，则采用 ShuffleExternalSorter 直接对以序列化形式存储的数据排序，在内存中存储数据时可以占用堆外或堆内执行空间，取决于用户是否开启了堆外内存以及堆外执行内存是否足够；
Shuffle Read
1. 在对 reduce 端的数据进行聚合时，要将数据交给 Aggregator 处理，在内存中存储数据时占用堆内执行空间；
2. 如果需要进行最终结果排序，则要再次将数据交给 ExternalSorter 处理，占用堆内执行空间；

在 ExternalSorter 和 Aggregator 中，Spark 会使用一种叫 AppendOnlyMap 的哈希表在堆内执行内存中存储数据，但在 Shuffle 过程中所有数据并不能都保存到该哈希表中，当这个哈希表占用的内存会进行周期性地采样估算，当其大到一定程度，无法再从 MemoryManager 申请到新的执行内存时，Spark 就会将其全部内容存储到磁盘文件中，这个过程被称为溢存(Spill)，溢存到磁盘的文件最后会被归并(Merge)。

Shuffle Write 阶段中用到的 Tungsten 是 Databricks 公司提出的对 Spark 优化内存和 CPU 使用的计划，解决了一些 JVM 在性能上的限制和弊端。Spark 会根据 Shuffle 的情况来自动选择是否采用 Tungsten 排序。Tungsten 采用的页式内存管理机制建立在 MemoryManager 之上，即 Tungsten 对执行内存的使用进行了一步的抽象，这样在 Shuffle 过程中无需关心数据具体存储在堆内还是堆外。每个内存页用一个 MemoryBlock 来定义，并用 Object obj 和 long offset 这两个变量统一标识一个内存页在系统内存中的地址。堆内的 MemoryBlock 是以 long 型数组的形式分配的内存，其 obj 的值为是这个数组的对象引用，offset 是 long 型数组的在 JVM 中的初始偏移地址，两者配合使用可以定位这个数组在堆内的绝对地址；堆外的 MemoryBlock 是直接申请到的内存块，其 obj 为 null，offset 是这个内存块在系统内存中的 64 位绝对地址。Spark 用 MemoryBlock 巧妙地将堆内和堆外内存页统一抽象封装，并用页表(pageTable)管理每个 Task 申请到的内存页。Tungsten 页式管理下的所有内存用 64 位的逻辑地址表示，由页号和页内偏移量组成：

页号：占 13 位，唯一标识一个内存页，Spark 在申请内存页之前要先申请空闲页号。
页内偏移量：占 51 位，是在使用内存页存储数据时，数据在页内的偏移地址。

有了统一的寻址方式，Spark 可以用 64 位逻辑地址的指针定位到堆内或堆外的内存，整个 Shuffle Write 排序的过程只需要对指针进行排序，并且无需反序列化，整个过程非常高效，对于内存访问效率和 CPU 使用效率带来了明显的提升。

Spark 的存储内存和执行内存有着截然不同的管理方式：对于存储内存来说，Spark 用一个 LinkedHashMap 来集中管理所有的 Block，Block 由需要缓存的 RDD 的 Partition 转化而成；而对于执行内存，Spark 用 AppendOnlyMap 来存储 Shuffle 过程中的数据，在 Tungsten 排序中甚至抽象成为页式内存管理，开辟了全新的 JVM 内存管理机制。

堆外内存（Out Of Heap）

Spark 3.0 堆外内存相关参数（详情参考Spark Configuration）：

Spark 参数	默认值	说明
spark.memory.offHeap.enabled	FALSE	If true, Spark will attempt to use off-heap memory for certain operations. If off-heap memory use is enabled, then spark.memory.offHeap.size must be positive.
spark.memory.offHeap.size	0	The absolute amount of memory which can be used for off-heap allocation, in bytes unless otherwise specified. This setting has no impact on heap memory usage, so if your executors’ total memory consumption must fit within some hard limit then be sure to shrink your JVM heap size accordingly. This must be set to a positive value when spark.memory.offHeap.enabled=true.
spark.executor.memoryOverhead	executorMemory * 0.10, with minimum of 384	Amount of additional memory to be allocated per executor process in cluster mode, in MiB unless otherwise specified. This is memory that accounts for things like VM overheads, interned strings, other native overheads, etc. This tends to grow with the executor size (typically 6-10%). This option is currently supported on YARN and Kubernetes.Note: Additional memory includes PySpark executor memory (when spark.executor.pyspark.memory is not configured) and memory used by other non-executor processes running in the same container. The maximum memory size of container to running executor is determined by the sum of spark.executor.memoryOverhead, spark.executor.memory, spark.memory.offHeap.size and spark.executor.pyspark.memory.

运行 executor 的最大内存取决于以下四者之和：

spark.executor.memory: 堆内内存
spark.executor.memoryOverhead: Overhead 内存
spark.memory.offHeap.size: OffHeap 内存
spark.executor.pyspark.memory: Pyspark 内存

从 Spark 3.0 源码中也可看到：

private[yarn] val resource: Resource = {
    val resource = Resource.newInstance(
      executorMemory + executorOffHeapMemory + memoryOverhead + pysparkWorkerMemory, executorCores)
    ResourceRequestHelper.setResourceRequests(executorResourceRequests, resource)
    logDebug(s"Created resource capability: $resource")
    resource
  }

Off-Heap 内存

为了进一步优化内存的使用以及提高 Shuffle 时排序的效率，Spark 引入了堆外（Off-heap）内存，使之可以直接在工作节点的系统内存中开辟空间，存储经过序列化的二进制数据。利用 JDK Unsafe API（从 Spark 2.0 开始，在管理堆外的存储内存时不再基于 Tachyon，而是与堆外的执行内存一样，基于 JDK Unsafe API 实现），Spark 可以直接操作系统堆外内存，减少了不必要的内存开销，以及频繁的 GC 扫描和回收，提升了处理性能。堆外内存可以被精确地申请和释放，而且序列化的数据占用的空间可以被精确计算，所以相比堆内内存来说降低了管理的难度，也降低了误差。

在默认情况下堆外内存并不启用，可通过配置 spark.memory.offHeap.enabled 参数启用，并由 spark.memory.offHeap.size 参数设定堆外空间的大小。除了没有 other 空间，堆外内存与堆内内存的划分方式相同，所有运行中的并发任务共享存储内存和执行内存。

Overhead 内存

待补充

运行实例

假设 Spark 应用程序运行参数设置如下：

Spark 应用程序运行过程中，我们可以在 Web UI -> Executors 中查看 Excutor 内存实际使用大小/内存规划大小：

从该实例可以看出 Executor 的统一内存为 5.9G，与理论计算出来的值相近（10G * 0.6 = 6G），存储内存为 5.8 G，动态占用机制使得存储内存占用了绝大部分统一内存，导致只有很少的内存用于 Shuffle，这也是影响本任务执行效率的关键问题。此外，Driver 的内存基本没有被存储占用，有充足的内存可以用于执行 Spark 程序，可以适当减少 Driver 端内存分配。

进一步考察存储内存占用过高的原因，可以看到该程序缓存了非常大的中间结果，可以选择把缓存数据全部存储到磁盘，在这个场景下不会对缓存过程有太大影响，却可以保证充足的执行内存：

参考

Apache Spark 内存管理详解
 Spark 配置
 yarn 资源管理参数设置
 Spark 性能优化指南(官网文档)

Spark 指南：Spark 原理（二）—— Partition 和 Shuffle

2020-11-13T07:29:53.000Z

分区

分区（Partition）是控制 RDD 在各节点上分布情况的高级特性，RDD 的存储和计算都是基于分区来进行的。为分布式数据集选择正确的分区方式和为本地数据选择合适的数据结构很相似 —— 数据分布都会极其明显地影响程序的性能。有时使用可控的分区方式把常被一起访问的数据放到同一个节点上，可以大大减少应用的通信开销，带来明显的性能提升。

分区的特性

RDD、分区、TASK、节点、核之间的关系：

一个 RDD 会被划分为一个或多个分区；
这些分区会被保存到多个节点，每个节点可能存储一个或多个分区，但是一个分区只能位于同一个节点，不能跨节点保存，分区是决定 RDD 分布的最小单位；
RDD 的分区数是可以配置的，默认会等于所有 executor 的核数；
Spark 会为每个分区分配一个 TASK，每个核一次处理一个 TASK；

默认分区

RDD 创建方式不同，会产生不同的默认分区行为。比如，从 HDFS 中读取文件来创建 RDD 和通过一个 RDD 转换操作生成另一个新的 RDD 的分区行为是不同的。

分布式化一个本地数据集：

调用 API	默认分区数	分区器类
`sc.parallelize(...)`	`sc.defaultParallelism`	无

从 HDFS 读取数据：

调用 API	默认分区数	分区器类
`sc.textFile(...)`	`sc.defaultParallelism` 和文件 block 数中较大值	无

转换操作：由于 map、flatMap 操作结果可能会改变原 RDD 的 KEY，结果 RDD 会丢失分区器，如果希望继承父 RDD，可以使用 mapValues、flatMapValues，后两者会针对于 (K,V) 形式的类型只对 V 进行操作

调用 API	默认分区数	分区器类
filter,map,flatMap,distinct	同父 RDD	filter同父 RDD，其他无分区器
mapValues, flatMapValues	同父 RDD	同父 RDD
union	union 的两个 RDD 分区数之和	无
subtract	同第一个RDD	无
cartesian	两个 RDD 分区数乘积	无

聚合操作：

调用 API	默认分区数	分区器类
reduceByKey,foldByKey,combineByKey	同父 RDD	HashPartitioner
sortByKey	同父 RDD	RangePartitioner
cogroup,groupByKey,join,leftOuterJoin,rightOuterJoin	取决于 RDD 的输入属性	HashPartitioner

分区器

Partitioner（分区器）定义了 RDD 的分区分布，决定了一个 RDD 可以被分成多少个分区，以及每个分区的数据量有多大，进而决定了每个 Task 将处理哪些数据。一般来说，分区器是针对 key-value 值 RDD 的，并通过对 key 的运算来划分分区，非 key-value 形式的 RDD 无法根据数据特征来进行分区，也就没有设置分区器，此时 Spark 会把数据均匀的分配到执行节点上。

目前的版本提供了三种分区器:

HashPartitioner（哈希分区器）: HashPartitioner 是基于 Java 的 Object.hashCode 来实现的分区器，根据 Object.hashCode 来对 key 进行计算得到一个整数，再通过公式Object.hashCode % numPartitions 计算某个 key 该分到哪个分区，当 RDD 没有 Partitioner 时，会把 HashPartitioner 作为默认的 Partitioner；
RangePartitioner（范围分区器）: RangePartitioner 将 key 位于相同范围内的记录分配给给定分区，排序需要 RangePartitioner，因为 RangePartitioner 能够确保通过对给定分区内的记录进行排序，最终完成整个RDD的排序；
自定义分区器: 通过继承 Partitioner 抽象类，可以定制自己的分区器；

获取分区

在 Scala 和 Java 中，你可以使用 RDD 的 partitioner 属性（Java 中使用 partitioner() 方法）来获取 RDD 的分区方式。它会返回一个 scala.Option 对象，这是 Scala 中用来存放可能存在的对象的容器类。你可以对这个 Option 对象调用 isDefined() 来检查其中是否有值，调用 get() 来获取其中的值。如果存在值的话，这个值会是一个 spark.Partitioner 对象。这本质上是一个告诉我们 RDD 中各个键分别属于哪个分区的函数。

pairs.groupByKey().partitioner.get
res8: org.apache.spark.Partitioner = org.apache.spark.HashPartitioner@c

设置分区

有三种方式可以用于设置 RDD 的分区数，但要注意，若改变分区数量或分区器通常会导致 Shuffle 操作，务必在调整分区后进行缓存：

调用 partitionBy 方法：下面代码，我们自定义了一个分区器，并根据自定义的分区器对 RDD 进行重新分区，需要特别注意的是，在每次调用 partitionBy 之后，务必对结果进行缓存，否则后续每次惰性执行时都会重新执行分区动作，严重影响程序性能；

import org.apache.spark.Partitioner
class CustTwoPartitioner(override val numPartitions: Int) extends Partitioner {
    def getPartition(key: Any): Int = key match {
        case s: String => {
            if (s(0).toUpper > 'C') 1 else 0
        }   
    }
}

var x = sc.parallelize(Array(("aa",1),("bb",1),("cc",1),("dd",1),("ee",1)), 3)
var y = x.partitionBy(new CustTwoPartitioner(2)).persist()

通过转换操作返回带有特定分区的 RDD：这部分（读取数据源、转换继承）在上面默认分区器部分已讲过；
调用 repartition 或 coalesec 方法：
- coalesce(numPartitions: Int, shuffle: Boolean = false)：对 RDD 进行重分区，使用 HashPartitioner，第一个参数为重分区的数目，第二个为是否进行 shuffle，默认为false（此时是合并分区，父 RDD 和子 RDD 是窄依赖，不会产生 Shuffle）；如果重分区的数目大于原来的分区数，那么必须指定 shuffle 参数为 true；
- repartition(numPartitions: Int, partitionExprs: Column*)：repartition 是 coalesce shuffle 参数为 true 的简易实现，返回一个按 partitionExprs 将原 RDD 划分为 numPartitions 个分区的新 RDD，过程中会发生 Shuffle，父 RDD 和子 RDD 之间构成宽依赖；

分区并不是对所有应用都有好处的，如果给定 RDD 只需要被扫描一次，我们完全没有必要对其预先进行分区处理，只有当数据集多次在诸如 JOIN 这种基于键的操作中使用时，分区才会有帮助。

Shuffle

Shuffle 定义

你永远不会调用一个名为 shuffle 的方法，但是有很多方法会导致 shuffle 的发生，比如在 RDD 上调用 groupByKey() 方法时，会返回一个 ShuffledRDD：

val pairs = sc.parallelize(List((1, "one"), (2, "two"), (3, "three")))
pairs.groupByKey()

pairs: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[0] at parallelize at :35
res1: org.apache.spark.rdd.RDD[(Int, Iterable[String])] = ShuffledRDD[1] at groupByKey at :38

要执行分布式 groupByKey 操作，我们通常必须在节点之间移动数据，以便数据可以按照它的 KEY 收集到单个机器上：

数据通过网络在节点之间移动的过程，称为 Shuffle（洗牌或混洗）。

Shuffle 过程

以 Shuffle 为边界，Spark 将一个 Job 划分为不同的 Stage，这些 Stage 构成了一个大粒度的 DAG。Spark 的 Shuffle 过程分为 Write 和 Read 两个阶段，分属于两个不同的 Stage，前者是 Parent Stage 的最后一步，后者是 Child Stage 的第一步，如下图所示:

Shuffle 过程首先会将前置 Stage 的 Map Task 结果写入本地磁盘（Shuffle Write），然后后续 Stage 的 reduce Task 再从磁盘中读取这些文件（Shuffle Read）来执行计算，这有两点好处：

将 Shuffle 文件写入磁盘（称为 Shuffle 持久化），使得 Spark 能够在时间上串行地执行不同的 Stage；
出现故障时，只需要重启 Reduce Task ，而不用重新运行所有的任务。

Spark 在 Shuffle 的实现上做了很多优化改进，Spark Shuffle 的演进过程如下（最早实现是 Hash Based Shuffle，2.0 以后就只有 Sort Based Shuffle 了）：

Spark 0.8及以前 Hash Based Shuffle
Spark 0.8.1 为 Hash Based Shuffle 引入 File Consolidation机制
Spark 0.9 引入 ExternalAppendOnlyMap
Spark 1.1 引入 Sort Based Shuffle，但默认仍为Hash Based Shuffle
Spark 1.2 默认的 Shuffle 方式改为 Sort Based Shuffle
Spark 1.4 引入 Tungsten-Sort Based Shuffle
Spark 1.6 Tungsten-sort 并入 Sort Based Shuffle
Spark 2.0 Hash Based Shuffle 退出历史舞台

Hash Based Shuffle

Hash Based Shuffle 的基本流程：

Shuffle Write: 每个 Map Task 将计算结果数据分成多份（bucket），每一份对应到下游 stage 的每个 Partition 中，写入当前节点的本地磁盘，bucket 的数量就是 $M\times R$，这样会产生大量的小文件，对文件系统压力很大，而且不利于 IO 吞吐量，后面 Spark 做了优化，把在统一 Core 上运行的多个 Mapper 输出合并到同一个文件，这样 bucket 的数量就是 $Cores\times R$；
Shuffle Read: 每个 Reduce Task 通过网络拉取属于当前任务的 bucket 数据，根据数据的 Key 进行聚合，然后判断是否需要排序，最后生成新的 RDD；

Sort Based Shuffle

Sort Based Shuffle 的基本流程：

Shuffle Write: 不会为每个 Reduce Task 生成一个单独的文件，相反会把每个 Map Task 的结果数据写到一个 Data 文件中，并使用 Index 文件存储具体 Map Task 输出数据在同一个 Data 文件中是如何分类的信息；Shuffle Write 过程对每个 Map Task 生成两个文件 —— Data 文件和 Index 文件，因此生成的总文件数为 2M；Shuffle Write 阶段会按照 Reduce Task 的 PartitionId 和记录本身的 Key 进行排序，方便 Reducer 获取数据；
Shuffle Read: Reduce Task 首先找 Driver 获取每个 Map Task 输出的位置信息，根据位置信息获取 Index 文件，解析 Index 文件获取 Data 文件中属于自己的那部分数据；

Shuffle 规避

和内存计算相比，网络通信和磁盘读写是非常耗时的过程，会严重影响程序执行效率，因此如非必要，应该尽可能避免数据 Shuffle。

宽窄依赖

宽窄依赖定义

为了更好地理解什么时候可能发生 Shuffle，我们需要先看看 RDD 是如何表示的：

RDD 由四部分组成：

Partitions（分区）: 数据的原子性片段，每个节点有一个或多个分区；
Dependencies（依赖）: RDD 转化过程可以表示为一个 DAG，父 RDD 和子 RDD 之间的分区衍生关系；
Function（函数）: 基于父 RDD 的计算；
Metadata（元数据）: 分区 Schema 和数据位置；

事实上，RDD 之间的依赖关系定义了数据何时需要在网络中进行移动，根据父 RDD 和子 RDD 之间的依赖关系，可以将 Transformation 划分为两种：

Narrow Dependencies（窄依赖）: 父 RDD 的每个分区只被子 RDD 中的一个分区依赖，窄依赖不会发生 Shuffle，执行非常块，可以按照 pipeline 进行优化；
Wide Dependencies（宽依赖）: 父 RDD 的每个分区被子 RDD 中的多个分区依赖，宽依赖会导致 Shuffle，执行非常慢，是 Spark 用来划分 Stage 的依据；

宽窄依赖算子

总结 Spark 中常见的宽窄依赖 Transformation:

窄依赖:
1. map、mapValues、flatMap、mapPartitions
2. filter
3. union
4. co-partitioned join: 两个 RDD 分区方式相同的 JOIN 操作
5. coalesce: shuffle=false
窄依赖:
1. groupByKey、reduceByKey、combineByKey、cogroup、groupWith
2. join、leftOuterJoin、rightOuterJoin
3. intersection、distinct
4. repartition

容错机制

通过追踪分区间的依赖关系可以从血缘图中重新计算丢失的分区数据：

重新计算窄依赖中丢失的分区数据很快，但是要重新计算宽依赖中丢失的分区数据很慢：

使用分区器减少 Shuffle

有一些方法可以让你在使用宽依赖算子的同时尽量避免或减少 shuffle 的发生，其核心思想是通过重分区在集群中合理地组织数据。

分组前预分区

在使用 groupByKey 之类的算子之前先对 RDD 进行预分区（预 Shuffle），之后所有工作都可以在工作节点上的本地分区上完成，无需将数据重新 shuffle 到另一个节点上，在这种情况下，必须移动数据的唯一时间是将最终的 reduce 值从工作节点发送会 Driver 节点：

可以通过 toDebugString 方法查看执行计划：

JOIN 前预分区

在执行 JOIN 前，使用相同的的分区器对连接的两个 RDD 进行预分区，可以避免 Shuffle，因为需要连接的两个 RDD 的数据已经被重新定位到同一分区中的相同节点上，不需要移动数据。

通过一个实际的例子来看，假设我们想统计有多少用户访问了他们没有订阅的主题，这可以通过用户订阅表和用户点击事件表进行 JOIN 得到：

val sc = new SparkContext( ... )
// 大表：用户ID-用户订阅列表
val userData = sc.sequenceFile[UserID, Userlnfo]("hdfs:// ... ").persist()

def processNewlogs(logFileName: String) {
    // 小表：用户点击事件表
    val events = sc.sequenceFile[UserID, Linklnfo](logFileName)
    val joined = userData.join(events) 
    val offTopicVisits = joined.filter {
        case (userld, (userlnfo, linklnfo)) => 
            !userlnfo.topics.contains(linklnfo.topic)
    }.count()
    println(''Number of visits to non-subscribed topics: '' + offTopicVisi ts)
}

“htt上面的 JOIN 操作会非常耗时，因为 JOIN 操作不知道任何关于数据的分区信息。JOIN 操作默认会 hash 两个数据集所有的 key，并将具有相同 hash 值的记录发送到同一个节点上进行 JOIN。解决办法很简单，就是在 JOIN 之前使用 partitionBy 对大表 RDD 进行重分区：

val userData = sc.sequenceFile[UserID, Userlnfo]("hdfs:// ... ")
    .partitionBy(new HashPartitioner(100)) // Create 100 partitions
    .persist() 

我们在读入 userData 时调用了 partitionBy，Spark 会知道它被 hash 分区了，在后面调用 userData.join(events) 时会利用这一点，按照每个特定的 UserID 将 events RDD shuffle 到包含 userData 对应 hash 分区的节点上。

参考

Spark 指南：Spark 原理（一）—— Spark 程序如何在集群上运行

2020-11-12T07:29:53.000Z

本文主要讨论 Spark 在执行代码时会发生什么，我们以一种忽略具体实现的方式来讨论这个问题，既不依赖于所使用的集群管理器，也不依赖于正在运行的代码。

Spark 运行时架构

基本组件

Spark 运行时架构包含以下三种基本组件：

Driver：是 Spark 程序的主控进程，主要负责：
1. 创建 Spark 上下文；
2. 提交 Spark 作业（job）；
3. 在各 Executor 进程间分配、协调任务（Task）调度；
Executor：是执行具体任务的进程，主要负责：
1. 执行计算任务（Task）；
2. 将结果返回给 Driver；
3. 为需要持久化的 RDD 提供存储功能；
集群管理器：负责维护运行 Spark 程序的机器集群，集群管理器也有自己的 driver（称为主节点 master）和工作者（称为工作节点 worker），但是它们与物理机器而不是进程相关联。下图显示了一个基本的集群设置，左侧机器是群集管理器的 master 节点，右侧机器是集群管理器的 worker 节点，圆圈表示相应进程，目前为止，还没有运行 Spark 应用程序，这些只是来自集群管理器的进程。Spark 目前支持三个集群管理器：一个简单的内置独立集群管理器、Apache Mesos 和 Hadoop Yarn，但是，这个列表将继续增长；

执行模式

执行模式使您能够在运行应用程序时确定上述资源的物理位置，有三种模式可供选择（在下面的部分中，带实心边框的矩形表示 driver 进程，而带虚线边框的矩形表示 executor 进程）：

集群模式（Cluster mode）：集群模式是运行 Spark 应用程序最常见的方式，在集群模式下，用户向集群管理器提交预编译的 JAR、Python 脚本或 R 脚本。然后，除了 executor 之外，集群管理员在集群内的 worker 节点上启动 driver 进程。

客户端模式（Client mode）：客户端模式与集群模式几乎相同，只是 Spark driver 程序保留在提交应用程序的客户端上，这意味着客户端负责维护 Spark driver 进程，集群管理器维护 executor 进程。

本地模式（Local mode）：本地模式与前两种模式有很大不同，它在一台机器上运行整个 Spark 应用程序，它通过单个机器上的线程实现并行性。这是学习 Spark、测试应用程序或使用本地开发进行迭代实验的常用方法，但是，我们不建议在运行生产应用程序时使用本地模式。

Spark 程序的生命周期

Spark 外部生命周期

从 Spark 代码外部来看 Spark 应用程序的整个生命周期：

客户端请求：
1. 第一步是在本地计算机上执行代码（预编译的 JAR），并向集群管理器 master 节点发出请求，为 Spark driver 进程提供资源；
2. 集群管理器接受请求，并将 driver 程序放在集群的一个 worker 节点上；
3. 提交原始作业的客户端进程退出；
启动程序：
1. Spark driver 开始运行用户代码，此代码必须包含初始化 Spark 集群的 SparkSession；
2. SparkSession 随后将与集群管理器（较暗的线）通信，要求它在集群中启动 Spark executor 进程（较亮的线），执行器（executor）的数量及其相关配置由用户通过原始 Spark-submit 调用中的命令行参数设置；
3. 集群管理器通过启动 executor 进行响应，并将有关其位置的相关信息发送到 driver 进程，在所有的东西都连接正确之后，我们就有了一个 Spark 集群；
执行：driver 和 executor 之间进行通信，执行代码并移动数据，driver 将任务分配到每个 executor，每个 executor 执行接收的具体任务，并将执行状态以及结果反馈给 driver；
完成：Spark 程序完成后，Driver 以成功或失败退出，然后，集群管理器为 driver 关闭该 Spark 集群中的 executor；

Spark 内部生命周期

相比 Spark 的外部生命周期，Spark 内部（用户代码）生命周期更加重要：

创建 SparkSession；
按照 Action 划分 Job；
按照 Shuffle 划分 Stage；
按照 Partition 划分 Task；

SparkSession（会话）

任何 Spark 应用程序的第一步都是创建 SparkSession，在许多交互模式中，这是为您完成的，但在应用程序中，您必须手动完成。一些遗留代码可能使用新的 SparkContext 模式。应该避免这样做，因为 SparkSession 上的 builder 方法更能有力地实例化 Spark 和 SQL 上下文，并确保没有上下文冲突，因为可能有多个库试图在同一Spark应用程序中创建会话。

// Creating a SparkSession in Scala
import org.apache.Spark.sql.SparkSession
val Spark = SparkSession.builder().appName("Databricks Spark Example").config("Spark.sql.warehouse.dir", "/user/hive/warehouse")
.getOrCreate()

在进行 SparkSession 之后，您应该能够运行 Spark 代码。通过 SparkSession，您还可以相应地访问所有低阶和遗留上下文和配置。请注意，SparkSession 类只添加在 Spark 2.x 中。您可能会发现，较旧的代码将直接为结构化API创建 SparkContext 和 sqlContext。

Job（作业）—— 划分标准：Action

Spark 代码基本上由转换（transformation）和动作（action）组成，在 Spark 中，所有的 transformation 类型操作都是延迟计算的，Spark 只是记录了将要对数据集进行的操作，只有需要将数据返回到 Driver 程序时（即触发 Action 类型操作），所有已记录的 transformation 才会执行，这被称为“惰性计算”。通常，Spark 会按照动作（action）将 Spark 程序划分为不同的 Job。

transformation 种类繁多，我们只需要记住那些会将数据返回到 Driver 程序的那些操作即可：

函数名	目的	示例	结果
collect()	所有元素	rdd.collect()	{1,2,3,3}
count()	元素个数	rdd.count()	4
countByValue()	各元素在rdd中出现的次数	rdd.countByValue()	{(1,1),(2,1),(3,2)}
take(num)	从rdd中返回num个元素	rdd.take(2)	{1,2}
top(num)	从rdd中返回最前面的num个元素	rdd.top(2)	{3,3}
takeOrdered(num)(ordering)	按提供的顺序，返回最前面的 num 个元素	rdd.takeOrdered(2)(myOrdering)	{3,3}
takeSample(withReplacement,num,[seed])	从rdd中返回任意一些元素	rdd.takeSample(false,1)	非确定的
reduce(func)	整合RDD中的所有数据	rdd.reduce((x,y)=>x+y)	9
fold(zero)(func)	和reduce一样，但是需要初始值	rdd.fold(0)((x,y)=>x+y)	9
aggregate(zeroValue)(seqOp,combOp)	和reduce()相似，但是通常返回不同类型的函数	rdd.aggregate((0,0))((x,y)=>(x,y)=>(x._1+y,x._2+1),(x,y)=>(x._1+y._1,x._2+y._2))	(9,4)
foreach(func)	对RDd中的每个元素使用给定的元素	rdd.foreach(func)	无

Stage（阶段）—— 划分标准：Shuffle

Spark 中的阶段（stage）表示可以一起执行以在多台计算机上并行计算相同操作的任务（task）组。一般来说，Spark 会尝试将尽可能多的工作（即工作中尽可能多的转换）打包到同一个阶段（stage），但引擎会在称为洗牌（Shuffle）的操作后启动新的阶段（stage）。

在“Spark 指南：Spark 原理（一）—— Partition 和 Shuffle”一文中我们讲过宽依赖算子会导致 Shuffle，这里重温一下那些会导致 Shuffle 的算子：

groupByKey、reduceByKey、combineByKey、cogroup、groupWith
join、leftOuterJoin、rightOuterJoin
intersection、distinct
repartition

Shuffle 过程首先会将前置 Stage 的 Map Task 结果写入本地磁盘（Shuffle Write），然后后续 Stage 的 reduce Task 会从磁盘中读取这些文件（Shuffle Read）来执行计算，这有两点好处：

将 Shuffle 文件写入磁盘（称为 Shuffle 持久化），使得 Spark 能够在时间上串行地执行不同的 Stage；
出现故障时，只需要重启 Reduce Task ，而不用重新运行所有的任务。

Task（任务）划分标准：Partition

每个任务（task）对应于将在单个执行器（executor）上运行的数据块（Partition）和一组转换的组合。Task 只是应用于数据单元（Partition）的计算单位，将数据划分为更多数量的分区意味着可以并行执行更多数据。如果我们的数据集中有一个大分区，我们将有一个任务；如果有1000个小分区，我们将有 1,000 个可以并行执行的任务。

使 Spark 成为“内存计算工具”的一个重要原因是，与之前的工具（如 MapReduce）不同，Spark 在将数据写入内存或磁盘前会尝试执行尽可能多的步骤。Spark 执行的关键优化之一是 pipelining，它发生在 RDD 及以下级别。使用流水线技术，任何可以将数据直接传递给彼此而无需在节点间移动的操作序列，都会被折叠成单个任务阶段，阶段内的所有操作会一起执行。例如，如果您编写一个基于 RDD 的程序，该程序执行一个 map，一个 filter，然后是另一个 map，则这些将导致单阶段任务，这些任务立即读取每个输入记录，将其传递给第一个 map，再将其传递给 filter，并在需要时将其传递给最后一个 map 函数。这种流水线式的计算比在每个步骤之后将中间结果写入内存或磁盘要快得多。

参考

How Spark Runs on a Cluster Spark_online/)

Spark 指南：Spark SQL（五）—— SQL

2020-11-11T10:51:22.000Z

SQL（Structured Query Language）是一种领域特定语言，用于表达对数据的关系型操作。SQL 无处不在，即使技术专家预言了它的消亡，它还是许多企业所依赖的及其灵活的数据工具。Spark 实现了 ANSI SQL:2003 的一个子集，该标准是大多数 SQL 数据库中可用的标准。Spark SQL 旨在用作联机分析处理（OLAP）数据库，而不是联机事务处理（OLTP）数据库，这意味着它不打算执行极低延迟的查询，即使将来肯定会支持原地修改，但是目前还不支持。

Spark SQL & Hive

Spark SQL 的前身是 Shark。为了给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快速上手的工具，hive 应运而生，它是当时唯一运行在 Hadoop 上的 SQL-on-hadoop 工具。但是MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O，降低的运行效率，为了提高 SQL-on-Hadoop 的效率，Shark 应运而生，但又因为 Shark 对于 Hive 的太多依赖（如采用 Hive 的语法解析器、查询优化器等等)，2014 年 Spark 团队停止对 Shark 的开发，将所有资源放 Spark SQL 项目上。其中 Spark SQL 作为 Spark 生态的一员继续发展，而不再受限于 Hive，只是兼容 Hive；而 Hive on Spark 是一个 Hive 的发展计划，该计划将 Spark 作为 Hive 的底层引擎之一，也就是说，Hive 将不再受限于一个引擎，可以采用 Map-Reduce、Tez、Spark 等引擎。

执行 SQL

Spark 提供了几个接口来执行 SQL 查询：

Spark SQL CLI：你可以使用 Spark SQL CLI 从命令行在本地模式下进行基本的 Spark SQL 查询， Spark SQL CLI 无法与 Thrift JDBC 服务器通信，要启动 Spark SQL CLI，请在 Spark 目录下运行以下命令

./bin/spark-sql

Spark 编程接口：你可以通过任意 Spark 语言 API 以临时方式执行 SQL，你可以通过 SparkSession 对象上的 sql 方法执行此操作，这将返回一个 DataFrame

spark.sql(sql_statement)

Catalog

Catalog 是 Spark SQL 中最高级别的抽象，用于对数据库、表、视图、缓存、列、函数（UDF/UDAF）的元数据进行操作，其 API 可以在 org.apache.spark.sql.catalog 中查看。

示例数据：

val data = Seq(
      Row("M", 3000, Row("James ","","Smith"), Seq(1,2), Map("1"->"a", "11"->"aa")),
      Row("F", 4000, Row("Maria ","Anne","Jones"), Seq(3,3), Map("4"->"d", "44"->"dd")),
      Row("F", -1, Row("Jen","Mary","Brown"), Seq(5,2), Map("5"->"e"))
    )

val schema = new StructType()
      .add("gender",StringType)
      .add("salary",IntegerType)
      .add("f_struct",
        new StructType()
          .add("firstname",StringType)
          .add("middlename",StringType)
          .add("lastname",StringType)
      )  
      .add("f_array", ArrayType(IntegerType))
      .add("f_map", MapType(StringType, StringType))

val df = spark.createDataFrame(spark.sparkContext.parallelize(data),schema)
df.show()
df.printSchema
+------+------+--------------------+-------+------------------+
|gender|salary|            f_struct|f_array|             f_map|
+------+------+--------------------+-------+------------------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|
+------+------+--------------------+-------+------------------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

获取 catalog 对象：

val c = spark.catalog

操作数据库

API：

// 返回当前使用的数据库，相当于select database()
currentDatabase: String
// 设置当前使用的数据库，相当于use database_name;
setCurrentDatabase(dbName: String): Unit
// 查看所有数据库，相当于show databases;
listDatabases(): Dataset[Database]
// 获取某数据库的元数据，返回值是Database类型的，如果指定的数据库不存在则会@throws[AnalysisException]("database does not exist")
getDatabase(dbName: String): Database
// 判断某个数据库是否已经存在，返回boolean值
databaseExists(dbName: String): Boolean

示例：

c.listDatabases().show(false)
+-------+----------------+-----------------------------------------------+
|name   |description     |locationUri                                    |
+-------+----------------+-----------------------------------------------+
|default|default database|file:/Users/likewang/ilab/Spark/spark-warehouse|
+-------+----------------+-----------------------------------------------+

val d = c.getDatabase("default")
println(s"name:${d.name} path:${d.locationUri}")
name:default path:file:/Users/likewang/ilab/Spark/spark-warehouse

c.databaseExists("default")
res4: Boolean = true

操作表/视图

API：

// 表/视图的属性
name：表的名字
database：表所属的数据库的名字
description：表的描述信息
tableType：用于区分是表还是视图，两个取值：table或view
isTemporary：是否是临时表或临时视图，解释一下啥是临时表，临时表就是使用 Dataset 或DataFrame 的 createOrReplaceTempView 等类似的 API 注册的视图或表，当此次 Spark 任务结束后这些表就没了，再次使用的话还要再进行注册，而非临时表就是在 Hive 中真实存在的，开启Hive支持就能够直接使用的，本次 Spark 任务结束后表仍然能存在，下次启动不需要重新做任何处理就能够使用，表是持久的，这种不是临时表

// 查看所有表或视图，相当于show tables
listTables(): Dataset[Table]
// 返回指定数据库下的表或视图，如果指定的数据库不存在则会抛出@throws[AnalysisException]("database does not exist")表示数据库不存在。
listTables(dbName: String): Dataset[Table]
// 获取表的元信息，不存在则会抛出异常
getTable(tableName: String): Table
getTable(dbName: String, tableName: String): Table
// 判断表或视图是否存在，返回boolean值
tableExists(tableName: String): Boolean
tableExists(dbName: String, tableName: String): Boolean
// 使用createOrReplaceTempView类似API注册的临时视图可以使用此方法删除，如果这个视图已经被缓存过的话会自动清除缓存
dropTempView(viewName: String): Boolean
dropGlobalTempView(viewName: String): Boolean
// 用于判断一个表否已经缓存过了
isCached(tableName: String): Boolean
// 用于缓存表
cacheTable(tableName: String): Unit
cacheTable(tableName: String, storageLevel: StorageLevel): Unit
// 对表取消缓存
uncacheTable(tableName: String): Unit
// 清空所有缓存
clearCache(): Unit
// Spark为了性能考虑，对表的元数据做了缓存，所以当被缓存的表已经改变时也必须刷新元数据重新缓存
refreshTable(tableName: String): Unit
refreshByPath(path: String): Unit
// 根据给定路径创建表，并返回相关的 DataFrame
createTable(tableName: String, path: String): DataFrame
createTable(tableName: String, path: String, source: String): DataFrame
createTable(tableName: String, source: String, options: java.util.Map[String, String]): DataFrame
createTable(tableName: String, source: String, options: Map[String, String]): DataFrame
createTable(tableName: String, source: String, schema: StructType, options: java.util.Map[String, String]): DataFrame
createTable(tableName: String, source: String, schema: StructType, options: Map[String, String]): DataFrame 

示例：

c.listTables("default").show()
+----+--------+-----------+---------+-----------+
|name|database|description|tableType|isTemporary|
+----+--------+-----------+---------+-----------+
+----+--------+-----------+---------+-----------+

df.createOrReplaceTempView("df")
c.listTables("default").show()
+----+--------+-----------+---------+-----------+
|name|database|description|tableType|isTemporary|
+----+--------+-----------+---------+-----------+
|  df|    null|       null|TEMPORARY|       true|
+----+--------+-----------+---------+-----------+

val t = c.getTable("df")
println(s"name:${t.name} tableType:${t.tableType} isTemporary:${t.isTemporary}")
name:df tableType:TEMPORARY isTemporary:true

c.tableExists("df")
res10: Boolean = true

c.isCached("df")
res11: Boolean = false

df.cache()
c.isCached("df")
res13: Boolean = true

c.uncacheTable("df")
c.isCached("df")
res14: Boolean = false

c.refreshTable("df")

函数相关

API：

// 函数的属性
database：函数注册在哪个数据库下，函数是跟数据库绑定的
description：对函数的描述信息，可以理解成注释
className：函数其实就是一个class，调用函数就是调用类的方法，className表示函数对应的class的全路径类名
isTemporary：是否是临时函数

// 列出当前数据库下的所有函数，包括注册的临时函数
listFunctions(): Dataset[Function]
// 列出指定数据库下注册的所有函数，包括临时函数，如果指定的数据库不存在的话则会抛出@throws[AnalysisException]("database does not exist")表示数据库不存在
listFunctions(dbName: String): Dataset[Function]
// 获取函数的元信息，函数不存在则会抛出异常
getFunction(functionName: String): Function
getFunction(dbName: String, functionName: String): Function
// 判断函数是否存在，返回boolean值
functionExists(functionName: String): Boolean
functionExists(dbName: String, functionName: String): Boolean

示例：

c.listFunctions.show(10, false)
+----+--------+-----------+---------------------------------------------------------+-----------+
|name|database|description|className                                                |isTemporary|
+----+--------+-----------+---------------------------------------------------------+-----------+
|!   |null    |null       |org.apache.spark.sql.catalyst.expressions.Not            |true       |
|%   |null    |null       |org.apache.spark.sql.catalyst.expressions.Remainder      |true       |
|&   |null    |null       |org.apache.spark.sql.catalyst.expressions.BitwiseAnd     |true       |
|*   |null    |null       |org.apache.spark.sql.catalyst.expressions.Multiply       |true       |
|+   |null    |null       |org.apache.spark.sql.catalyst.expressions.Add            |true       |
|-   |null    |null       |org.apache.spark.sql.catalyst.expressions.Subtract       |true       |
|/   |null    |null       |org.apache.spark.sql.catalyst.expressions.Divide         |true       |
|<   |null    |null       |org.apache.spark.sql.catalyst.expressions.LessThan       |true       |
|<=  |null    |null       |org.apache.spark.sql.catalyst.expressions.LessThanOrEqual|true       |
|<=> |null    |null       |org.apache.spark.sql.catalyst.expressions.EqualNullSafe  |true       |
+----+--------+-----------+---------------------------------------------------------+-----------+

c.functionExists("!")
res21: Boolean = true

c.getFunction("!")
res22: org.apache.spark.sql.catalog.Function = Function[name='!', className='org.apache.spark.sql.catalyst.expressions.Not', isTemporary='true']

操作表/视图的列

API：

// 列的属性
name：列的名字
description：列的描述信息，与注释差不多
dataType：列的数据类型
nullable：列是否允许为null
isPartition：是否是分区列
isBucket：是否是桶列
// 列出指定的表或视图有哪些列，表不存在则抛异常
listColumns(tableName: String): Dataset[Column]
listColumns(dbName: String, tableName: String): Dataset[Column]

示例：

c.listColumns("df").show()
+--------+-----------+--------------------+--------+-----------+--------+
|    name|description|            dataType|nullable|isPartition|isBucket|
+--------+-----------+--------------------+--------+-----------+--------+
|  gender|       null|              string|    true|      false|   false|
|  salary|       null|                 int|    true|      false|   false|
|f_struct|       null|structtrue|      false|   false|
| f_array|       null|          array|    true|      false|   false|
|   f_map|       null|  map|    true|      false|   false|
+--------+-----------+--------------------+--------+-----------+--------+

Tables

要用 Spark SQL 做任何有用的事情，首先要定义表，表在逻辑上等效于 DataFrame，因为他们是运行命令所依据的数据结构，我们可以对表进行关联、过滤、汇总等操作，表和 DataFame 之间的核心区别在于：在编程语言范围内定义 DataFrame，在数据库中定义表。

创建表

Spark 相当独特的功能是可以在 SQL 中重用整个数据源 API：

// 从数据源读取数据，创建表，定义了一个非托管表
val sql = """
CREATE TABLE if not exists flights(
a string comment "name", 
b int comment "level", 
c int comment "age"
) using csv options (path 'job.csv')
"""
spark.sql(sql)

// 从查询创建表，定义了一个托管表，Spark 会为其跟踪所有相关信息
val sql = """
CREATE  TABLE if not exists df_copy
USING parquet AS SELECT * from df
"""
spark.sql(sql)

c.listTables().show()
+-------+--------+-----------+---------+-----------+
|   name|database|description|tableType|isTemporary|
+-------+--------+-----------+---------+-----------+
|df_copy| default|       null|  MANAGED|      false|
|flights| default|       null| EXTERNAL|      false|
|     df|    null|       null|TEMPORARY|       true|
+-------+--------+-----------+---------+-----------+

spark.sql("select * from df_copy").show()
+------+------+--------------------+-------+------------------+
|gender|salary|            f_struct|f_array|             f_map|
+------+------+--------------------+-------+------------------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|
+------+------+--------------------+-------+------------------+

插入表

val sql = """
insert into df_copy
SELECT * from df limit 3
"""
spark.sql(sql)

spark.sql("select * from flights").show()
+------+------+--------------------+-------+------------------+
|gender|salary|            f_struct|f_array|             f_map|
+------+------+--------------------+-------+------------------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|
+------+------+--------------------+-------+------------------+

描述表

spark.sql("describe df_copy").show()
+--------+--------------------+-------+
|col_name|           data_type|comment|
+--------+--------------------+-------+
|  gender|              string|   null|
|  salary|                 int|   null|
|f_struct|structnull|
| f_array|          array|   null|
|   f_map|  map|   null|
+--------+--------------------+-------+

刷新表

REFRESH TALE 刷新与该表的所有缓存条目（实质上是文件），如果该表先前已被缓存，则下次扫描时将被延迟缓存：

spark.sql("refresh table df_copy")

删除表

删除表会删除托管表中的数据，因此执行此操作时需要非常小心。

spark.sql("drop table if exists df_copy")
c.listTables().show()
+-------+--------+-----------+---------+-----------+
|   name|database|description|tableType|isTemporary|
+-------+--------+-----------+---------+-----------+
|flights| default|       null| EXTERNAL|      false|
|     df|    null|       null|TEMPORARY|       true|
+-------+--------+-----------+---------+-----------+

缓存表

和 DataFrame 一样，你可以缓存表或者取消缓存表:

spark.sql("uncache table flights")
c.isCached("flights")
res60: Boolean = false

spark.sql("cache table flights")
c.isCached("flights")
res59: Boolean = true

Views

视图是保存的查询计划，可以方便地组织或重用查询逻辑。

创建视图

Spark 有几种不同的视图概念，视图可以是全局视图、数据库视图或会话视图：

// 常规/数据库视图：在所属数据库可见，不能基于视图再创建常规视图
val sql = """
create view view_f as 
select * from flights
"""
spark.sql(sql)

// 会话临时视图：仅在当前会话期间可用，且未注册到数据库
val sql = """
create temp view temp_view_f as 
select * from flights
"""
spark.sql(sql)

// 全局临时视图：仅在当前会话期间可用，无论用哪个数据库都可见
val sql = """
create global temp view global_temp_view_f as 
select * from flights
"""
spark.sql(sql)

// 覆盖临时视图：如果临时视图已存在则覆盖
val sql = """
create or replace temp view replace_temp_view_f as 
select * from flights
"""
spark.sql(sql)

// 视图会在表列表中列出
spark.sql("show tables").show()
+--------+-------------------+-----------+
|database|          tableName|isTemporary|
+--------+-------------------+-----------+
| default|            flights|      false|
| default|             view_f|      false|
|        |                 df|       true|
|        |replace_temp_view_f|       true|
|        |        temp_view_f|       true|
+--------+-------------------+-----------+

访问视图

定义好视图，就可以像访问表一样在 SQL 中访问视图了：

spark.sql("select * from replace_temp_view_f").show()
+------+---+---+
|     a|  b|  c|
+------+---+---+
|     a|  b|  c|
|caster|  0| 26|
|  like|  1| 30|
|   leo|  2| 30|
|rayray|  3| 27|
+------+---+---+

删除视图

spark.sql("drop view if exists replace_temp_view_f")
spark.sql("show tables").show()
+--------+-----------+-----------+
|database|  tableName|isTemporary|
+--------+-----------+-----------+
| default|    flights|      false|
| default|     view_f|      false|
|        |         df|       true|
|        |temp_view_f|       true|
+--------+-----------+-----------+

Databases

数据库是用于组织表的工具，如果你没有定义数据库，Spark 将使用默认的数据库，在 Spark 中运行的所有 SQL 语句（包括 DataFrame 命令）都是在数据库的上下文中执行的，如果你更改数据库，则任何用户定义的表都将保留在先前的数据库中，并且要以其他方式查询。

// 创建数据库
spark.sql("create database if not exists some_db")
// 查看所有数据库
spark.sql("show databases").show()
+------------+
|databaseName|
+------------+
|     default|
|     some_db|
+------------+
// 切换数据库
spark.sql("use some_db")
spark.sql("show tables").show()
// 删除数据库
spark.sql("drop database if exists some_db")
spark.sql("show databases").show()
+------------+
|databaseName|
+------------+
|     default|
+------------+

查询语句

Spark 中的查询支持以下 ANSI SQL 要求（此处列出了 SELECT 表达式的布局）：

SELECT [ALL|DISTINCT] named_expression[, named_expression, ...]
FROM relation[, relation, ...][lateral_view[, lateral_view, ...]]
[WHERE boolean_expression]
[aggregation [HAVING boolean_expression]]
[ORDER BY sort_expressions]
[CLUSTER BY expressions]
[DISTRIBUTE BY expressions]
[SORT BY sort_expressions]
[WINDOW named_window[, WINDOW named_window, ...]]

named_expression: 
:expression [AS alias]

relation:
| join_relation
| (table_name|query|relation)[sample][AS alias]
: VALUES(expressions)[, (expressions), ...]
[AS (column_name[, column_name, ...])]

expressions:
   : expressions[, expressions, ...]

sort_expressions:
    :expressions [ASC|DESC][, expressions [ASC|DESC], ...]

SQL 配置

查看当前环境 SQL 参数的配置:

spark.sql("SET -v").show(false)

+-----------------------------------------------------+---------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|key                                                  |value          |meaning                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
+-----------------------------------------------------+---------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|spark.sql.adaptive.enabled                           |false          |When true, enable adaptive query execution.                                                                                                                                                                                                                                                                                                                                                                                                                         |
|spark.sql.adaptive.shuffle.targetPostShuffleInputSize|67108864b      |The target post-shuffle input size in bytes of a task.                                                                                                                                                                                                                                                                                                                                                                                                              |
|spark.sql.autoBroadcastJoinThreshold                 |10485760       |Configures the maximum size in bytes for a table that will be broadcast to all worker nodes when performing a join.  By setting this value to -1 broadcasting can be disabled. Note that currently statistics are only supported for Hive Metastore tables where the command ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan has been run, and file-based data source tables where the statistics are computed directly on the files of data.|
|spark.sql.avro.compression.codec                     |snappy         |Compression codec used in writing of AVRO files. Supported codecs: uncompressed, deflate, snappy, bzip2 and xz. Default codec is snappy.                                                                                                                                                                                                                                                                                                                            |
|spark.sql.avro.deflate.level                         |-1             |Compression level for the deflate codec used in writing of AVRO files. Valid value must be in the range of from 1 to 9 inclusive or -1. The default value is -1 which corresponds to 6 level in the current implementation.                                                                                                                                                                                                                                         |
|spark.sql.broadcastTimeout                           |300000ms       |Timeout in seconds for the broadcast wait time in broadcast joins.                                                                                                                                                                                                                                                                                                                                                                                                  |
|spark.sql.cbo.enabled                                |false          |Enables CBO for estimation of plan statistics when set true.                                                                                                                                                                                                                                                                                                                                                                                                        |
|spark.sql.cbo.joinReorder.dp.star.filter             |false          |Applies star-join filter heuristics to cost based join enumeration.                                                                                                                                                                                                                                                                                                                                                                                                 |
|spark.sql.cbo.joinReorder.dp.threshold               |12             |The maximum number of joined nodes allowed in the dynamic programming algorithm.                                                                                                                                                                                                                                                                                                                                                                                    |
|spark.sql.cbo.joinReorder.enabled                    |false          |Enables join reorder in CBO.                                                                                                                                                                                                                                                                                                                                                                                                                                        |
|spark.sql.cbo.starSchemaDetection                    |false          |When true, it enables join reordering based on star schema detection.                                                                                                                                                                                                                                                                                                                                                                                               |
|spark.sql.columnNameOfCorruptRecord                  |_corrupt_record|The name of internal column for storing raw/un-parsed JSON and CSV records that fail to parse.                                                                                                                                                                                                                                                                                                                                                                      |
|spark.sql.crossJoin.enabled                          |false          |When false, we will throw an error if a query contains a cartesian product without explicit CROSS JOIN syntax.                                                                                                                                                                                                                                                                                                                                                      |
|spark.sql.execution.arrow.enabled                    |false          |When true, make use of Apache Arrow for columnar data transfers. Currently available for use with pyspark.sql.DataFrame.toPandas, and pyspark.sql.SparkSession.createDataFrame when its input is a Pandas DataFrame. The following data types are unsupported: BinaryType, MapType, ArrayType of TimestampType, and nested StructType.                                                                                                                              |
|spark.sql.execution.arrow.fallback.enabled           |true           |When true, optimizations enabled by 'spark.sql.execution.arrow.enabled' will fallback automatically to non-optimized implementations if an error occurs.                                                                                                                                                                                                                                                                                                            |
|spark.sql.execution.arrow.maxRecordsPerBatch         |10000          |When using Apache Arrow, limit the maximum number of records that can be written to a single ArrowRecordBatch in memory. If set to zero or negative there is no limit.                                                                                                                                                                                                                                                                                              |
|spark.sql.extensions                                 |    |Name of the class used to configure Spark Session extensions. The class should implement Function1[SparkSessionExtension, Unit], and must have a no-args constructor.                                                                                                                                                                                                                                                                                               |
|spark.sql.files.ignoreCorruptFiles                   |false          |Whether to ignore corrupt files. If true, the Spark jobs will continue to run when encountering corrupted files and the contents that have been read will still be returned.                                                                                                                                                                                                                                                                                        |
|spark.sql.files.ignoreMissingFiles                   |false          |Whether to ignore missing files. If true, the Spark jobs will continue to run when encountering missing files and the contents that have been read will still be returned.                                                                                                                                                                                                                                                                                          |
|spark.sql.files.maxPartitionBytes                    |134217728      |The maximum number of bytes to pack into a single partition when reading files.                                                                                                                                                                                                                                                                                                                                                                                     |
+-----------------------------------------------------+---------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

配置项

#Job ID /Name
spark.app.name=clsfd_ad_attr_map_w_mvca_ins

#yarn 进行调度，也可以是mesos，yarn，以及standalone

#一个spark application，是一个spark应用。一个应用对应且仅对应一个sparkContext。每一个应用，运行一组独立的executor processes。一个应用，可以以多线程的方式提交多个作业job。spark可以运行在多种集群管理器上如：mesos，yarn，以及standalone，每种集群管理器都会提供跨应用的资源调度策略。
spark.master=yarn

#激活外部shuffle服务。服务维护executor写的文件，因而executor可以被安全移除。
#需要设置spark.dynamicAllocation.enabled 为true，同事指定外部shuffle服务。
#对shuffle来说，executor现将自己的map输出写入到磁盘，然后，自己作为一个server，向其他executor提供这些map输出文件的数据。而动态资源调度将executor返还给集群后，这个shuffle数据服务就没有了。因此，如果要使用动态资源策略，解决这个问题的办法就是，将保持shuffle文件作为一个外部服务，始终运行在spark集群的每个节点上，独立于应用和executor
spark.shuffle.service.enabled=true

#在默认情况下，三种集群管理器均不使用动态资源调度模式。所以要使用动态资源调度需要提前配置。
spark.dynamicAllocation.enabled=true

# 如果所有的executor都移除了，重新请求时启动的初始executor数
spark.dynamicAllocation.initialExecutors=20

# 最少保留的executor数
spark.dynamicAllocation.minExecutors=10

# 最多使用的executor数，默认为你申请的最大executor数
spark.dynamicAllocation.maxExecutors=100

# 可以是cluster也可以是Client
spark.submit.deployMode=cluster

# 指定提交到Yarn的资源池
spark.yarn.queue=hdlq-data-batch-low

# 在yarn-cluster模式下，申请Yarn App Master（包括Driver）所用的内存。
spark.driver.memory=8g
# excutor的核心数
spark.executor.cores=16
# 一个Executor对应一个JVM进程。Executor占用的内存分为两部分：ExecutorMemory和MemoryOverhead
spark.executor.memory=32g
spark.yarn.executor.memoryOverhead=2g

# shuffle分区数100，根据数据量进行调控，这儿配置了Join时shuffle的分区数和聚合数据时的分区数。
spark.sql.shuffle.partitions=100

# 如果用户没有指定并行度，下面这个参数将是RDD中的分区数，它是由join,reducebykey和parallelize 
# 这个参数只适用于未加工的RDD不适用于dataframe
# 没有join和聚合计算操作，这个参数将是无效设置
spark.default.parallelism

# 打包传入一个分区的最大字节，在读取文件的时候。
spark.sql.files.maxPartitionBytes=128MB

# 用相同时间内可以扫描的数据的大小来衡量打开一个文件的开销。当将多个文件写入同一个分区的时候该参数有用。
# 该值设置大一点有好处，有小文件的分区会比大文件分区处理速度更快（优先调度）。
spark.sql.files.openCostInBytes=4MB

# Spark 事件总线是SparkListenerEvent事件的阻塞队列大小
spark.scheduler.listenerbus.eventqueue.size=100000

# 是否启动推测机制
spark.speculation=false

# 开启spark的推测机制，开启推测机制后如果某一台机器的几个task特别慢，推测机制会将任务分配到其他机器执行，最后Spark会选取最快的作为最终结果。
# 2表示比其他task慢两倍时，启动推测机制
spark.speculation.multiplier=2

# 推测机制的检测周期
spark.speculation.interval=5000ms

# 完成task的百分比时启动推测
spark.speculation.quantile=0.6

# 最多允许失败的Executor数量。
spark.task.maxFailures=10

# spark序列化 对于优化<网络性能>极为重要，将RDD以序列化格式来保存减少内存占用.
spark.serializer=org.apache.spark.serializer.KryoSerializer

# 因为spark是基于内存的机制，所以默认是开启RDD的压缩
spark.rdd.compress=true

# Spark的安全管理
#https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/SecurityManager.scala
spark.ui.view.acls=*
spark.ui.view.acls.groups=*

# 表示配置GC线程数为3
spark.executor.extraJavaOptions="-XX:ParallelGCThreads=3"

# 最大广播表的大小。设置为-1可以禁止该功能。当前统计信息仅支持Hive Metastore表。这里设置的是10MB
spark.sql.autoBroadcastJoinThreshold=104857600

# 广播等待超时，这里单位是秒
spark.sql.broadcastTimeout=300

# 心跳检测间隔
spark.yarn.scheduler.heartbeat.interval-ms=10000

spark.sql.broadcastTimeout

#缓存表问题
#spark2.+采用：
#spark.catalog.cacheTable("tableName")缓存表，spark.catalog.uncacheTable("tableName")解除缓存。
#spark 1.+采用：
#sqlContext.cacheTable("tableName")缓存，sqlContext.uncacheTable("tableName") 解除缓存
#Sparksql仅仅会缓存必要的列，并且自动调整压缩算法来减少内存和GC压力。

#假如设置为true，SparkSql会根据统计信息自动的为每个列选择压缩方式进行压缩。
spark.sql.inMemoryColumnarStorage.compressed=true

#控制列缓存的批量大小。批次大有助于改善内存使用和压缩，但是缓存数据会有OOM的风险
spark.sql.inMemoryColumnarStorage.batchSize=10000

配置方法

可以在应用程序初始化时或在应用程序执行过程中进行设置：

spark.conf.set("spark.sql.crossJoin.enabled", "true")

参考

《Spark 权威指南：Chapter 10》
什么是Catalog
https://spark.apache.org/docs/2.3.0/api/sql/

Spark 指南：Spark SQL（四）—— 结构化函数

2020-11-07T10:51:22.000Z

Spark SQL 结构化函数一般都在 functions 模块，要使用这些函数，需要先导入该模块：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.Row
import org.apache.spark.sql.types._

普通函数

Spark SQL 函数众多，最好的做法就是当需要某个具体功能时在以下列表中检索，或者直接百度谷歌:

字符串函数: Spark SQL String Functions
日期时间函数: Spark SQL Date and Time Functions
数组函数: Spark SQL Array functions complete list
字典函数: Spark SQL Array functions complete list
排序函数: Spark SQL Sort functions
聚合函数: Spark SQL Aggregate Functions

聚合函数

在聚合中，您将指定一个分组和一个聚合函数，该函数必须为每个分组产生一个结果。Spark 的聚合功能是复杂巧妙且成熟的，具有各种不同的用例和可能性。通常，通过分组使用聚合函数去汇总数值型数据，也可以将任何类型的值聚合到 array、list 或 map 中。

Spark 支持以下分组类型，每个分组都会返回一个 RelationalGroupedDataset，可以在上面指定聚合函数：

最简单的分组是通过在 select 语句中执行聚合来汇总一个完整的 DataFrame；
group by 允许指定一个或多个 key 以及一个或多个聚合函数来转换列值；
window 可以指定一个或多个 key 以及一个或多个聚合函数来转换列值，但是输入到函数的行以某种方式与当前行有关；
grouping set 可用于在多个不同级别进行聚合，grouping set 可以作为 SQL 原语或通过 DataFrame 中的 rollup 和 cube 使用；group by A, B grouping sets(A, B) 等价于 group by A union group by B；
rollup 可以指定一个或多个 key 以及一个或多个聚合函数来转换列值，这些列将按照层次进行聚合；group by A,B,C with rollup 首先会对 A,B,C 进行 group by，然后对 A,B 进行 group by，最后对 A 进行 group by，再对全表进行 group by，最后将结构进行 union，缺少字段补 null；
cube 可以指定一个或多个 key 以及一个或多个聚合函数来转换列值，这些列将在所有列的组合中进行聚合；group by A,B,C with cube，会对 A, B, C 的所有可能组合进行 group by，最后再将结果 union；

除了可以在 DataFrame 上或通过 .stat 出现的特殊情况之外，所有聚合都可用作函数，你可以在 org.apache.spark.sql.functions 包中找到大多数聚合函数。

统计聚合

DataFrame 级聚合：

// count("*") 会显示 count(1)，但是直接写 count(1) 却会报错
// 在整个 DataFrame 上使用 count 会把结果拉回 Driver，是 action，但是用在 select 中是 transformation
df.select(count("stockCode"), count("*")).show()
+----------------+--------+
|count(stockCode)|count(1)|
+----------------+--------+
|          541909|  541914|
+----------------+--------+
// 去重，近似去重（为加速），第二个参数指定允许的最大估计误差
df.select(countDistinct("StockCode"), approx_count_distinct("StockCode", 0.05)).show()
+-------------------------+--------------------------------+
|count(DISTINCT StockCode)|approx_count_distinct(StockCode)|
+-------------------------+--------------------------------+
|                     4070|                            3804|
+-------------------------+--------------------------------+
// 第一行、最后一行
df.select(first("StockCode"), last("StockCode")).show()
+-----------------------+----------------------+
|first(StockCode, false)|last(StockCode, false)|
+-----------------------+----------------------+
|                 85123A|                  null|
+-----------------------+----------------------+
// 最大、最小值
df.select(min("Quantity"), max("Quantity")).show()
+-------------+-------------+
|min(Quantity)|max(Quantity)|
+-------------+-------------+
|       -80995|        80995|
+-------------+-------------+
// 求和、去重求和
df.select(sum("Quantity"), sumDistinct("Quantity")).show()
+-------------+----------------------+
|sum(Quantity)|sum(DISTINCT Quantity)|
+-------------+----------------------+
|      5176450|                 29310|
+-------------+----------------------+
// 均值、方差、标准差
df.select(avg("Quantity"), var_pop("Quantity"), stddev_pop("Quantity")).show()
+----------------+------------------+--------------------+
|   avg(Quantity)| var_pop(Quantity)|stddev_pop(Quantity)|
+----------------+------------------+--------------------+
|9.55224954743324|47559.303646609325|  218.08095663447858|
+----------------+------------------+--------------------+
// 偏度、峰度
df.select(skewness("Quantity"), kurtosis("Quantity")).show()
+-------------------+------------------+
| skewness(Quantity)|kurtosis(Quantity)|
+-------------------+------------------+
|-0.2640755761052948| 119768.0549553411|
+-------------------+------------------+
// 相关系数、协方差
df.select(corr("InvoiceNo", "Quantity"), covar_pop("InvoiceNo", "Quantity")).show()
+-------------------------+------------------------------+
|corr(InvoiceNo, Quantity)|covar_pop(InvoiceNo, Quantity)|
+-------------------------+------------------------------+
|     4.912186085641252E-4|            1052.7260778752557|
+-------------------------+------------------------------+

分组聚合：分组通常是针对分类数据完成的，我们先将数据按照某些列中的值进行分组，然后对被归入同一组的其他列执行聚合计算；事实上，DataFrame 级聚合只是分组聚合的一种特例；

// 分组语法
groupBy(col1: String, cols: String*)
groupBy(cols: Column*)

// 示例，RelationalGroupedDataset 对象也有 count 方法，但是和 DataFrame 的 count 方法会将结果收集到 Driver 不同，这还是一个 transformation
df.groupBy("InvoiceNo", "CustomerID").count().show(3)
+---------+----------+-----+
|InvoiceNo|CustomerID|count|
+---------+----------+-----+
|   536846|     14573|   76|
|   537026|     12395|   12|
|   537883|     14437|    5|
+---------+----------+-----+
// 分组聚合最常用的形式
df.groupBy("InvoiceNo").agg(
    count("Quantity").as("quan"),
    expr("count(Quantity)")
).show(3)
+---------+----+---------------+
|InvoiceNo|quan|count(Quantity)|
+---------+----+---------------+
|   536596|   6|              6|
|   536938|  14|             14|
|   537252|   1|              1|
+---------+----+---------------+
// map 形式
df.groupBy("InvoiceNo").agg("Quantity"->"avg", "Quantity"->"stddev_pop").show(3)
+---------+------------------+--------------------+
|InvoiceNo|     avg(Quantity)|stddev_pop(Quantity)|
+---------+------------------+--------------------+
|   536596|               1.5|  1.1180339887498947|
|   536938|33.142857142857146|  20.698023172885524|
|   537252|              31.0|                 0.0|
+---------+------------------+--------------------+

多维分析

grouping sets：group by keys grouping sets(combine1(keys), ..., combinen(keys))，其中，keys 包含了所有可能用于分组的字段，combine(keys) 是 keys 的一个子集，聚合函数会分别基于每组 combine(keys) 进行聚合，最后再把所有聚合结果按字段进行 union，不同类型的分组缺失字段补 null；可以通过 null 值在各列上的分布来判断各结果行所属的聚合类型，进一步地，我们可以用 grouping_id() 聚合函数值来标识每一结果行的聚合类型，grouping_id() 首先用二进制表示各个 key 是否为 null，如 (a, null, null) 对应二进制 011，然后再将该二进制数转化为对应的十进制数（在这个例子中，十进制数为 3）得到 grouping_id() 的值；grouping sets 仅在 SQL 中可用，是 group by 子句的扩展，要在 DataFrame 中执行相同的操作，请使用 rollup 和 cube 算子；

val sql = """
select area, grade, honor, sum(value) as total_value, grouping_id() as groupId
from df 
group by area, grade, honor grouping sets(area, grade, honor)
order by 5
"""
spark.sql(sql).show()
+----+-----+-----+-----------+-------+
|area|grade|honor|total_value|groupId|
+----+-----+-----+-----------+-------+
|   a| null| null|        915|      3|
|   c| null| null|        155|      3|
|   b| null| null|        155|      3|
|null|   ac| null|        345|      5|
|null|   ab| null|        360|      5|
|null|   aa| null|        520|      5|
|null| null|  aaf|         30|      6|
|null| null|  aaa|        150|      6|
|null| null|  aah|        180|      6|
|null| null|  aac|        300|      6|
|null| null|  aad|        240|      6|
|null| null|  aae|        120|      6|
|null| null|  aab|         70|      6|
|null| null|  aag|        135|      6|
+----+-----+-----+-----------+-------+

// (area, grade) 代表按照 `area, grade` 进行 group by，() 代表在整个 DataFrame 上 group by
val sql = """
select area, grade, honor, sum(value) as total_value, grouping_id() as groupId
from df 
group by area, grade, honor grouping sets(area, grade, honor, (area, grade), ())
order by 5
"""
spark.sql(sql).show()
+----+-----+-----+-----------+-------+
|area|grade|honor|total_value|groupId|
+----+-----+-----+-----------+-------+
|   a|   aa| null|        420|      1|
|   c|   aa| null|         50|      1|
|   c|   ac| null|         45|      1|
|   a|   ab| null|        240|      1|
|   a|   ac| null|        255|      1|
|   c|   ab| null|         60|      1|
|   b|   ac| null|         45|      1|
|   b|   ab| null|         60|      1|
|   b|   aa| null|         50|      1|
|   a| null| null|        915|      3|
|   c| null| null|        155|      3|
|   b| null| null|        155|      3|
|null|   ab| null|        360|      5|
|null|   ac| null|        345|      5|
|null|   aa| null|        520|      5|
|null| null|  aaa|        150|      6|
|null| null|  aah|        180|      6|
|null| null|  aad|        240|      6|
|null| null|  aag|        135|      6|
|null| null|  aab|         70|      6|
+----+-----+-----+-----------+-------+

rollup：group by A,B,C with rollup 首先会对 A,B,C 进行 group by，然后对 A,B 进行 group by，最后对 A 进行 group by，再对全表进行 group by，最后将结构进行 union，缺少字段补 null；

val sql = """
select area,grade,honor,sum(value) as total_value 
from df 
group by area,grade,honor with rollup
"""
spark.sql(sql)

df.rollup("area", "grade", "honor")
    .agg(grouping_id().as("groupId"), sum("value").alias("total_value"))
    .orderBy("groupId")
    .show(100)
+----+-----+-----+-------+-----------+
|area|grade|honor|groupId|total_value|
+----+-----+-----+-------+-----------+
|   c|   ab|  aad|      0|         60|
|   a|   ac|  aah|      0|        180|
|   b|   ab|  aad|      0|         60|
|   a|   ac|  aag|      0|         45|
|   a|   ac|  aaf|      0|         30|
|   a|   aa|  aaa|      0|         50|
|   b|   aa|  aaa|      0|         50|
|   c|   aa|  aaa|      0|         50|
|   a|   aa|  aab|      0|         70|
|   c|   ac|  aag|      0|         45|
|   a|   ab|  aae|      0|        120|
|   b|   ac|  aag|      0|         45|
|   a|   aa|  aac|      0|        300|
|   a|   ab|  aad|      0|        120|
|   a|   ac| null|      1|        255|
|   c|   ac| null|      1|         45|
|   c|   aa| null|      1|         50|
|   c|   ab| null|      1|         60|
|   b|   aa| null|      1|         50|
|   b|   ab| null|      1|         60|
|   b|   ac| null|      1|         45|
|   a|   ab| null|      1|        240|
|   a|   aa| null|      1|        420|
|   a| null| null|      3|        915|
|   b| null| null|      3|        155|
|   c| null| null|      3|        155|
|null| null| null|      7|       1225|
+----+-----+-----+-------+-----------+

cube：group by A,B,C with cube，会对 A, B, C 的所有可能组合进行 group by，最后再将结果 union；

val sql = """
select area,grade,honor,sum(value) as total_value 
from df
group by area,grade,honor with cube
"""
spark.sql(sql)

df.cube("area", "grade", "honor")
    .agg(grouping_id().as("groupId"),sum("value").alias("total_value"))
    .orderBy("groupId")
    .show(100)
+----+-----+-----+-------+-----------+
|area|grade|honor|groupId|total_value|
+----+-----+-----+-------+-----------+
|   c|   ab|  aad|      0|         60|
|   a|   aa|  aab|      0|         70|
|   c|   ac|  aag|      0|         45|
|   b|   aa|  aaa|      0|         50|
|   b|   ab|  aad|      0|         60|
|   c|   aa|  aaa|      0|         50|
|   a|   aa|  aac|      0|        300|
|   b|   ac|  aag|      0|         45|
|   a|   ac|  aag|      0|         45|
|   a|   ac|  aaf|      0|         30|
|   a|   ac|  aah|      0|        180|
|   a|   ab|  aad|      0|        120|
|   a|   aa|  aaa|      0|         50|
|   a|   ab|  aae|      0|        120|
|   b|   aa| null|      1|         50|
|   a|   ab| null|      1|        240|
|   c|   ac| null|      1|         45|
|   b|   ab| null|      1|         60|
|   a|   ac| null|      1|        255|
|   c|   ab| null|      1|         60|
|   b|   ac| null|      1|         45|
|   a|   aa| null|      1|        420|
|   c|   aa| null|      1|         50|
|   a| null|  aaf|      2|         30|
|   a| null|  aag|      2|         45|
|   a| null|  aac|      2|        300|
|   a| null|  aaa|      2|         50|
|   b| null|  aad|      2|         60|
|   a| null|  aab|      2|         70|
|   a| null|  aah|      2|        180|
|   a| null|  aae|      2|        120|
|   a| null|  aad|      2|        120|
|   c| null|  aaa|      2|         50|
|   c| null|  aad|      2|         60|
|   b| null|  aag|      2|         45|
|   b| null|  aaa|      2|         50|
|   c| null|  aag|      2|         45|
|   b| null| null|      3|        155|
|   c| null| null|      3|        155|
|   a| null| null|      3|        915|
|null|   ab|  aad|      4|        240|
|null|   aa|  aab|      4|         70|
|null|   ac|  aah|      4|        180|
|null|   aa|  aaa|      4|        150|
|null|   ac|  aag|      4|        135|
|null|   ab|  aae|      4|        120|
|null|   aa|  aac|      4|        300|
|null|   ac|  aaf|      4|         30|
|null|   ab| null|      5|        360|
|null|   ac| null|      5|        345|
|null|   aa| null|      5|        520|
|null| null|  aae|      6|        120|
|null| null|  aaa|      6|        150|
|null| null|  aaf|      6|         30|
|null| null|  aad|      6|        240|
|null| null|  aac|      6|        300|
|null| null|  aab|      6|         70|
|null| null|  aah|      6|        180|
|null| null|  aag|      6|        135|
|null| null| null|      7|       1225|
+----+-----+-----+-------+-----------+

聚合为复杂类型

可以通过 collect_list 和 collect_set 收集某列中的值，前者保留原始顺序，后者不保证顺序但会去重。

val res = df.select(collect_list("Country"), collect_set("Country"))
res.show()
res.printSchema
+---------------------+--------------------+
|collect_list(Country)|collect_set(Country)|
+---------------------+--------------------+
| [United Kingdom, ...|[Portugal, Italy,...|
+---------------------+--------------------+

root
 |-- collect_list(Country): array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- collect_set(Country): array (nullable = true)
 |    |-- element: string (containsNull = true)

窗口函数

Spark 窗口函数对一组行（如frame、partition）进行操作，并为每个输入行返回一个值。窗口函数是一种特殊的聚合函数，但是输入到函数的行以某种方式与当前行有关，函数会为每一行返回一个值。Spark SQL支持三种窗口函数：

排序函数：row_number() rank() dense_rank() percent_rank() ntile()
分析函数: cume_dist() lag() lead()
聚合函数: sum() first() last() max() min() mean() stddev()

语法：

// 定义窗口
val window = Window...
// 在窗口上应用窗口函数，返回列对象
windowFunc.over(Window)

示例数据：

import spark.implicits._
import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window

val simpleData = Seq(("James", "Sales", 3000),
    ("Michael", "Sales", 4600),
    ("Robert", "Sales", 4100),
    ("Maria", "Finance", 3000),
    ("James", "Sales", 3000),
    ("Scott", "Finance", 3300),
    ("Jen", "Finance", 3900),
    ("Jeff", "Marketing", 3000),
    ("Kumar", "Marketing", 2000),
    ("Saif", "Sales", 4100)
    )
val df = simpleData.toDF("employee_name", "department", "salary")
df.show()

+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|        James|     Sales|  3000|
|      Michael|     Sales|  4600|
|       Robert|     Sales|  4100|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|        Scott|   Finance|  3300|
|          Jen|   Finance|  3900|
|         Jeff| Marketing|  3000|
|        Kumar| Marketing|  2000|
|         Saif|     Sales|  4100|
+-------------+----------+------+

排序窗口函数

用于排序的窗口定义：

// 按照指定字段分组，在分组内按照另一字段排序，得到排序窗口，如果需要降序，可以使用col("salary").desc 
val windowSpec = Window.partitionBy("department").orderBy("salary")

row_number: 返回每行排序字段在窗口内的行号；

df.withColumn("row_number",row_number.over(windowSpec))
.show()

+-------------+----------+------+----------+
|employee_name|department|salary|row_number|
+-------------+----------+------+----------+
|        James|     Sales|  3000|         1|
|        James|     Sales|  3000|         2|
|       Robert|     Sales|  4100|         3|
|         Saif|     Sales|  4100|         4|
|      Michael|     Sales|  4600|         5|
|        Maria|   Finance|  3000|         1|
|        Scott|   Finance|  3300|         2|
|          Jen|   Finance|  3900|         3|
|        Kumar| Marketing|  2000|         1|
|         Jeff| Marketing|  3000|         2|
+-------------+----------+------+----------+

rank: 返回每行排序字段在窗口内的排名，rank=n+1，n 代表窗口内比当前行小的行数；

df.withColumn("rank",rank().over(windowSpec))
.show()

+-------------+----------+------+----+
|employee_name|department|salary|rank|
+-------------+----------+------+----+
|        James|     Sales|  3000|   1|
|        James|     Sales|  3000|   1|
|       Robert|     Sales|  4100|   3|
|         Saif|     Sales|  4100|   3|
|      Michael|     Sales|  4600|   5|
|        Maria|   Finance|  3000|   1|
|        Scott|   Finance|  3300|   2|
|          Jen|   Finance|  3900|   3|
|        Kumar| Marketing|  2000|   1|
|         Jeff| Marketing|  3000|   2|
+-------------+----------+------+----+

dense_rank: 返回每行排序字段在窗口内的稠密排名，rank=n+1，n 代表窗口内比当前行小的不同取值数；

df.withColumn("dense_rank",dense_rank().over(windowSpec))
.show()

+-------------+----------+------+----------+
|employee_name|department|salary|dense_rank|
+-------------+----------+------+----------+
|        James|     Sales|  3000|         1|
|        James|     Sales|  3000|         1|
|       Robert|     Sales|  4100|         2|
|         Saif|     Sales|  4100|         2|
|      Michael|     Sales|  4600|         3|
|        Maria|   Finance|  3000|         1|
|        Scott|   Finance|  3300|         2|
|          Jen|   Finance|  3900|         3|
|        Kumar| Marketing|  2000|         1|
|         Jeff| Marketing|  3000|         2|
+-------------+----------+------+----------+

percent_rank: 返回每行排序字段在窗口内的百分位排名；

//percent_rank
df.withColumn("percent_rank",percent_rank().over(windowSpec))
.show()

+-------------+----------+------+------------+
|employee_name|department|salary|percent_rank|
+-------------+----------+------+------------+
|        James|     Sales|  3000|         0.0|
|        James|     Sales|  3000|         0.0|
|       Robert|     Sales|  4100|         0.5|
|         Saif|     Sales|  4100|         0.5|
|      Michael|     Sales|  4600|         1.0|
|        Maria|   Finance|  3000|         0.0|
|        Scott|   Finance|  3300|         0.5|
|          Jen|   Finance|  3900|         1.0|
|        Kumar| Marketing|  2000|         0.0|
|         Jeff| Marketing|  3000|         1.0|
+-------------+----------+------+------------+

ntile: 返回窗口分区中结果行的相对排名，在下面的示例中，我们使用2作为ntile的参数，因此它返回介于2个值（1和2）之间的排名；

df.withColumn("ntile",ntile(2).over(windowSpec))
.show()

+-------------+----------+------+-----+
|employee_name|department|salary|ntile|
+-------------+----------+------+-----+
|        James|     Sales|  3000|    1|
|        James|     Sales|  3000|    1|
|       Robert|     Sales|  4100|    1|
|         Saif|     Sales|  4100|    2|
|      Michael|     Sales|  4600|    2|
|        Maria|   Finance|  3000|    1|
|        Scott|   Finance|  3300|    1|
|          Jen|   Finance|  3900|    2|
|        Kumar| Marketing|  2000|    1|
|         Jeff| Marketing|  3000|    2|
+-------------+----------+------+-----+

分析窗口函数

cume_dist: 窗口函数用于获取窗口分区内值的累积分布，和 SQL 中的 DENSE_RANK 作用相同

df.withColumn("cume_dist",cume_dist().over(windowSpec)).show()

+-------------+----------+------+------------------+
|employee_name|department|salary|         cume_dist|
+-------------+----------+------+------------------+
|        James|     Sales|  3000|               0.4|
|        James|     Sales|  3000|               0.4|
|       Robert|     Sales|  4100|               0.8|
|         Saif|     Sales|  4100|               0.8|
|      Michael|     Sales|  4600|               1.0|
|        Maria|   Finance|  3000|0.3333333333333333|
|        Scott|   Finance|  3300|0.6666666666666666|
|          Jen|   Finance|  3900|               1.0|
|        Kumar| Marketing|  2000|               0.5|
|         Jeff| Marketing|  3000|               1.0|
+-------------+----------+------+------------------+

lag: 和 SQL 中的 LAG 函数相同，返回值为当前行之前的 offset 行，如果当前行之前的行少于 offset，则返回“ null”。

df.withColumn("lag",lag("salary",2).over(windowSpec)).show()

+-------------+----------+------+----+
|employee_name|department|salary| lag|
+-------------+----------+------+----+
|        James|     Sales|  3000|null|
|        James|     Sales|  3000|null|
|       Robert|     Sales|  4100|3000|
|         Saif|     Sales|  4100|3000|
|      Michael|     Sales|  4600|4100|
|        Maria|   Finance|  3000|null|
|        Scott|   Finance|  3300|null|
|          Jen|   Finance|  3900|3000|
|        Kumar| Marketing|  2000|null|
|         Jeff| Marketing|  3000|null|
+-------------+----------+------+----+

lead: 和 SQL 中的 LEAD 函数相同，返回值为当前行之后的 offset 行，如果当前行之后的行少于 offset，则返回“ null”。

df.withColumn("lead",lead("salary",2).over(windowSpec)).show()

+-------------+----------+------+----+
|employee_name|department|salary|lead|
+-------------+----------+------+----+
|        James|     Sales|  3000|4100|
|        James|     Sales|  3000|4100|
|       Robert|     Sales|  4100|4600|
|         Saif|     Sales|  4100|null|
|      Michael|     Sales|  4600|null|
|        Maria|   Finance|  3000|3900|
|        Scott|   Finance|  3300|null|
|          Jen|   Finance|  3900|null|
|        Kumar| Marketing|  2000|null|
|         Jeff| Marketing|  3000|null|
+-------------+----------+------+----+

聚合窗口函数

在本部分中，我将解释如何使用 Spark SQL Aggregate 窗口函数和 WindowSpec 计算每个分组的总和，最小值，最大值，使用聚合函数时，order by 子句特别重要，影响着最后聚合的具体范围。

val windowSpec = Window.partitionBy("department").orderBy("salary")
val res = df.withColumn("row",row_number.over(windowSpec))

// 不排序: 每一行都是基于全组做聚合，默认所有行有相同的次序
val windowSpecAgg  = Window.partitionBy("department")
// 通过某个字段 f 排序，每一行对全组所有 <= 当前行该字段值的做聚合
val windowSpecSalaryAgg  = Window.partitionBy("department").orderBy("salary")
// 以 row 排序，每一行对全组所有 row <= 当前 row 值的做聚合，等价于累积聚合
val windowSpecRowAgg  = Window.partitionBy("department").orderBy("row")
// 以 row 排序，每一行对附近偏移范围内的数据做聚合
val windowSpecBetweenAgg  = Window.partitionBy("department").orderBy("row").rowsBetween(-2, -1)

res.withColumn("sum", sum(col("salary")).over(windowSpecAgg))
   .withColumn("salarysum", sum(col("salary")).over(windowSpecSalaryAgg))
   .withColumn("rowsum", sum(col("salary")).over(windowSpecRowAgg))
   .withColumn("betweensum", sum(col("salary")).over(windowSpecBetweenAgg))
   .show()

+-------------+----------+------+---+-----+---------+------+----------+
|employee_name|department|salary|row|  sum|salarysum|rowsum|betweensum|
+-------------+----------+------+---+-----+---------+------+----------+
|        James|     Sales|  3000|  1|18800|     6000|  3000|      null|
|        James|     Sales|  3000|  2|18800|     6000|  6000|      3000|
|       Robert|     Sales|  4100|  3|18800|    14200| 10100|      6000|
|         Saif|     Sales|  4100|  4|18800|    14200| 14200|      7100|
|      Michael|     Sales|  4600|  5|18800|    18800| 18800|      8200|
|        Maria|   Finance|  3000|  1|10200|     3000|  3000|      null|
|        Scott|   Finance|  3300|  2|10200|     6300|  6300|      3000|
|          Jen|   Finance|  3900|  3|10200|    10200| 10200|      6300|
|        Kumar| Marketing|  2000|  1| 5000|     2000|  2000|      null|
|         Jeff| Marketing|  3000|  2| 5000|     5000|  5000|      2000|
+-------------+----------+------+---+-----+---------+------+----------+

自定义函数

自定义函数是 Spark SQL 最有用的特性之一，它扩展了 Spark 的内置函数，允许用户实现更加复杂的计算逻辑。但是，自定义函数是 Spark 的黑匣子，无法利用 Spark SQL 的优化器，自定义函数将失去 Spark 在 Dataframe / Dataset 上所做的所有优化，通常性能和安全性较差。如果可能，应尽量选用 Spark SQL 内置函数，因为这些函数提供了优化。

根据自定义函数是作用于单行还是多行，可以将其划分为两类：

UDF：User Defined Function，即用户自定义函数，接收一行输入并返回一个输出；
UDAF：User Defined Aggregate Function，即用户自定义的聚合函数，接收多行输入并返回一个输出；

UDF

使用 UDF 的一般步骤：

定义普通函数：与定义一般函数的方式完全相同，但是需要额外注意
1. UDF 中参数和返回值类型并不是我们可以随意定义的，因为涉及到数据的序列化和反序列化，详情参考“传递复杂数据类型”一节；
2. null 值的处理，如果设计不当，UDF 很容易出错，最好的做法是在函数内部检查 null，而不是在外部检查 null；
注册 UDF：在 DataFrame API 和 SQL 表达式中使用的 UDF 注册方式有所差异
1. 如果要在 DataFrame API 中使用：val 函数名 = org.apache.spark.sql.functions.udf(函数值)；
2. 如果要在 SQL 表达式中使用：sparkSession.udf.register(函数名, 函数值)；
应用 UDF：与应用 Spark 内置函数的方法完全相同，只不过原始函数中的变长参数会被注册为 ArrayType 类型，实际传参时也要传入 ArrayType 类型的实参；

传递简单数据类型

// 示例数据
import spark.implicits._
val columns = Seq("Seqno","Quote")
val data = Seq(("1", "Be the change that you wish to see in the world"),
    ("2", "Everyone thinks of changing the world, but no one thinks of changing himself."),
    ("3", "The purpose of our lives is to be happy.")
  )
val df = data.toDF(columns:_*)
df.show(false)

+-----+-----------------------------------------------------------------------------+
|Seqno|Quote                                                                        |
+-----+-----------------------------------------------------------------------------+
|1    |Be the change that you wish to see in the world                              |
|2    |Everyone thinks of changing the world, but no one thinks of changing himself.|
|3    |The purpose of our lives is to be happy.                                     |
+-----+-----------------------------------------------------------------------------+

创建一个普通函数:

// convertCase 是一个函数值，将句子中每个单词首字母改为大写
val convertCase =  (strQuote:String) => {
    val arr = strQuote.split(" ")
    arr.map(f=>  f.substring(0,1).toUpperCase + f.substring(1,f.length)).mkString(" ")
}

在 DataFrame 中使用 UDF:

import org.apache.spark.sql.functions.udf
// 1. 创建 Spark UDF，传给 udf 的是一个函数值，如果 x 只是一个普通函数名，则需传入 x _
val convertUDF = udf(convertCase)
convertUDF: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,StringType,Some(List(StringType)))

// 2. 在 DataFrame 中使用 UDF
df.select(col("Seqno"), convertUDF(col("Quote")).as("Quote") ).show(false)

+-----+-----------------------------------------------------------------------------+
|Seqno|Quote                                                                        |
+-----+-----------------------------------------------------------------------------+
|1    |Be The Change That You Wish To See In The World                              |
|2    |Everyone Thinks Of Changing The World, But No One Thinks Of Changing Himself.|
|3    |The Purpose Of Our Lives Is To Be Happy.                                     |

在 SQL 中使用 UDF:

// 1. 注册 UDF
spark.udf.register("convertUDF", convertCase)
// 2. 在 SQL 中使用 UDF，得到同样的结果输出
df.createOrReplaceTempView("QUOTE_TABLE")
spark.sql("select Seqno, convertUDF(Quote) from QUOTE_TABLE").show(false)

传递复杂数据类型

在 “Spark SQL 数据类型”一文曾介绍过 Spark 类型和 Scala 类型之间的对应关系，当 UDF 在 Spark 和 Scala 之间传递参数和返回值时也遵循同样的对应关系，下面列出了 Spark 中复杂类型与 Scala 本地类型之间的对应关系：

Spark 类型	udf 参数类型	udf 返回值类型
StructType	Row	Tuple/case class
ArrayType	Seq	Seq/Array/List
MapType	Map	Map

本部分将使用如下示例数据来演示以上各种场景：

val data = Seq(
      Row("M", 3000, Row("James ","","Smith"), Seq(1,2), Map("1"->"a", "11"->"aa")),
      Row("M", 4000, Row("Michael ","Rose",""), Seq(3,2), Map("2"->"b", "22"->"bb")),
      Row("M", 4000, Row("Robert ","","Williams"), Seq(1,2), Map("3"->"c", "33"->"cc")),
      Row("F", 4000, Row("Maria ","Anne","Jones"), Seq(3,3), Map("4"->"d", "44"->"dd")),
      Row("F", -1, Row("Jen","Mary","Brown"), Seq(5,2), Map("5"->"e"))
    )

val schema = new StructType()
      .add("gender",StringType)
      .add("salary",IntegerType)
      .add("f_struct",
        new StructType()
          .add("firstname",StringType)
          .add("middlename",StringType)
          .add("lastname",StringType)
      )  
      .add("f_array", ArrayType(IntegerType))
      .add("f_map", MapType(StringType, StringType))

val df = spark.createDataFrame(spark.sparkContext.parallelize(data),schema)
df.show()
df.printSchema
+------+------+--------------------+-------+------------------+
|gender|salary|            f_struct|f_array|             f_map|
+------+------+--------------------+-------+------------------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|
+------+------+--------------------+-------+------------------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

StructType

如果传给 udf 的是 StructType 类型，udf 参数类型应该定义为 Row类型；如果需要 udf 返回 StructType 类型，udf 返回值类型应该定义为 Tuple 或 case class；

udf 返回值类型可以是 Tuple：Tuple 返回值会被转化为 struct，Tuple 的各个元素分别对应 struct 的各个子域 _1、_2……

// 数据类型转化过程：Struct => Row => Tuple => Struct
def myF(gender:String, r:Row):(String, String) = {
    r match {
        case Row(firstname:String, middlename: String, lastname: String) => {
            val x = if (firstname.isEmpty) "" else (firstname + ":" + gender)
            (x, firstname)
        }
    }
}
val myUdf = udf(myF _)
// udf 签名： 代表 udf 包含两个参数；StructType(StructField(_1,StringType,true), StructField(_2,StringType,true)) 代表 udf 返回的是一个 struct，且该 struuct 包含了两个子域 _1、_2；None 是 udf 的入参类型，入参有 Row 就会变成 None，尚不清楚其中机理
myUdf: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,StructType(StructField(_1,StringType,true), StructField(_2,StringType,true)),None)

val res = df.withColumn("f_udf", myUdf(col("gender"), col("f_struct")))
res.show()
res.printSchema

+------+------+--------------------+-------+------------------+--------------------+
|gender|salary|            f_struct|f_array|             f_map|               f_udf|
+------+------+--------------------+-------+------------------+--------------------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|  [James :M, James ]|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|[Michael :M, Mich...|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|[Robert :M, Robert ]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|  [Maria :F, Maria ]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|        [Jen:F, Jen]|
+------+------+--------------------+-------+------------------+--------------------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- f_udf: struct (nullable = true)
 |    |-- _1: string (nullable = true)
 |    |-- _2: string (nullable = true)

udf 的返回值可以是样例类：样例类型返回值会以一种更加自然的方式转化为 struct，样例类的不同属性构成了 struct 的各个子域；

case class P(x:String, y:Int)
def myF(gender:String, r:Row):P = {
    r match {
        case Row(firstname:String, middlename: String, lastname: String) => {
            val x = if (firstname.isEmpty) "" else (firstname + ":" + gender)
            P(x, 1)
        }
    }
}
val myUdf = udf(myF _)

myUdf: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,StructType(StructField(x,StringType,true), StructField(y,IntegerType,false)),None)

val res = df.withColumn("f_udf", myUdf(col("gender"), col("f_struct")))
res.show()
res.printSchema
+------+------+--------------------+-------+------------------+---------------+
|gender|salary|            f_struct|f_array|             f_map|          f_udf|
+------+------+--------------------+-------+------------------+---------------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|  [James :M, 1]|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|[Michael :M, 1]|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]| [Robert :M, 1]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|  [Maria :F, 1]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|     [Jen:F, 1]|
+------+------+--------------------+-------+------------------+---------------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- f_udf: struct (nullable = true)
 |    |-- x: string (nullable = true)
 |    |-- y: integer (nullable = false)

ArrayType

返回值类型也可以是 Seq、Array 或 List，不会影响到 udf 签名

def myF(gender:String, a:Seq[Int]):Seq[String] = a.map(x => gender * x.toInt)
def myF(gender:String, a:Seq[Int]):Array[String] = a.map(x => gender * x.toInt).toArray
def myF(gender:String, a:Seq[Int]):List[String] = a.map(x => gender * x.toInt).toList
val myUdf = udf(myF _)

myUdf: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,ArrayType(StringType,true),Some(List(StringType, ArrayType(IntegerType,false))))

val res = df.withColumn("f_udf", myUdf(col("gender"), col("f_array")))
res.show()
res.printSchema
+------+------+--------------------+-------+------------------+-----------+
|gender|salary|            f_struct|f_array|             f_map|      f_udf|
+------+------+--------------------+-------+------------------+-----------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|    [M, MM]|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|  [MMM, MM]|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|    [M, MM]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]| [FFF, FFF]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|[FFFFF, FF]|
+------+------+--------------------+-------+------------------+-----------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- f_udf: array (nullable = true)
 |    |-- element: string (containsNull = true)

参数不能是 Array 或 List，否则会报无法进行类型转换的错误

scala.collection.mutable.WrappedArray$ofRef cannot be cast to scala.collection.immutable.List`

变长参数会被注册为 ArrayType 类型：使用变长参数和使用 Seq 参数效果是一样的

def myF(gender:String, a:String *):Seq[String] = {
    a.map(x => gender * x.toInt)
}
val myUdf = udf(myF _)

myUdf: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,ArrayType(StringType,true),Some(List(StringType, ArrayType(StringType,true))))

val res = df.withColumn("f_udf", myUdf(col("gender"), col("f_array")))
res.show()
res.printSchema
+------+------+--------------------+-------+------------------+-----------+
|gender|salary|            f_struct|f_array|             f_map|      f_udf|
+------+------+--------------------+-------+------------------+-----------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|    [M, MM]|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|  [MMM, MM]|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|    [M, MM]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]| [FFF, FFF]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|[FFFFF, FF]|
+------+------+--------------------+-------+------------------+-----------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- f_udf: array (nullable = true)
 |    |-- element: string (containsNull = true)

MapType

def myF(gender:String, m:Map[String, String]):Map[String, String] = {
    m.filter(kv => kv._1.toInt < 10)
}
val myUdf = udf(myF _)

myUdf: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,MapType(StringType,StringType,true),Some(List(StringType, MapType(StringType,StringType,true))))

val res = df.withColumn("f_udf", myUdf(col("gender"), col("f_map")))
res.show()
res.printSchema
+------+------+--------------------+-------+------------------+--------+
|gender|salary|            f_struct|f_array|             f_map|   f_udf|
+------+------+--------------------+-------+------------------+--------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|[1 -> a]|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|[2 -> b]|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|[3 -> c]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|[4 -> d]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|[5 -> e]|
+------+------+--------------------+-------+------------------+--------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- f_udf: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

UDAF

UDAF（User Defined Aggregate Function，即用户自定义的聚合函数）相比 UDF 要复杂很多，UDF 接收一行输入并产生一个输出，UDAF 则是接收一组（一般是多行）输入并产生一个输出，Spark 维护了一个 AggregationBuffer 来存储每组输入数据的中间结果。使用 UDAF 的一般步骤：

自定义类继承 UserDefinedAggregateFunction，对每个阶段方法做实现；
在 spark 中注册 UDAF，为其绑定一个名字；
然后就可以在sql语句中使用上面绑定的名字调用；

定义 UDAF

我们通过一个计算平均值的 UDAF 实际例子来了解定义 UDAF 的过程：

import org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types._
 
object AverageUserDefinedAggregateFunction extends UserDefinedAggregateFunction {
 
  // 聚合函数的输入数据结构
  override def inputSchema: StructType = StructType(StructField("input", LongType) :: Nil)
 
  // 缓存区数据结构
  override def bufferSchema: StructType = StructType(StructField("sum", LongType) :: StructField("count", LongType) :: Nil)
 
  // 聚合函数返回值数据结构
  override def dataType: DataType = DoubleType
 
  // 聚合函数是否是幂等的，即相同输入是否总是能得到相同输出
  override def deterministic: Boolean = true
 
  // 初始化缓冲区
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0L
    buffer(1) = 0L
  }
 
  // 给聚合函数传入一条新数据进行处理
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    if (input.isNullAt(0)) return
    buffer(0) = buffer.getLong(0) + input.getLong(0)
    buffer(1) = buffer.getLong(1) + 1
  }
 
  // 合并聚合函数缓冲区
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)
    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)
  }
 
  // 计算最终结果
  override def evaluate(buffer: Row): Any = buffer.getLong(0).toDouble / buffer.getLong(1)
 
}

注册-使用 UDAF

import org.apache.spark.sql.SparkSession
 
object SparkSqlUDAFDemo_001 {
 
  def main(args: Array[String]): Unit = {
 
    val spark = SparkSession.builder().master("local[*]").appName("SparkStudy").getOrCreate()
    spark.read.json("data/user").createOrReplaceTempView("v_user")
    spark.udf.register("u_avg", AverageUserDefinedAggregateFunction)
    // 将整张表看做是一个分组对求所有人的平均年龄
    spark.sql("select count(1) as count, u_avg(age) as avg_age from v_user").show()
    // 按照性别分组求平均年龄
    spark.sql("select sex, count(1) as count, u_avg(age) as avg_age from v_user group by sex").show()
 
  }
 
}

参考

《Spark 权威指南 Chapter 7.Aggregations》

Spark 指南：Spark SQL（三）—— 结构化类型

2020-11-06T13:16:46.000Z

Spark Types

Spark-Scala 数据类型

Spark SQL 具有大量内部类型表示形式，下表列出了 Scala 绑定的类型信息：

id	Data Type	Value type in Scala	API to create a data Type
1	ByteType	Byte	ByteType
2	ShortType	Short	ShortType
3	IntegerType	Int	IntegerType
4	LongType	Long	LongType
5	FloatType	Float	FloatType
6	DoubleType	Double	DoubleType
7	DecimalType	java.math.BigDecimal	DecimalType
8	StringType	String	StringType
9	BinaryType	Array[Byte]	BinaryType
10	BooleanType	Boolean	BooleanType
11	TimestampType	java.Timestamp	TimestampType
12	DateType	java.sql.Date	DateType
13	ArrayType	scala.collection.Seq	ArrayType( elementType, [containsNull])
14	MapType	scala.collection.Map	MapType( keyType, valueType, [valueContainsNull])
15	StructType	org.apache.spark.sql.Row	tructType( fields: Array[StructField])
16	StructField	Scala中此字段的数据类型的值类型	StructField( name,dataType,[nullable])

在 Scala 中，要使用 Spark 类型，需要先导入 org.apache.spark.sql.types._：

import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._

val data = Seq(
      Row(Row("James ","","Smith"),"36636","M","3000"),
      Row(Row("Michael ","Rose",""),"40288","M","4000"),
      Row(Row("Robert ","","Williams"),"42114","M","4000"),
      Row(Row("Maria ","Anne","Jones"),"39192","F","4000"),
      Row(Row("Jen","Mary","Brown"),"","F","-1")
)

val schema = new StructType()
      .add("name",new StructType()
          .add("firstname",StringType)
          .add("middlename",StringType)
          .add("lastname",StringType)
      )  
      .add("dob",StringType)
      .add("gender",StringType)
      .add("salary",StringType)

val df = spark.createDataFrame(spark.sparkContext.parallelize(data),schema)
df.show()
df.printSchema

+--------------------+-----+------+------+
|                name|  dob|gender|salary|
+--------------------+-----+------+------+
|   [James , , Smith]|36636|     M|  3000|
|  [Michael , Rose, ]|40288|     M|  4000|
|[Robert , , Willi...|42114|     M|  4000|
|[Maria , Anne, Jo...|39192|     F|  4000|
|  [Jen, Mary, Brown]|     |     F|    -1|
+--------------------+-----+------+------+

root
 |-- name: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- dob: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: string (nullable = true)

数据类型转换

本地类型 & Spark 类型

我们经常需要在本地类型和 Spark 类型之间进行转换，以利用各自在数据处理不同方面的优势，在转化过程中本地类型和 Spark 类型要符合上表中列出的对应关系，如果无法进行隐式转换就会报错：

本地类型 -> Spark 类型：
1. 通过本地对象创建 DataFrame：toDF()、createDataFrame()；
2. 将本地基本类型转化为 Spark 基本类型：lit()；
3. udf 返回值会被隐式地转化为 Spark 对应的类型；
Spark 类型 -> 本地类型：
1. 将 DataFrame 收集到 driver端：collect()；
2. 向 udf 传递参数时，会将 Spark 类型隐式地转化为对应的本地类型；

import org.apache.spark.sql.functions.lit
df.select(lit(5).as("f_integer"), lit("five").as("f_string"), lit(5.0).as("f_double"))

需要注意的是，如果传给 lit() 的参数本身就是 Column 对象，lit() 将原样返回该 Column 对象：

/**
 * Creates a [[Column]] of literal value.
 *
 * The passed in object is returned directly if it is already a [[Column]].
 * If the object is a Scala Symbol, it is converted into a [[Column]] also.
 * Otherwise, a new [[Column]] is created to represent the literal value.
 *
 * @group normal_funcs
 * @since 1.3.0
 */
def lit(literal: Any): Column = {
  literal match {
    case c: Column => return c
    case s: Symbol => return new ColumnName(literal.asInstanceOf[Symbol].name)
    case _ =>  // continue
  }

  val literalExpr = Literal(literal)
  Column(literalExpr)
}

Spark 类型 & Spark 类型

将 DataFrame 列类型从一种类型转换到另一种类型有很多种方法：withColumn()、cast()、selectExpr、SQL 表达式，需要注意的是目标类型必须是 DataType 的子类。

// 示例数据
import org.apache.spark.sql.Row
import org.apache.spark.sql.types._

val simpleData = Seq(Row("James",34,"2006-01-01","true","M",3000.60),
    Row("Michael",33,"1980-01-10","true","F",3300.80),
    Row("Robert",37,"06-01-1992","false","M",5000.50)
  )

val simpleSchema = StructType(Array(
    StructField("firstName",StringType,true),
    StructField("age",IntegerType,true),
    StructField("jobStartDate",StringType,true),
    StructField("isGraduated", StringType, true),
    StructField("gender", StringType, true),
    StructField("salary", DoubleType, true)
))

val df = spark.createDataFrame(spark.sparkContext.parallelize(simpleData),simpleSchema)
df.printSchema()
df.show(false)
root
 |-- firstName: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- jobStartDate: string (nullable = true)
 |-- isGraduated: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: double (nullable = true)

+---------+---+------------+-----------+------+------+
|firstName|age|jobStartDate|isGraduated|gender|salary|
+---------+---+------------+-----------+------+------+
|James    |34 |2006-01-01  |true       |M     |3000.6|
|Michael  |33 |1980-01-10  |true       |F     |3300.8|
|Robert   |37 |06-01-1992  |false      |M     |5000.5|
+---------+---+------------+-----------+------+------+

通过 withColumn()、cast()：

val df2 = df
    .withColumn("age",col("age").cast(StringType))
    .withColumn("isGraduated",col("isGraduated").cast(BooleanType))
    .withColumn("jobStartDate",col("jobStartDate").cast(DateType))
df2.printSchema()
root
 |-- firstName: string (nullable = true)
 |-- age: string (nullable = true)
 |-- jobStartDate: date (nullable = true)
 |-- isGraduated: boolean (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: double (nullable = true)

通过 select：

val cast_df = df.select(df.columns.map {
    case column@"age" =>
      col(column).cast("String").as(column)
    case column@"salary" =>
      col(column).cast("String").as(column)
    case column =>
      col(column)
  }: _*)

cast_df.printSchema()
root
 |-- firstName: string (nullable = true)
 |-- age: string (nullable = true)
 |-- jobStartDate: string (nullable = true)
 |-- isGraduated: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: string (nullable = true)

通过 selectExpr：

val df3 = df2.selectExpr("cast(age as int) age",
    "cast(isGraduated as string) isGraduated",
    "cast(jobStartDate as string) jobStartDate")
df3.printSchema()
df3.show(false)

布尔类型

布尔类型是所有过滤的基础：

df.where(col("salary") < 4000).show()
+------------------+-----+------+------+
|              name|  dob|gender|salary|
+------------------+-----+------+------+
| [James , , Smith]|36636|     M|  3000|
|[Jen, Mary, Brown]|     |     F|    -1|
+------------------+-----+------+------+

// Scala 中判断列是否相等使用 ===，=!=
df.where(col("salary") === 4000).show()
+--------------------+-----+------+------+
|                name|  dob|gender|salary|
+--------------------+-----+------+------+
|  [Michael , Rose, ]|40288|     M|  4000|
|[Robert , , Willi...|42114|     M|  4000|
|[Maria , Anne, Jo...|39192|     F|  4000|
+--------------------+-----+------+------+
df.where(col("salary") =!= 4000).show()
+------------------+-----+------+------+
|              name|  dob|gender|salary|
+------------------+-----+------+------+
| [James , , Smith]|36636|     M|  3000|
|[Jen, Mary, Brown]|     |     F|    -1|
+------------------+-----+------+------+
df.select((col("salary") =!= 4000).as("equal_400")).show()
+---------+
|equal_400|
+---------+
|     true|
|    false|
|    false|
|    false|
|     true|
+---------+

df.select((col("salary") =!= 4000).as("equal_400")).printSchema
root
 |-- equal_400: boolean (nullable = true)

// 布尔表达式更简洁的表达方式是使用 SQL 表达式
df.where("salary=4000 and gender='M'").show()

数字类型

摘要

df.describe().show()
+-------+------------------+------+------------------+
|summary|               dob|gender|            salary|
+-------+------------------+------+------------------+
|  count|                 5|     5|                 5|
|   mean|           39557.5|  null|            2999.8|
| stddev|2290.4202671125668|  null|1732.4838238783068|
|    min|                  |     F|                -1|
|    max|             42114|     M|              4000|
+-------+------------------+------+------------------+

运算

val df2 = df.withColumn("f_diff", (col("dob") - col("salary"))/col("salary"))
    .withColumn("f_round", round(col("f_diff"),2))
    .withColumn("f_pow", pow(col("salary"), 2))
df2.show()

+--------------------+-----+------+------+------+-------+---------+
|                name|  dob|gender|salary|f_diff|f_round|    f_pow|
+--------------------+-----+------+------+------+-------+---------+
|   [James , , Smith]|36636|     M|  3000|11.212|  11.21|9000000.0|
|  [Michael , Rose, ]|40288|     M|  4000| 9.072|   9.07|    1.6E7|
|[Robert , , Willi...|42114|     M|  4000|9.5285|   9.53|    1.6E7|
|[Maria , Anne, Jo...|39192|     F|  4000| 8.798|    8.8|    1.6E7|
|  [Jen, Mary, Brown]|     |     F|    -1|  null|   null|      1.0|
+--------------------+-----+------+------+------+-------+---------+
// 计算两列的协方差
df2.select(corr("salary","f_pow")).show()
+-------------------+
|corr(salary, f_pow)|
+-------------------+
| 0.9817491111765669|
+-------------------+

统计

StatFunctions 程序包中提供了许多统计功能，可以通过 df.stat 访问。

// 交叉表
df.stat.crosstab("gender", "salary").show()
+-------------+---+----+----+
|gender_salary| -1|3000|4000|
+-------------+---+----+----+
|            M|  0|   1|   2|
|            F|  1|   0|   1|
+-------------+---+----+----+
// 频次最高的值
df.stat.freqItems(Seq("gender", "salary")).show()
+----------------+----------------+
|gender_freqItems|salary_freqItems|
+----------------+----------------+
|          [M, F]|[3000, 4000, -1]|
+----------------+----------------+

自增 ID

monotonically_increasing_id 生成一个单调递增并且是唯一的 ID。

df.withColumn("f_id", monotonically_increasing_id()).show()

字符串类型

截取

// 语法：pos 从 1 开始
substring(str: Column, pos: Int, len: Int)
// 示例
df.withColumn("f_substring", substring(col("dob"), 2, 3)).show()
+--------------------+-----+------+------+-----------+
|                name|  dob|gender|salary|f_substring|
+--------------------+-----+------+------+-----------+
|   [James , , Smith]|36636|     M|  3000|        663|
|  [Michael , Rose, ]|40288|     M|  4000|        028|
|[Robert , , Willi...|42114|     M|  4000|        211|
|[Maria , Anne, Jo...|39192|     F|  4000|        919|
|  [Jen, Mary, Brown]|     |     F|    -1|           |
+--------------------+-----+------+------+-----------+

拆分

// 语法：pattern 是一个正则表达式，返回一个 Array
split(str: Column, pattern: String)
// 示例
df.withColumn("f_split", split(col("dob"), "6")).show()
+--------------------+-----+------+------+----------+
|                name|  dob|gender|salary|   f_split|
+--------------------+-----+------+------+----------+
|   [James , , Smith]|36636|     M|  3000|[3, , 3, ]|
|  [Michael , Rose, ]|40288|     M|  4000|   [40288]|
|[Robert , , Willi...|42114|     M|  4000|   [42114]|
|[Maria , Anne, Jo...|39192|     F|  4000|   [39192]|
|  [Jen, Mary, Brown]|     |     F|    -1|        []|
+--------------------+-----+------+------+----------+

拼接

// 语法
concat(exprs: Column*)
concat_ws(sep: String, exprs: Column*)
// 示例，第二个参数是变长参数，可以接收一个 array() 或者多个 Column
df.withColumn("f_concat", concat(col("gender"), lit("-"), col("dob")))
  .withColumn("f_concat_ws1", concat_ws("~", col("gender"), col("dob")))
  .withColumn("f_concat_ws2", concat_ws("~", array(col("gender"), col("dob"))))
  .show()
+--------------------+-----+------+------+--------+------------+------------+
|                name|  dob|gender|salary|f_concat|f_concat_ws1|f_concat_ws2|
+--------------------+-----+------+------+--------+------------+------------+
|   [James , , Smith]|36636|     M|  3000| M-36636|     M~36636|     M~36636|
|  [Michael , Rose, ]|40288|     M|  4000| M-40288|     M~40288|     M~40288|
|[Robert , , Willi...|42114|     M|  4000| M-42114|     M~42114|     M~42114|
|[Maria , Anne, Jo...|39192|     F|  4000| F-39192|     F~39192|     F~39192|
|  [Jen, Mary, Brown]|     |     F|    -1|      F-|          F~|          F~|
+--------------------+-----+------+------+--------+------------+------------+

增删两侧

// 语法
trim(e: Column)
trim(e: Column, trimString: String)
// 示例
df.select(
    ltrim(lit("  HELLO  ")).as("f_ltrim"),
    rtrim(lit("  HELLO  ")).as("f_rtrim"),
    trim(lit("---HELLO+++"), "+").as("f_trim"),
    lpad(lit("HELLO"), 10, "+").as("f_lpad"),
    rpad(lit("HELLO"), 10, "+").as("f_rpad")
).show(1)
+-------+-------+--------+----------+----------+
|f_ltrim|f_rtrim|  f_trim|    f_lpad|    f_rpad|
+-------+-------+--------+----------+----------+
|HELLO  |  HELLO|---HELLO|+++++HELLO|HELLO+++++|
+-------+-------+--------+----------+----------+

字符替换

df.withColumn("f_translate", translate(col("dob"), "36", "+-")).show()
+--------------------+-----+------+------+-----------+
|                name|  dob|gender|salary|f_translate|
+--------------------+-----+------+------+-----------+
|   [James , , Smith]|36636|     M|  3000|      +--+-|
|  [Michael , Rose, ]|40288|     M|  4000|      40288|
|[Robert , , Willi...|42114|     M|  4000|      42114|
|[Maria , Anne, Jo...|39192|     F|  4000|      +9192|
|  [Jen, Mary, Brown]|     |     F|    -1|           |
+--------------------+-----+------+------+-----------+

子串查询

// 语法，other 可以是 Column 对象，将逐行判断
contains(other: Any)
// 示例
df.withColumn("f_contain", col("dob").contains(66)).show()
+--------------------+-----+------+------+---------+
|                name|  dob|gender|salary|f_contain|
+--------------------+-----+------+------+---------+
|   [James , , Smith]|36636|     M|  3000|     true|
|  [Michael , Rose, ]|40288|     M|  4000|    false|
|[Robert , , Willi...|42114|     M|  4000|    false|
|[Maria , Anne, Jo...|39192|     F|  4000|    false|
|  [Jen, Mary, Brown]|     |     F|    -1|    false|
+--------------------+-----+------+------+---------+

正则替换

正则详细规则参见这里。

// 语法
regexp_replace(e: Column, pattern: String, replacement: String)
regexp_replace(e: Column, pattern: Column, replacement: Column)
// 示例
df.withColumn("f_regex_replace", regexp_replace(col("dob"), "6|3", "+")).show()
+--------------------+-----+------+------+---------------+
|                name|  dob|gender|salary|f_regex_replace|
+--------------------+-----+------+------+---------------+
|   [James , , Smith]|36636|     M|  3000|          +++++|
|  [Michael , Rose, ]|40288|     M|  4000|          40288|
|[Robert , , Willi...|42114|     M|  4000|          42114|
|[Maria , Anne, Jo...|39192|     F|  4000|          +9192|
|  [Jen, Mary, Brown]|     |     F|    -1|               |
+--------------------+-----+------+------+---------------+

正则抽取

// 语法
regexp_extract(e: Column, exp: String, groupIdx: Int)
// 示例：重复连续出现两次的子串，(\\d) 作为编号为 1 的分组，整体正则串默认标号为0，\\1 使用分组 1 的内容
df.withColumn("f_regex_extract", regexp_extract(col("dob"), "(\\d)\\1{1}", 0)).show()
+--------------------+-----+------+------+---------------+
|                name|  dob|gender|salary|f_regex_extract|
+--------------------+-----+------+------+---------------+
|   [James , , Smith]|36636|     M|  3000|             66|
|  [Michael , Rose, ]|40288|     M|  4000|             88|
|[Robert , , Willi...|42114|     M|  4000|             11|
|[Maria , Anne, Jo...|39192|     F|  4000|               |
|  [Jen, Mary, Brown]|     |     F|    -1|               |
+--------------------+-----+------+------+---------------+

日期类型

在 Spark 中，有四种日期相关的数据类型：

DateType：日期，专注于日历日期；
TimestampType：时间戳，包括日期和时间信息，仅支持秒级精度，如果要使用毫秒或微秒则需要进行额外处理；
StringType：经常将日期和时间戳存储为字符串，并在其运行时转换为日期类型；
LongType：Long 型时间戳，注意当通过 Spark SQL 内置函数返回整型时间戳时单位为秒；

本部分只介绍 Spark 内置的日期处理工具，更复杂的操作可以借助 java.text.SimpleDateFormat 和 java.util.{Calendar, Date} 使用 UDF 来解决。

日期获取

获取当前日期

val df = spark.range(3)
    .withColumn("date", current_date())
    .withColumn("timestamp", current_timestamp())
    .withColumn("dateStr",lit("2020-11-07"))
    .withColumn("timestampLong", unix_timestamp())
df.show(false)
df.printSchema
+---+----------+-----------------------+----------+-------------+
|id |date      |timestamp              |dateStr   |timestampLong|
+---+----------+-----------------------+----------+-------------+
|0  |2020-11-07|2020-11-07 18:55:38.947|2020-11-07|1604746538   |
|1  |2020-11-07|2020-11-07 18:55:38.947|2020-11-07|1604746538   |
|2  |2020-11-07|2020-11-07 18:55:38.947|2020-11-07|1604746538   |
+---+----------+-----------------------+----------+-------------+

root
 |-- id: long (nullable = false)
 |-- date: date (nullable = false)
 |-- timestamp: timestamp (nullable = false)
 |-- dateStr: string (nullable = false)
 |-- timestampLong: long (nullable = true)

从日期中提取字段

val tmp = spark.range(1).select(lit("2020-11-07 19:45:12").as("date"))
    .withColumn("year", year(col("date")))
    .withColumn("month", month(col("date")))
    .withColumn("day", dayofmonth(col("date")))
    .withColumn("hour", hour(col("date")))
    .withColumn("minute", minute(col("date")))
    .withColumn("second", second(col("date")))
tmp.show(1)
tmp.printSchema
+-------------------+----+-----+---+----+------+------+
|               date|year|month|day|hour|minute|second|
+-------------------+----+-----+---+----+------+------+
|2020-11-07 19:45:12|2020|   11|  7|  19|    45|    12|
+-------------------+----+-----+---+----+------+------+

root
 |-- date: string (nullable = false)
 |-- year: integer (nullable = true)
 |-- month: integer (nullable = true)
 |-- day: integer (nullable = true)
 |-- hour: integer (nullable = true)
 |-- minute: integer (nullable = true)
 |-- second: integer (nullable = true)

获取特殊日期

val tmp = spark.range(1).select(lit("2020-11-07 19:45:12").as("date"))
    .withColumn("dayofyear", dayofyear(col("date")))
    .withColumn("dayofmonth", dayofmonth(col("date")))
    .withColumn("dayofweek", dayofweek(col("date")))
    .withColumn("weekofyear", weekofyear(col("date")))
    // date_sub 第二个参数不支持 Column 只能用表达式，解决此问题更好的方式是使用 next_day
    .withColumn("monday_expr", expr("date_sub(date, (dayofweek(date) -2) % 7)"))
    // next_day 获取相对指定日期下一周某天的日期，dayOfWeek 参数对大小写不敏感，而且接受以下简写
    // "Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"
    .withColumn("monday", date_sub(next_day(col("date"), "monday"), 7))
    // trunc截取某部分的日期，其他部分默认为01
    .withColumn("trunc", trunc(col("date"), "MONTH"))
tmp.show(1)
tmp.printSchema
+-------------------+---------+----------+---------+----------+-----------+----------+----------+
|               date|dayofyear|dayofmonth|dayofweek|weekofyear|monday_expr|    monday|     trunc|
+-------------------+---------+----------+---------+----------+-----------+----------+----------+
|2020-11-07 19:45:12|      312|         7|        7|        45| 2020-11-02|2020-11-02|2020-11-01|
+-------------------+---------+----------+---------+----------+-----------+----------+----------+

root
 |-- date: string (nullable = false)
 |-- dayofyear: integer (nullable = true)
 |-- dayofmonth: integer (nullable = true)
 |-- dayofweek: integer (nullable = true)
 |-- weekofyear: integer (nullable = true)
 |-- monday_expr: date (nullable = true)
 |-- monday: date (nullable = true)
 |-- trunc: date (nullable = true)

类型转换

日期相关的四种数据类型之间的转换方法如下图所示，其中，格式串遵守 Java SimpleDateFormat 标准。

Long & String

from_unixtime 函数可以将 Long 型时间戳转化为 String 类型的日期，unix_timestamp 函数可以将 String 类型的日期转化为 Long 型时间戳。

语法：

// 默认返回当前秒级时间戳，在同一个查询中对 unix_timestamp 的所有调用都会返回相同值，unix_timestamp 会在查询开始时进行计算
unix_timestamp()
// 将 yyyy-MM-dd HH:mm:ss 格式的时间字符串转化为秒级时间戳，如果失败则会返回 null
unix_timestamp(s: Column)
// 按照指定格式将时间字符串转化为秒级时间戳，格式串可参考 http://docs.oracle.com/javase/tutorial/i18n/format/simpleDateFormat.html
unix_timestamp(s: Column, p: String)

// 将秒级时间戳转化为 yyyy-MM-dd HH:mm:ss 格式的时间字符串
from_unixtime(ut: Column)
// 按指定格式将秒级时间戳转化为时间字符串
from_unixtime(ut: Column, f: String)

示例：

val tmp = df.withColumn("long_string", from_unixtime(col("timestampLong")))
    .withColumn("long_string2", from_unixtime(col("timestampLong"), "yyyyMMdd"))
    .withColumn("string_long", unix_timestamp(col("dateStr"), "yyyy-MM-dd"))
    .withColumn("date_long", unix_timestamp(col("date"), "yyyy-MM-dd"))
tmp.show()
tmp.printSchema
+---+----------+--------------------+----------+-------------+-------------------+------------+-----------+----------+
| id|      date|           timestamp|   dateStr|timestampLong|        long_string|long_string2|string_long| date_long|
+---+----------+--------------------+----------+-------------+-------------------+------------+-----------+----------+
|  0|2020-11-07|2020-11-07 19:10:...|2020-11-07|   1604747436|2020-11-07 19:10:36|    20201107| 1604678400|1604678400|
|  1|2020-11-07|2020-11-07 19:10:...|2020-11-07|   1604747436|2020-11-07 19:10:36|    20201107| 1604678400|1604678400|
|  2|2020-11-07|2020-11-07 19:10:...|2020-11-07|   1604747436|2020-11-07 19:10:36|    20201107| 1604678400|1604678400|
+---+----------+--------------------+----------+-------------+-------------------+------------+-----------+----------+

root
 |-- id: long (nullable = false)
 |-- date: date (nullable = false)
 |-- timestamp: timestamp (nullable = false)
 |-- dateStr: string (nullable = false)
 |-- timestampLong: long (nullable = true)
 |-- long_string: string (nullable = true)
 |-- long_string2: string (nullable = true)
 |-- string_long: long (nullable = true)
 |-- date_long: long (nullable = true)

String & Date

to_date 函数可以将时间字符串转化为 date 类型，如果不指定具体的格式串，则等价于 cast("date")；date_format 函数可以将 date/timestamp/string 类型的日期时间转化为指定格式的时间字符串，如果只是希望将他们按原样转化为字符串，也可直接通过 cast("string") 来实现。

语法：

// 等价于 col(e: Column).cast("date")
to_date(e: Column)
// 按照指定格式将时间字符串转化为date
to_date(e: Column, fmt: String)

// 将 date/timestamp/string 按照指定格式转化为时间字符串
date_format(dateExpr: Column, format: String)

示例：

val tmp = df.withColumn("date_string", date_format(col("date"), "yyyyMMdd"))
    .withColumn("string_date", to_date(col("dateStr"), "yyyy-MM-dd"))
tmp.show()
tmp.printSchema

+---+----------+--------------------+----------+-------------+-----------+-----------+
| id|      date|           timestamp|   dateStr|timestampLong|date_string|string_date|
+---+----------+--------------------+----------+-------------+-----------+-----------+
|  0|2020-11-07|2020-11-07 19:15:...|2020-11-07|   1604747711|   20201107| 2020-11-07|
|  1|2020-11-07|2020-11-07 19:15:...|2020-11-07|   1604747711|   20201107| 2020-11-07|
|  2|2020-11-07|2020-11-07 19:15:...|2020-11-07|   1604747711|   20201107| 2020-11-07|
+---+----------+--------------------+----------+-------------+-----------+-----------+

root
 |-- id: long (nullable = false)
 |-- date: date (nullable = false)
 |-- timestamp: timestamp (nullable = false)
 |-- dateStr: string (nullable = false)
 |-- timestampLong: long (nullable = true)
 |-- date_string: string (nullable = false)
 |-- string_date: date (nullable = true)

String & Timestamp

和 string & date 之间的转换基本一致，不再赘述，这里只通过几个示例来做说明：

val tmp = df.withColumn("timestamp_string", date_format(col("timestamp"), "yyyyMMdd"))
    .withColumn("string_timestamp", to_timestamp(col("dateStr"), "yyyy-MM-dd"))
tmp.show()
tmp.printSchema
+---+----------+--------------------+----------+-------------+----------------+-------------------+
| id|      date|           timestamp|   dateStr|timestampLong|timestamp_string|   string_timestamp|
+---+----------+--------------------+----------+-------------+----------------+-------------------+
|  0|2020-11-07|2020-11-07 19:24:...|2020-11-07|   1604748297|        20201107|2020-11-07 00:00:00|
|  1|2020-11-07|2020-11-07 19:24:...|2020-11-07|   1604748297|        20201107|2020-11-07 00:00:00|
|  2|2020-11-07|2020-11-07 19:24:...|2020-11-07|   1604748297|        20201107|2020-11-07 00:00:00|
+---+----------+--------------------+----------+-------------+----------------+-------------------+

root
 |-- id: long (nullable = false)
 |-- date: date (nullable = false)
 |-- timestamp: timestamp (nullable = false)
 |-- dateStr: string (nullable = false)
 |-- timestampLong: long (nullable = true)
 |-- timestamp_string: string (nullable = false)
 |-- string_timestamp: timestamp (nullable = true)

Date & Timestamp

date & timestamp 之间的转换直接通过 cast 即可实现，无需赘言：

val tmp = df.withColumn("timestamp_date", col("timestamp").cast("date"))
    .withColumn("date_timestamp", col("date").cast("timestamp"))
tmp.show()
tmp.printSchema
+---+----------+--------------------+----------+-------------+--------------+-------------------+
| id|      date|           timestamp|   dateStr|timestampLong|timestamp_date|     date_timestamp|
+---+----------+--------------------+----------+-------------+--------------+-------------------+
|  0|2020-11-07|2020-11-07 19:27:...|2020-11-07|   1604748466|    2020-11-07|2020-11-07 00:00:00|
|  1|2020-11-07|2020-11-07 19:27:...|2020-11-07|   1604748466|    2020-11-07|2020-11-07 00:00:00|
|  2|2020-11-07|2020-11-07 19:27:...|2020-11-07|   1604748466|    2020-11-07|2020-11-07 00:00:00|
+---+----------+--------------------+----------+-------------+--------------+-------------------+

root
 |-- id: long (nullable = false)
 |-- date: date (nullable = false)
 |-- timestamp: timestamp (nullable = false)
 |-- dateStr: string (nullable = false)
 |-- timestampLong: long (nullable = true)
 |-- timestamp_date: date (nullable = false)
 |-- date_timestamp: timestamp (nullable = false)

日期运算

用到的时候搜索 API 即可，这里还是有必要列出最常用到的：

日期 ± 天数

// 原型，start 必须是date或者可以隐式地通过 cast("date") 转化为 date (timestamp 或 yyyy-MM-dd HH:ss 格式的字符串)
// 奇怪的是 days 是 int 类型，而不是 Column，导致days 参数不能传入另一列，但是 SQL 表达式可以
date_add(start: Column, days: Int)
date_sub(start: Column, days: Int)
// 示例
val tmp = df
    .withColumn("n", lit(1))
    .withColumn("date_add", date_add(col("date"), 2))
    .withColumn("timestamp_add", date_add(col("timestamp"), 2))
    .withColumn("string_add", date_add(col("dateStr"), 2))
//     .withColumn("string_sub", date_sub(col("dateStr"), col("n")))
    .withColumn("string_sub", expr("date_sub(dateStr, n)"))
tmp.show()
tmp.printSchema
+---+----------+--------------------+----------+-------------+---+----------+-------------+----------+----------+
| id|      date|           timestamp|   dateStr|timestampLong|  n|  date_add|timestamp_add|string_add|string_sub|
+---+----------+--------------------+----------+-------------+---+----------+-------------+----------+----------+
|  0|2020-11-07|2020-11-07 20:14:...|2020-11-07|   1604751268|  1|2020-11-09|   2020-11-09|2020-11-09|2020-11-06|
|  1|2020-11-07|2020-11-07 20:14:...|2020-11-07|   1604751268|  1|2020-11-09|   2020-11-09|2020-11-09|2020-11-06|
|  2|2020-11-07|2020-11-07 20:14:...|2020-11-07|   1604751268|  1|2020-11-09|   2020-11-09|2020-11-09|2020-11-06|
+---+----------+--------------------+----------+-------------+---+----------+-------------+----------+----------+

root
 |-- id: long (nullable = false)
 |-- date: date (nullable = false)
 |-- timestamp: timestamp (nullable = false)
 |-- dateStr: string (nullable = false)
 |-- timestampLong: long (nullable = true)
 |-- n: integer (nullable = false)
 |-- date_add: date (nullable = false)
 |-- timestamp_add: date (nullable = false)
 |-- string_add: date (nullable = true)
 |-- string_sub: date (nullable = true)

日期 - 日期

// 返回 end - start 的天数
datediff(end: Column, start: Column)

val tmp = df.withColumn("date_diff", datediff(col("date"), lit("2020-11-01")))
tmp.show()
tmp.printSchema
+---+----------+--------------------+----------+-------------+---------+
| id|      date|           timestamp|   dateStr|timestampLong|date_diff|
+---+----------+--------------------+----------+-------------+---------+
|  0|2020-11-07|2020-11-07 19:39:...|2020-11-07|   1604749181|        6|
|  1|2020-11-07|2020-11-07 19:39:...|2020-11-07|   1604749181|        6|
|  2|2020-11-07|2020-11-07 19:39:...|2020-11-07|   1604749181|        6|
+---+----------+--------------------+----------+-------------+---------+

root
 |-- id: long (nullable = false)
 |-- date: date (nullable = false)
 |-- timestamp: timestamp (nullable = false)
 |-- dateStr: string (nullable = false)
 |-- timestampLong: long (nullable = true)
 |-- date_diff: integer (nullable = true)

月份运算

val tmp = df.withColumn("month_diff", months_between(col("date"), lit("2020-09-01")))
    .withColumn("add_months", add_months(col("date"), 1))
tmp.show()
tmp.printSchema
+---+----------+--------------------+----------+-------------+----------+----------+
| id|      date|           timestamp|   dateStr|timestampLong|month_diff|add_months|
+---+----------+--------------------+----------+-------------+----------+----------+
|  0|2020-11-07|2020-11-07 19:41:...|2020-11-07|   1604749312|2.19354839|2020-12-07|
|  1|2020-11-07|2020-11-07 19:41:...|2020-11-07|   1604749312|2.19354839|2020-12-07|
|  2|2020-11-07|2020-11-07 19:41:...|2020-11-07|   1604749312|2.19354839|2020-12-07|
+---+----------+--------------------+----------+-------------+----------+----------+

root
 |-- id: long (nullable = false)
 |-- date: date (nullable = false)
 |-- timestamp: timestamp (nullable = false)
 |-- dateStr: string (nullable = false)
 |-- timestampLong: long (nullable = true)
 |-- month_diff: double (nullable = true)
 |-- add_months: date (nullable = false)

处理空值

最佳实践是，你应该始终使用 null 来表示 DataFrame 中缺失或为空的数据，与使用空字符串或其他值相比，Spark 可以优化使用 null 的工作。对于空值的处理，要么删除要么填充，与 null 交互的主要方式是在 DataFrame 上调用 .na 子包。

填充空值

ifnull(expr1, expr2)：默认返回 expr1，如果 expr1 值为 null 则返回 expr2；只用于 SQL 表达式；nullif(expr1, expr2)：如果条件为真则返回 null，否则返回 expr1；只用于 SQL 表达式；nvl(expr1, expr2)：同 ifnull；nvl2(expr1, expr2, expr3)：如果 expr1 为 null 则返回 expr2，否则返回 expr3；

df.createOrReplaceTempView("df")
spark.sql("""
select
ifnull(null, 'return_value') as a,
nullif('value', 'value') as b,
nvl(null, 'return_value') as c,
nvl2('not_null', 'return_value', 'else_value') as d
from df limit 1
""").show()
+------------+----+------------+------------+
|           a|   b|           c|           d|
+------------+----+------------+------------+
|return_value|null|return_value|return_value|
+------------+----+------------+------------+

coalesce(e: Column*)：从左向右，返回第一个不为 null 的值；

df.select(coalesce(lit(null), lit(null), lit(1)).as("coalesce")).show(1)
+--------+
|coalesce|
+--------+
|       1|
+--------+

na.fill：用法比较灵活：只有 value 的类型和所在列的原有类型可隐式转换时才会填充
- 如果对所有列都用相同的值填充空值，可以用 df.na.fill(value)；
- 如果对几个列都用相同的值填充空值，可以用 df.na.fill(value, Seq(cols_name*))；
- 如果对几个列分别用不同的值填充空值，可以用 df.na.fill(Map(col->value))

val df = spark.range(1).select(
    lit(null).cast("string").as("f_string1"),
    lit("x").cast("string").as("f_string2"),
    lit(null).cast("int").as("f_int"),
    lit(null).cast("double").as("f_double"),
    lit(null).cast("boolean").as("f_bool")
)

df.show()
df.printSchema
+---------+---------+-----+--------+------+
|f_string1|f_string2|f_int|f_double|f_bool|
+---------+---------+-----+--------+------+
|     null|        x| null|    null|  null|
+---------+---------+-----+--------+------+

root
 |-- f_string1: string (nullable = true)
 |-- f_string2: string (nullable = false)
 |-- f_int: integer (nullable = true)
 |-- f_double: double (nullable = true)
 |-- f_bool: boolean (nullable = true)

df.na.fill(1).show()
+---------+---------+-----+--------+------+
|f_string1|f_string2|f_int|f_double|f_bool|
+---------+---------+-----+--------+------+
|     null|        x|    1|     1.0|  null|
+---------+---------+-----+--------+------+

df.na.fill(1, Seq("f_int")).show()
+---------+---------+-----+--------+------+
|f_string1|f_string2|f_int|f_double|f_bool|
+---------+---------+-----+--------+------+
|     null|        x|    1|    null|  null|
+---------+---------+-----+--------+------+

df.na.fill(Map("f_int"->1, "f_string1"->"")).show()
+---------+---------+-----+--------+------+
|f_string1|f_string2|f_int|f_double|f_bool|
+---------+---------+-----+--------+------+
|         |        x|    1|    null|  null|
+---------+---------+-----+--------+------+

删除空值

删除空值可以分为以下几种情况：

删除某列为空的行：直接通过 .where("col is not null") 即可完成；
删除包含空值的行：na.drop();
删除所有列均为空的行：na.drop("all") 仅当改行所有列均为 null 或 NaN 时，才会删除；

df.na.drop().show()
+---------+---------+-----+--------+------+
|f_string1|f_string2|f_int|f_double|f_bool|
+---------+---------+-----+--------+------+
+---------+---------+-----+--------+------+

df.na.drop("all").show()
+---------+---------+-----+--------+------+
|f_string1|f_string2|f_int|f_double|f_bool|
+---------+---------+-----+--------+------+
|     null|        x| null|    null|  null|
+---------+---------+-----+--------+------+

处理复杂类型

复杂类型可以帮助你以对问题更有意义的方式组织和构造数据，Spark SQL 中复杂类型共有三种：

id	Data Type	Scala Type	API to create a data Type
1	StructType	org.apache.spark.sql.Row	tructType( fields: Array[StructField])
2	ArrayType	scala.collection.Seq	ArrayType( elementType, [containsNull])
3	MapType	scala.collection.Map	MapType( keyType, valueType, [valueContainsNull])

示例数据：创建 DataFrame 时，显式定义 struct/array/map 类型

val data = Seq(
      Row("M", 3000, Row("James ","","Smith"), Seq(1,2), Map("1"->"a", "11"->"aa")),
      Row("M", 4000, Row("Michael ","Rose",""), Seq(3,2), Map("2"->"b", "22"->"bb")),
      Row("M", 4000, Row("Robert ","","Williams"), Seq(1,2), Map("3"->"c", "33"->"cc")),
      Row("F", 4000, Row("Maria ","Anne","Jones"), Seq(3,3), Map("4"->"d", "44"->"dd")),
      Row("F", -1, Row("Jen","Mary","Brown"), Seq(5,2), Map("5"->"e"))
    )

val schema = new StructType()
      .add("gender",StringType)
      .add("salary",IntegerType)
      .add("f_struct",
        new StructType()
          .add("firstname",StringType)
          .add("middlename",StringType)
          .add("lastname",StringType)
      )  
      .add("f_array", ArrayType(IntegerType))
      .add("f_map", MapType(StringType, StringType))

val df = spark.createDataFrame(spark.sparkContext.parallelize(data),schema)
df.show()
df.printSchema
+------+------+--------------------+-------+------------------+
|gender|salary|            f_struct|f_array|             f_map|
+------+------+--------------------+-------+------------------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|
+------+------+--------------------+-------+------------------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

StructType

可以将 struct 视为 DataFrame 中的 DataFrame，struct 是一个拥有命名子域的结构体。

基于现有列生成 struct: 在 Column 对象上使用 struct 函数，或者在表达式中使用一对括号

df.select(struct(col("gender"), col("salary")), expr("(gender, salary)")).show()
+--------------------------------------------+--------------------------------------------+
|named_struct(gender, gender, salary, salary)|named_struct(gender, gender, salary, salary)|
+--------------------------------------------+--------------------------------------------+
|                                   [M, 3000]|                                   [M, 3000]|
|                                   [M, 4000]|                                   [M, 4000]|
|                                   [M, 4000]|                                   [M, 4000]|
|                                   [F, 4000]|                                   [F, 4000]|
|                                     [F, -1]|                                     [F, -1]|
+--------------------------------------------+--------------------------------------------+

提取 struct 中的值：点操作会直接提取子域的值，列名为子域名，特别的，.* 可以提取 struct 中所有的子域；getField 方法也可以提取子域的值，但列名为完整带点号的名称

df.select(coldf.select(col("f_struct.firstname"), expr("f_struct.firstname"), col("f_struct").getField("firstname"), col("f_struct.*")).show()
+---------+---------+------------------+---------+----------+--------+
|firstname|firstname|f_struct.firstname|firstname|middlename|lastname|
+---------+---------+------------------+---------+----------+--------+
|   James |   James |            James |   James |          |   Smith|
| Michael | Michael |          Michael | Michael |      Rose|        |
|  Robert |  Robert |           Robert |  Robert |          |Williams|
|   Maria |   Maria |            Maria |   Maria |      Anne|   Jones|
|      Jen|      Jen|               Jen|      Jen|      Mary|   Brown|
+---------+---------+------------------+---------+----------+--------+

ArrayType

基于现有列生成 array：列对象和表达式用法相同，都是在多列外使用 array 函数；split、collect_list 等函数也会返回 array；

df.select(array(col("gender"), col("salary")), expr("array(gender, salary)")).show()
+---------------------+-------------------------------------+
|array(gender, salary)|array(gender, CAST(salary AS STRING))|
+---------------------+-------------------------------------+
|            [M, 3000]|                            [M, 3000]|
|            [M, 4000]|                            [M, 4000]|
|            [M, 4000]|                            [M, 4000]|
|            [F, 4000]|                            [F, 4000]|
|              [F, -1]|                              [F, -1]|
+---------------------+-------------------------------------+

df.groupBy().agg(collect_list(col("gender")).as("collect_list")).show()
+---------------+
|   collect_list|
+---------------+
|[M, M, M, F, F]|
+---------------+

提取 array 中的元素：通过 [index] 按索引提取数组中的值；

df.select(col("f_array").getItem(0), expr("f_array[0]")).show()
+----------+----------+
|f_array[0]|f_array[0]|
+----------+----------+
|         1|         1|
|         3|         3|
|         1|         1|
|         3|         3|
|         5|         5|
+----------+----------+

处理 array 的函数：参考 org.apache.spark.functions

df.select(
    size(col("f_array")).as("f_array_size"),
    array_contains(col("f_array"), 1).as("f_array_contain"),
    array_max(col("f_array")).as("f_array_max"),
    array_distinct(col("f_array")).as("f_array_distinct"),
    array_position(col("f_array"), 3).as("f_array_pos"),
    array_sort(col("f_array")).as("f_array_sort"),
    array_remove(col("f_array"), 2).as("f_array_remove")
).show()
+------------+---------------+-----------+----------------+-----------+------------+--------------+
|f_array_size|f_array_contain|f_array_max|f_array_distinct|f_array_pos|f_array_sort|f_array_remove|
+------------+---------------+-----------+----------------+-----------+------------+--------------+
|           2|           true|          2|          [1, 2]|          0|      [1, 2]|           [1]|
|           2|          false|          3|          [3, 2]|          1|      [2, 3]|           [3]|
|           2|           true|          2|          [1, 2]|          0|      [1, 2]|           [1]|
|           2|          false|          3|             [3]|          1|      [3, 3]|        [3, 3]|
|           2|          false|          5|          [5, 2]|          0|      [2, 5]|           [5]|
+------------+---------------+-----------+----------------+-----------+------------+--------------+

// explode 会将数组中的所有元素取出，为每个值创建一个行，其他字段保持原样不变，默认忽略空数组
df.withColumn("f_array_val", explode(col("f_array"))).show()
+------+------+--------------------+-------+------------------+-----------+
|gender|salary|            f_struct|f_array|             f_map|f_array_val|
+------+------+--------------------+-------+------------------+-----------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|          1|
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|          2|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|          3|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|          2|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|          1|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|          2|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|          3|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|          3|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|          5|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|          2|
+------+------+--------------------+-------+------------------+-----------+

MapType

基于现有列生成 map：Column 和表达式用法相同，map(key1, value1, key2, value2, ...)；其中，输入列必须可以被分组为 key-value 对，所有 key 列必须具有相同类型且不能为 null，value 列也必须具有相同类型（或者可以通过 cast 转化为相同类型）；

val dfmap = df.select(
    map(col("gender"), lit(1), col("salary"), lit("2")),
    expr("map(gender, 1, salary, 2)")
)
dfmap.show()
dfmap.printSchema
+-------------------------+-----------------------------------------+
|map(gender, 1, salary, 2)|map(gender, 1, CAST(salary AS STRING), 2)|
+-------------------------+-----------------------------------------+
|      [M -> 1, 3000 -> 2]|                      [M -> 1, 3000 -> 2]|
|      [M -> 1, 4000 -> 2]|                      [M -> 1, 4000 -> 2]|
|      [M -> 1, 4000 -> 2]|                      [M -> 1, 4000 -> 2]|
|      [F -> 1, 4000 -> 2]|                      [F -> 1, 4000 -> 2]|
|        [F -> 1, -1 -> 2]|                        [F -> 1, -1 -> 2]|
+-------------------------+-----------------------------------------+

root
 |-- map(gender, 1, salary, 2): map (nullable = false)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = false)
 |-- map(gender, 1, CAST(salary AS STRING), 2): map (nullable = false)
 |    |-- key: string
 |    |-- value: integer (valueContainsNull = false)

处理 map 的函数：

dfmap
    .withColumn("map_keys", map_keys(col("f_map")))
    .withColumn("map_values", map_values(col("f_map")))
    // 返回 map 中指定 key 对应的 value，如果没有找到对应的 key 则返回 null 
    .withColumn("f_value", expr("f_map['M']"))
    .show()
+-------------------+-----------------------------------------+---------+----------+-------+
|              f_map|map(gender, 1, CAST(salary AS STRING), 2)| map_keys|map_values|f_value|
+-------------------+-----------------------------------------+---------+----------+-------+
|[M -> 1, 3000 -> 2]|                      [M -> 1, 3000 -> 2]|[M, 3000]|    [1, 2]|      1|
|[M -> 1, 4000 -> 2]|                      [M -> 1, 4000 -> 2]|[M, 4000]|    [1, 2]|      1|
|[M -> 1, 4000 -> 2]|                      [M -> 1, 4000 -> 2]|[M, 4000]|    [1, 2]|      1|
|[F -> 1, 4000 -> 2]|                      [F -> 1, 4000 -> 2]|[F, 4000]|    [1, 2]|   null|
|  [F -> 1, -1 -> 2]|                        [F -> 1, -1 -> 2]|  [F, -1]|    [1, 2]|   null|
+-------------------+-----------------------------------------+---------+----------+-------+

dfmap.select(col("*"), explode(col("f_map"))).show()
+-------------------+-----------------------------------------+----+-----+
|              f_map|map(gender, 1, CAST(salary AS STRING), 2)| key|value|
+-------------------+-----------------------------------------+----+-----+
|[M -> 1, 3000 -> 2]|                      [M -> 1, 3000 -> 2]|   M|    1|
|[M -> 1, 3000 -> 2]|                      [M -> 1, 3000 -> 2]|3000|    2|
|[M -> 1, 4000 -> 2]|                      [M -> 1, 4000 -> 2]|   M|    1|
|[M -> 1, 4000 -> 2]|                      [M -> 1, 4000 -> 2]|4000|    2|
|[M -> 1, 4000 -> 2]|                      [M -> 1, 4000 -> 2]|   M|    1|
|[M -> 1, 4000 -> 2]|                      [M -> 1, 4000 -> 2]|4000|    2|
|[F -> 1, 4000 -> 2]|                      [F -> 1, 4000 -> 2]|   F|    1|
|[F -> 1, 4000 -> 2]|                      [F -> 1, 4000 -> 2]|4000|    2|
|  [F -> 1, -1 -> 2]|                        [F -> 1, -1 -> 2]|   F|    1|
|  [F -> 1, -1 -> 2]|                        [F -> 1, -1 -> 2]|  -1|    2|
+-------------------+-----------------------------------------+----+-----+

处理 JSON

Spark 对 JSON 数据提供了一些独特的支持，可以直接在 Spark 中对 JSON 字符串进行处理，并从 JSON 字符串解析或提取 JSON 对象（返回字符串）。

创建一个 JSON 列：

val df = spark.range(1).selectExpr("""
    '{"myJSONKey": {"myJSONValue": [1,2,3]}}' as f_json
""")
df.show(false)
df.printSchema

提取 JSON 字符串中的值：可以使用 get_json_object 内联查询 JSON 对象，如果只有一层嵌套，也可以使用 json_tuple

val res = df
    .withColumn("f_myJSONKey", get_json_object(col("f_json"), "$.myJSONKey"))
    .withColumn("f_myJSONKey2", json_tuple(col("f_json"), "myJSONKey"))
    .withColumn("myJSONValue", get_json_object(col("f_json"), "$.myJSONKey.myJSONValue"))
    .withColumn("f_value", get_json_object(col("f_json"), "$.myJSONKey.myJSONValue[0]"))

res.show(false)
res.printSchema

+---------------------------------------+-----------------------+-----------------------+-----------+-------+
|f_json                                 |f_myJSONKey            |f_myJSONKey2           |myJSONValue|f_value|
+---------------------------------------+-----------------------+-----------------------+-----------+-------+
|{"myJSONKey": {"myJSONValue": [1,2,3]}}|{"myJSONValue":[1,2,3]}|{"myJSONValue":[1,2,3]}|[1,2,3]    |1      |
+---------------------------------------+-----------------------+-----------------------+-----------+-------+

root
 |-- f_json: string (nullable = false)
 |-- f_myJSONKey: string (nullable = true)
 |-- f_myJSONKey2: string (nullable = true)
 |-- myJSONValue: string (nullable = true)
 |-- f_value: string (nullable = true)

将 struct/map 列转化为 json 列：to_json 函数可以将 StructType 或 MapType 列转化为 JSON 字符串；

val dfjson = df.select("f_struct", "f_map")
    .withColumn("f_struct_json", to_json(col("f_struct")))
    .withColumn("f_map_json", to_json(col("f_map")))
dfjson.show(false)
dfjson.printSchema
+---------------------+------------------+-------------------------------------------------------------+-------------------+
|f_struct             |f_map             |f_struct_json                                                |f_map_json         |
+---------------------+------------------+-------------------------------------------------------------+-------------------+
|[James , , Smith]    |[1 -> a, 11 -> aa]|{"firstname":"James ","middlename":"","lastname":"Smith"}    |{"1":"a","11":"aa"}|
|[Michael , Rose, ]   |[2 -> b, 22 -> bb]|{"firstname":"Michael ","middlename":"Rose","lastname":""}   |{"2":"b","22":"bb"}|
|[Robert , , Williams]|[3 -> c, 33 -> cc]|{"firstname":"Robert ","middlename":"","lastname":"Williams"}|{"3":"c","33":"cc"}|
|[Maria , Anne, Jones]|[4 -> d, 44 -> dd]|{"firstname":"Maria ","middlename":"Anne","lastname":"Jones"}|{"4":"d","44":"dd"}|
|[Jen, Mary, Brown]   |[5 -> e]          |{"firstname":"Jen","middlename":"Mary","lastname":"Brown"}   |{"5":"e"}          |
+---------------------+------------------+-------------------------------------------------------------+-------------------+

root
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- f_struct_json: string (nullable = true)
 |-- f_map_json: string (nullable = true)

将 json 列解析回 struct/map 列：from_json 函数可以将 json 列解析回 struct/map 列，但是要求制定一个 Schema

val structSchema = new StructType()
    .add("firstname",StringType)
    .add("middlename",StringType)
    .add("lastname",StringType)

val mapSchema = MapType(StringType, StringType)

val dffromjson = dfjson
    .withColumn("json_strcut", from_json(col("f_struct_json"), structSchema))
    .withColumn("json_map", from_json(col("f_map_json"), mapSchema))

dffromjson.show()
dffromjson.printSchema

+--------------------+------------------+--------------------+-------------------+--------------------+------------------+
|            f_struct|             f_map|       f_struct_json|         f_map_json|         json_strcut|          json_map|
+--------------------+------------------+--------------------+-------------------+--------------------+------------------+
|   [James , , Smith]|[1 -> a, 11 -> aa]|{"firstname":"Jam...|{"1":"a","11":"aa"}|   [James , , Smith]|[1 -> a, 11 -> aa]|
|  [Michael , Rose, ]|[2 -> b, 22 -> bb]|{"firstname":"Mic...|{"2":"b","22":"bb"}|  [Michael , Rose, ]|[2 -> b, 22 -> bb]|
|[Robert , , Willi...|[3 -> c, 33 -> cc]|{"firstname":"Rob...|{"3":"c","33":"cc"}|[Robert , , Willi...|[3 -> c, 33 -> cc]|
|[Maria , Anne, Jo...|[4 -> d, 44 -> dd]|{"firstname":"Mar...|{"4":"d","44":"dd"}|[Maria , Anne, Jo...|[4 -> d, 44 -> dd]|
|  [Jen, Mary, Brown]|          [5 -> e]|{"firstname":"Jen...|          {"5":"e"}|  [Jen, Mary, Brown]|          [5 -> e]|
+--------------------+------------------+--------------------+-------------------+--------------------+------------------+

root
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- f_struct_json: string (nullable = true)
 |-- f_map_json: string (nullable = true)
 |-- json_strcut: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- json_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

参考

Spark 指南：Spark SQL（一）—— 结构化对象

2020-11-04T06:16:46.000Z

SparkSession 是 Dataset 与 DataFrame API 的编程入口，从 Spark2.0 开始支持，用于统一原来的 HiveContext 和 SQLContext，统一入口提高了 Spark 的易用性，但为了兼容向后兼容，新版本仍然保留了这两个入口。下面的代码展示了如何创建一个 SparkSession：

import org.apache.spark.sql.SparkSession

val spark = SparkSession
  .builder()
  .appName("Spark SQL basic example")
  .config("spark.some.config.option", "some-value")
  .getOrCreate()

DataFrame 仅仅只是 Dataset[Row] 的一个类型别名，创建 Dataset 的方式和创建 DataFrame 基本相同。

从内置方法创建

spark.range 方法可以创建一个单列 DataFrame，其中列名为 id，列的类型为 LongType 类型，列中的值取 range 生成的值。

// 语法
range(end: Long)
range(start: Long, end: Long)
range(start: Long, end: Long, step: Long)
// 示例
val ddf = spark.range(3)
    .withColumn("today", current_date())
    .withColumn("now", current_timestamp())
ddf.show(false)
+---+----------+-----------------------+
|id |today     |now                    |
+---+----------+-----------------------+
|0  |2020-11-03|2020-11-03 21:05:26.657|
|1  |2020-11-03|2020-11-03 21:05:26.657|
|2  |2020-11-03|2020-11-03 21:05:26.657|
+---+----------+-----------------------+

从对象序列创建

spark 提供了一系列隐式转换方法，可以将指定类型的对象序列 Seq[T] 或 RDD[T] 转化为 Dataset[T] 或 DataFrame，使用前需要先导入隐式转换：

// spark 为入口 SparkSession 对象
import spark.implicits._

toDF & toDS

如果 T 是 Int、Long、String 或 T <: scala.Product(Tuple 或 case class) 类型中的一种，则可以通过 toDs() 或 toDf() 方法转化为 Dataset[T] 或 DataFrame。

toDF(): DataFrame 和 toDF(colNames: String*): DataFrame 方法提供了一种非常简洁的方式，将对象序列转化为一个 DataFrame；
- 列名：如果不提供 colNames，当结果只有一列时默认列名为 value，如果结果有多列 _1, _2,... 会作为默认列名；
- 类型：默认列类型将会通过输入数据的类型进行推断，如果要显式指定列的类型，可以通过 createDataFrame() 方法指定对应的 schema；

// 序列元素为简单类型
val seq = Seq(1,2,3)
seq.toDF().show()
+-----+
|value|
+-----+
|    1|
|    2|
|    3|
+-----+

// 序列元素为元组
val df = Seq(
    ("Arya", "Woman", 30),
    ("Bob", "Man", 28)
).toDF("name", "sex", "age")
df.show()

+----+-----+---+
|name|  sex|age|
+----+-----+---+
|Arya|Woman| 30|
| Bob|  Man| 28|
+----+-----+---+

// 序列元素为样例类，通过反射读取样例类的参数名称，并映射成column的名称
case class Person(name: String, age: Long)
val df = Seq(Person("Andy", 32)).toDF
df.show()
+----+---+
|name|age|
+----+---+
|Andy| 32|
+----+---+

// 从 RDD 创建 DataFrame，parallelize 用于将序列转化为 RDD
val rdd = spark.sparkContext.parallelize(List(1,2))
val df = rdd.map(x=>(x,x^2)).toDF("org","xor")
df.show()
+---+---+
|org|xor|
+---+---+
|  1|  3|
|  2|  0|
+---+---+

toDS(): Dataset[T] 提供了一种将指定类型的对象序列转化为 DataSet 的简易方法

// 序列元素为简单类型
val ds = Seq(1,2,3).toDS()
ds.show(false)
+-----+
|value|
+-----+
|1    |
|2    |
|3    |
+-----+

// 序列元素是元组
val ds = Seq(("Arya",20,"woman"), ("Bob",28,"man")).toDS()
ds.show(false)
+----+---+-----+
|_1  |_2 |_3   |
+----+---+-----+
|Arya|20 |woman|
|Bob |28 |man  |
+----+---+-----+

// 序列元素为样例类实例，样例类的字段会成为 DataSet 的字段
// 注意，case class 的定义要在引用 case class函数的外面，否则即使 import spark.implicits._ 也还是会报错 value toDF is not a member of ***
case class Person(name: String, age: Long, sex:String)
val ds = Seq(Person("Arya", 20, "woman"), Person("Bob", 28, "man"))
            .toDS().show()
+----+---+-----+
|name|age|  sex|
+----+---+-----+
|Arya| 20|woman|
| Bob| 28|  man|
+----+---+-----+    

// 将 RDD 转化为 DataSet
val rdd = spark.sparkContext.parallelize(Seq(("Arya",20,"woman"), ("Bob",28,"man")))
rdd.toDS().show()
+----+---+-----+
|  _1| _2|   _3|
+----+---+-----+
|Arya| 20|woman|
| Bob| 28|  man|
+----+---+-----+      

toDF 方法对 null 类型处理的不好，不建议在生产环境中使用。

createDataFrame & createDataSet

相比 toDF 和 toDS，createDataFrame 和 createDataSet 方法支持更多的数据类型，特别是 Seq[Row] 和 RDD[Row] 只能通过 create 方法来转化为 DataFrame。

createDataFrame 有多个重载方法：如果只传入数据，则数据只能是一个包含 Product 元素的序列或 RDD；如果传入 Schema，数据可以是 RDD[Row] 或 java.util.List[Row]；如果传入 beanClass，数据可以是 RDD[Java Bean] 或java.util.List[Java Bean]
- createDataFrame[A <: Product : TypeTag](data: Seq[A]): DataFrame: 通过 Product 序列创建 DataFrame，如 tuple、case class
- createDataFrame[A <: Product : TypeTag](rdd: RDD[A]): DataFrame: 通过 Product RDD 创建 DataFrame，如 tuple、case class
- createDataFrame(rows: List[Row], schema: StructType): DataFrame: 通过 java.util.List[Row] 并指定 Schema 创建 DataFrame
- createDataFrame(rowRDD: RDD[Row], schema: StructType): DataFrame: 通过 RDD[Row] 并指定 Schema 创建 DataFrame
- createDataFrame(rdd: RDD[_], beanClass: Class[_]): DataFrame: Applies a schema to an RDD of Java Beans
- createDataFrame(data: List[_], beanClass: Class[_]): DataFrame: Applies a schema to a List of Java Beans

// 只传入 Seq[Tuple]，列名为 "_1" "_2"
val dfData = Seq((1,"a"), (2, "b"))
val ds = spark.createDataFrame(dfData)
ds.show()
+---+---+
| _1| _2|
+---+---+
|  1|  a|
|  2|  b|
+---+---+

// 只传入 Seq[case class]，列名为样例类字段名
case class Person(name:String, sex:String, age:Int)
val dfData = Seq(Person("a", "b", 1))
val ds = spark.createDataFrame(dfData)
ds.show()
+----+---+---+
|name|sex|age|
+----+---+---+
|   a|  b|  1|
+----+---+---+

// 只传入 RDD[Tuple]
val dfData = spark.sparkContext.parallelize(Seq((1,"a"), (2, "b")))
val ds = spark.createDataFrame(dfData)
ds.show()
+---+---+
| _1| _2|
+---+---+
|  1|  a|
|  2|  b|
+---+---+

// 传入 schema，数据可以是 RDD[Row]
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};

val dfData = spark.sparkContext.parallelize(
    Seq(
        Row("Arya", "Woman", 30),
        Row("Bob", "Man", 28)
    )
)
val dfSchema = StructType(
    Seq(
    StructField("name", StringType, true),
    StructField("sex", StringType, true),
    StructField("age", IntegerType, true)
    )
)

val df = spark.createDataFrame(dfData, dfSchema)
df.show()
+----+-----+---+
|name|  sex|age|
+----+-----+---+
|Arya|Woman| 30|
| Bob|  Man| 28|
+----+-----+---+

// 传入 schema，数据可以是 java.util.List[Row]
val dfData = new java.util.ArrayList[Row]()
dfData.add(Row("Arya", "Woman", 30))
dfData.add(Row("Bob", "Man", 28))

val df = spark.createDataFrame(dfData, dfSchema)
df.show()
+----+-----+---+
|name|  sex|age|
+----+-----+---+
|Arya|Woman| 30|
| Bob|  Man| 28|
+----+-----+---+

// 构造复杂 Schema 时，使用实例化 StructType 对象的 add 方法更方便
val data = Seq(
      Row("M", 3000, Row("James ","","Smith"), Seq(1,2), Map("1"->"a", "11"->"aa")),
      Row("M", 4000, Row("Michael ","Rose",""), Seq(3,2), Map("2"->"b", "22"->"bb")),
      Row("M", 4000, Row("Robert ","","Williams"), Seq(1,2), Map("3"->"c", "33"->"cc")),
      Row("F", 4000, Row("Maria ","Anne","Jones"), Seq(3,3), Map("4"->"d", "44"->"dd")),
      Row("F", -1, Row("Jen","Mary","Brown"), Seq(5,2), Map("5"->"e"))
    )

val schema = new StructType()
      .add("gender",StringType)
      .add("salary",IntegerType)
      .add("f_struct",
        new StructType()
          .add("firstname",StringType)
          .add("middlename",StringType)
          .add("lastname",StringType)
      )  
      .add("f_array", ArrayType(IntegerType))
      .add("f_map", MapType(StringType, StringType))

val df = spark.createDataFrame(spark.sparkContext.parallelize(data),schema)
df.show()
df.printSchema
+------+------+--------------------+-------+------------------+
|gender|salary|            f_struct|f_array|             f_map|
+------+------+--------------------+-------+------------------+
|     M|  3000|   [James , , Smith]| [1, 2]|[1 -> a, 11 -> aa]|
|     M|  4000|  [Michael , Rose, ]| [3, 2]|[2 -> b, 22 -> bb]|
|     M|  4000|[Robert , , Willi...| [1, 2]|[3 -> c, 33 -> cc]|
|     F|  4000|[Maria , Anne, Jo...| [3, 3]|[4 -> d, 44 -> dd]|
|     F|    -1|  [Jen, Mary, Brown]| [5, 2]|          [5 -> e]|
+------+------+--------------------+-------+------------------+

root
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- f_struct: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- f_array: array (nullable = true)
 |    |-- element: integer (containsNull = true)
 |-- f_map: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

createDataSet(x) 是 x.toDS() 的等价形式：

// 序列元素为简单类型
val ds = spark.createDataset(Seq(1,2,3))
ds.show()
+-----+
|value|
+-----+
|    1|
|    2|
|    3|
+-----+
// 序列元素是元组
val ds = spark.createDataset(Seq(("Arya",20,"woman"), ("Bob",28,"man")))
ds.show()
+----+---+-----+
|  _1| _2|   _3|
+----+---+-----+
|Arya| 20|woman|
| Bob| 28|  man|
+----+---+-----+

// 序列元素为样例类实例，样例类的字段会成为 DataSet 的字段
case class Person(name: String, age: Long, sex:String)
val ds = spark.createDataset(Seq(Person("Arya", 20, "woman"), Person("Bob", 28, "man")))
ds.show()
+----+---+-----+
|name|age|  sex|
+----+---+-----+
|Arya| 20|woman|
| Bob| 28|  man|
+----+---+-----+
// 将 RDD 转化为 DataSet
val ds = spark.createDataset(spark.sparkContext.parallelize(Seq(("Arya",20,"woman"), ("Bob",28,"man"))))
ds.show()
+----+---+-----+
|  _1| _2|   _3|
+----+---+-----+
|Arya| 20|woman|
| Bob| 28|  man|
+----+---+-----+

从数据源加载

Spark 有六个核心数据源和社区编写的数百个外部数据源（Cassandra、HBase、MongoDB、XML）：

CSV
JSON
Parquet
ORC
JDBC/ODBC connections
Plain-text files 纯文本文件

API 格式

Read API

读取数据源的通用 API 结构如下：

DataFrameReader.format(...).option("key", "value").schema(...).load(path)

// 示例
spark.read.format("csv")
    .option("mode", "FAILFAST")
    .option("inferSchema", "true")
    .option("path", "path/to/file")
    .schema(someSchema)
    .load()

读取数据的基本要素：

DataFrameReader 是 DataFrame 读取器，可以通过 SparkSession 的 read 属性来使用；
format 是可选的，默认使用 Parquet 格式；
option 允许设置键值配置，以参数化如何读取数据，也可以传入一个 Map；
schema 如果数据源提供了 schema，或者你打算使用 schema 推断，则 schema 是可选的；每种格式都有一些必选项，我们将在讨论每种格式时进行详细讨论；

Read modes 用于指定当 Spark 遇到格式错误的记录时如何处理：

permissive ：默认值，遇到损坏的记录时，将所有损坏记录放在名为called_corrupt_record的字符串列中，将所有字段设置为 null；
dropMalformed ：删除包含格式错误的行；
failFast ：遇到格式错误的记录立即失败；

Write API

写入数据的通用 API 结构如下：

DataFrameWriter.format(...).option(...).partitionBy(...).bucketBy(...).sortBy(...).save()

// 示例
df.write.format("csv")
    .option("mode", "OVERWRITE")
    .option("dataFormat", "yyyy-MM-dd")
    .option("path", "path/to/file")
    .save(path)

数据写入的基本要素：

DataFrameWriter 是 DataFrame 写入器，可以通过 DataFrame 的 write 属性来使用；
format 是可选的，默认使用 Parquet 格式；
option 允许设置键值配置，以参数化如何读取数据，也可以传入一个 Map；必须至少提供一个保存路径；

Save modes 用于指定当 Spark 在指定位置找到数据将发生什么：

apppend：将输出文件追加到该位置已存在的文件列表中；
overwrite：将完全覆盖那里已经存在的任何数据；
errorIfExists：默认值，如果指定位置已经存在数据或文件，则会引发错误并导致写入失败；
ignore：如果该位置存在数据或文件，则不执行任何操作；

CSV

CSV 文件虽然看起来结构良好，但实际上是你将遇到的最棘手的文件格式之一，因为在生产方案中无法对其所包含的内容或结果进行很多假设，因此，CSV 读取器具有大量选项。

option 说明：

参数	解释
sep	默认是, 指定单个字符分割字段和值
encoding	默认是uft-8通过给定的编码类型进行解码
quote	默认是“，其中分隔符可以是值的一部分，设置用于转义带引号的值的单个字符。如果您想关闭引号，则需要设置一个空字符串，而不是null。
escape	默认(\)设置单个字符用于在引号里面转义引号
charToEscapeQuoteEscaping	默认是转义字符（上面的escape）或者\0，当转义字符和引号(quote)字符不同的时候，默认是转义字符(escape)，否则为\0
comment	默认是空值，设置用于跳过行的单个字符，以该字符开头。默认情况下，它是禁用的
header	默认是false，将第一行作为列名
enforceSchema	默认是true，如果将其设置为true，则指定或推断的模式将强制应用于数据源文件，而CSV文件中的标头将被忽略。如果选项设置为false，则在header选项设置为true的情况下，将针对CSV文件中的所有标题验证模式。模式中的字段名称和CSV标头中的列名称是根据它们的位置检查的，并考虑了*spark.sql.caseSensitive。虽然默认值为true，但是建议禁用 enforceSchema选项，以避免产生错误的结果
inferSchema	inferSchema（默认为false`）：从数据自动推断输入模式。 *需要对数据进行一次额外的传递
samplingRatio	默认为1.0,定义用于模式推断的行的分数
ignoreLeadingWhiteSpace	默认为false,一个标志，指示是否应跳过正在读取的值中的前导空格
ignoreTrailingWhiteSpace	默认为false一个标志，指示是否应跳过正在读取的值的结尾空格
nullValue	默认是空的字符串,设置null值的字符串表示形式。从2.0.1开始，这适用于所有支持的类型，包括字符串类型
emptyValue	默认是空字符串,设置一个空值的字符串表示形式
nanValue	默认是Nan,设置非数字的字符串表示形式
positiveInf	默认是Inf
negativeInf	默认是-Inf 设置负无穷值的字符串表示形式
dateFormat	默认是yyyy-MM-dd,设置指示日期格式的字符串。自定义日期格式遵循 java.text.SimpleDateFormat中的格式。这适用于日期类型
timestampFormat	默认是yyyy-MM-dd’T’HH:mm:ss.SSSXXX，设置表示时间戳格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。这适用于时间戳记类型
maxColumns	默认是20480定义多少列数目的硬性设置
maxCharsPerColumn	默认是-1定义读取的任何给定值允许的最大字符数。默认情况下为-1，表示长度不受限制
mode	默认（允许）允许一种在解析过程中处理损坏记录的模式。它支持以下不区分大小写的模式。请注意，Spark尝试在列修剪下仅解析CSV中必需的列。因此，损坏的记录可以根据所需的字段集而有所不同。可以通过spark.sql.csv.parser.columnPruning.enabled（默认启用）来控制此行为。
columnNameOfCorruptRecord	默认值指定在spark.sql.columnNameOfCorruptRecord, 允许重命名由PERMISSIVE模式创建的格式错误的新字段。这会覆盖spark.sql.columnNameOfCorruptRecord
multiLine	默认是false,解析一条记录，该记录可能跨越多行

读取 CSV 示例：

val mySchema = new StructType(
    Array(
        new StructField("a", StringType, true),
        new StructField("b", IntegerType, true),
        new StructField("c", StringType, false)
    )
)

val df = spark.read.format("csv")
    .option("header", "true")
    .option("mode", "permissive")
    .schema(mySchema)
    .load("job.csv")
df.show()
df.printSchema
+------+---+---+
|     a|  b|  c|
+------+---+---+
|caster|  0| 26|
|  like|  1| 30|
|   leo|  2| 30|
|rayray|  3| 27|
+------+---+---+

root
 |-- a: string (nullable = true)
 |-- b: integer (nullable = true)
 |-- c: string (nullable = true)

写入 CSV 示例：job2.csv 实际上是一个目录，其中包含很多文件，文件数对应分区数；

df.write.format("csv")
    .mode("overwrite")
    .option("seq", "\t")
    .save("job2.csv")

JSON

在 Spark 中，当我们谈到 JSON 文件时，指的的是 line-delimited JSON 文件，这与每个文件具有较大 JSON 对象或数组的文件形成对比。line-delimited 和 multiline 由选项 multiLine 控制，当将此选项设置为 true 时，可以将整个文件作为一个 json 对象读取。line-delimited 的 JSON 实际上是一种更加稳定的格式，它允许你将具有新记录的文件追加到文件中，这也是建议你使用的格式。

option 说明：

属性名称	默认值	含义
primitivesAsString	FALSE	将所有原始类型推断为字符串类型
prefersDecimal	FALSE	将所有浮点类型推断为 decimal 类型，如果不适合，则推断为 double 类型
allowComments	FALSE	忽略 JSON 记录中的 Java / C ++样式注释
allowUnquotedFieldNames	FALSE	允许不带引号的 JSON 字段名称
allowSingleQuotes	TRUE	除双引号外，还允许使用单引号
allowNumericLeadingZeros	FALSE	允许数字前有零
allowBackslashEscapingAnyCharacter	FALSE	允许反斜杠转义任何字符
allowUnquotedControlChars	FALSE	允许JSON字符串包含不带引号的控制字符（值小于32的ASCII字符，包括制表符和换行符）或不包含。
mode	PERMISSIVE	PERMISSIVE：允许在解析过程中处理损坏记录； DROPMALFORMED：忽略整个损坏的记录；FAILFAST：遇到损坏的记录时抛出异常。
columnNameOfCorruptRecord		columnNameOfCorruptRecord（默认值是spark.sql.columnNameOfCorruptRecord中指定的值）：允许重命名由PERMISSIVE 模式创建的新字段（存储格式错误的字符串）。这会覆盖spark.sql.columnNameOfCorruptRecord。
dateFormat		dateFormat（默认yyyy-MM-dd）：设置表示日期格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。
timestampFormat		timestampFormat（默认yyyy-MM-dd’T’HH：mm：ss.SSSXXX）：设置表示时间戳格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。
multiLine	FALSE	解析可能跨越多行的一条记录

读取 JSON 示例：

spark.read.format("json")
    .option("mode", "FAILFAST")
    .schema(mySchema)
    .load(path)

写入 JSON 示例：同样每个分区将写入一个文件，而整个 DataFrame 将作为一个文件夹写入，每行将有一个 JSON 对象

df.write.format("json").mode("overwrite").save(path)

Parquet

Parquet 是 Spark 的默认文件格式（默认数据源可以通过 spark.sql.sources.default 进行设置），Parquet 是面向列的开源数据存储，可提供各种存储优化。它提供了列压缩，从而节省了存储空间，并允许读取单个列而不是整个文件。Parquet 支持复杂类型，如果你的列是 struct、array、map 类型，仍然可以正常读写该文件。

读取 Parquet 文件：Parquet 选项很少，因为它在存储数据时会强制执行自己的 Schema，你只需要设置格式就行了

spark.read.format("parquet").load(path)

写入 Parquet 文件：只需要指定文件位置即可

df.write.format("parquet")
    .mode("overwrite")
    .save(path)

ORC

ORC 是一种专为 Hadoop workloads 设计的自我描述、有类型的列式文件格式。它针对大型数据流进行了优化，但是集成了对快速查找所需行的支持。ORC 实际上没有读取数据的选项，因为 Spark 非常了解这种文件格式，一个经常会被问到的问题是：ORC 和 Parquet 有什么区别？在大多数情况下，他们非常相似，根本的区别在于 Parquet 专门为 Spark 做了优化，而 ORC 专门为 Hive 做了优化。

读取 ORC 示例：

spark.read.format("orc").load(path)

写入 ORC 示例：

df.write.format("orc").mode("overwrite").save(path)

Hive 数据源

Spark SQL 还支持读取和写入存储在Apache Hive中的数据。但是，由于Hive具有大量依赖项，因此这些依赖项不包含在默认的Spark发布包中。如果可以在类路径上找到Hive依赖项，Spark将自动加载它们。请注意，这些Hive依赖项也必须存在于所有工作节点(worker nodes)上，因为它们需要访问Hive序列化和反序列化库（SerDes）才能访问存储在Hive中的数据。

在使用Hive时，必须实例化一个支持Hive的SparkSession，包括连接到持久性Hive Metastore，支持Hive 的序列化、反序列化（serdes）和Hive用户定义函数。没有部署Hive的用户仍可以启用Hive支持。如果未配置hive-site.xml，则上下文(context)会在当前目录中自动创建metastore_db，并且会创建一个由spark.sql.warehouse.dir配置的目录，其默认目录为spark-warehouse，位于启动Spark应用程序的当前目录中。请注意，自Spark 2.0.0以来，该在hive-site.xml中的hive.metastore.warehouse.dir属性已被标记过时(deprecated)。使用spark.sql.warehouse.dir用于指定warehouse中的默认位置。可能需要向启动Spark应用程序的用户授予写入的权限。

下面的案例为在本地运行(为了方便查看打印的结果)，运行结束之后会发现在项目的目录下 E:\IdeaProjects\myspark 创建了 spark-warehouse 和 metastore_db 的文件夹。可以看出没有部署Hive的用户仍可以启用Hive支持，同时也可以将代码打包，放在集群上运行。

object SparkHiveExample {
  case class Record(key: Int, value: String)

  def main(args: Array[String]) {
    val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", "e://warehouseLocation")
      .master("local")//设置为本地运行
      .enableHiveSupport()
      .getOrCreate()

    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
    Logger.getLogger("org.apache.hadoop").setLevel(Level.OFF)
    import spark.implicits._
    import spark.sql
    
    //使用Spark SQL 的语法创建Hive中的表
    sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive")
    sql("LOAD DATA LOCAL INPATH 'file:///e:/kv1.txt' INTO TABLE src")

    // 使用HiveQL查询
    sql("SELECT * FROM src").show()
    // +---+-------+
    // |key|  value|
    // +---+-------+
    // |238|val_238|
    // | 86| val_86|
    // |311|val_311|
    // ...

    // 支持使用聚合函数
    sql("SELECT COUNT(*) FROM src").show()
    // +--------+
    // |count(1)|
    // +--------+
    // |    500 |
    // +--------+

    // SQL查询的结果是一个DataFrame，支持使用所有的常规的函数
    val sqlDF = sql("SELECT key, value FROM src WHERE key < 10 AND key > 0 ORDER BY key")

    // DataFrames是Row类型的, 允许你按顺序访问列.
    val stringsDS = sqlDF.map {
      case Row(key: Int, value: String) => s"Key: $key, Value: $value"
    }
    stringsDS.show()
    // +--------------------+
    // |               value|
    // +--------------------+
    // |Key: 0, Value: val_0|
    // |Key: 0, Value: val_0|
    // |Key: 0, Value: val_0|
    // ...

    //可以通过SparkSession使用DataFrame创建一个临时视图
    val recordsDF = spark.createDataFrame((1 to 100).map(i => Record(i, s"val_$i")))
    recordsDF.createOrReplaceTempView("records")

    //可以用DataFrame与Hive中的表进行join查询
    sql("SELECT * FROM records r JOIN src s ON r.key = s.key").show()
    // +---+------+---+------+
    // |key| value|key| value|
    // +---+------+---+------+
    // |  2| val_2|  2| val_2|
    // |  4| val_4|  4| val_4|
    // |  5| val_5|  5| val_5|
    // ...

    //创建一个Parquet格式的hive托管表，使用的是HQL语法，没有使用Spark SQL的语法("USING hive")
    sql("CREATE TABLE IF NOT EXISTS hive_records(key int, value string) STORED AS PARQUET")

    //读取Hive中的表，转换成了DataFrame
    val df = spark.table("src")
    //将该DataFrame保存为Hive中的表，使用的模式(mode)为复写模式(Overwrite)
    //即如果保存的表已经存在，则会覆盖掉原来表中的内容
    df.write.mode(SaveMode.Overwrite).saveAsTable("hive_records")
    // 查询表中的数据
    sql("SELECT * FROM hive_records").show()
    // +---+-------+
    // |key|  value|
    // +---+-------+
    // |238|val_238|
    // | 86| val_86|
    // |311|val_311|
    // ...

    // 设置Parquet数据文件路径
    val dataDir = "/tmp/parquet_data"
    //spark.range(10)返回的是DataSet[Long]
    //将该DataSet直接写入parquet文件
    spark.range(10).write.parquet(dataDir)
    // 在Hive中创建一个Parquet格式的外部表
    sql(s"CREATE EXTERNAL TABLE IF NOT EXISTS hive_ints(key int) STORED AS PARQUET LOCATION '$dataDir'")
    // 查询上面创建的表
    sql("SELECT * FROM hive_ints").show()
    // +---+
    // |key|
    // +---+
    // |  0|
    // |  1|
    // |  2|
    // ...

    // 开启Hive动态分区
    spark.sqlContext.setConf("hive.exec.dynamic.partition", "true")
    spark.sqlContext.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
    // 使用DataFrame API创建Hive的分区表
    df.write.partitionBy("key").format("hive").saveAsTable("hive_part_tbl")

    //分区键‘key’将会在最终的schema中被移除
    sql("SELECT * FROM hive_part_tbl").show()
    // +-------+---+
    // |  value|key|
    // +-------+---+
    // |val_238|238|
    // | val_86| 86|
    // |val_311|311|
    // ...

    spark.stop()
  }
}

JDBC 数据源

Spark SQL 还包括一个可以使用 JDBC 从其他数据库读取数据的数据源。与使用 JdbcRDD 相比，应优先使用此功能。这是因为结果作为 DataFrame 返回，它们可以在 Spark SQL 中轻松处理或与其他数据源连接。JDBC 数据源也更易于使用 Java 或 Python，因为它不需要用户提供 ClassTag。

可以使用 Data Sources API 将远程数据库中的表加载为 DataFrame 或 Spark SQL 临时视图。用户可以在数据源选项中指定JDBC连接属性。user并且password通常作为用于登录数据源的连接属性提供。除连接属性外，Spark还支持以下不区分大小写的选项：

属性名称	含义
url	要连接的JDBC URL，可以再URL中指定特定于源的连接属性
dbtable	应该读取或写入的JDBC表
query	将数据读入Spark的查询语句
driver	用于连接到此URL的JDBC驱动程序的类名
numPartitions	表读取和写入中可用于并行的最大分区数，同时确定了最大并发的JDBC连接数
partitionColumn, lowerBound, upperBound	如果指定了任一选项，则必须指定全部选项。此外，还必须指定numPartitions。 partitionColumn必须是表中的数字，日期或时间戳列。注意：lowerBound和upperBound（仅用于决定分区步幅，而不是用于过滤表中的行。因此，表中的所有行都将被分区并返回，这些选项仅用于读操作。）
queryTimeout	超时时间（单位：秒），零意味着没有限制
fetchsize	用于确定每次往返要获取的行数（例如Oracle是10行），可以用于提升JDBC驱动程序的性能。此选项仅适用于读
batchsize	JDBC批处理大小，默认 1000，用于确定每次往返要插入的行数。这可以用于提升 JDBC 驱动程序的性能。此选项仅适用于写。
isolationLevel	事务隔离级别，适用于当前连接。它可以是 NONE，READ_COMMITTED， READ_UNCOMMITTED，REPEATABLE_READ 或 SERIALIZABLE 之一，对应于 JDBC的Connection 对象定义的标准事务隔离级别，默认值为 READ_UNCOMMITTED。此选项仅适用于写。
sessionInitStatement	在向远程数据库打开每个数据库会话之后，在开始读取数据之前，此选项将执行自定义SQL语句（或PL / SQL块）。使用它来实现会话初始化，例如：option(“sessionInitStatement”, “”“BEGIN execute immediate ‘alter session set “_serial_direct_read”=true’; END;”””)
truncate	当启用SaveMode.Overwrite时，此选项会导致 Spark 截断现有表，而不是删除并重新创建它。这样更高效，并且防止删除表元数据（例如，索引）。但是，在某些情况下，例如新数据具有不同的 schema 时，它将无法工作。此选项仅适用于写。
cascadeTruncate	如果JDBC数据库（目前为 PostgreSQL和Oracle）启用并支持，则此选项允许执行TRUNCATE TABLE t CASCADE（在PostgreSQL的情况下，仅执行TRUNCATE TABLE t CASCADE以防止无意中截断表）。这将影响其他表，因此应谨慎使用。此选项仅适用于写。
createTableOptions	此选项允许在创建表时设置特定于数据库的表和分区选项（例如，CREATE TABLE t (name string) ENGINE=InnoDB）。此选项仅适用于写。
createTableColumnTypes	创建表时要使用的数据库列数据类型而不是默认值。（例如：name CHAR（64），comments VARCHAR（1024））。指定的类型应该是有效的 spark sql 数据类型。此选项仅适用于写。
customSchema	用于从JDBC连接器读取数据的自定义 schema。例如，id DECIMAL(38, 0), name STRING。您还可以指定部分字段，其他字段使用默认类型映射。例如，id DECIMAL（38,0）。列名应与JDBC表的相应列名相同。用户可以指定Spark SQL的相应数据类型，而不是使用默认值。此选项仅适用于读。
pushDownPredicate	用于启用或禁用谓词下推到 JDBC数据源的选项。默认值为 true，在这种情况下，Spark会尽可能地将过滤器下推到JDBC数据源。否则，如果设置为 false，则不会将过滤器下推到JDBC数据源，此时所有过滤器都将由Spark处理。

读写 JDBC 示例：

object JdbcDatasetExample {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("JdbcDatasetExample")
      .master("local") //设置为本地运行
      .getOrCreate()
    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
    Logger.getLogger("org.apache.hadoop").setLevel(Level.OFF)
    runJdbcDatasetExample(spark)
  }

  private def runJdbcDatasetExample(spark: SparkSession): Unit = {
    //注意：从JDBC源加载数据
    val jdbcPersonDF = spark.read
      .format("jdbc")
      .option("url", "jdbc:mysql://localhost/mydb")
      .option("dbtable", "person")
      .option("user", "root")
      .option("password", "123qwe")
      .load()
    //打印jdbcDF的schema
    jdbcPersonDF.printSchema()
    //打印数据
    jdbcPersonDF.show()

    val connectionProperties = new Properties()
    connectionProperties.put("user", "root")
    connectionProperties.put("password", "123qwe")
    //通过.jdbc的方式加载数据
    val jdbcStudentDF = spark
      .read
      .jdbc("jdbc:mysql://localhost/mydb", "student", connectionProperties)
    //打印jdbcDF的schema
    jdbcStudentDF.printSchema()
    //打印数据
    jdbcStudentDF.show()
    
    // 保存数据到JDBC源
    jdbcStudentDF.write
      .format("jdbc")
      .option("url", "jdbc:mysql://localhost/mydb")
      .option("dbtable", "student2")
      .option("user", "root")
      .option("password", "123qwe")
      .mode(SaveMode.Append)
      .save()

    jdbcStudentDF
      .write
      .mode(SaveMode.Append)
      .jdbc("jdbc:mysql://localhost/mydb", "student2", connectionProperties)
  }
}

参考

Spark DataSource Option 参数
《Spark 权威指南》_online/)

Spark 指南：Spark SQL（〇）—— 结构化 API

2020-11-03T10:51:22.000Z

Spark SQL 是 Spark 用于处理结构化数据的一个模块，不同于 Spark RDD，Spark SQL 接口提供了更多关于数据的结构化信息，Spark SQL 会通过这些信息执行一些额外的优化操作。Spark SQL 提供了 SQL 和 DataSet 两种 API，二者底层使用的执行引擎相同，效率也一样，开发人员可以很容易地的在不同 API 之间切换，选择何种 API 要看哪种方式可以更自然地来表达给定的变换。

结构化 API

Spark SQL API 可以在模块 org.apache.spark.sql下查看：

常用的 API 模块：

Spark SQL 数据类型：org.apache.spark.sql.types
Spark SQL 函数：org.apache.spark.sql.functions
Spark SQL DataFrame:，Dataset 的大部分 API 同样适用于 DataFrame
Spark SQL Column:org.apache.spark.sql.Column
Spark SQL Row：org.apache.spark.sql.Row
Spark SQL Window：org.apache.spark.sql.Window

SQL

Spark SQL 的用法之一是执行 SQL 查询，它也可以从现有的 Hive 中读取数据，如果从其它编程语言内部运行 SQL，查询结果将作为一个 Dataset/DataFrame 返回。

表和视图与 DataFrame 基本相同，为我们只是针对它们执行 SQL 而不是 DataFrame 代码。

DataSet

Spark 结构化 API 可以细分为两个 API：有类型的 Dataset 和无类型的 DataFrame。说 DataFrame 是无类型的并不准确，它们具有类型，但是 Spark 会完全维护它们，并且仅在运行时检查那些类型是否与模式中指定的类型一致。而 DataSet 在编译时检查类型是否符合规范，DataSet 仅适用于基于 Java 虚拟机（JVM）的语言（Scala 和 Java）。

Dataset 是一个分布式数据集，它是 Spark 1.6 版本中新增的一个接口, 它结合了 RDD（强类型，可以使用强大的 lambda 表达式函数）和 Spark SQL 的优化执行引擎的好处。Dataset 可以从 JVM 对象构造得到，随后可以使用函数式的变换（map，flatMap，filter 等）进行操作。Dataset API 目前支持 Scala 和 Java 语言，还不支持 Python, 不过由于 Python 语言的动态性, Dataset API 的许多好处早就已经可用了，例如，你可以使用 row.columnName 来访问数据行的某个字段。
DataFrame 是按命名列方式组织的一个 Dataset。从概念上来讲，它等同于关系型数据库中的一张表或者 R 和 Python 中的一个 dataframe，只不过在底层进行了更多的优化。DataFrame 可以从很多数据源构造得到，比如：结构化的数据文件，Hive 表，外部数据库或现有的 RDD。 DataFrame API 支持 Scala, Java, Python 以及 R 语言。在 Scala 和 Java 语言中, DataFrame 由 Row 的 Dataset 来表示的。在 Scala API 中, DataFrame 仅仅只是 Dataset[Row] 的一个类型别名，而在 Java API 中, 开发人员需要使用 Dataset 来表示一个 DataFrame。

下图对比了 SQL、DataFrame 和 DataSet 三种 Spark SQL 编程方式错误检查机制：

对于 SQL 来说，编译的时候并不知道你写的对不对，只有到运行的时候才知道；
对于 DataFrame，语法错误可以在编译时发现（比如将 select 写错），但分析错误只有到运行时才能知道（比如将字段名写错）；
对于 DataSet，在编译阶段就可以发现语法和分析错误，即静态类型和运行时类型安全。

在大多数情况下，您可能会使用 DataFrame。对于 Scala-Spark，DataFrame 只是类型为 Row 的数据集，Row 类型是 Spark 内部优化表示的内部表示形式，这种格式可以进行高度专业化和高效的计算，而不是使用 JVM（可能导致高昂的垃圾处理和对象实例化成本）。对于 PySpark，一切都是 DataFrame。

DataFrame VS RDD

DataFrame 和 RDD 都是可以并行处理的集合，但 DataFrame 更像是一个传统数据库里的表，除了数据之外还可以知道更多信息，比如列名、值、类型。从 API 角度来看 DataFrame 提供了更高级的 API，比 RDD 编程要方便很多，由于 R 语言和 Pandas 也有 DataFrame，这就降低了 Spark 的学习门槛，在编写 Spark 程序时根本不需要关心最后是运行在单机上还是分布式集群上，因为代码都是一样的。

假设 RDD 里面支持的是一个 Person 类型，那么每一条记录都相当于一个 Person，但是 Person 里面到底有什么我们并不知道。DataFrame 存储了各字段的列名、数据类型以及值，有了这些信息，Spark SQL 的查询优化器（Catalyst）在编译的时候就能够做更多的优化。

SQL、DataFrame 和 RDD 运行时性能对比：在大多数情况下 SQL 和 DataFrame 性能要好于 RDD

优化器 Catalyst

Spark SQL 的核心是 Catalyst 优化器，一种函数式的可扩展的查询优化器：

优化：Catalyst 使查询以更少的资源获取更快的效率；
函数式：Catalyst 基于 Scala 的模式匹配和 quasiquotes 机制；
可扩展：Catalyst 允许用户扩展优化器；

Catalyst 优化策略

Catalyst 支持两种优化策略：

基于规则的优化(Rule-Based Optimization, RBO)：使用一组规则来确定如何执行查询；RBO 是一种经验式、启发式优化思路，对于核心优化算子 join 有点力不从心，如两张表执行join 到底使用 BroadcaseHashJoin 还是 sortMergeJoin，目前 Spark SQL 是通过手工设定参数来确定的，如果一个表的数据量小于某个阈值（默认10M）就使用BroadcastHashJoin；
基于代价的优化(Cost-Based Optimization, CBO)：使用规则生成多个计划，然后选取代价最小的计划执行查询；不同 Physical Plans 输入到代价模型，调整 Join 顺序，减少中间Shuffle 数据集大小，达到最优输出；

Catalyst 工作流程

无论是直接使用 SQL 语句还是使用 DataFrame，都会经过如下环节转换成 DAG 对 RDD 的操作：

Parser：通过 ANTLR 将 Spark SQL 字符串解析为抽象语法树(Abstract Syntax Tree，AST)，即未解析的逻辑计划(Unresolved Logical Plan, ULP)；
Analyzer：通过元数据信息 Catalog 将 ULP 解析为携带 Schema 信息的逻辑计划(Logical Plan, LP)；
RBO：通过 RBO 对 Logical Plan 进行谓词下推、列值裁剪、常量累加等操作，得到优化后的逻辑计划(Optimized logical plan, OLP)；
Planner：将 OLP 转换成多个物理计划(Physical Plan)；
CBO：根据 Cost Model 算出每个 Physical Plan 的代价并选取代价最小的 Physical Plan 作为最终的 Physical Plan；
WholeStageCodegen：生成 Java bytecode 然后在每一台机器上执行，形成 RDD graph/DAG；

Parser 阶段

Spark2.x SQL 语句的解析采用的是 ANTLR4，ANTLR4 根据语法文件 SqlBase.g4 自动解析生成两个Java类：词法解析器 SqlBaseLexer 和语法解析器 SqlBaseParser。使用这两个解析器将SQL字符串语句解析成了ANTLR4 的 ParseTree 语法树结构。然后在 parsePlan 过程中，使用 AstBuilder.scala 将 ParseTree 转换成catalyst 表达式逻辑计划 Unresolved Logical Plan，ULP。

Analyzer 阶段

ULP 还只是一个语法树，系统需要通过元数据信息 Calalog 来获取表的 schema 信息（表名、列名、数据类型）和函数信息（类信息）。Analyzer 会再次遍历整个 AST，对树上的每个节点进行数据类型绑定以及函数绑定，比如people 词素会根据元数据表信息解析为包含 age、id 以及 name 三列的表，people.age会被解析为数据类型为 int 的变量，sum 会被解析为特定的聚合函数，解析后得到 Logical Plan，LP。

RBO 阶段

RBO 的优化策略就是对语法树进行一次遍历，模式匹配能够满足特定规则的节点，再进行相应的等价转换，即将一棵树等价地转换为另一棵树，最终得到优化后的逻辑计划 Optimized logical plan, OLP。

SQL 中经典的常见优化规则有：

谓词下推（predicate pushdown）：将 Filter 算子尽可能下推，尽可能早地对数据源进行过滤，以减少参与计算的数据量（语法树是从下往上看的）

列值裁剪（column pruning）：剪裁不需要的字段，特别是嵌套里面的不需要字段。如只需people.age，不需要 people.address，那么可以将 address 字段丢弃

常量合并（constant folding）：从100+80优化为180，避免每一条 record 都需要执行一次100+80的操作

Planner 阶段

OLP 只是逻辑上可行，实际上 spark 并不知道如何去执行这个OLP。一个逻辑计划（Logical Plan）经过一系列的策略（Strategy）处理之后，得到多个物理计划（Physical Plans），物理计划在 Spark 是由 SparkPlan 实现的。

CBO 阶段

RBO 属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。CBO 充分考虑了数据本身的特点（如大小、分布）以及操作算子的特点（中间结果集的分布及大小）及代价，从而更好的选择执行代价最小的物理执行计划，即 SparkPlan。

比如 join 算子，Spark 根据不同场景为该算子制定了不同的算法策略，有 broadcastHashJoin、shuffleHashJoin 以及 sortMergeJoin。CBO 中常见的优化是 join 换位，以便尽量减少中间shuffle 数据集大小，达到最优输出。

Code Generation 阶段

选出的物理计划还是不能直接交给 Spark 执行，Spark 最后仍然会用一些 Rule 对 SparkPlan 进行处理：

全阶段代码生成（Whole-stage Code Generation）：用来将多个处理逻辑整合到单个代码模块中。通过引入全阶段代码生成，大大减少了虚函数的调用，减少了 CPU 的调用，使得 SQL 的执行速度有很大提升。
代码编译：生成代码之后需要解决的另一个问题是如何将生成的代码进行编译然后加载到同一个 JVM 中去，Spark 引入了 Janino 项目，参见 SPARK-7956。Janino 是一个超级小但又超级快的 Java™ 编译器. 它不仅能像 javac 工具那样将一组源文件编译成字节码文件，还可以对一些 Java 表达式，代码块，类中的文本(class body)或者内存中源文件进行编译，并把编译后的字节码直接加载到同一个 JVM 中运行。Janino 不是一个开发工具, 而是作为运行时的嵌入式编译器，比如作为表达式求值的翻译器或类似于 JSP 的服务端页面引擎，关于 Janino 的更多知识请参见这里。通过引入了 Janino 来编译生成的代码，结果显示 SQL 表达式的编译时间减少到 5ms。需要注意的是，代码生成是在 Driver 端进行的，而代码编译是在 Executor 端进行的。

参考

《Spark 权威指南》_online/)：正如书名所言，对Spark 各个方面做了权威的介绍，中文版现已出版，网上也有牛人博客的翻译
Spark 2.2.x 中文文档：官方文档中文版翻译，每一块内容都蜻蜓点水
Spark By Examples：通过实际例子学习 Spark 的绝佳去处
org.apache.spark.sql.Dataset：Dataset 对象方法
org.apache.spark.sql.Dataset.Column：Column 对象方法
Spark SQL Catalyst优化器
一条 SQL 在 Apache Spark 之旅（上）
一条 SQL 在 Apache Spark 之旅（中）
一条 SQL 在 Apache Spark 之旅（下）
SparkSql的优化器-Catalyst
Spark SQL / Catalyst 内部原理与 RBO
Spark SQL 性能优化再进一步 CBO 基于代价的优化
Spark SQL Optimization – Understanding the Catalyst Optimizer

数据科学：工具篇（一）—— Jupyter Lab 配置环境

2020-10-23T06:16:46.000Z

JupyterLab 是 Jupyter 团队为 Jupyter 项目开发的下一代基于 Web 的交互式开发环境。相对于 Jupyter Notebook，它的集成性更强、更灵活并且更易扩展。它支持 100 种多种语言，支持多种文档相互集成，实现了交互式计算的新工作流程。如果说 Jupyter Notebook 像是一个交互式的笔记本，那么 Jupyter Lab 更像是一个交互式的 VSCode。另外，JupyterLab 非常强大的一点是，你可以将它部署在云服务器，不管是电脑、平板还是手机，都只需一个浏览器，即可远程访问使用。使用 JupyterLab，你可以进行数据分析相关的工作，可以进行交互式编程，可以学习社区中丰富的 Notebook 资料。

本文只是提供一个 Jupyter lab 的基本配置思路和索引，Jupyter lab 还在快速发展，文中提到的很多内容可能已经不再适用了，大家在配置时不要拘泥于文中细节，还是要去官网上查看具体安装细节，否则可能导致版本兼容的各种问题

安装 Jupyter

建议先安装 Anaconda，Anaconda 自带 Jupyter 和常用的科学计算包，且方便通过 conda 进行环境管理。为了不污染本地 Python 环境，建议单独为 Jupyter lab 创建一个虚拟环境（在 base 环境下可能遇到各种奇怪的错误）:

# 创建虚拟环境，同时安装完整anaconda集合包（假设已经成功安装了 Anaconda）
$ conda create -n mylab python=3.7 anaconda

# 激活虚拟环境
$ conda activate mylab

# 查看 Jupyter 版本
$ jupyter --version
jupyter core     : 4.6.3
jupyter-notebook : 6.0.3
qtconsole        : 4.7.5
ipython          : 7.16.1
ipykernel        : 5.3.2
jupyter client   : 6.1.6
jupyter lab      : 2.1.5
nbconvert        : 5.6.1
ipywidgets       : 7.5.1
nbformat         : 5.0.7
traitlets        : 4.3.3

# 查看相关路径
$ jupyter lab paths
Application directory: /Users/likewang/opt/anaconda3/share/jupyter/lab
User Settings directory: /Users/likewang/.jupyter/lab/user-settings
Workspaces directory: /Users/likewang/.jupyter/lab/workspaces

# 查看配置文件路径
$ jupyter notebook --generate-config
Overwrite /Users/likewang/.jupyter/jupyter_notebook_config.py with default config? [y/N]n

# 修改配置文件，设置 jupyter 默认打开的目录
$ vim .jupyter/jupyter_notebook_config.py
c.NotebookApp.notebook_dir = '/Users/likewang/ilab'

插件管理

jupyter-lab 提供了两种方式来管理 Jupyter-lab 的插件：

命令行：

# jupyter-lab 运行插件需要先安装 nodejs
$ conda install nodejs

# 查询安装的插件
$ jupyter labextension list

# 安装插件
$ jupyter labextension install xxx

# 删除插件
$ jupyter labextension uninstall xxx

# 更新所有插件（当插件版本过低或与当前jupyter版本不兼容的时候很好用）
$ jupyter labextension update --all

# 构建插件
$ jupyter lab build

通过 juputer-lab 插件图形化管理：进入jupyter界面，点击插件图标，在搜索栏中搜索对应插件名，如jupytext，可直接管理对应的插件

安装插件时，通常需要先通过 pip/conda 安装相关依赖，再通过 jupyter labextension 来安装对应插件，部分插件在成功安装之后需要重启 jupyter-lab 才能生效。建议只安装必要的插件，插件过多会拖慢 jupyter-lab 的打开速度。

kite —— 代码补全

kite 是一个功能非常强大的代码补全工具，目前可用于 Python 与 javascript，为许多知名的编辑器譬如 Vs Code、Pycharm 提供对应的插件，详细的安装过程可以参考Jupyter lab 最强代码补全插件。

安装

安装 kite 的一般步骤：

下载安装 kite 客户端：安装后登陆 kite 客户端，并保持 kite 客户端开启；
配置 jupyter-lab：需要注意的是 kite 只支持 2.2.0 以上版本的jupyter lab，但是目前jupyter lab的最新正式版本为2.1.5，因此我们需要使用pip来安装其提前发行版本，这里我选择2.2.0a1；

# 升级 jupyterlab 到 2.2.0
$ pip install --pre jupyterlab==2.2.0a1

# 安装 jupyter-kite 依赖
$ pip install jupyter-kite

# 安装 @kiteco/jupyterlab-kite 插件
$ jupyter labextension install @kiteco/jupyterlab-kite

使用

成功安装 kite 后，会自动跳转到 kite 使用说明文档 kite_tutorial.ipynb，这里简单介绍 kite 的几项核心功能：

自动补全：写代码的时候不需要按健，也会弹出代码补全提示，可以在命令面板中通过 Kite: Toggle Docs Panel 来关闭或打开完整说明文档

手动补全：仍然可以继续使用 jupyter-lab 本身的补全功能

实时文档：如果在 Kite 中打开了 Copilot，Copilot 会自动地根据光标在 Jupyter-lab 中的位置更新说明文档

jupyterlab_code_formatter —— 代码格式化

jupyterlab_code_formatter 用于代码一键格式化。

安装

# 安装依赖
$ conda install -c conda-forge jupyterlab_code_formatter
$ jupyter labextension install @ryantam626/jupyterlab_code_formatter
# 安装插件
$ jupyter serverextension enable --py jupyterlab_code_formatter
# 安装支持的代码格式
$ conda install black isort

使用

jupyterlab-go-to-definition —— 代码跳转

jupyterlab-go-to-definition 用于Lab笔记本和文件编辑器中跳转到变量或函数的定义

安装

# JuupyterLab 2.x
$ jupyter labextension install @krassowski/jupyterlab_go_to_definition   
# JupyterLab 1.x
$ jupyter labextension install @krassowski/jupyterlab_go_to_definition@0.7.1   

使用

默认快捷键 alt+click：

jupyterlab-git —— 版本管理

jupyterlab-git 是 jupyter-lab 的 git 插件，可以方便地进行版本管理。

安装

$ conda install -c conda-forge jupyterlab jupyterlab-git
jupyter lab build

使用

qgrid —— DataFrame 交互

qgrid 是一个可以用交互的方式操作 Pandas DataFrame 的插件，主要优点有：

直接用点选的方式进行选择、排序甚至是修改单元格中的值；
做 EDA 时可以看到整个 DataFrame 的全貌，而不是用 … 的方式来显示，而且读取速度很快；

安装

$ conda install qgrid
$ jupyter labextension install @jupyter-widgets/jupyterlab-manager
$ jupyter labextension install qgrid2

使用

以交互的方式显示 Pandas DataFrame：可以显示完整数据

# 載入所需套件
import qgrid
import pandas as pd
import numpy as np

# 為了讓結果相同，設定種子以及資料數量
np.random.seed(1)
nrow = 1000000

# 建立 Dataframe
df = pd.DataFrame({'Index': range(nrow), 
                   'Sex': np.random.choice(['M', 'F'], nrow), 
                   'Age': np.random.randint(12, 56, nrow),
                   'Height': np.round(np.random.random(nrow),3)*30+160,
                   'Weight': np.round(np.random.random(nrow),3)*30+55,
                   'Tag': np.random.choice([True, False], nrow)})


qgrid_widget = qgrid.show_grid(df, show_toolbar=True)
qgrid_widget

在 DataFrame 上排序、筛选数据：

甚至可以直接更改 Dataframe 的值：

还可以获取改动过的数据：qgrid_widget.get_changed_df() 可以获取经过筛选、排序、修改后的 DataFrame 数据：

qgrid_widget.get_changed_df()

jupyter_bokeh —— 可视化效果

jupyter_bokeh 该插件可以在 Lab 中展示bokeh 可视化效果。

安装

conda install -c bokeh jupyter_bokeh
jupyter labextension install @jupyter-widgets/jupyterlab-manager
jupyter labextension install @bokeh/jupyter_bokeh

使用

jupyterlab-dash —— 单独面板

jupyterlab-dash 该插件可以在Lab中展示 plotly dash 交互式面板。

安装

$ conda install -c plotly -c defaults -c conda-forge "jupyterlab>=1.0" jupyterlab-dash=0.1.0a3
$ jupyter labextension install jupyterlab-dash@0.1.0-alpha.3

使用

jupyterlab_variableinspector —— 变量显示

jupyterlab_variableinspector 可以在 Lab 中展示代码中的变量及其属性，类似RStudio中的变量检查器。你可以一边撸代码，一边看有哪些变量。对 Spark 和 Tensorflow 的支持需要解决依赖。

安装

$ jupyter labextension install @lckr/jupyterlab_variableinspector

使用

jupyterlab-system-monitor —— 资源监控

jupyterlab-system-monitor 用于监控 jupyter-lab 的资源使用情况。

安装

$ conda install -c conda-forge nbresuse
$ jupyter labextension install jupyterlab-topbar-extension jupyterlab-system-monitor

使用

默认只显示内存使用情况：

编辑配置文件 ~/.jupyter/jupyter_notebook_config.py：添加一下内容，重启 jupyter-lab 就可以显示 CPU 利用率以及内存使用情况了。

c = get_config()

# memory
c.NotebookApp.ResourceUseDisplay.mem_limit =  *1024*1024*1024

# cpu
c.NotebookApp.ResourceUseDisplay.track_cpu_percent = True
c.NotebookApp.ResourceUseDisplay.cpu_limit = 

示例：

# 示例：限制最大内存 4G，2 个 CPU，显示 CPU 利用率
c.NotebookApp.ResourceUseDisplay.mem_limit = 4294967296
c.NotebookApp.ResourceUseDisplay.track_cpu_percent = True
c.NotebookApp.ResourceUseDisplay.cpu_limit = 2

jupyterlab-toc —— 显示目录

jupyterlab-toc 用于在 jupyter-lab 中显示文档的目录。

安装

$ jupyter labextension install @jupyterlab/toc

使用

Collapsible_Headings —— 折叠标题

Collapsible_Headings 可实现标题的折叠。

安装

$ jupyter labextension install @aquirdturtle/collapsible_headings

使用

jupyterlab_html —— 显示 HTML

该插件允许你在Jupyter Lab内部呈现HTML文件，这在打开例如d3可视化效果时非常有用

安装

$ jupyter labextension install @mflevine/jupyterlab_html

使用

jupyterlab-drawio —— 绘制流程图

jupyterlab-drawio 可以在Lab中启用 drawio 绘图工具，drawio是一款非常棒的流程图工具。

安装

$ jupyter labextension install jupyterlab-drawio

使用

jupyterlab-tabular-data-editor —— CSV 编辑

jupyterlab-tabular-data-editor 插件赋予我们高度的交互式操纵 csv 文件的自由，无需excel，就可以实现对csv表格数据的增删改查。

安装

$ jupyter labextension install jupyterlab-tabular-data-editor

使用

jupyter-themes —— 切换主题

jupyterlab-themes 用于切换 jupyter 的主题。

安装

# 目前还只能一个一个安装
$ jupyter labextension install @arbennett/base16-{$themename}

使用

kernel 管理

Jupyter kernel 可以用任何语言实现，只要它们遵循基于 ZeroMQ 的 Jupyter 通信协议。IPython 是最流行的内核，默认情况下包括在内。这并不奇怪，因为 Jupyter（Jupyter，Jupyter，Python，R）来自IPython项目。它是将独立于语言的部分从IPython内核中分离出来，使其能够与其他语言一起工作的结果，现在有超过100种编程语言的内核可用。

除了内核和前端之外，Jupyter 还包括与语言无关的后端部分，它管理内核、笔记本和与前端的通信。这个组件称为Jupyter服务器。笔记本存储在.ipynb文件中，在服务器上以Json格式编码。基于Json的格式允许以结构化的方式存储单元输入、输出和元数据。二进制输出数据采用base64编码。缺点是，与基于行的文本格式相比，json使diff和merge更困难。您可以将笔记本导出为其他格式，如Markdown、Scala（仅包含代码输入单元格）或类似本文的HTML。

# 查看 kernel 列表
jupyter kernelspec list
# 卸载指定 kernel 
jupyter kernelspec remove kernel_name

安装 Scala kernel

在Scala中对Jupyter的支持是怎样的？实际上有很多不同的内核。但是，如果仔细观察，它们中的许多在功能上有一定的局限性，存在可伸缩性问题，甚至已经被放弃。其他人只关注Spark而不是Scala和其他框架。

其中一个原因是，几乎所有现有内核都构建在默认REPL之上。由于其局限性，他们对其进行定制和扩展，以添加自己的特性，如依赖关系管理或框架支持。一些内核还使用sparkshell，它基本上是scalarepl的一个分支，专门为Spark支持而定制。这一切都会导致碎片化、重用困难和重复工作，使得创建一个与其他语言相当的内核变得更加困难。

关于一些原因的更详细讨论，请查看 Alexandre Archambault 在2017年 JupyterCon 上的演讲 Scala: Why hasn’t an Official Scala Kernel for Jupyter emerged yet?。

almond（推荐）

almond（之前叫jupyter-scala）使得 jupyter 强大的功能向 Scala 开放，包括 Ammonite 的所有细节，尽管它还需要一些更多的集成和文档，但是它已经非常有用，并且非常有趣。
——Interactive Computing in Scala with Jupyter and almond

安装 almond 需要特别注意 almond 版本、Scala 版本以及 Spark版本之间的兼容性（almond 0.10.0 支持 scala 2.12.11 and 2.13.2 支持 park 2.4.x），almond 详细安装过程及版本对应关系请参考 almond 官方文档。

# 查看可用的 Scala 版本
$ brew search scala
==> Formulae
scala         scala@2.11    scala@2.12    scalaenv      scalapack     scalariform   scalastyle

# 安装 scala 2.12.x
$ brew install scala@2.12

# 查看实际安装的 scala 版本
$ scala -version
Scala code runner version 2.12.11 -- Copyright 2002-2020, LAMP/EPFL and Lightbend, Inc.

# 安装 coursier，scala 的依赖解析器
$ brew install coursier/formulas/coursier

# 通过 coursier 安装 almond，指定 almond 版本=0.10.0，scala版本=2.12.11，重复安装需要加--force
$ coursier launch --fork almond:0.10.0 --scala 2.12.11 -- --install --force

# 成功安装后，可以看到 jupyter kernelspec 多了一个 Scala 的核
$ jupyter kernelspec list
Available kernels:
  scala            /Users/likewang/Library/Jupyter/kernels/scala
  python3          /Users/likewang/opt/anaconda3/envs/mylab/share/jupyter/kernels/python3
  python2          /usr/local/share/jupyter/kernels/python2
  spylon-kernel    /usr/local/share/jupyter/kernels/spylon-kernel

# 安装 Spark 依赖

配置 Spark：

# Or use any other 2.x version here
import $ivy.`org.apache.spark::spark-sql:2.4.0`

# Not required since almond 0.7.0 (will be automatically added when importing spark)
import $ivy.`sh.almond::almond-spark:0.10.9` 
# 通常，为了避免污染单元输出，您需要禁用日志记录
import org.apache.log4j.{Level, Logger}
Logger.getLogger("org").setLevel(Level.OFF)
# 引入 NotebookSparkSession
import org.apache.spark.sql._

val spark = {
  NotebookSparkSession.builder()
    .master("local[*]")
    .getOrCreate()
}
# 引入隐式转换
import spark.implicits._

其他 Scala kernel

spylon-kernel 是一个 Scala Jupyter Kernel。
jupyter-scala 依赖于 scala 2.11.x，还不支持 2.12；jupyter-scala 只能用于 jupyter notebook 无法用于 jupyter lab：

安装 python kernel

由于我们是在 python 3 虚拟环境下安装了 jupyter lab，自带的是 python 3 kernel，现在需要添加 python 2 的 kernel：

# 假设已经安装了名为 python2 的虚拟环境，切换到 python 2 环境
$ conda activate python2
# 安装 python 2 kernel  
$ python2 -m ipykernel install --name python2

安装成功后，在 jupyter lab 新建文件页面会出现 python 2 的图标：

各种奇怪的问题

插件同时出现在已安装和未安装列表中

问题描述：在uninstall 插件后，插件同时出现在 Known labextensions 和 Uninstalled core extensions。

(base) ➜  ~ jupyter labextension list
JupyterLab v1.2.6
Known labextensions:
   app dir: /Users/likewang/opt/anaconda3/share/jupyter/lab
        @bokeh/jupyter_bokeh v1.2.0  enabled  OK
        @jupyterlab/github v1.0.1  enabled  OK
        @jupyterlab/toc v2.0.0  enabled  OK
        @mflevine/jupyterlab_html v0.1.4  enabled  OK
        @pyviz/jupyterlab_pyviz v0.8.0  enabled  OK
        @ryantam626/jupyterlab_code_formatter v1.1.0  enabled  OK
        jupyterlab-dash v0.1.0-alpha.3  enabled  OK
        jupyterlab-drawio v0.6.0  enabled  OK

Uninstalled core extensions:
    @ryantam626/jupyterlab_code_formatter

解决办法：删除 jupyter\lab\settings\build_config.json，https://github.com/jupyterlab/jupyterlab/issues/8122

(base) ➜  ~ jupyter lab build
[LabBuildApp] JupyterLab 1.2.6
[LabBuildApp] Building in /Users/likewang/opt/anaconda3/share/jupyter/lab
[LabBuildApp] Building jupyterlab assets (build:prod:minimize)
(base) ➜  ~ jupyter labextension list
JupyterLab v1.2.6
Known labextensions:
   app dir: /Users/likewang/opt/anaconda3/share/jupyter/lab
        @bokeh/jupyter_bokeh v1.2.0  enabled  OK
        @jupyterlab/github v1.0.1  enabled  OK
        @jupyterlab/toc v2.0.0  enabled  OK
        @mflevine/jupyterlab_html v0.1.4  enabled  OK
        @pyviz/jupyterlab_pyviz v0.8.0  enabled  OK
        @ryantam626/jupyterlab_code_formatter v1.1.0  enabled  OK
        jupyterlab-dash v0.1.0-alpha.3  enabled  OK
        jupyterlab-drawio v0.6.0  enabled  OK

No module named ‘jupyter_nbextensions_configurator’

问题描述：启动 jupyter-lab 时报错 ModuleNotFoundError: No module named 'jupyter_nbextensions_configurator'

(mylab) ➜  ilab jupyter-lab
[W 19:37:20.086 LabApp] Error loading server extension jupyter_nbextensions_configurator
    Traceback (most recent call last):
      File "/Users/likewang/opt/anaconda3/envs/mylab/lib/python3.7/site-packages/notebook/notebookapp.py", line 1670, in init_server_extensions
        mod = importlib.import_module(modulename)
      File "/Users/likewang/opt/anaconda3/envs/mylab/lib/python3.7/importlib/__init__.py", line 127, in import_module
        return _bootstrap._gcd_import(name[level:], package, level)
      File "", line 1006, in _gcd_import
      File "", line 983, in _find_and_load
      File "", line 965, in _find_and_load_unlocked
    ModuleNotFoundError: No module named 'jupyter_nbextensions_configurator'

解决办法：以上问题出现在虚拟环境中启动 jupyter-lab，jupyter-nbextensions_configurator 和 python pip 不在同一个环境，解决办法是在对应的虚拟环境中安装 jupyter_nbextensions_configurator

(mylab) ➜  ~ which jupyter-nbextensions_configurator
/Users/likewang/opt/anaconda3/bin/jupyter-nbextensions_configurator
(mylab) ➜  ~ which python
/Users/likewang/opt/anaconda3/envs/mylab/bin/python
(mylab) ➜  ~ which jupyter
/Users/likewang/opt/anaconda3/envs/mylab/bin/jupyter
(mylab) ➜  ~ which jupyter-notebook
/Users/likewang/opt/anaconda3/envs/mylab/bin/jupyter-notebook
# 重新在虚拟环境安装 jupyter_nbextensions_configurator
conda install -c conda-forge jupyter_nbextensions_configurator
(mylab) ➜  .jupyter which jupyter-nbextensions_configurator
/Users/likewang/opt/anaconda3/envs/mylab/bin/jupyter-nbextensions_configurator

参考

Getting the most out of Jupyter Lab

Scala 教程：Basics（二）—— 核心类型

2020-08-10T08:00:00.000Z

Scala的核心类型，包括String，以及数值类型 Byte、Short、Int、Long、Float、Double、Char 和 Boolean。

数值类型

Byte、Short、Int、Long和Char类型统称整数类型，加上Float和Double称作数值类型。

以上列出的基本类型除了Java.lang.String外都是scala包的成员，Int的完整名称是scala.Int，不过scala包的所有成员在scala源文件中都已经自动引入，可以在任何地方使用简单名称。

以上列出的所有基础类型都可以使用字面值(literal)来书写，下图是指定字面值类型的记法：

示例：

scala> val f = 1.234
f: Double = 1.234

scala> val ff = 1.234f
ff: Float = 1.234

scala> val fff: Float = 1.234
:11: error: type mismatch;
 found   : Double(1.234)
 required: Float
       val fff: Float = 1.234
                        ^

scala> val fff: Float = 1.234f
fff: Float = 1.234

整数类型

一些常见的整数字面值：

// 如果整数以非0开头，默认被视为十进制数
scala> val a = 10
a: Int = 10
// 十六进制数以0x开头，shell默认打印其十进制整数值
scala> val b = 0xF
b: Int = 15
// 将Int类型整数赋值给Long型，发生隐式类型转化
scala> val long: Long = 10
long: Long = 10
// 也可以在字面值末尾加上`l`或`L`，指明整数位Long型
scala> val c = 35l
c: Long = 35
// 将 Int 型赋值给Short或Byte，如果在范围内就会自动转化，否则报错
scala> val d: Short = 3
d: Short = 3

scala> val e: Byte = 129
:11: error: type mismatch;
 found   : Int(129)
 required: Byte
       val e: Byte = 129
                     ^

scala> val e: Byte = 127
e: Byte = 127

浮点类型

浮点数以十进制数字+可选的小数点+可选的E或e打头的指数组成：

// 浮点数字面值默认为Double型
scala> val double = 3.14
double: Double = 3.14

scala> val float = 3.14
float: Double = 3.14
// 如需使用Float类型字面值，必须在数字后面加上f或F
scala> val float = 3.14f
float: Float = 3.14

scala> val float: Float = 3.14
:11: error: type mismatch;
 found   : Double(3.14)
 required: Float
       val float: Float = 3.14
                          ^
// e前面部分 ✖️ 10的后面部分次幂
scala> val e = 3.14e2
e: Double = 314.0

字符类型

原字符表示法：使用一对单引号和中间的任意单个Unicode字符组成

scala> val c = 'we'
:1: error: unclosed character literal (or use " for string literal "we")
       val c = 'we'
                  ^

scala> val c = 'w'
c: Char = w

Unicode字符表示法：\u加上字符对应的四位十六进制数字，Unicode字符可以出现在Scala程序的任何位置

// 出现在字面值字符中
scala> val d = '\u0041'
d: Char = A
// 出现在变量中
scala> val d\u0041 = 'x'
dA: Char = x

转义字符：

String类型

Scala 本身没有 String 类，字符串的类型实际上是 java.lang.String，String 是一个不可变对象，对字符串的修改会生成一个新的字符串对象。

String字面值

普通字符串字面值：普通字符串字面值由用双引号括起来的字符组成，普通字符串中的\会被解析为转义符：

scala> val c1 = "hello world"
c1: String = hello world

scala> val c2 = "\\\"\'"
c2: String = \"'

原生字符串字面值：原生字符串由三重引号括起来的字符组成，原生字符串中每个字符都会被当做该字符本身进行原样输出：

// 转义符会被当做普通字符
scala> val c4 = """\\\"\'"""
c4: String = \\\"\'
// 空格 换行都会被原样输出
scala> val mutiLine = """hello \t world
     | \n nihao
     | china"""
mutiLine: String =
hello \t world
\n nihao
china

// 管道符 `|` 的作用是标识每一行字符串字面值的开始位置：
scala> println("""welcome to china
     |            you are great""")
welcome to china
           you are great

scala> println("""welcome to china
     |           |you are great""")
welcome to china
you are great

字符串插值

Scala默认提供了三种插值器来实现在字符串字面值中嵌入表达式，你也可以定义自己的插值器来满足不同的需求。

s插值器：
1. 语法： s"${expression}"
2. 解析：定位表达式 -> 表达式求值 -> 对值调用toString方法
raw插值器：
1. 语法：raw"${expression}"
2. 解析：和s插值器相似，但是会把其他字符作为原义字符对待
f插值器：
1. 语法：f"${expression}%.2f"
2. 解析：和s插值器相似，多个格式化输出

scala> val x = 314
x: Int = 314

scala> "hell " + x
res22: String = hell 314

scala> s"hell $x world ${math.Pi}"
res23: String = hell 314 world 3.141592653589793

scala> s"hello\t$x world ${math.Pi}"
res24: String = hello314 world 3.141592653589793

scala> raw"hello\t$x world ${math.Pi}"
res26: String = hello\t314 world 3.141592653589793

scala> f"hello\t$x world ${math.Pi}%.2f"
res27: String = hello314 world 3.14

字符串的常用方法

下表列出了 java.lang.String 中常用的方法，你可以在 Scala 中使用：

序号	方法	描述
1	char charAt(int index)	返回指定位置的字符
2	int compareTo(Object o)	比较字符串与对象
3	int compareTo(String anotherString)	按字典顺序比较两个字符串
4	int compareToIgnoreCase(String str)	按字典顺序比较两个字符串，不考虑大小写
5	String concat(String str)	将指定字符串连接到此字符串的结尾，等价于 `+`
6	boolean contentEquals(StringBuffer sb)	将此字符串与指定的 StringBuffer 比较。
7	static String copyValueOf(char[] data)	返回指定数组中表示该字符序列的 String
8	static String copyValueOf(char[] data, int offset, int count)	返回指定数组中表示该字符序列的 String
9	boolean endsWith(String suffix)	测试此字符串是否以指定的后缀结束
10	boolean equals(Object anObject)	将此字符串与指定的对象比较
11	boolean equalsIgnoreCase(String anotherString)	将此 String 与另一个 String 比较，不考虑大小写
12	byte getBytes()	使用平台的默认字符集将此 String 编码为 byte 序列，并将结果存储到一个新的 byte 数组中
13	byte[] getBytes(String charsetName	使用指定的字符集将此 String 编码为 byte 序列，并将结果存储到一个新的 byte 数组中
14	void getChars(int srcBegin, int srcEnd, char[] dst, int dstBegin)	将字符从此字符串复制到目标字符数组
15	int hashCode()	返回此字符串的哈希码
16	int indexOf(int ch)	返回指定字符在此字符串中第一次出现处的索引
17	int indexOf(int ch, int fromIndex)	返回在此字符串中第一次出现指定字符处的索引，从指定的索引开始搜索
18	int indexOf(String str)	返回指定子字符串在此字符串中第一次出现处的索引
19	int indexOf(String str, int fromIndex)	返回指定子字符串在此字符串中第一次出现处的索引，从指定的索引开始
20	String intern()	返回字符串对象的规范化表示形式
21	int lastIndexOf(int ch)	返回指定字符在此字符串中最后一次出现处的索引
22	int lastIndexOf(int ch, int fromIndex)	返回指定字符在此字符串中最后一次出现处的索引，从指定的索引处开始进行反向搜索
23	int lastIndexOf(String str)	返回指定子字符串在此字符串中最右边出现处的索引
24	int lastIndexOf(String str, int fromIndex)	返回指定子字符串在此字符串中最后一次出现处的索引，从指定的索引开始反向搜索
25	int length()	返回此字符串的长度
26	boolean matches(String regex)	告知此字符串是否匹配给定的正则表达式
27	boolean regionMatches(boolean ignoreCase, int toffset, String other, int ooffset, int len)	测试两个字符串区域是否相等
28	boolean regionMatches(int toffset, String other, int ooffset, int len)	测试两个字符串区域是否相等
29	String replace(char oldChar, char newChar)	返回一个新的字符串，它是通过用 newChar 替换此字符串中出现的所有 oldChar 得到的
30	String replaceAll(String regex, String replacement	使用给定的 replacement 替换此字符串所有匹配给定的正则表达式的子字符串
31	String replaceFirst(String regex, String replacement)	使用给定的 replacement 替换此字符串匹配给定的正则表达式的第一个子字符串
32	String[] split(String regex)	根据给定正则表达式的匹配拆分此字符串
33	String[] split(String regex, int limit)	根据匹配给定的正则表达式来拆分此字符串
34	boolean startsWith(String prefix)	测试此字符串是否以指定的前缀开始
35	boolean startsWith(String prefix, int toffset)	测试此字符串从指定索引开始的子字符串是否以指定前缀开始。
36	CharSequence subSequence(int beginIndex, int endIndex)	返回一个新的字符序列，它是此序列的一个子序列
37	String substring(int beginIndex)	返回一个新的字符串，它是此字符串的一个子字符串
38	String substring(int beginIndex, int endIndex)	返回一个新字符串，它是此字符串的一个子字符串
39	char[] toCharArray()	将此字符串转换为一个新的字符数组
40	String toLowerCase()	使用默认语言环境的规则将此 String 中的所有字符都转换为小写
41	String toLowerCase(Locale locale)	使用给定 Locale 的规则将此 String 中的所有字符都转换为小写
42	String toString()	返回此对象本身（它已经是一个字符串！）
43	String toUpperCase()	使用默认语言环境的规则将此 String 中的所有字符都转换为大写
44	String toUpperCase(Locale locale)	使用给定 Locale 的规则将此 String 中的所有字符都转换为大写
45	String trim()	删除指定字符串的首尾空白符
46	static String valueOf(primitive data type x)	返回指定类型参数的字符串表示形式

Boolean类型

Boolean类型有两个字面量，true和false：

scala> val t = true
t: Boolean = true

scala> val f = false
f: Boolean = false

和很多动态语言不同， Scala不支持其他类型到Boolean类型的隐式转换：

scala> if(4>3) print("4>3")
4>3
scala> if(1) print("1")
:12: error: type mismatch;
 found   : Int(1)
 required: Boolean
       if(1) print("1")
          ^

核心类型间的转换

隐式转换

数值类型的隐式准换：当Scala在进行赋值或者运算时，精度小的数值类型会自动转换为精度高的数值类型：

举例：

scala> val a = 'a'
a: Char = a

scala> a + 1
res36: Int = 98

scala> val x = 1
x: Int = 1

scala> val y: Short = 2
y: Short = 2

scala> x + y
res37: Int = 3

String的隐式转换：s + 会自动调用的toString方法进行字符串拼接

scala> "hello" + 2019
res38: String = hello2019

显式转换

有几种方式：

to.类型名

scala> val a = 97
a: Int = 97

scala> a.toByte
res48: Byte = 97

scala> a.toShort
res49: Short = 97

scala> a.toChar
res50: Char = a

scala> a.toLong
res51: Long = 97

scala> a.toFloat
res52: Float = 97.0

scala> a.toDouble
res53: Double = 97.0

scala> a.toString
res54: String = 97

scala> 'a'.toInt
res55: Int = 97

asInstanceOf[type]：测定某个对象是否属于给定的类，用isInstanceOf方法，如果测试成功，可以用asInstanceOf方法转换

scala> a.asInstanceOf[Int]
res65: Int = 97

scala> a.asInstanceOf[Long]
res66: Long = 97

scala> a.asInstanceOf[Short]
res67: Short = 97

scala> a.asInstanceOf[String]
java.lang.ClassCastException: java.lang.Integer cannot be cast to java.lang.String
  ... 28 elided

Scala 教程：Basics（三）—— 操作符&表达式

2020-08-09T08:00:00.000Z

操作符即方法：操作符和方法只不过是操作的两种语法形式
一切操作符都只不过是方法调用的漂亮语法
一切方法都可以写作操作符表示法

操作符

Scala中的操作符

算术操作符: A 为 10，B 为 20

关系操作符: A 为 10，B 为 20，==的实现很用心，大部分场合都能返回给你需要的相等性比较的结果，其背后的规则是：首先检查左侧是否为null，如果不为Null，调用equals方法

逻辑操作符：A 为 true，B 为 false；&& 和 || 遵循短路原则，对应的非短路版本为 & 和 |；

位操作符：A = 60; 及 B = 13;

赋值运算符：注意，在Java中赋值语句的返回值是被赋上的值，而在Scala中赋值语句的返回值永远是 Unit类型的单元值()

操作符的优先级和结合性

由于Scala并不是真的有操作符，操作符仅仅是用操作符表示法使用方法的一种方式，Scala通过操作符的首字符来决定操作符的优先级，通过操作符的尾字符决定操作符的结合性。

尽管你能够记住这些操作符的优先级，为了使得代码更加易于理解，你只应该在算术操作符合赋值操作符上利用操作符的优先级，其他情形还是老老实实加上括号吧。

操作符的优先级

Scala中操作符的优先级由操作符的首字符决定：举例来说，以*开始的操作符优先级比以+开始的操作符优先级更高，下图列出了Scala中不同首字母的操作度的优先级（自上而下，依次递减；同一行具有相同优先级）：

上面红框分类不是很严谨，只是为了方便记忆，比较两个操作符的优先级的时候这样做：

得到两个操作符的首字符A和B;
看看首字母是属于算术->关系->逻辑->字母->赋值中的哪一类；
在以上顺序中，位于前面的优先级高；
记住两个特例：:在算术和关系之间，^在 & 和 | 之间；

// + 的优先级在 < 之上，因而 + 先执行
scala> 2 << 2 + 2
res107: Int = 32
// + 的优先级在赋值操作之上，因而 + 先执行
x *= y + 1 等价于 x *= (y+1)

操作符的结合性

当多个同等优先级的操作符并排在一起的时候，操作符的结合性由操作符的尾字符决定：任何以 : 结尾的操作符都是在它右侧的操作元调用，传入左侧操作元，以任何其他字符结尾的方法则相反。

a ::: b ::: c 等价于 a ::: (b:::c)

任何操作符都是方法调用

Scala中的操作符只是方法调用的漂亮语法，换句话说Scala中所有操作符都可以写作方法调用的形式。

中缀操作符：，如果是左结合性可以写作 .(，如果是右结合性可以写作.(；

// 1 + 2
scala> 1.+(2)
res108: Int = 3
// 2 << 1
scala> 2.<<(1)
res113: Int = 4

前缀操作符：只有一元操作符(unary)+、-、!、~可以被用作前缀操作符，可以写作 .unary_

// -2.0
scala> (2.0).unary_-
res111: Double = -2.0
//  ! true
scala> true.unary_!
res115: Boolean = false

`任何方法都可以是操作符`

Scala中操作符并不是特殊的语法，任何方法都可以是操作符。

中缀操作符表示法：.() 可以写作

scala> "hello world".indexOf("w")
res122: Int = 6

scala> "hello world" indexOf "w"
res123: Int = 6

scala> "hello world" indexOf ("o",5)
res125: Int = 7

scala> "hello world".indexOf("o",5)
res126: Int = 7

后缀操作符表示法：后缀操作符是那些不接受任何参数的方法，在Scala中可以在方法调用时省略空的圆括号，除非方法有副作用，比如println()

scala> import scala.language.postfixOps
import scala.language.postfixOps

scala> "Hello WOrld" toLowerCase
res130: String = hello world

scala> "Hello WOrld".toLowerCase
res131: String = hello world

`表达式`

表达式：表达式是执行后会返回一个值的代码单元

// 一个最简单的表达式
scala> 1
res132: Int = 1

表达式块：可以用大括号结合多个表达式创建一个表达式块，块中最后一个表达式将作为整个表达式块的返回值，表达式块可以进行嵌套，每个表达式块拥有自己的变量和作用域

// 表达式块
scala> val amount = {
     | val x = 5 * 20
     | x + 10
     | }
amount: Int = 110

语句：语句就是不返回值的表达式，语句的返回类型为Unit；由于不返回值，语句通常用来修改现有的数据或者完成应用之外的修改；Scala中常见的语句包括 println()调用、变量声明语句、while控制语句

scala> println("hello world")
hello world

scala> val a = 1
a: Int = 1

表达式为函数式编程提供了基础：表达式可以返回数据而不修改现有数据，这就允许使用不可变数据，函数也可以用来返回新的数据，在某种意义上这种函数是另一种类型的表达式。



Scala 教程：Basics（四）—— 控制结构
2020-08-08T08:00:00.000Z
Scala中大多数控制结构都是表达式，有返回值
Scala 只有为数不多的几个内建的控制结构：if、match、for、while、try和函数调用，由于它们有返回值，可以很好地支持函数式编程。
条件控制结构
if表达式
语法：
if () ：返回值是 Any 类型；
if ()  else ：返回值的类型是两种结果类型的最近公共父类型；
if ()  else if () ... else ：本质上是 if ... else 表达式的嵌套，返回值的类型是所有可能返回结果类型的最近公共父类型；
执行：如果布尔表达式成立则执行第一个表达式，否则执行另外一个表达式
示例：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
// if ... 返回值类型必为 Any
scala> if (3<4) 4
res0: AnyVal = 4

// if ... else ... ，返回值的类型是所有可能返回结果类型的最近公共父类型
scala> val x = 1
x: Int = 1

scala> val y = 2
y: Int = 2

scala> if (x > y) x
res1: AnyVal = ()

scala> if (x > y) x else y
res2: Int = 2

// if ... else if ... else ...，本质上是嵌套的 if ... else 表达式
scala> if (2 == 3){
     | 0
     | } else
     | if (2 > 3){
     | 1
     | } else {
     | -1
     | }
res23: Int = -1
match表达式
模式匹配是检查某个值（value）是否匹配某一个模式的机制，它是Java中的switch语句的升级版，同样可以用于替代一系列的 if/else 语句。
语法：
1
2
3
 match {
    case  => 
    [case ...]
执行：获取输入表达式的值，逐一匹配备选模式，匹配成功则执行并返回对应模式后的表达式，匹配不成功则触发MatchError，返回值类型是各个备选结果表达式类型的最近公共父类型。
示例：
1
2
3
4
5
6
7
8
9
10
// 对 if (x > y) x else y 的改写
scala> val x = 1; val y = 2
x: Int = 1
y: Int = 2

scala> val max = x > y match {
     | case true => x
     | case false => y
     | }
max: Int = 2
变形：match 表达式的变形主要发生在 
复合模式：使用  |  ... 可以对多个模式重用 case 块
1
2
3
4
5
6
scala> "MON" match {
     | case "SAT" | "SUN" => "weekend"
     | case "MON" | "TUE" | "WED" | "THU" | "FRI" =>
     | "weekday"
     | }
res9: String = weekday
通配模式：使用通配符 _ 可以匹配任意模式，但是不能在 => 右侧访问通配符
1
2
3
4
5
scala> "MON" match {
     | case "SAT" | "SUN" => "weekend"
     | case _ => "weekday"
     | }
res8: String = weekday
变量模式：使用一个模式变量可以将输入表达式的值绑定到该变量，变量可以在 => 右侧访问
1
2
3
4
5
scala> "MON" match {
     | case "SAT" | "SUN" => "weekend"
     | case x => "weekday" + x
     | }
res10: String = weekdayMON
类型模式：使用 模式变量: 类型 可以匹配输入表达式返回值的具体类型，需要注意的是备选模式的类型必须是输入表达式返回值类型的子类，否则会触发异常：error: scrutinee is incompatible with pattern type
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
scala> val x: Int = 1
x: Int = 1

scala> val y: Any = x
y: Any = 1

scala> y
res25: Any = 1

scala> y match {
     | case t: Float => "Float"
     | case t: Long => "Long"
     | case t: Int => "Int"
     | case _ => "_"
     | }
res26: String = Int
哨兵模式：在模式变量后面加上 if ，可以为匹配表达式添加匹配条件，只有条件满足时才算匹配成功
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
def showImportantNotification(notification: Notification, importantPeopleInfo: Seq[String]): String = {
  notification match {
    case Email(sender, _, _) if importantPeopleInfo.contains(sender) =>
      "You got an email from special someone!"
    case SMS(number, _) if importantPeopleInfo.contains(number) =>
      "You got an SMS from special someone!"
    case other =>
      showNotification(other) // nothing special, delegate to our original showNotification function
  }
}

val importantPeopleInfo = Seq("867-5309", "jenny@gmail.com")

val someSms = SMS("867-5309", "Are you there?")
val someVoiceRecording = VoiceRecording("Tom", "voicerecording.org/id/123")
val importantEmail = Email("jenny@gmail.com", "Drinks tonight?", "I'm free after 5!")
val importantSms = SMS("867-5309", "I'm here! Where are you?")

println(showImportantNotification(someSms, importantPeopleInfo))
println(showImportantNotification(someVoiceRecording, importantPeopleInfo))
println(showImportantNotification(importantEmail, importantPeopleInfo))
println(showImportantNotification(importantSms, importantPeopleInfo))
循环表达式/语句
for表达式
Scala 的for表达式是用于迭代的瑞士军刀，每次迭代会执行一个表达式，并返回所有表达式返回值的一个集合（可选）。
语法：enumerators 是一个枚举器，可以包含多个生成器（items <- items）和过滤器（if ）；
1
for (enumerators) [yield] 
执行：每次从枚举器中取出一个元素，执行表达式，返回所有返回值构成的一个集合（如果加了 yield 的话）。
示例：
1
2
3
4
5
// 不带 yield，没有返回值
scala> for (i <- 1 to 10) {2 * i}
// 带了yeild，返回所有返回值构成的一个集合
scala> for (i <- 1 to 10) yield {2 * i}
res30: scala.collection.immutable.IndexedSeq[Int] = Vector(2, 4, 6, 8, 10, 12, 14, 16, 18, 20)
变形：
迭代器哨兵：枚举器中可以包含多个过滤器
1
2
3
4
5
scala> for (i <- 1 to 10 if i % 2 == 0) yield {2 * i}
res32: scala.collection.immutable.IndexedSeq[Int] = Vector(4, 8, 12, 16, 20)

scala> for (i <- 1 to 10 if i % 2 == 0 if i > 5) yield {2 * i}
res33: scala.collection.immutable.IndexedSeq[Int] = Vector(12, 16, 20)
迭代器嵌套：枚举器中可以包含多个迭代器
1
2
3
4
5
6
7
8
scala>  for {i <- 1 to 10
     |       j <- 1 until 3
     |      if i > j
     |      if i % 2 == 0
     |  } yield {
     |      i + j
     |  }
res37: scala.collection.immutable.IndexedSeq[Int] = Vector(3, 5, 6, 7, 8, 9, 10, 11, 12)
值绑定：在for循环中使用值绑定，可以把循环的大部分逻辑都集中在定义中，可以得到一个更为简洁的 yield 表达式
1
2
3
4
5
6
7
scala> for {
     |     i <- 1 to 8
     |     pow = 1 << i
     | } yield {
     |     pow
     | }
res38: scala.collection.immutable.IndexedSeq[Int] = Vector(2, 4, 8, 16, 32, 64, 128, 256)
while语句
Scala 同样支持 while 和 do/while 循环语句，不过没有 for 表达式那么常用，因为它不是表达式，不能用来返回值。事实上，while 循环和 var通常是一起使用的，要想对程序产生任何效果，while循环通常要么更新一个var要么执行I/O。Scala 没有内建的 break 和 continue 语句，但可以通过 if 表达式来改写。
语法：
1
2
3
4
// while
while (Boolean expression) statement
// do ... while
do statement while (Boolean expression)
执行：
while 只要条件为true，循环体就会一遍接着一遍执行；
do/while：一遍接着一遍执行循环体，直至条件为false
while 和 do/while语句也有自己的用途，比如需要不断读取外部输入知道没有可读的内容为止，不过Scala提供了很多更有表述性且功能更强的方法来处理循环。
try 表达式
异常传播机制：方法除了正常返回某个值外，也可以通过抛出异常终止执行，方法调用方要么捕获并处理这个异常，要么自我终止，让异常传播到更上层的方法调用方，异常通过这种方式传播，逐个展开调用栈，直至某个方法处理该异常或再没有更多方法为止。
抛出异常
语法：
1
throw new classException("something")
执行：抛出对应类型的异常，返回值类型为Nothing
1
2
3
scala> throw new IllegalArgumentException("ddfs")
java.lang.IllegalArgumentException: ddfs
  ... 28 elided
捕获异常
语法：
1
2
3
4
5
6
7
8
try {
    
} catch {
    case  => 
    case  => 
} finally {
    
}
执行：
try子句：首先执行代码体 ，如果出现异常则先执行 catch 子句后再执行finally 子句，如果没有异常，则直接执行finally子句
catch子句：根据try子句抛出的异常，依次尝试匹配每个模式，匹配成功则执行模式后面对应的表达式（使用方式和match表达式一致）
finally子句：将那些无论是否抛出异常都想执行的代码以表达式的形式包在finally子句里，finally子句一般都是执行清理工作，这是正确关闭非内存资源的惯用做法，比如关闭文件、套接字、数据库连接
返回值：
如果没有抛出异常，返回try表达式子句的结果；
如果抛出异常且被捕获，则返回对应catch子句的结果；
如果抛出异常但没有被捕获，则整个表达式没有结果；
如果finally子句包含一个显式地返回语句，则整个表达式会返回finally子句的结果，否则按前三个规则
示例:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import java.io.FileReader

try {
    val file = new FileReader("input.txt")
    // 使用文件
} catch {
    // 捕获并处理异常
    case e: FileNotFoundException => "未找到对应文件"
    case e: IOException => "处理其他I/O错误" 
} finally {
    // 关闭文件
    file.close()
    // 显式返回一个值
    return 1
}



Scala 教程：Basics（五）—— 函数
2020-08-07T08:00:00.000Z
在Scala中，函数是命名的参数化表达式，而匿名函数实际上就是参数化表达式，函数可以出现在任何表达式可以出现的地方
在Scala中，函数是首类的，不仅可以得到声明和调用，还具有类型和值，函数类型和函数值可以出现在任何类型和值可以出现的地方
对于 Scala 和其他函数式编程语言来说，函数尤其重要。标准函数式编程方法论建议我们尽可能地构建纯（pure）函数，纯函数相对于非纯函数更加稳定，他们没有状态，且与外部数据正交，事实上它们是不可破坏的纯逻辑表达式：
有一个或多个输入参数，只使用输入参数完成计算，返回一个值；
对相同输入总是返回相同的值；
不使用或影响函数之外的任何数据，也不受函数之外的任何数据的影响；
作为传统函数
Scala 函数可以像传统函数那样进行声明和调用，还可以进行嵌套和递归。
函数声明
函数声明的一般格式：
1
def [[type_param]](:  [,...]):  = 
def：函数声明的关键字
function_name：函数名
type_param：类型参数，如果传入了类型参数，类型参数在函数定义的后续代码中就可以像普通类型一样使用
param1：值参数
:：每个参数后面都必须加上以冒号开始的类型标注，因为Scala并不会推断函数参数的类型
param1_type：值参数类型
function_type：函数的返回值类型是可选的，Scalade的类型推断会根据函数的实际返回值来推断函数的返回值类型，但在无法推断出函数返回值类型时必须显式提供函数返回值类型，比如递归函数必须显式给出函数的结果类型
=：等号也有特别的含义，表示在函数式的世界观里，函数定义的是一个可以获取到结果值的表达式
expression：函数体，由表达式或表达式块组成，最后一行将成为函数的返回值，如果需要在函数的表达式块结束前退出并返回一个值，可以使用return关键字显式指定函数的返回值，然后退出函数；如果函数只有一条语句，也可以选择不使用花括号
没有参数的函数只是表达式的一个命名包装器：适用于通过一个函数来格式化当前数据或者返回一个固定的值
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
scala> def hi() = "hi"
hi: ()String

scala> hi
res11: String = hi

scala> hi()
res12: String = hi

scala> def hi = "hi"
hi: String

scala> hi
res13: String = hi

没有返回值的函数被称作过程：以一个语句结尾的函数，如果函数没有显式的返回类型，且最后是一个语句，则Scala会推导出这个函数的返回类型为Unit
1
2
scala> def log(d: Double) = println(f"Got Value $d%.2f")
log: (d: Double)Unit
函数调用
函数调用的通用语法：
1
()
调用无参函数时，空括号是可选的：如果在定义时加了空括号，在调用时可加可不加，但如果在定义时没有加，在调用时也不能加，这可以避免混淆调用无括号函数与调用函数返回值。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
scala> def hi() = "hi"
hi: ()String

scala> hi
res11: String = hi

scala> hi()
res12: String = hi

scala> def hi = "hi"
hi: String

scala> hi
res13: String = hi

scala> hi()
:13: error: not enough arguments for method apply: (index: Int)Char in class StringOps.
Unspecified value parameter index.
       hi()
         ^
当函数只有一个参数时，可以使用表达式块来发送参数：不必先计算一个量，然后把它保存在局部值中再传递给函数，完全可以在表达式块中完成计算，表达式块会在调用函数之前计算，将表达式块的返回值用作函数的参数
1
2
3
4
5
6
7
8
9
10
11
scala> def len(s: String) = {
     |     s.length()
     | }
len: (s: String)Int

scala> len{
     |    val x = "Hello"
     |    val y = "World"
     |    x + " " + y
     | }
res6: Int = 11
参数传递
按顺序传参&按关键字传参
Scala 中的参数默认按照参数顺序传递，也可以按照关键字传递：
1
2
3
4
5
6
7
8
scala> def greet(prefix: String, name: String) = s"$prefix $name"
greet: (prefix: String, name: String)String

scala> greet("Mr", "Bob")
res0: String = Mr Bob

scala> greet(name = "Bob", prefix = "Mr")
res1: String = Mr Bob
默认参数
Scala 可以为函数的任意参数指定默认值，使得调用者可以忽略这个参数：
1
def (: <type> =  [,...]): <type> = 
如果默认参数后面还有非默认参数，那只能按照关键字传参，因为无法利用参数的顺序了；如果默认参数后面没有非默认参数，则可以按照顺序来传递前面的参数。
变长参数
Scala 支持vararg参数，可以定义输入参数个数可变的函数，可变参数后面不可以有非可变参数，因为无法加以区分。
语法：在参数类型后面加上 * 来标识这是一个可变参数
1
2
3
4
5
6
7
8
9
scala> def sum(items: Int*): Int = {
     |     var total = 0
     |     for (i <- items) total += i
     |     total
     | }
sum: (items: Int*)Int

scala> sum(1,2,3)
res8: Int = 6
类型参数
Scala 函数不仅可以传入“值”参数，还可以传入“类型”参数，这可以提高函数的灵活性和可重用性，这样函数参数或返回值的类型不再是固定的，而是可以由函数调用者控制。
语法：在函数名后的[]传入类型参数R之后，R就可以像一个具体的类型一样在后面使用了
1
def [type-param](: ): <type> = 
示例：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
scala> def identity[R](r: R): R = r
identity: [R](r: R)R

scala> identity[String]("sds")
res9: String = sds

scala> identity[Int](23)
res10: Int = 23

scala> identity[Int]("fs")
:13: error: type mismatch;
 found   : String("fs")
 required: Int
       identity[Int]("fs")
                     ^
函数调用时，类型参数的类型推断：在调用包含类型参数的函数时，如果未明确指定类型参数的具体类型，scala会根据第一个参数列表的类型来推断类型参数的类型，如果第一个参数列表的类型也未知则会抛出异常。因此在设计柯里化函数时，往往将非函数参数放在第一个参数列表，将函数参数放在最后一个参数列表，这样函数的类型参数的具体类型可以通过第一个非函数入参的类型推断出来，而这个类型又能被继续用于对函数参数列表类型进行检查，使用者需要给出的类型信息更少，在编写函数字面量时可以更精简；
1
2
3
4
5
6
7
8
9
10
11
12
13
14
// 类型参数未指定，且第一个参数函数字面值类型未指定，抛出异常
scala> def curry[T](f: T => T)(x:T) = f(x)
curry: [T](f: T => T)(x: T)T

scala> curry(_ * 2)(3)
:13: error: missing parameter type for expanded function ((x$1: ) => x$1.$times(2))
       curry(_ * 2)(3)
             ^
// 类型参数的具体类型可以通过第一个参数列表的类型推断出来，继而推断出第二个参数列表的类型
scala> def curry[T](x: T)(f: T => T) = f(x)
curry: [T](x: T)(f: T => T)T

scala> curry(3)(_ * 2)
res97: Int = 6
递归函数
递归函数在函数式编程中很普遍，因为他们为迭代处理数据结构或计算提供了一种很好的方法，而且不必使用可变的数据，因为每个函数调用自己的栈来存储参数。
示例：
1
2
3
4
5
6
7
8
9
10
11
12
// 计算正数次幂
scala> greet(name = "Bob", prefix = "Mr")
res1: String = Mr Bob

scala> def power(x:Int,n:Int):Long = {
     |     if (n > 1) x * power(x, n-1)
     |     else 1
     | }
power: (x: Int, n: Int)Long

scala> power(2,8)
res2: Long = 128
使用递归函数可能会遇到”栈溢出“错误，为了避免这种情况，Scala编译器可以使用尾递归（tail-recursion）优化一些递归函数，使得递归调用不使用额外的栈空间，而只使用当前函数的栈空间。但是只有最后一个语句是递归调用的函数时（调用函数本身的结果作为直接返回值），Scala编译器才能完成尾递归优化。
示例：
1
2
3
4
5
6
7
8
9
// 用尾递归的方式重写power
scala> def power(x: Int, n: Int, t: Int = 1): Int = {
     |     if (n < 1) t
     |     else power(x, n - 1, x * t)
     | }
power: (x: Int, n: Int, t: Int)Int

scala> power(2, 8)
res4: Int = 256
嵌套函数
函数是命名的参数化表达式，而表达式是可以嵌套的，所以函数本身也是可以嵌套的。当需要在一个方法中重复某个逻辑，但是把它作为外部方法有没有太大意义时，可以在函数中定义一个内部函数，这个内部函数只能在该函数内部使用。
示例：
1
2
3
4
5
6
7
8
scala> def max(a: Int, b: Int, c: Int) = {
     |     def max(x: Int, y: Int) = if (x > y) x else y
     |     max(a,max(b,c))
     | }
max: (a: Int, b: Int, c: Int)Int

scala> max(1,2,3)
res7: Int = 3
作为首类函数
函数式编程的一个关键是函数应当是首类的（first-class）：函数不仅能得到声明和调用，还具有类型和值，函数类型和函数值可以出现在任何类型和值可以出现的地方
函数类型
与函数返回值类型不同，函数类型是函数本身的类型，函数类型可以用 参数类型 => 返回值类型 来表示：
1
([<type>, ...]) => 
函数类型可以出现在任何类型可以出现的地方：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
scala> def func(a: Int, b: Int): Int = if (a > b) a else b
func: (a: Int, b: Int)Int

// 1. 出现在变量/值声明语句中
scala> val x: (Int, Int) => Int = func
x: (Int, Int) => Int = $$Lambda$1096/23426726@70b037ac

scala> x(1,2)
res9: Int = 2
// 2. 出现在函数参数类型中
scala> def max(a: Int, b: (Int, Int) => Int): Int = b(a, 3)
max: (a: Int, b: (Int, Int) => Int)Int

scala> max(1, func)
res10: Int = 3
// 3. 出现在函数返回值类型中
scala> def dummy(): (Int, Int) => Int = func
dummy: ()(Int, Int) => Int

scala> dummy()(1,2)
res11: Int = 2
函数值
与函数返回值不同，函数值是函数本身的值，每个函数值都是某个扩展自scala包的FunctionN系列当中的一个特质的类的实例，比如Function0表示不带参数的函数，Function1表示带一个参数的函数，等等。每一个FunctionN特质都有一个apply方法用来调用该函数。
函数值可以出现在任何值可以出现的地方：
可以用字面值形式创建，而不必指定标识符；
可以存储在某个容器，比如值、变量或数据结构；
作为另一个函数的参数或返回值；
Scala 中有一些特殊的方法来创建或返回函数值，包括：
创建函数字面值/匿名函数；
当通过函数名为一个显式声明为函数类型的变量赋值时，函数名会被推断为一个函数值，而不是函数调用；
使用通配符替换部分参数来部分调用函数，将返回一个能够接收剩余参数的函数值；
函数柯里化提供了一种更加简洁的方式来实现部分调用函数；
匿名函数（Anonymous function）
匿名函数是一个没有名字的函数值，匿名函数可以用 输入参数 => 返回值 来表示：
1
([: <type>...]) => 
示例：
1
2
3
4
5
6
// 一个没有输入的函数字面值
scala> val func = () => "hi"
func: () => String = $$Lambda$1182/355159860@42e71f6c

scala> val doubler = (x: Int) => x * 2
doubler: Int => Int = $$Lambda$1181/1140744858@40fd8aa1
匿名函数有很多名字：
函数字面量(function literal)：由于匿名函数的创建不必指定标识符，且可以出现在一切函数值可以出现的地方，和一般类型中的字面值作用类似；
Lambda表达式：C#和Java8都采用这种说法，这是从原先数学中的lambda演算语法得来的；
functionN：Scala编译器对函数字面量的叫法，根据输入参数的个数而定；
当函数字面值满足以下两个条件时，甚至可以使用通配符语法把参数和箭头也给匿了：
函数的显式类型在字面量之外指定，Scala可以通过类型推断推断出参数类型；
参数最多被使用一次；
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
// 一个参数的情形
scala> def x(s: String, f: String => String) = {
     |     if (s != null) f(s) else s
     | }
x: (s: String, f: String => String)String

scala> x("Ready", _.reverse)
res14: String = ydaeR

// 多个参数的情形：通配符会按照顺序替换输入参数，通配符必须与输入参数个数一致
scala> def com(x: Int, y:Int, f:(Int, Int)=> Int) = f(x, y)
com: (x: Int, y: Int, f: (Int, Int) => Int)Int

scala> com(23, 12, _ * _)
res15: Int = 276
// 使用类型参数的情形
scala> def x[A, B](a: A, b: A, c: A, f:(A, A, A)=>B) = f(a,b,c)
x: [A, B](a: A, b: A, c: A, f: (A, A, A) => B)B

scala> x[Int, Int](1,2,3,_*_+_)
res18: Int = 5
通配符语法在处理数据结构和集合事尤其有帮助，很多核心的排序、过滤和其他数据结构方法都会使用首类函数和占位符语法来减少调用这些方法所需的额外代码。
偏函数（partial function）
偏函数是只对满足某些特定模式的输入进行输出的函数字面值，如果输入匹配不到任何给定模式则会导致一个Scala错误（如果要避免这样的错误可以在末尾使用一个通配符）：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
scala> val statusHandler: Int => String = {
     |     case 200 => "Okay"
     |     case 400 => "Your Error"
     |     case 500 => "Our Error"
     | }
statusHandler: Int => String = $$Lambda$1196/551773385@24efdd16

scala> statusHandler(200)
res22: String = Okay

scala> statusHandler(20)
scala.MatchError: 20 (of class java.lang.Integer)
  at .$anonfun$statusHandler$1(:11)
  at .$anonfun$statusHandler$1$adapted(:11)
  ... 28 elided
偏函数无法单独存在，必须要赋值给变量/参数。偏函数有点像 Sql 中的 case when 语句，在处理集合和模式匹配时更为有用。
函数名用作函数值
函数名出现的时候会被默认视作一次函数调用，但是当将函数名赋值/传递给一个显式声明的变量/参数时，Scala会将其推断为一个函数值：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
scala> def double(x: Int): Int = x * 2
double: (x: Int)Int

scala> val myDouble: (Int) => Int = double
myDouble: Int => Int = $$Lambda$1135/1858051117@753c7411

scala> myDouble(5)
res6: Int = 10
// 没有参数的函数不建议这样使用
scala> def func() = "hi"
func: ()String

scala> val x = func
x: String = hi

scala> val x: () => String = func
:12: warning: Eta-expansion of zero-argument methods is deprecated. To avoid this warning, write (() => func()).
       val x: () => String = func
                             ^
x: () => String = $$Lambda$1177/572488693@2986db02
部分调用函数（partially apply）
对于多参数函数，如果固定其中某些参数，剩余参数用通配符替换，将返回一个只接收剩余参数的函数值：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def sum(a: Int, b: Int, c: Int) = a + b + c
// 返回保留一个参数的函数值
scala> val left1 = sum(1, _, 3)
left1: Int => Int = $$Lambda$1090/466959452@38affd02
scala> left1(2)
res8: Int = 6

// 返回保留两个参数的函数值
scala> val left2 = sum(1, _, _)
left2: (Int, Int) => Int = $$Lambda$1088/1147105139@27f31d91
scala> left2(2,3)
res7: Int = 6

// 返回保留三个参数，等价于 sum _
scala> val left3 = sum(_, _, _)
left3: (Int, Int, Int) => Int = $$Lambda$1087/417004859@2954c429
scala> left3(1, 2, 3)
res6: Int = 6
// 返回保留所有参数的函数值
scala> val leftAll = sum _
leftAll: (Int, Int, Int) => Int = $$Lambda$1103/118175968@79414283

scala> leftAll(1,2,3)
res12: Int = 6
函数柯里化（function Currying）
柯里化（Currying）是以逻辑学家 Haskell Curry 命名的一种将多参数函数转化为单参数函数链的技术。某些分析技术只能应用于具有单个参数的函数，在处理多参数函数时，柯里化通过逐一固定参数来得到关于剩余参数的新的函数，这样每次只需要处理单参数函数。
函数柯里化可以看做是部分调用函数的一种简洁语法：使用有多个参数表的函数，而不是将一个参数表分解为调用参数和非调用参数，每次调用一个函数表将返回一个函数而非函数值：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
// 定义一个多参数表的函数
scala> def sum(x: Int)(y: Int)(z: Int): Int = x + y + z
sum: (x: Int)(y: Int)(z: Int)Int
// 调用一个参数表将返回一个函数，这个函数默认被视为函数调用，因此报错
scala> sum(1)
:13: error: missing argument list for method sum
Unapplied methods are only converted to functions when a function type is expected.
You can make this conversion explicit by writing `sum _` or `sum(_)(_)(_)` instead of `sum`.
       sum(1)
          ^
// 使用部分调用函数语法返回一个函数值
scala> sum(1) _
res17: Int => (Int => Int) = $$Lambda$1143/106305065@26156929

scala> sum(1)(2) _
res18: Int => Int = $$Lambda$1144/141828288@1cdb0d7b
// 函数完全调用后得到函数最终的返回值
scala> sum(1)(2)(3)
res19: Int = 6
高阶函数（high-order function）
如果一个函数不接收任何函数作为入参，就被称为初阶（first-order）函数，
高阶（high-order）函数则是包含了函数类型的参数或返回值的函数。
1
2
3
4
5
6
7
8
9
10
scala> def safeStringOp(s: String, f: String => String) = {
     |     if (s != null) f(s) else s
     | }
safeStringOp: (s: String, f: String => String)String

scala> def reverser(s: String) = s.reverse
reverser: (s: String)String

scala> safeStringOp("Hello", reverser)
res20: String = olleH
传名参数（by-name）
对于普通的传值参数（by-value）来说，如果向其传递一个函数调用，那么只会在参数传递的时候调用这个函数并将其返回值传递给传值参数，后面在使用这个参数的时候使用的都是它的值。而传名参数（by-name）不同，可以获取一个值，也可以获取最终返回一个值的函数，如果向这个函数传入一个值，和传值参数效果相同，但如果向它传入一个函数调用，那么每次使用这个参数时都会调用这个函数，整体上起到了“延迟调用”的效果。
传名参数的声明语法：仅仅是在参数和参数类型中间加了一个 =>：
1
: => <type>
示例：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
scala> def f(i: Int) = {
     |     println(s"Hello from f($i)")
     |     i
     | }
f: (i: Int)Int
// 传值参数
scala> def doubles(x: Int) = {
     |     println("Now doubling" + x)
     |     x * 2
     | }

scala> doubles(f(3))
Hello from f(3)
Now doubling3
res5: Int = 6
// 传名参数
scala> def doubles(x: => Int) = {
     |     println("Now doubling" + x)
     |     x * 2
     | }
     
scala> doubles(f(3))
Hello from f(3)
Now doubling3
Hello from f(3)
res4: Int = 6
scala> doubles(3)
Now doubling3
res0: Int = 6



Scala 教程：Collections（〇）—— 集合框架
2020-08-06T08:00:00.000Z
Scala 2.8 的集合框架有以下特点：
易用：使用 20~50 个方法的词汇量就足以解决大部分的集合问题；
简洁：可以通过单独的一个词来执行一个或多个循环；
安全：Scala 集合的静态类型和函数性质意味着在编译时就可以捕获绝大多数错误；
快速：集合操作已经在类库中优化过；
通用：集合类提供了在一些类型上的相同操作；
Seq、Map、Set 是 Scala 最重要的三种集合类（容器），此外还有 Tuple、Option 等，这些会在后面小节逐一讲解，本节将按照自顶向下的层级结构来学习不同集合类的通用特性。
可变/不可变类型（Mutable/Immutable）
Scala 集合框架系统地区分了可变的(mutable)和不可变的(immutable)集合，并且可以很方便地在两者之间进行转换。你可以对可变集合中的元素进行增、删、改操作，你也可以对不可变类型模拟这些操作，但每个操作都会返回一个新的集合，原来的集合不会发生改变。
集合类的继承树
Scala 所有集合类都可以在以下包中找到：
scala.collection：包中的集合既可以是可变的也可以是不可变的，下图展示了这个包中所有的集合类，这些都是高级抽象类或特质，它们通常有可变和不可变两种实现方式
scala.collection.immutable ：包中的集合类是不可变的，Scala会默认导入这个包，这意味着Scala默认使用不可变集合类，当你写下 Set 而没有加任何前缀，你会得到一个不可变的 Set，下图展示了这个包中所有的集合类
scala.collection.mutable：包中的集合类是可变的，如果你想要使用可变的集合类，通用的做法是导入scala.collection.mutable包即可，当你使用没有前缀的 Set 时仍然指的是一个不可变集合，当你使用 mutable.Set时指的是可变的集合类，下图展示了这个包中所有的集合类
scala.collection.generic：包含了集合的构建块，集合类延迟了collection.generic 类中的部分操作实现
集合类的通用方法
Scala 中的集合类有以下通用方法：
集合创建：每一种集合都可以通过在集合类名后紧跟元素的方式进行创建
1
2
3
4
5
6
7
8
9
10
Traversable(1, 2, 3)
Iterable("x", "y", "z")
Map("x" -> 24, "y" -> 25, "z" -> 26)
Set(Color.red, Color.green, Color.blue)
SortedSet("hello", "world")
Buffer(x, y, z)
IndexedSeq(1.0, 2.0)
LinearSeq(a, b, c)
List(1, 2, 3)
HashMap("x" -> 24, "y" -> 25, "z" -> 26)
toString：所有集合类都可以用toString的方式进行打印；
返回类型一致原则：所有集合类的map方法都会返回相同类型的集合类，例如，在一个List上调用map会又生成一个List，在Set上调用会再生成一个Set，以此类推；
大多数类在集合树种都存在三种变体：root、mutable、immutable；
可遍历特质（Trait Traversable）
可遍历（Traversable）是容器（collection）类的最高级别特质，它唯一的抽象操作是foreach。foreach 是 Traversable 所有操作的基础，用于遍历容器中所有元素，并对每个元素进行指定的操作：
1
2
// Elem 是容器中元素的类型，U是一个任意的返回值类型，对f的调用仅仅是容器遍历的副作用，实际上所有计算结果都被foreach抛弃（没有返回值）
def foreach[U](f: Elem => U)
要实现 Traversable 的容器类仅需要定义与之相关的方法，其他所有方法都可以从 Traversable 中继承，Traversable 定义了许多方法：
相加操作++（addition）表示把两个traversable对象附加在一起或者把一个迭代器的所有元素添加到traversable对象的尾部
Map操作有map，flatMap和collect，它们可以通过对容器中的元素进行某些运算来生成一个新的容器
转换器（Conversion）操作包括toArray，toList，toIterable，toSeq，toIndexedSeq，toStream，toSet，和toMap，它们可以按照某种特定的方法对一个Traversable 容器进行转换
拷贝（Copying）操作有copyToBuffer和copyToArray。从字面意思就可以知道，它们分别用于把容器中的元素元素拷贝到一个缓冲区或者数组里
Size info操作包括有isEmpty，nonEmpty，size和hasDefiniteSize
元素检索（Element Retrieval）操作有head，last，headOption，lastOption和find。这些操作可以查找容器的第一个元素或者最后一个元素，或者第一个符合某种条件的元素。注意，尽管如此，但也不是所有的容器都明确定义了什么是“第一个”或”最后一个“。例如，通过哈希值储存元素的哈希集合（hashSet），每次运行哈希值都会发生改变。在这种情况下，程序每次运行都可能会导致哈希集合的”第一个“元素发生变化。如果一个容器总是以相同的规则排列元素，那这个容器是有序的。大多数容器都是有序的，但有些不是（例如哈希集合）– 排序会造成一些额外消耗。排序对于重复性测试和辅助调试是不可或缺的。这就是为什么Scala容器中的所有容器类型都把有序作为可选项。例如，带有序性的HashSet就是LinkedHashSet
子容器检索（sub-collection Retrieval）操作有tail，init，slice，take，drop，takeWhilte，dropWhile，filter，filteNot和withFilter。它们都可以通过范围索引或一些论断的判断返回某些子容器
拆分（Subdivision）操作有splitAt，span，partition和groupBy，它们用于把一个容器（collection）里的元素分割成多个子容器
元素测试（Element test）包括有exists，forall和count，它们可以用一个给定论断来对容器中的元素进行判断
折叠（Folds）操作有foldLeft，foldRight，/:，:\，reduceLeft和reduceRight，用于对连续性元素的二进制操作
特殊折叠（Specific folds）包括sum, product, min, max。它们主要用于特定类型的容器（数值或比较）
字符串（String）操作有mkString，addString和stringPrefix，可以将一个容器通过可选的方式转换为字符串
视图（View）操作包含两个view方法的重载体。一个view对象可以当作是一个容器客观地展示
Traversable对象的操作：
可以选择使用操作符记法，也可以选择点记法，这取决于个人喜好，但是没有参数的方法除外，这时必须使用点记法，为了一致性推荐使用点记法。
可迭代特质（Trait Iterable）
可迭代是容器类的另一个特质，这个特质里所有方法的定义都基于一个抽象方法iterator，从Traversable Trait中继承来的foreach方法在这里也是利用 iterator 来实现的：
1
2
3
4
def foreach[U](f: Elem => U): Unit = {
  val it = iterator
  while (it.hasNext) f(it.next())
}
Iterator 有两个方法返回迭代器：grouped和sliding，这些迭代器返回的不是单个元素，而是原容器元素的全部子序列，grouped方法返回元素的增量分块，sliding方法生成一个滑动元素的窗口：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
scala> val xs = List(1, 2, 3, 4, 5)
xs: List[Int] = List(1, 2, 3, 4, 5)
scala> val git = xs grouped 3
git: Iterator[List[Int]] = non-empty iterator
scala> git.next()
res3: List[Int] = List(1, 2, 3)
scala> git.next()
res4: List[Int] = List(4, 5)
scala> val sit = xs sliding 3
sit: Iterator[List[Int]] = non-empty iterator
scala> sit.next()
res5: List[Int] = List(1, 2, 3)
scala> sit.next()
res6: List[Int] = List(2, 3, 4)
scala> sit.next()
res7: List[Int] = List(3, 4, 5)
Iterator 在 Traversable 的基础上添加了一些其他方法：
参考
Mutable和Immutable集合
类型 Option



Scala 教程：Collections（二）—— Set
2020-08-04T08:00:00.000Z
Set 是不包含重复元素的可迭代对象，Scala 默认使用的是不可变集合，对集合的任何修改都会生成一个新的集合，如果你想使用可变集合，需要引用 scala.collection.mutable.Set 。
Set 创建
集合的一般创建方式：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
// 创建空 Set
scala> val setImmut = Set()

// 默认创建不可变集合
scala> val setImmut = Set(1,2,3)
scala> println(setImmut.getClass.getName)

// 创建可变集合
scala> import scala.collection.mutable
scala> val setMut = mutable.Set(1,2,3)
scala> println(setMut.getClass.getName)

// 将可变集合转化为不可变集合
scala> val set = setMut.toSet
scala> println(set.getClass.getName)
Set 操作
基本操作
集合的任何操作都可以使用以下三个基本操作来表达：
head：返回集合第一个元素
tail：返回一个集合，包含除了第一元素之外的其他元素
isEmpty：在集合为空时返回 true
1
2
3
4
5
6
7
8
9
10
11
12
scala> val site = Set("Runoob", "Google", "Baidu")
scala> val nums: Set[Int] = Set()

scala> println( "第一网站是 : " + site.head)
scala> println( "最后一个网站是 : " + site.tail)
scala> println( "查看列表 site 是否为空 : " + site.isEmpty)
scala> println( "查看 nums 是否为空 : " + nums.isEmpty)

第一网站是 : Runoob
最后一个网站是 : Set(Google, Baidu)
查看列表 site 是否为空 : false
查看 nums 是否为空 : true
不可变 Set
不可变 Set 的测、增、删、集合操作：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
scala> val setA = Set(1,2,3)
scala> val setB = Set(3,4,5)
scala> val setC = Set(1,2,3,4,5)

// 测：判断是否包含某个元素
scala> println(setA.contains(3))
scala> println(setA(3))
// 测：判断是否是另一个集合的子集
scala> println(setA.subsetOf(setC))
true
true
true

// 增：追加单个元素、多个元素、集合
scala> println(setA + 4)
scala> println(setA + (3,4,5))
scala> println(setA ++ Set(3,4) )
Set(1, 2, 3, 4)
Set(5, 1, 2, 3, 4)
Set(1, 2, 3, 4)

// 删：删除单个元素、多个元素、集合
scala> println(setA - 3)
scala> println(setA - (1,2))
scala> println(setA -- setB)
Set(1, 2)
Set(3)
Set(1, 2)

// 删：清空集合
scala> println(setA.empty)
Set()

// 查：返回集合中最小元素
scala> println(setA.min)
1

// 二元操作
scala> println(setA & setB)
scala> println(setA | setB)
scala> println(setA &~ setB)
Set(3)
Set(5, 1, 2, 3, 4)
Set(1, 2)
可变 Set
可变 Set 支持不可变集合的所有操作，同时还支持对集合的原地修改操作：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
scala> import scala.collection.mutable
scala> val setA = mutable.Set(1,2,3)
scala> val setB = mutable.Set(3,4,5)
scala> val setC = mutable.Set(1,2,3,4,5)

scala> setA += 4
scala> println(setA)
Set(1, 2, 3, 4)
scala> setA -= 5
scala> println(setA)
Set(1, 2, 3, 4)

scala> setA ++= setB
scala> println(setA)
Set(1, 5, 2, 3, 4)
scala> setA --= setB
scala> println(setA)
Set(1, 2)

scala> setC.retain(x=>x % 2==0)
scala> println(setC)
Set(2, 4)

scala> setB(999) = true
scala> println(setB)
Set(999, 5, 3, 4)
对比 Set 和 mutable.Set：
可变集合同样提供了 +、++ 和 -、-- 来添加或删除元素，但很少使用，因为这些操作都需要通过集合拷贝来实现，可变集合提供了更有效的更新方法 +=、++= 和 -=、--=，这些方法在集合中添加或删除元素，返回变化后的集合；
不可变集合同样提供了 += 和 -= 操作，虽然效果相同，但它们在实现上是不同的，可变集合的+=是在可变集合上调用+=方法，它会改变s的内容，但不可变类型的+=却是赋值操作的简写，它是在集合上应用方法+，并把结果赋值给集合变量；这体现了一个重要的原则：我们通常能用一个非不可变集合的变量(var)来替换可变集合的常量(val)；
可变集合默认使用哈希表来存储集合元素，不可变集合则根据元素个数不同使用不同的方式来实现元素个数不超过4的集合可以使用单例对象来表达（较小的不可变集合往往会比可变集合更加高效），超过4个元素的不可变集合则使用trie树来实现；
可变 Set 和不可变 Set 相互转化
可变 Set 和不可变 Set 可以通过 Seq 作为中间桥梁进行相互转化：
1
2
3
4
5
6
7
8
9
10
11
scala> val set_im = Set(1,2,3)
set_im: scala.collection.immutable.Set[Int] = Set(1, 2, 3)

scala> val set_mm = mutable.Set(1,2,3)
set_mm: scala.collection.mutable.Set[Int] = Set(1, 2, 3)

scala> mutable.Set(set_im.toSeq:_*)
res26: scala.collection.mutable.Set[Int] = Set(1, 2, 3)

scala> Set(set_mm.toSeq:_*)
res27: scala.collection.immutable.Set[Int] = Set(1, 2, 3)
Set 选择
选择一个 Set 比选择一个 Seq 要简单得多，可以直接使用可变与不可变的 Set。SoredSet 是按内容排序存储；LinkedHashSet 是按插入顺序存储；ListSet 可以像使用 List 一样使用，按插入顺序反序存储。
Immutable Mutable Description
BitSet ✓ ✓ A set of “non-negative integers represented as variable-size arrays of bits packed into 64-bit words.” Used to save memory when you have a set of integers.
HashSet ✓ ✓ The immutable version “implements sets using a hash trie”; the mutable version “implements sets using a hashtable.”
LinkedHashSet ✓ A mutable set implemented using a hashtable. Returns elements in the order in which they were inserted.
ListSet ✓ A set implemented using a list structure.
TreeSet ✓ ✓ The immutable version “implements immutable sets using a tree.” The mutable version is a mutable SortedSet with “an immutable AVL Tree as underlying data structure.”
Set ✓ ✓ Generic base traits, with both mutable and immutable implementations.
SortedSet ✓ ✓ A base trait. (Creating a variable as a SortedSet returns a TreeSet.)
集合和映射类型常用操作的性能特点：
是否可变类型 具体类型 lookup add remove min
immutable HashSet/HashMap eC eC eC L
immutable TreeSet/TreeMap Log Log Log Log
immutable BitSet C L L eC1
immutable ListMap L L L L
mutable HashSet/HashMap eC eC eC L
mutable WeakHashMap eC eC eC L
mutable BitSet C aC C eC1
mutable TreeSet Log Log Log Log
操作说明：
操作 说明
lookup 测试一个元素是否被包含在集合中，或者找出一个键对应的值
add 添加一个新的元素到一个集合中或者添加一个键值对到一个映射中。
remove 移除一个集合中的一个元素或者移除一个映射中一个键。
min 集合中的最小元素，或者映射中的最小键。
参考
Scala Set(集合)
Scala 集合

	Immutable	Mutable	Description
BitSet	✓	✓	A set of “non-negative integers represented as variable-size arrays of bits packed into 64-bit words.” Used to save memory when you have a set of integers.
HashSet	✓	✓	The immutable version “implements sets using a hash trie”; the mutable version “implements sets using a hashtable.”
LinkedHashSet		✓	A mutable set implemented using a hashtable. Returns elements in the order in which they were inserted.
ListSet	✓		A set implemented using a list structure.
TreeSet	✓	✓	The immutable version “implements immutable sets using a tree.” The mutable version is a mutable SortedSet with “an immutable AVL Tree as underlying data structure.”
Set	✓	✓	Generic base traits, with both mutable and immutable implementations.
SortedSet	✓	✓	A base trait. (Creating a variable as a SortedSet returns a TreeSet.)

是否可变类型	具体类型	lookup	add	remove	min
immutable	HashSet/HashMap	eC	eC	eC	L
immutable	TreeSet/TreeMap	Log	Log	Log	Log
immutable	BitSet	C	L	L	eC1
immutable	ListMap	L	L	L	L
mutable	HashSet/HashMap	eC	eC	eC	L
mutable	WeakHashMap	eC	eC	eC	L
mutable	BitSet	C	aC	C	eC1
mutable	TreeSet	Log	Log	Log	Log

操作	说明
lookup	测试一个元素是否被包含在集合中，或者找出一个键对应的值
add	添加一个新的元素到一个集合中或者添加一个键值对到一个映射中。
remove	移除一个集合中的一个元素或者移除一个映射中一个键。
min	集合中的最小元素，或者映射中的最小键。