Like

Spark 指南：Spark SQL（二）—— 结构化操作

发表于 2021-08-05 | 更新于: 2021-08-28 | 分类于 Spark | 阅读次数:

字数统计: 13.4k | 阅读时长 ≈ 68

从定义上讲，DataFrame 由一系列行和列组成，行的类型为 Row，列可以表示成每个单独行的计算表达式。Schema 定义了每个列的名称和类型，Partition 定义了整个集群中 DataFrame 的物理分布。 SchemaSchema 定义了 DataFrame 的列名和类型，我们可以让数 ...

阅读全文 »

数据科学：因果推断（二）—— Rubin 因果模型（RCM）

发表于 2021-02-08 | 更新于: 2021-07-18 | 分类于数据科学 | 阅读次数:

字数统计: 6.9k | 阅读时长 ≈ 25

鲁宾因果模型（Rubin causal model, RCM），也称内曼-鲁宾因果模型（Neyman–Rubin causal model），是一种基于潜在结果框架（framework of potential outcomes）的因果推断方法，以杰西·内曼（Jerzy Neyman）和唐纳德·鲁宾 ...

阅读全文 »

数据科学：因果推断（一）—— 辛普森悖论

发表于 2021-02-07 | 更新于: 2021-06-02 | 分类于数据科学 | 阅读次数:

字数统计: 3.2k | 阅读时长 ≈ 11

There are three kinds of lies: lies, damned lies, and statistics. ——Mark Twain 辛普森悖论——描述辛普森悖论（Simpson’s paradox）是概率统计中的一种现象：在变量 Z 的每一个分层上，变 ...

阅读全文 »

数据科学：因果推断（〇）—— 综述

发表于 2021-02-06 | 更新于: 2021-06-02 | 分类于数据科学 | 阅读次数:

字数统计: 7.2k | 阅读时长 ≈ 25

我们生活在一个相信大数据能够解决所有问题的时代，然而数据远非万能，数据可以告诉你服药的病人比不服药的病人康复得快，却不能告诉你原因何在。也许，那些服药的人只是因为他们支付得起，即使不服用这种药，他们也能恢复得更快。正如 Kendall 和 Stuart 所说，统计关系无论有多强，有多紧密，也决不能 ...

阅读全文 »

数据科学：综述（一）—— 工作内容

发表于 2020-12-28 | 更新于: 2021-06-02 | 分类于数据科学 | 阅读次数:

字数统计: 2.9k | 阅读时长 ≈ 10

本文转载自 One Data Science Job Doesn’t Fit All 在一家高速增长的公司里，当一名领导者的乐趣之一就是你不仅有机会去改变一些事情 —— 你还必须主动驱动变革以跟上步伐。而在数据科学（DS）这个新的、快速发展的领域工作，我们将同时置身于公司和行业的 ...

阅读全文 »

Spark 指南：Spark 原理（三）—— 内存管理

发表于 2020-11-14 | 更新于: 2021-09-22 | 分类于 Spark | 阅读次数:

字数统计: 5.4k | 阅读时长 ≈ 20

原文最初由 IBM developerWorks 中国网站发表，本文在此基础上进行了总结梳理，仅作为个人学习使用。 Spark 作为一个基于内存的分布式计算引擎，其内存管理模块至关重要。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和性能调优。本文基于 Spark ...

阅读全文 »

Spark 指南：Spark 原理（二）—— Partition 和 Shuffle

发表于 2020-11-13 | 更新于: 2021-08-19 | 分类于 Spark | 阅读次数:

字数统计: 3.5k | 阅读时长 ≈ 13

分区分区（Partition）是控制 RDD 在各节点上分布情况的高级特性，RDD 的存储和计算都是基于分区来进行的。为分布式数据集选择正确的分区方式和为本地数据选择合适的数据结构很相似 —— 数据分布都会极其明显地影响程序的性能。有时使用可控的分区方式把常被一起访问的数据放到同一个 ...

阅读全文 »

Spark 指南：Spark 原理（一）—— Spark 程序如何在集群上运行

发表于 2020-11-12 | 更新于: 2021-06-02 | 分类于 Spark | 阅读次数:

字数统计: 2.4k | 阅读时长 ≈ 8

本文主要讨论 Spark 在执行代码时会发生什么，我们以一种忽略具体实现的方式来讨论这个问题，既不依赖于所使用的集群管理器，也不依赖于正在运行的代码。 Spark 运行时架构基本组件Spark 运行时架构包含以下三种基本组件： Driver：是 Spark 程序的主控进程，主要负责：创建 Spa ...

阅读全文 »

Spark 指南：Spark SQL（五）—— SQL

发表于 2020-11-11 | 更新于: 2021-06-02 | 分类于 Spark | 阅读次数:

字数统计: 5.2k | 阅读时长 ≈ 24

SQL（Structured Query Language）是一种领域特定语言，用于表达对数据的关系型操作。SQL 无处不在，即使技术专家预言了它的消亡，它还是许多企业所依赖的及其灵活的数据工具。Spark 实现了 ANSI SQL:2003 的一个子集，该标准是大多数 SQL 数据库中可用的标 ...

阅读全文 »

Spark 指南：Spark SQL（四）—— 结构化函数

发表于 2020-11-07 | 更新于: 2021-06-02 | 分类于 Spark | 阅读次数:

字数统计: 7k | 阅读时长 ≈ 36

Spark SQL 结构化函数一般都在 functions 模块，要使用这些函数，需要先导入该模块： 123import org.apache.spark.sql.functions._import org.apache.spark.sql.Rowimport org.apache.spark.sq ...

阅读全文 »