Spark 指南:Spark SQL(三)—— 结构化类型 发表于 2020-11-06 | 更新于: 2021-06-02 | 分类于 Spark | 阅读次数: 字数统计: 7.7k | 阅读时长 ≈ 42 Spark TypesSpark-Scala 数据类型Spark SQL 具有大量内部类型表示形式,下表列出了 Scala 绑定的类型信息: id Data Type Value type in Scala API to create a data Type 1 ByteType B ... 阅读全文 »
Spark 指南:Spark SQL(一)—— 结构化对象 发表于 2020-11-04 | 更新于: 2021-06-02 | 分类于 Spark | 阅读次数: 字数统计: 6.8k | 阅读时长 ≈ 30 SparkSession 是 Dataset 与 DataFrame API 的编程入口,从 Spark2.0 开始支持,用于统一原来的 HiveContext 和 SQLContext,统一入口提高了 Spark 的易用性,但为了兼容向后兼容,新版本仍然保留了这两个入口。下面的代码展示了如何创建一 ... 阅读全文 »
Spark 指南:Spark SQL(〇)—— 结构化 API 发表于 2020-11-03 | 更新于: 2021-07-11 | 分类于 Spark | 阅读次数: 字数统计: 2.9k | 阅读时长 ≈ 11 Spark SQL 是 Spark 用于处理结构化数据的一个模块,不同于 Spark RDD,Spark SQL 接口提供了更多关于数据的结构化信息,Spark SQL 会通过这些信息执行一些额外的优化操作。Spark SQL 提供了 SQL 和 DataSet 两种 API,二者底层使用的执行引擎 ... 阅读全文 »
数据科学:工具篇(一)—— Jupyter Lab 配置环境 发表于 2020-10-23 | 更新于: 2021-06-21 | 分类于 数据科学 | 阅读次数: 字数统计: 3.8k | 阅读时长 ≈ 16 JupyterLab 是 Jupyter 团队为 Jupyter 项目开发的下一代基于 Web 的交互式开发环境。相对于 Jupyter Notebook,它的集成性更强、更灵活并且更易扩展。它支持 100 种多种语言,支持多种文档相互集成,实现了交互式计算的新工作流程。如果说 Jupyter N ... 阅读全文 »
Scala 教程:Basics(二)—— 核心类型 发表于 2020-08-10 | 更新于: 2021-06-02 | 分类于 Scala | 阅读次数: 字数统计: 2.8k | 阅读时长 ≈ 12 Scala的核心类型,包括String,以及数值类型 Byte、Short、Int、Long、Float、Double、Char 和 Boolean。 数值类型Byte、Short、Int、Long和Char类型统称整数类型,加上Float和Double称作数值类型。 以上列出的基本类型除了Jav ... 阅读全文 »
Scala 教程:Basics(三)—— 操作符&表达式 发表于 2020-08-09 | 更新于: 2021-06-02 | 分类于 Scala | 阅读次数: 字数统计: 1.4k | 阅读时长 ≈ 5 操作符即方法:操作符和方法只不过是操作的两种语法形式 一切操作符都只不过是方法调用的漂亮语法一切方法都可以写作操作符表示法 操作符Scala中的操作符 算术操作符: A 为 10,B 为 20 关系操作符: A 为 10,B 为 20,==的实现很用心,大部分场合都能返回给你需要的相等 ... 阅读全文 »
Scala 教程:Basics(四)—— 控制结构 发表于 2020-08-08 | 更新于: 2021-06-02 | 分类于 Scala | 阅读次数: 字数统计: 2.2k | 阅读时长 ≈ 9 Scala中大多数控制结构都是表达式,有返回值 Scala 只有为数不多的几个内建的控制结构:if、match、for、while、try和函数调用,由于它们有返回值,可以很好地支持函数式编程。 条件控制结构if表达式语法: if (<Boolean expression>) &l ... 阅读全文 »
Scala 教程:Basics(五)—— 函数 发表于 2020-08-07 | 更新于: 2021-06-02 | 分类于 Scala | 阅读次数: 字数统计: 4.9k | 阅读时长 ≈ 20 在Scala中,函数是命名的参数化表达式,而匿名函数实际上就是参数化表达式,函数可以出现在任何表达式可以出现的地方在Scala中,函数是首类的,不仅可以得到声明和调用,还具有类型和值,函数类型和函数值可以出现在任何类型和值可以出现的地方 对于 Scala 和其他函数式编程语言来说,函数尤其重要。 ... 阅读全文 »
Scala 教程:Collections(〇)—— 集合框架 发表于 2020-08-06 | 更新于: 2021-06-02 | 分类于 Scala | 阅读次数: 字数统计: 2k | 阅读时长 ≈ 7 Scala 2.8 的集合框架有以下特点: 易用:使用 20~50 个方法的词汇量就足以解决大部分的集合问题; 简洁:可以通过单独的一个词来执行一个或多个循环; 安全:Scala 集合的静态类型和函数性质意味着在编译时就可以捕获绝大多数错误; 快速:集合操作已经在类库中优化过; 通用:集合类提供了 ... 阅读全文 »
Scala 教程:Collections(二)—— Set 发表于 2020-08-04 | 更新于: 2021-06-02 | 分类于 Scala | 阅读次数: 字数统计: 1.5k | 阅读时长 ≈ 7 Set 是不包含重复元素的可迭代对象,Scala 默认使用的是不可变集合,对集合的任何修改都会生成一个新的集合,如果你想使用可变集合,需要引用 scala.collection.mutable.Set 。 Set 创建集合的一般创建方式: 123456789101112131415// 创建空 Se ... 阅读全文 »