机器学习:优化算法(五)—— 模拟退火算法 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 682 | 阅读时长 ≈ 2 算法背景模拟退火算法最早的思想由Metropolis(1953)提出,1983年Kirkpatrick等将其应用于组合优化,有以下优点: 解决NP问题 克服局部最优 克服初值依赖性 物理退火物理退火过程退火:将固体加热到足够高的温度,使分子呈现随机排列状态,然后缓慢降温,使得分子在每一温度时, ... 阅读全文 »
机器学习:优化算法(二)——(拟)牛顿法 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 1.2k | 阅读时长 ≈ 4 牛顿法(Newton method)和拟牛顿法(quasi Newton method)也是求解最优化问题的常用迭代方法。当目标函数是凸函数时,可以得到全局最优解,否则不能保证得到全局最优解,但是其收敛速度相比梯度下降法要快。 假设 $f(x)$ 具有二阶连续偏导,考虑无约束最优化问题: x^*= ... 阅读全文 »
机器学习:优化算法(四)—— 遗传算法 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 1k | 阅读时长 ≈ 4 算法背景术语界定 算法核心问题定义 argmax f(x_{1}) 编码DNA 定义适应度函数 问题求解算法描述经过N代进化,从末代种群中选出最优个体,每轮迭代: 自然选择 交叉重组 基因突变 算法流程图算法实现12345678910111213141516171819202122232425 ... 阅读全文 »
机器学习:其它话题(一)—— 类别不平衡问题 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 2.4k | 阅读时长 ≈ 8 问题类别不平衡(class-imbalance)是指在分类任务中不同类别的训练样本数差别很大的情况。类别不平衡问题在实际数据中是很常见的,比如在癌症检查中可能只有极少部分病人患上了癌症,而其余大多数样本都是健康的个体;又比如欺诈识别,欺诈样本与正常样本的比例可能会达到1:100000。 精度是在评估 ... 阅读全文 »
机器学习:工作流(一)—— 数据预处理 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 4.2k | 阅读时长 ≈ 14 模型训练之前的数据准备阶段可以分为三个步骤,虽然这些步骤往往是相互交织、反复迭代的,但是为了指导数据准备阶段有序进行,有必要尝试对各个步骤进行界定: 数据收集:收集所有可能与所研究问题相关的数据; 数据预处理:为满足模型对数据的要求而对原始数据进行的一系列操作; 特征工程:从现有数据中挖掘出有意义 ... 阅读全文 »
机器学习:工作流(三)—— 模型优化和融合 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 1.7k | 阅读时长 ≈ 6 sklearn.model_selection.GridSearchCV,用于自动搜索超参数的最优值。GridSearchCV从之前的grid_search模块移动到了model_selection模块。 网格搜索使用思路: 按照超参数的重要度(依赖于经验和理论)依次对参数进行调优,对于每个参数或 ... 阅读全文 »
机器学习:工作流(二)—— 特征工程 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 2.7k | 阅读时长 ≈ 9 前言特征工程的重要性特征工程(Feature Engineering)是机器学习界的一个非正式话题,至今还没有一个明确的定义,大多数书籍也都以讲解算法为主,很少提及特征工程,但不可否认的是特征工程很大程度上决定了机器学习实践的成败: Feature engineering is a ... 阅读全文 »
机器学习:集成学习(一)—— RF 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 3 | 阅读时长 ≈ 1 待补充。。。 阅读全文 »
机器学习:理论基础(七)—— 泛化理论 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 4.7k | 阅读时长 ≈ 18 机器学习的目的可以被简单概括为“寻找泛化误差最小的模型”,学习问题可以被分解为两个基本问题: 使模型的经验误差最小,这可以通过经验风险最小化来达到; 使模型的经验误差尽可能接近泛化误差,这主要受到样本容量和模型复杂度的影响。样本容量就是数据量的多少,模型复杂度可以通过假设空间的VC维来衡量; 与 ... 阅读全文 »
机器学习:理论基础(八)—— 性能评估 发表于 2018-10-23 | 更新于: 2021-06-02 | 分类于 机器学习 | 阅读次数: 字数统计: 2.4k | 阅读时长 ≈ 9 误差和过拟合误差分类 误差(error):样本的预测输出与真实输出之间的差异。 训练误差(training error):也叫经验误差,是指在训练集中样本的预测输出与真实输出之间的差异。 验证误差(validation error):是指在验证集中样本的预测输出与真实输出之间的差异 泛化误差(gen ... 阅读全文 »