机器学习:集成学习(〇)—— 概述
集成学习(ensemble learning)通过构建并结合多个基学习器来完成学习任务,通常可获得比单一学习器显著优越的泛化性能。
集成学习的一般步骤:
产生一组“基学习器”:基学习器有时也被称为弱学习器,通常指泛化性能略优于随机猜测的学习器;虽然从理论上说使用弱学习器集成就足以获得很好的性能,但
...
机器学习:集成学习(三)—— GBDT
GBDT(Gradient Boosted Decision Tree,梯度提升决策树,常被戏称为 “广播电台”),又叫MART(Multiple Additive Regression Tree,多重累加回归树),是通过回归树不断拟合当前模型的残差,并将所得到的残差不断累加至当前模型来得到最终
...
机器学习:集成学习(六)—— CatBoost
CatBoost是由Yandex发布的梯度提升库。在Yandex提供的基准测试中,CatBoost的表现超过了XGBoost和LightGBM。
安装1pip install catboost
使用CatBoost的接口基本上和大部分sklearn分类器差不多,所以,如果你用过skl
...
机器学习:集成学习(四)—— XGBoost
xgboost自从被提出来后就因其出众的效率和较高的准确度而被广泛关注,在各种比赛中大放异彩,下图即是对xgboost的完美代言:
xgboost(eXtreme Gradient Boosting)是GBDT的一个C++实现,作者为华盛顿大学研究机器学习的大牛陈天奇,他在研究中深感
...
机器学习:集成学习(五)—— LightGBM
LightGBM的安装LightGBM CLI 版本的构建可参考LightGBM安装指南,python版本我们只需要通过pip下载安装即可,更多python版本的安装可参见LightGBM/python-package/。
构建普通版本:
1pip install lightgbm
构建GPU版本:
...
机器学习:基础算法(二)—— PLA
感知器算法(Perceptron Learning Algorithm,PLA)的最初概念可以追溯到Warren McCulloch和Walter Pitts在1943年的研究,他们将生物神经元类比成带有二值输出的简单逻辑门,输入信号在神经细胞体内聚集,当聚集的信号强度超过一定的阈值,就会产生一个输
...
机器学习:基础算法(三)—— KNN
K 邻近法(k-nearist neighbor,k-NN)是一种可用于分类和回归问题的非参数估计方法。对于分类问题,KNN 模型通过在训练集中寻找距离输入实例最近的前k个实例,将 k 个实例中数量最多的类别(多数表决)作为输出。knn 没有显式的训练过程,k 的选择、距离度量、分类决策是其三要素。
...
机器学习:基础算法(四)—— NB
朴素贝叶斯(naive Bayes,NB)是基于贝叶斯定理与特征条件独立性假设的分类方法。其模型是通过学习先验概率和类条件概率来得到后验概率的生成式模型。其策略为后验概率最大,等价于0-1损失下的期望风险最小化策略。其算法为通过极大似然估计来求解各项概率。
模型贝叶斯通过训练数据学习
...