xgboost：分割查找算法:贪婪算法、分桶算法_资讯

xgboost：分割查找算法:贪婪算法、分桶算法

创始人

2024-05-28 18:33:32

1、Basic Exact Greedy Algorithm

树学习的关键问题之一是找到最好的分割，如Eq(7)所示。

贪婪算法:分割查找算法枚举所有特征上的所有可能的分割。精确的贪婪算法如Alg. 1所示。为了高效地完成这一任务，算法必须首先根据特征值对数据进行排序，并按排序顺序访问数据，积累Eq(7)中结构得分的梯度统计量。现有的大多数单个树提升实现都支持精确贪婪算法，如scikit-learn[20]、R的gbm[21]以及XGBoost的单机版本。

Eq(7)在文章：xgboost:算法数学原理_KPer_Yang的博客-CSDN博客
Lsplit=12[(∑i∈ILgi)2∑i∈ILhi+λ+(∑i∈IRgi)2∑i∈IRhi+λ−(∑i∈Igi)2∑i∈Ihi+λ]−γ\mathcal{L}_{split}=\frac{1}{2}\left[\frac{(\sum_{i\in I_L}g_i)^2}{\sum_{i\in I_L}h_i+\lambda}+\frac{(\sum_{i\in I_R}g_i)^2}{\sum_{i\in I_R}h_i+\lambda}-\frac{(\sum_{i\in I}g_i)^2}{\sum_{i\in I}h_i+\lambda}\right]-\gamma Lsplit=21[∑i∈ILhi+λ(∑i∈ILgi)2+∑i∈IRhi+λ(∑i∈IRgi)2−∑i∈Ihi+λ(∑i∈Igi)2]−γ
算法的流程如下所示：

在这里插入图片描述

mmm：特征的维度；

sorted(I,byxjk)sorted(I, by \ x_{jk})sorted(I,by xjk):在特征kkk下的样本特征值进行排序，排序后按照划分点进行特征值划分，计算score。

2、 Approximate Algorithm

精确的贪婪算法非常强大，因为它贪婪地枚举了所有可能的分裂点。然而，当数据太大不能全部放入内存时，全部枚举不能做到。同样的问题也出现在分布式环境中。为了在这两种情况下支持有效的梯度树增强，需要一个近似算法。

**在Alg. 2中，首先根据特征分布的百分位数提出候选分裂点(具体标准将在第3.3节给出)。然后，该算法将连续特征映射到由这些候选点分割的桶中，汇总统计数据，并根据汇总的统计数据在分桶后的数据中找到最佳解决方案。**该算法有两种变体，这取决于给出分桶的时间。在合理的近似水平下，分位数策略可以获得与精确贪婪相同的精度。