xgboost: 分割查找算法:贪婪算法、分桶算法
创始人
2024-05-28 18:33:32
0

1、Basic Exact Greedy Algorithm

树学习的关键问题之一是找到最好的分割,如Eq(7)所示。

贪婪算法:分割查找算法枚举所有特征上的所有可能的分割。精确的贪婪算法如Alg. 1所示。为了高效地完成这一任务,算法必须首先根据特征值对数据进行排序,并按排序顺序访问数据,积累Eq(7)中结构得分的梯度统计量。现有的大多数单个树提升实现都支持精确贪婪算法,如scikit-learn[20]、R的gbm[21]以及XGBoost的单机版本。

Eq(7)在文章:xgboost:算法数学原理_KPer_Yang的博客-CSDN博客
Lsplit=12[(∑i∈ILgi)2∑i∈ILhi+λ+(∑i∈IRgi)2∑i∈IRhi+λ−(∑i∈Igi)2∑i∈Ihi+λ]−γ\mathcal{L}_{split}=\frac{1}{2}\left[\frac{(\sum_{i\in I_L}g_i)^2}{\sum_{i\in I_L}h_i+\lambda}+\frac{(\sum_{i\in I_R}g_i)^2}{\sum_{i\in I_R}h_i+\lambda}-\frac{(\sum_{i\in I}g_i)^2}{\sum_{i\in I}h_i+\lambda}\right]-\gamma Lsplit​=21​[∑i∈IL​​hi​+λ(∑i∈IL​​gi​)2​+∑i∈IR​​hi​+λ(∑i∈IR​​gi​)2​−∑i∈I​hi​+λ(∑i∈I​gi​)2​]−γ
算法的流程如下所示:

在这里插入图片描述

mmm:特征的维度;

sorted(I,byxjk)sorted(I, by \ x_{jk})sorted(I,by xjk​):在特征kkk下的样本特征值进行排序,排序后按照划分点进行特征值划分,计算score。

2、 Approximate Algorithm

精确的贪婪算法非常强大,因为它贪婪地枚举了所有可能的分裂点。然而,当数据太大不能全部放入内存时,全部枚举不能做到。同样的问题也出现在分布式环境中。为了在这两种情况下支持有效的梯度树增强,需要一个近似算法。

**在Alg. 2中,首先根据特征分布的百分位数提出候选分裂点(具体标准将在第3.3节给出)。然后,该算法将连续特征映射到由这些候选点分割的桶中,汇总统计数据,并根据汇总的统计数据在分桶后的数据中找到最佳解决方案。**该算法有两种变体,这取决于给出分桶的时间。在合理的近似水平下,分位数策略可以获得与精确贪婪相同的精度。

  • 全局分桶方法在树构造的初始阶段提出所有候选分割,并在所有级别上使用相同的分割查找分桶。

  • 局部分桶在每次分裂后重新分桶。

在这里插入图片描述

Gkv←=∑j∈{j∣sk,v≥xjk>sk,v−1}gjG_{kv}\leftarrow=\sum_{j\in\{j\mid s_{k,v}\geq\mathbf{x}_{jk}>s_{k,v-1}\}}g_jGkv​←=∑j∈{j∣sk,v​≥xjk​>sk,v−1​}​gj​:按照每个桶计算GGG.

Hkv←=∑j∈{j∣sk,v≥xjk>sk,v−1}hjH_{kv}\leftarrow=\sum_{j\in\{j|s_{k,v}\geq\mathbf{x}_{jk}>s_{k,v-1}\}}h_jHkv​←=∑j∈{j∣sk,v​≥xjk​>sk,v−1​}​hj​:按照每个桶计算HHH.

注:个人理解,分桶其实相当于分裂时就按照每个桶分到左右分支,按照每个桶计算GGG和HHH,而不是一个个样本计算,遍历所有的特征值寻找分裂点。

对比:希格斯10M数据集的AUC收敛性比较。eps参数对应于近似草图的精度。这大致相当于分成1 / eps个桶。相同AUC的情况下,局部分桶需要更少的桶,因为它细化了分裂的候选数据;

在这里插入图片描述

相关内容

热门资讯

美国得州洪水死亡人数升至80人... 【#美国得州洪水死亡人数升至80人# 至少41人失踪】新华社休斯敦7月6日电(记者徐剑梅)美国得克萨...
破解博物馆预约难|上海博物馆的... 暑期来临,“博物馆热”持续升温,一些热门博物馆一票难求、无法预约的问题进一步凸显。澎湃新闻近日走访了...
南卫股份质押触发鹰眼“风险”评... 截止2025年7月5日,南卫股份(维权)整体质押股份为1.05亿股,整体质押占总股本之比为36.24...
盛业(06069)与斯坦德机器... 盛业(06069)公布,集团与全球领先的工业智能机器人斯坦德机器人(无锡)有限公司(斯坦德)近日达成...
山西发布地质灾害和暴雨预警 转自:山西发布7月6日,山西相继发布地质灾害气象风险预警和暴雨蓝色预警。7月6日17时,山西省自然资...
中国气象局批复曲靖开展人工影响... 7月2日,中国气象局批复云南省曲靖市开展人工影响天气赋能特色产业社会服务现代化试点。通过试点工作,将...
有3次犯罪前科的他,是如何当上... 新京报记者 韩福涛 张建斌 制作 罗伟伟山西省洪洞县财政局原局长付雪海的“离奇履历”,引发关注。刑事...
让防非知识走进群众心中 转自:中国银行保险报网□本报记者 胡杨最近一个月,邮储银行四川兴文县支行营业网点热闹非常——防范非法...
【办实事 解民忧】新平县拓宽就...   近年来,新平彝族傣族自治县以产业发展为引擎、以优化服务为抓手、以提技强能为支撑,多元路径拓宽就业...
“稻田郎中”用科技“把脉”黑土...   于洪洋(左)查看稻叶状态。  ■钱玺勇 魏正阳 本报记者 张大星文/摄  盛夏的清晨,延寿县中和...