机器学习笔记之高斯过程(四)高斯过程回归——基于函数空间角度的预测任务求解
创始人
2024-03-07 06:54:31
0

机器学习笔记之高斯过程——高斯过程回归[基于函数空间角度的预测任务求解]

  • 引言
    • 回顾:基于函数空间视角的表达
      • 场景构建
      • 权重空间视角(Weight-Space)观察预测任务
      • 从权重空间视角(Weight-Space)到函数空间视角(Function-Space)的过渡
    • 基于函数空间角度的预测任务求解

引言

上一节介绍了高斯过程回归从权重空间(Weight-Space)视角向函数空间(Function-Space)视角的转化过程。本节将介绍基于函数空间视角,对预测任务(Prediction)进行求解。

回顾:基于函数空间视角的表达

场景构建

给定数据集合Data={(x(i),y(i))}i=1NData = \{(x^{(i)},y^{(i)})\}_{i=1}^NData={(x(i),y(i))}i=1N​,其中样本集合X\mathcal XX,标签集合Y\mathcal YY表示如下:
X=(x(1),x(2),⋯,x(N))N×pTx(i)∈Rp;i=1,⋯,NY=(y(1),y(2),⋯,y(N))N×1Ty(i)∈R;i=1,2,⋯,N\begin{aligned} \mathcal X & = (x^{(1)},x^{(2)},\cdots,x^{(N)})_{N \times p}^T \quad x^{(i)} \in \mathbb R^p;i=1,\cdots,N \\ \mathcal Y & = (y^{(1)},y^{(2)},\cdots,y^{(N)})_{N \times 1}^T \quad y^{(i)} \in \mathbb R;i=1,2,\cdots,N \end{aligned}XY​=(x(1),x(2),⋯,x(N))N×pT​x(i)∈Rp;i=1,⋯,N=(y(1),y(2),⋯,y(N))N×1T​y(i)∈R;i=1,2,⋯,N​
具体任务是非线性回归,需要将样本的特征空间由当前的低维空间ppp通过非线性转换转移至高维空间q(q≫p)q(q \gg p)q(q≫p):
X∈Rp→ϕ(X)∈Rq\mathcal X \in \mathbb R^p \to \phi(\mathcal X) \in \mathcal R^qX∈Rp→ϕ(X)∈Rq

权重空间视角(Weight-Space)观察预测任务

权重空间视角的本质是模型学习模型参数W\mathcal WW本身,基于W\mathcal WW的后验概率分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)来求解给定未知样本x^\hat xx^的预测标签结果y^\hat yy^​:
具体推导过程详见贝叶斯线性回归——推断任务推导过程
P(W∣Data)∝P(Y∣W,X)⋅P(W)P(W∣Data)∼N(μW,ΣW){μW=A−1XTYσ2ΣW=A−1A=XTXσ2+[Σprior−1]p×p\begin{aligned} \mathcal P(\mathcal W \mid Data) \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \\ \mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \quad \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}\mathcal X^T\mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{\mathcal X^T\mathcal X}{\sigma^2} + [\Sigma_{prior}^{-1}]_{p \times p} \end{cases} \end{aligned}P(W∣Data)∝P(Y∣W,X)⋅P(W)P(W∣Data)∼N(μW​,ΣW​)⎩⎪⎨⎪⎧​μW​=σ2A−1XTY​ΣW​=A−1A=σ2XTX​+[Σprior−1​]p×p​​​

  • 其中σ2\sigma^2σ2表示线性模型Y=WTX+ϵϵ∼N(0,σ2)\mathcal Y = \mathcal W^T \mathcal X + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2)Y=WTX+ϵϵ∼N(0,σ2)中高斯噪声ϵ\epsilonϵ的方差(一维随机变量);
  • Σprior\Sigma_{prior}Σprior​表示W\mathcal WW的先验概率分布P(W)∼N(0,Σprior)\mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior})P(W)∼N(0,Σprior​)的协方差矩阵

此时,如果针对非线性回归任务,基于X→ϕ(X)\mathcal X \to \phi(\mathcal X)X→ϕ(X),对应的后验概率分布跟着发生变化:
注意的点:先验分布的协方差矩阵Σprior\Sigma_{prior}Σprior​也跟着变化为q×qq \times qq×q.
P(W∣Data)∼N(μW,ΣW){μW=A−1[ϕ(X)]T⋅Yσ2ΣW=A−1A=[ϕ(X)]Tϕ(X)σ2+[Σprior]q×q\mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \quad \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}[\phi(\mathcal X)]^T \cdot \mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{[\phi(\mathcal X)]^T\phi(\mathcal X)}{\sigma^2} + [\Sigma_{prior}]_{q \times q} \end{cases}P(W∣Data)∼N(μW​,ΣW​)⎩⎪⎨⎪⎧​μW​=σ2A−1[ϕ(X)]T⋅Y​ΣW​=A−1A=σ2[ϕ(X)]Tϕ(X)​+[Σprior​]q×q​​
后验概率分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)求解结束后,对给定未知样本x^\hat xx^进行预测:
该公式相关参考:高斯分布相关定理
P(y^∣x^,Data)=∫W∣DataP(y^∣W,x^)⋅P(W∣Data)dW=N([ϕ(x^)]TW,σ2)⋅N(μW,ΣW)∼N[[ϕ(x^)]TμW,[ϕ(x^)]T⋅ΣW⋅ϕ(x^)+σ2]=N[[ϕ(x^)]T(A−1[ϕ(X)]TYσ2),[ϕ(x^)]TA−1⋅ϕ(x^)+σ2]\begin{aligned} \mathcal P(\hat y \mid \hat x,Data) & = \int_{\mathcal W \mid Data} \mathcal P(\hat y \mid \mathcal W,\hat x) \cdot \mathcal P(\mathcal W \mid Data) d \mathcal W \\ & = \mathcal N([\phi(\hat x)]^T\mathcal W,\sigma^2) \cdot \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \\ & \sim \mathcal N \left[[\phi(\hat x)]^T \mu_{\mathcal W},[\phi(\hat x)]^T \cdot \mathcal \Sigma_{\mathcal W} \cdot \phi(\hat x) + \sigma^2\right] \\ & = \mathcal N \left[[\phi(\hat x)]^T \left(\frac{\mathcal A^{-1} [\phi(\mathcal X)]^T\mathcal Y}{\sigma^2}\right),[\phi(\hat x)]^T \mathcal A^{-1} \cdot \phi(\hat x) + \sigma^2\right] \end{aligned}P(y^​∣x^,Data)​=∫W∣Data​P(y^​∣W,x^)⋅P(W∣Data)dW=N([ϕ(x^)]TW,σ2)⋅N(μW​,ΣW​)∼N[[ϕ(x^)]TμW​,[ϕ(x^)]T⋅ΣW​⋅ϕ(x^)+σ2]=N[[ϕ(x^)]T(σ2A−1[ϕ(X)]TY​),[ϕ(x^)]TA−1⋅ϕ(x^)+σ2]​

从权重空间视角(Weight-Space)到函数空间视角(Function-Space)的过渡

首先,引入非线性转换函数ϕ(⋅)\phi(\cdot)ϕ(⋅)本身求解是非常复杂的,并且上述公式中的ϕ(⋅)\phi(\cdot)ϕ(⋅)均以内积的形式出现。因而尝试找到一款函数,使其 直接表示ϕ(⋅)\phi(\cdot)ϕ(⋅)的内积结果,从而减少大量运算:
K(x(i),x(j))=[ϕ(x(i))]TΣpriorϕ(x(j))\mathcal K(x^{(i)},x^{(j)}) = [\phi(x^{(i)})]^T \Sigma_{prior} \phi(x^{(j)})K(x(i),x(j))=[ϕ(x(i))]TΣprior​ϕ(x(j))
并且K(x(i),x(j))\mathcal K(x^{(i)},x^{(j)})K(x(i),x(j))是核函数(Kernal Function)。从函数空间视角观察,可以将核函数表示为如下形式:

  • 关于K(x(i),x(j))\mathcal K(x^{(i)},x^{(j)})K(x(i),x(j))是核函数的充分性证明见高斯过程回归——权重空间角度、必要性证明见高斯过程回归——函数空间角度
  • E[f(x(i))],E[f(x(j))]=0\mathbb E[f(x^{(i)})],\mathbb E[f(x^{(j)})]= 0E[f(x(i))],E[f(x(j))]=0是因为f(x(i))=[x(i)]TW+ϵf(x^{(i)}) = [x^{(i)}]^T \mathcal W + \epsilonf(x(i))=[x(i)]TW+ϵ,因而f(x(i))∼N([x(i)]TW+0,σ2)f(x^{(i)}) \sim \mathcal N([x^{(i)}]^T\mathcal W + 0,\sigma^2)f(x(i))∼N([x(i)]TW+0,σ2)

K(x(i),x(j))=[ϕ(x(i))]T⋅E[W⋅WT]⋅ϕ(x(j))=E{[ϕ(x(i))]TW⋅[ϕ(x(j))]TW}=E{[f(x(i))−E[f(x(i))]]⋅[f(x(j))−E[f(x(j))]]}=Cov[f(x(i)),f(x(j))]\begin{aligned} \mathcal K(x^{(i)},x^{(j)}) & = [\phi(x^{(i)})]^T \cdot \mathbb E[\mathcal W \cdot \mathcal W^T] \cdot \phi(x^{(j)}) \\ & = \mathbb E \left\{[\phi(x^{(i)})]^T \mathcal W \cdot [\phi(x^{(j)})]^T \mathcal W\right\} \\ & = \mathbb E \left\{\left[f(x^{(i)}) - \mathbb E[f(x^{(i)})]\right] \cdot \left[f(x^{(j)}) - \mathbb E[f(x^{(j)})]\right]\right\} \\ & = Cov \left[f(x^{(i)}),f(x^{(j)})\right] \end{aligned}K(x(i),x(j))​=[ϕ(x(i))]T⋅E[W⋅WT]⋅ϕ(x(j))=E{[ϕ(x(i))]TW⋅[ϕ(x(j))]TW}=E{[f(x(i))−E[f(x(i))]]⋅[f(x(j))−E[f(x(j))]]}=Cov[f(x(i)),f(x(j))]​
发现,核函数K(x(i),x(j))\mathcal K(x^{(i)},x^{(j)})K(x(i),x(j))是f(x(i)),f(x(j))f(x^{(i)}),f(x^{(j)})f(x(i)),f(x(j))的协方差结果。因此一个想法是:直接将f(x)f(x)f(x)看作随机变量,用f(x)f(x)f(x)来表示后验概率分布和预测分布
但f(x)f(x)f(x)并不是一个随机变量,而是基于ppp维实数域的随机变量集合
f(x(i))=WTϕ(x(i))=[ϕ(x(i))]TWx(i)∈Xf(x^{(i)}) = \mathcal W^T \phi(x^{(i)}) = [\phi(x^{(i)})]^T\mathcal W \quad x^{(i)} \in \mathcal Xf(x(i))=WTϕ(x(i))=[ϕ(x(i))]TWx(i)∈X
因而基于f(x)f(x)f(x)的预测任务表达式如下:
P(y^∣Data,x^)=∫f(X)P(y^∣f(X),x^)⋅P[f(X)∣Data]df(X)\mathcal P(\hat y \mid Data,\hat x) = \int_{f(\mathcal X)} \mathcal P(\hat y \mid f(\mathcal X),\hat x) \cdot \mathcal P[f(\mathcal X) \mid Data] df(\mathcal X)P(y^​∣Data,x^)=∫f(X)​P(y^​∣f(X),x^)⋅P[f(X)∣Data]df(X)

基于函数空间角度的预测任务求解

随机变量集合f(X)f(\mathcal X)f(X)是一个高斯过程,并且它服从高斯分布
{f(X)}X∈Rp∼N[μ(X),K(X,X)]\{f(\mathcal X)\}_{\mathcal X \in \mathbb R^p} \sim \mathcal N [\mu(\mathcal X),\mathcal K(\mathcal X,\mathcal X)]{f(X)}X∈Rp​∼N[μ(X),K(X,X)]
其中m(X)m(\mathcal X)m(X)表示均值函数(Mean-Function),K(X,X)\mathcal K(\mathcal X,\mathcal X)K(X,X)并非表示某一项,而是整个核矩阵(Kernal Matrix):
K(X,X)=[K(x(1),x(1)),K(x(1),x(2)),⋯,K(x(1),x(N))K(x(2),x(1)),K(x(2),x(2)),⋯,K(x(2),x(N))⋮K(x(N),x(1)),K(x(N),x(2)),⋯,K(x(N),x(N))]N×N\mathcal K(\mathcal X,\mathcal X) = \begin{bmatrix} \mathcal K(x^{(1)},x^{(1)}),\mathcal K(x^{(1)},x^{(2)}),\cdots,\mathcal K(x^{(1)},x^{(N)}) \\ \mathcal K(x^{(2)},x^{(1)}),\mathcal K(x^{(2)},x^{(2)}),\cdots,\mathcal K(x^{(2)},x^{(N)}) \\ \vdots \\ \mathcal K(x^{(N)},x^{(1)}),\mathcal K(x^{(N)},x^{(2)}),\cdots,\mathcal K(x^{(N)},x^{(N)}) \\ \end{bmatrix}_{N \times N}K(X,X)=⎣⎢⎢⎢⎡​K(x(1),x(1)),K(x(1),x(2)),⋯,K(x(1),x(N))K(x(2),x(1)),K(x(2),x(2)),⋯,K(x(2),x(N))⋮K(x(N),x(1)),K(x(N),x(2)),⋯,K(x(N),x(N))​⎦⎥⎥⎥⎤​N×N​
因而对应标签向量Y\mathcal YY表示如下:
Y=f(X)+ϵ∼N[μ(X),K(X,X)+σ2IN×N]\mathcal Y = f(\mathcal X) + \epsilon \sim \mathcal N[\mu(\mathcal X),\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I_{N \times N}]Y=f(X)+ϵ∼N[μ(X),K(X,X)+σ2IN×N​]

此时,已知一个新样本集合X∗=(x∗(1),x∗(2),⋯,x∗(M))M×pT\mathcal X_* = (x_*^{(1)},x_*^{(2)},\cdots,x_*^{(\mathcal M)})_{\mathcal M \times p}^TX∗​=(x∗(1)​,x∗(2)​,⋯,x∗(M)​)M×pT​,那么预测标签Y∗=f(X∗)+ϵ\mathcal Y_* = f(\mathcal X_*) + \epsilonY∗​=f(X∗​)+ϵ。首先,针对标签集合Y\mathcal YY与无高斯噪声结果f(X∗)f(\mathcal X_*)f(X∗​)的联合概率分布P[f(X∗),Y∣X,X∗]\mathcal P \left[f(\mathcal X_*),\mathcal Y \mid \mathcal X ,\mathcal X_*\right]P[f(X∗​),Y∣X,X∗​]表示如下:
[Yf(X∗)](N+M)×1∼N{[μ(X)μ(X∗)],[K(X,X)+σ2IN×N,K(X,X∗)N×MK(X∗,X)M×NK(X∗,X∗)M×M](N+M)×(N+M)}\begin{bmatrix} \mathcal Y \\ \quad \\ f(\mathcal X_*) \end{bmatrix}_{(N+\mathcal M) \times 1} \sim \mathcal N \left\{\begin{bmatrix} \mu(\mathcal X) \\ \quad \\ \mu(\mathcal X_*) \end{bmatrix},\begin{bmatrix}\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I_{N \times N},\mathcal K(\mathcal X,\mathcal X_*)_{N \times \mathcal M} \\ \quad \\ \mathcal K(\mathcal X_*,\mathcal X)_{\mathcal M \times N} \quad\quad \mathcal K(\mathcal X_*,\mathcal X_*)_{\mathcal M \times \mathcal M}\end{bmatrix}_{(N+\mathcal M) \times (N+\mathcal M)}\right\}⎣⎡​Yf(X∗​)​⎦⎤​(N+M)×1​∼N⎩⎪⎨⎪⎧​⎣⎡​μ(X)μ(X∗​)​⎦⎤​,⎣⎡​K(X,X)+σ2IN×N​,K(X,X∗​)N×M​K(X∗​,X)M×N​K(X∗​,X∗​)M×M​​⎦⎤​(N+M)×(N+M)​⎭⎪⎬⎪⎫​

此时就变成了已知联合概率分布,求解条件概率分布P[f(X∗)∣Data,X∗]=P[f(X∗)∣Y,X,X∗]\mathcal P \left[f(\mathcal X_*) \mid Data,\mathcal X_*\right] = \mathcal P\left[ f(\mathcal X_*) \mid \mathcal Y,\mathcal X,\mathcal X_*\right]P[f(X∗​)∣Data,X∗​]=P[f(X∗​)∣Y,X,X∗​]的形式。
这里用到了基于高斯分布的推断任务——已知联合概率分布求解条件概率分布的相关内容,这里就不推导了。

假设条件概率分布高斯分布形式为:P[f(X∗)∣Y,X,X∗]∼N(μ∗,Σ∗)\mathcal P\left[ f(\mathcal X_*) \mid \mathcal Y,\mathcal X,\mathcal X_*\right]\mathcal \sim N(\mu^*,\Sigma^*)P[f(X∗​)∣Y,X,X∗​]∼N(μ∗,Σ∗),那么μ∗,Σ∗\mu^*,\Sigma^*μ∗,Σ∗分别表示如下:
{μ∗=K(X∗,X)⋅[K(X,X)+σ2I]−1[Y−μ(X)]+μ(X∗)Σ∗=K(X∗,X∗)−K(X∗,X)[K(X,X)+σ2I]−1K(X,X∗)\begin{cases} \mu^* = \mathcal K(\mathcal X_*,\mathcal X) \cdot [\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1}[\mathcal Y - \mu(\mathcal X)] + \mu(\mathcal X_*) \\ \Sigma^* = \mathcal K(\mathcal X_*,\mathcal X_*) - \mathcal K(\mathcal X_*,\mathcal X)[\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1} \mathcal K(\mathcal X,\mathcal X_*) \end{cases}{μ∗=K(X∗​,X)⋅[K(X,X)+σ2I]−1[Y−μ(X)]+μ(X∗​)Σ∗=K(X∗​,X∗​)−K(X∗​,X)[K(X,X)+σ2I]−1K(X,X∗​)​

此时f(X∗)f(\mathcal X_*)f(X∗​)的条件/后验概率分布已经求解,但此时是无高斯噪声状态,需要将高斯噪声加回去。那么关于Y∗\mathcal Y_*Y∗​的后验P(Y∗∣Data,X∗)\mathcal P(\mathcal Y_* \mid Data,\mathcal X_*)P(Y∗​∣Data,X∗​)可表示为:
Y∗=f(X∗)+ϵP(Y∗∣Data,X∗)∼N(μY∗,ΣY∗){μY∗=μ∗+0=μ∗ΣY∗=Σ∗+σ2IM×M\begin{aligned} \mathcal Y_* & = f(\mathcal X_*) + \epsilon \\ \mathcal P(\mathcal Y_* \mid Data ,\mathcal X_*) & \sim \mathcal N(\mu_{\mathcal Y}^*,\Sigma_{\mathcal Y}^*) \begin{cases} \mu_{\mathcal Y}^* = \mu^* + 0 = \mu^* \\ \Sigma_{\mathcal Y}^* = \Sigma^* + \sigma^2 \mathcal I_{\mathcal M \times \mathcal M} \end{cases} \end{aligned}Y∗​P(Y∗​∣Data,X∗​)​=f(X∗​)+ϵ∼N(μY∗​,ΣY∗​){μY∗​=μ∗+0=μ∗ΣY∗​=Σ∗+σ2IM×M​​​

实际上,使用函数空间角度求解预测任务相比于权重空间角度求解要简单一些。由于将随机变量集合设定为高斯过程,自然不会受到ϕ(⋅)\phi(\cdot)ϕ(⋅)的影响;并且它不需要求解模型参数W\mathcal WW的后验概率,只需要通过推断预测任务进行处理即可。

至此,高斯过程部分介绍结束,在后续会将高斯过程贝叶斯线性回归相关符号进行检查和修正。

相关参考:
机器学习-高斯过程回归-函数空间角度(Function-Space)

相关内容

热门资讯

九种查找算法-插值查找 插值查找   一、什么是插值查找 (1)插值查找算法类似于二分查找&#x...
Puppeteer之Pyppe... 前言 本文是该专栏的第4篇,结合项目案例让你熟练使用pyppeteer,后面会持续分享Pyppet...
【深度学习笔记】CNN网络各种... FLOPs 这里先注意一下FLOPs的写法,不要弄混了: FLOPS(全大写):是floating...
Linux查看log日志命令总... 目录1,动态实时查看日志1.1 tail -f filename1.2 追踪特定内容日...
Elasticsearch 索... 1、创建\更新索引模板 PUT _template/logging_template {   "in...
语义分割------FCN、d... 一、个人理解 语义分割,其实就是为图片中的每个像素打上相应的标签,即将其所代表的语义具现化,呈现出的...
C++标准模版库中线程的使用 文章目录线程的基本使用最基础的使用方法在创建线程时传参再看看join线程与线程之间的同步 线程是程序...
CMMI之度量与分析(MA) 目的度量与分析(Measurement and Analysis, MA...
TII投稿时间线 IEEE论文审稿状态由awaiting ae recommendation变为AwaitingRev...
C++11中的完美转发 C++11中的完美转发 在讨论引用折叠这个话题之前,先回顾一下C...