引言

上一节介绍了高斯过程回归从权重空间(Weight-Space)视角向函数空间(Function-Space)视角的转化过程。本节将介绍基于函数空间视角，对预测任务(Prediction)进行求解。

回顾：基于函数空间视角的表达

场景构建

给定数据集合Data={(x(i),y(i))}i=1NData = \{(x^{(i)},y^{(i)})\}_{i=1}^NData={(x(i),y(i))}i=1N，其中样本集合X\mathcal XX，标签集合Y\mathcal YY表示如下：
X=(x(1),x(2),⋯,x(N))N×pTx(i)∈Rp;i=1,⋯,NY=(y(1),y(2),⋯,y(N))N×1Ty(i)∈R;i=1,2,⋯,N\begin{aligned} \mathcal X & = (x^{(1)},x^{(2)},\cdots,x^{(N)})_{N \times p}^T \quad x^{(i)} \in \mathbb R^p;i=1,\cdots,N \\ \mathcal Y & = (y^{(1)},y^{(2)},\cdots,y^{(N)})_{N \times 1}^T \quad y^{(i)} \in \mathbb R;i=1,2,\cdots,N \end{aligned}XY=(x(1),x(2),⋯,x(N))N×pTx(i)∈Rp;i=1,⋯,N=(y(1),y(2),⋯,y(N))N×1Ty(i)∈R;i=1,2,⋯,N
具体任务是非线性回归，需要将样本的特征空间由当前的低维空间ppp通过非线性转换转移至高维空间q(q≫p)q(q \gg p)q(q≫p)：
X∈Rp→ϕ(X)∈Rq\mathcal X \in \mathbb R^p \to \phi(\mathcal X) \in \mathcal R^qX∈Rp→ϕ(X)∈Rq

权重空间视角(Weight-Space)观察预测任务

权重空间视角的本质是模型学习模型参数W\mathcal WW本身，基于W\mathcal WW的后验概率分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)来求解给定未知样本x^\hat xx^的预测标签结果y^\hat yy^：
具体推导过程详见贝叶斯线性回归——推断任务推导过程
P(W∣Data)∝P(Y∣W,X)⋅P(W)P(W∣Data)∼N(μW,ΣW){μW=A−1XTYσ2ΣW=A−1A=XTXσ2+[Σprior−1]p×p\begin{aligned} \mathcal P(\mathcal W \mid Data) \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \\ \mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \quad \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}\mathcal X^T\mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{\mathcal X^T\mathcal X}{\sigma^2} + [\Sigma_{prior}^{-1}]_{p \times p} \end{cases} \end{aligned}P(W∣Data)∝P(Y∣W,X)⋅P(W)P(W∣Data)∼N(μW,ΣW)⎩⎪⎨⎪⎧μW=σ2A−1XTYΣW=A−1A=σ2XTX+[Σprior−1]p×p

其中σ2\sigma^2σ2表示线性模型Y=WTX+ϵϵ∼N(0,σ2)\mathcal Y = \mathcal W^T \mathcal X + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2)Y=WTX+ϵϵ∼N(0,σ2)中高斯噪声ϵ\epsilonϵ的方差(一维随机变量)；
Σprior\Sigma_{prior}Σprior表示W\mathcal WW的先验概率分布P(W)∼N(0,Σprior)\mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior})P(W)∼N(0,Σprior)的协方差矩阵。

此时，如果针对非线性回归任务，基于X→ϕ(X)\mathcal X \to \phi(\mathcal X)X→ϕ(X)，对应的后验概率分布跟着发生变化：
注意的点：先验分布的协方差矩阵Σprior\Sigma_{prior}Σprior也跟着变化为q×qq \times qq×q.
P(W∣Data)∼N(μW,ΣW){μW=A−1[ϕ(X)]T⋅Yσ2ΣW=A−1A=[ϕ(X)]Tϕ(X)σ2+[Σprior]q×q\mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \quad \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}[\phi(\mathcal X)]^T \cdot \mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{[\phi(\mathcal X)]^T\phi(\mathcal X)}{\sigma^2} + [\Sigma_{prior}]_{q \times q} \end{cases}P(W∣Data)∼N(μW,ΣW)⎩⎪⎨⎪⎧μW=σ2A−1[ϕ(X)]T⋅YΣW=A−1A=σ2[ϕ(X)]Tϕ(X)+[Σprior]q×q
当后验概率分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)求解结束后，对给定未知样本x^\hat xx^进行预测：
该公式相关参考：高斯分布相关定理
P(y^∣x^,Data)=∫W∣DataP(y^∣W,x^)⋅P(W∣Data)dW=N([ϕ(x^)]TW,σ2)⋅N(μW,ΣW)∼N[[ϕ(x^)]TμW,[ϕ(x^)]T⋅ΣW⋅ϕ(x^)+σ2]=N[[ϕ(x^)]T(A−1[ϕ(X)]TYσ2),[ϕ(x^)]TA−1⋅ϕ(x^)+σ2]\begin{aligned} \mathcal P(\hat y \mid \hat x,Data) & = \int_{\mathcal W \mid Data} \mathcal P(\hat y \mid \mathcal W,\hat x) \cdot \mathcal P(\mathcal W \mid Data) d \mathcal W \\ & = \mathcal N([\phi(\hat x)]^T\mathcal W,\sigma^2) \cdot \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \\ & \sim \mathcal N \left[[\phi(\hat x)]^T \mu_{\mathcal W},[\phi(\hat x)]^T \cdot \mathcal \Sigma_{\mathcal W} \cdot \phi(\hat x) + \sigma^2\right] \\ & = \mathcal N \left[[\phi(\hat x)]^T \left(\frac{\mathcal A^{-1} [\phi(\mathcal X)]^T\mathcal Y}{\sigma^2}\right),[\phi(\hat x)]^T \mathcal A^{-1} \cdot \phi(\hat x) + \sigma^2\right] \end{aligned}P(y^∣x^,Data)=∫W∣DataP(y^∣W,x^)⋅P(W∣Data)dW=N([ϕ(x^)]TW,σ2)⋅N(μW,ΣW)∼N[[ϕ(x^)]TμW,[ϕ(x^)]T⋅ΣW⋅ϕ(x^)+σ2]=N[[ϕ(x^)]T(σ2A−1[ϕ(X)]TY),[ϕ(x^)]TA−1⋅ϕ(x^)+σ2]

从权重空间视角(Weight-Space)到函数空间视角(Function-Space)的过渡

首先，引入非线性转换函数ϕ(⋅)\phi(\cdot)ϕ(⋅)本身求解是非常复杂的，并且上述公式中的ϕ(⋅)\phi(\cdot)ϕ(⋅)均以内积的形式出现。因而尝试找到一款函数，使其 直接表示ϕ(⋅)\phi(\cdot)ϕ(⋅)的内积结果，从而减少大量运算：
K(x(i),x(j))=[ϕ(x(i))]TΣpriorϕ(x(j))\mathcal K(x^{(i)},x^{(j)}) = [\phi(x^{(i)})]^T \Sigma_{prior} \phi(x^{(j)})K(x(i),x(j))=[ϕ(x(i))]TΣpriorϕ(x(j))
并且K(x(i),x(j))\mathcal K(x^{(i)},x^{(j)})K(x(i),x(j))是核函数(Kernal Function)。从函数空间视角观察，可以将核函数表示为如下形式：

关于K(x(i),x(j))\mathcal K(x^{(i)},x^{(j)})K(x(i),x(j))是核函数的充分性证明见高斯过程回归——权重空间角度、必要性证明见高斯过程回归——函数空间角度
E[f(x(i))],E[f(x(j))]=0\mathbb E[f(x^{(i)})],\mathbb E[f(x^{(j)})]= 0E[f(x(i))],E[f(x(j))]=0是因为f(x(i))=[x(i)]TW+ϵf(x^{(i)}) = [x^{(i)}]^T \mathcal W + \epsilonf(x(i))=[x(i)]TW+ϵ,因而f(x(i))∼N([x(i)]TW+0,σ2)f(x^{(i)}) \sim \mathcal N([x^{(i)}]^T\mathcal W + 0,\sigma^2)f(x(i))∼N([x(i)]TW+0,σ2)

K(x(i),x(j))=[ϕ(x(i))]T⋅E[W⋅WT]⋅ϕ(x(j))=E{[ϕ(x(i))]TW⋅[ϕ(x(j))]TW}=E{[f(x(i))−E[f(x(i))]]⋅[f(x(j))−E[f(x(j))]]}=Cov[f(x(i)),f(x(j))]\begin{aligned} \mathcal K(x^{(i)},x^{(j)}) & = [\phi(x^{(i)})]^T \cdot \mathbb E[\mathcal W \cdot \mathcal W^T] \cdot \phi(x^{(j)}) \\ & = \mathbb E \left\{[\phi(x^{(i)})]^T \mathcal W \cdot [\phi(x^{(j)})]^T \mathcal W\right\} \\ & = \mathbb E \left\{\left[f(x^{(i)}) - \mathbb E[f(x^{(i)})]\right] \cdot \left[f(x^{(j)}) - \mathbb E[f(x^{(j)})]\right]\right\} \\ & = Cov \left[f(x^{(i)}),f(x^{(j)})\right] \end{aligned}K(x(i),x(j))=[ϕ(x(i))]T⋅E[W⋅WT]⋅ϕ(x(j))=E{[ϕ(x(i))]TW⋅[ϕ(x(j))]TW}=E{[f(x(i))−E[f(x(i))]]⋅[f(x(j))−E[f(x(j))]]}=Cov[f(x(i)),f(x(j))]
发现，核函数K(x(i),x(j))\mathcal K(x^{(i)},x^{(j)})K(x(i),x(j))是f(x(i)),f(x(j))f(x^{(i)}),f(x^{(j)})f(x(i)),f(x(j))的协方差结果。因此一个想法是：直接将f(x)f(x)f(x)看作随机变量，用f(x)f(x)f(x)来表示后验概率分布和预测分布。
但f(x)f(x)f(x)并不是一个随机变量，而是基于ppp维实数域的随机变量集合：
f(x(i))=WTϕ(x(i))=[ϕ(x(i))]TWx(i)∈Xf(x^{(i)}) = \mathcal W^T \phi(x^{(i)}) = [\phi(x^{(i)})]^T\mathcal W \quad x^{(i)} \in \mathcal Xf(x(i))=WTϕ(x(i))=[ϕ(x(i))]TWx(i)∈X
因而基于f(x)f(x)f(x)的预测任务表达式如下：
P(y^∣Data,x^)=∫f(X)P(y^∣f(X),x^)⋅P[f(X)∣Data]df(X)\mathcal P(\hat y \mid Data,\hat x) = \int_{f(\mathcal X)} \mathcal P(\hat y \mid f(\mathcal X),\hat x) \cdot \mathcal P[f(\mathcal X) \mid Data] df(\mathcal X)P(y^∣Data,x^)=∫f(X)P(y^∣f(X),x^)⋅P[f(X)∣Data]df(X)

基于函数空间角度的预测任务求解

随机变量集合f(X)f(\mathcal X)f(X)是一个高斯过程，并且它服从高斯分布：
{f(X)}X∈Rp∼N[μ(X),K(X,X)]\{f(\mathcal X)\}_{\mathcal X \in \mathbb R^p} \sim \mathcal N [\mu(\mathcal X),\mathcal K(\mathcal X,\mathcal X)]{f(X)}X∈Rp∼N[μ(X),K(X,X)]
其中m(X)m(\mathcal X)m(X)表示均值函数(Mean-Function)，K(X,X)\mathcal K(\mathcal X,\mathcal X)K(X,X)并非表示某一项，而是整个核矩阵(Kernal Matrix)：
K(X,X)=[K(x(1),x(1)),K(x(1),x(2)),⋯,K(x(1),x(N))K(x(2),x(1)),K(x(2),x(2)),⋯,K(x(2),x(N))⋮K(x(N),x(1)),K(x(N),x(2)),⋯,K(x(N),x(N))]N×N\mathcal K(\mathcal X,\mathcal X) = \begin{bmatrix} \mathcal K(x^{(1)},x^{(1)}),\mathcal K(x^{(1)},x^{(2)}),\cdots,\mathcal K(x^{(1)},x^{(N)}) \\ \mathcal K(x^{(2)},x^{(1)}),\mathcal K(x^{(2)},x^{(2)}),\cdots,\mathcal K(x^{(2)},x^{(N)}) \\ \vdots \\ \mathcal K(x^{(N)},x^{(1)}),\mathcal K(x^{(N)},x^{(2)}),\cdots,\mathcal K(x^{(N)},x^{(N)}) \\ \end{bmatrix}_{N \times N}K(X,X)=⎣⎢⎢⎢⎡K(x(1),x(1)),K(x(1),x(2)),⋯,K(x(1),x(N))K(x(2),x(1)),K(x(2),x(2)),⋯,K(x(2),x(N))⋮K(x(N),x(1)),K(x(N),x(2)),⋯,K(x(N),x(N))⎦⎥⎥⎥⎤N×N
因而对应标签向量Y\mathcal YY表示如下：
Y=f(X)+ϵ∼N[μ(X),K(X,X)+σ2IN×N]\mathcal Y = f(\mathcal X) + \epsilon \sim \mathcal N[\mu(\mathcal X),\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I_{N \times N}]Y=f(X)+ϵ∼N[μ(X),K(X,X)+σ2IN×N]

此时，已知一个新样本集合X∗=(x∗(1),x∗(2),⋯,x∗(M))M×pT\mathcal X_* = (x_*^{(1)},x_*^{(2)},\cdots,x_*^{(\mathcal M)})_{\mathcal M \times p}^TX∗=(x∗(1),x∗(2),⋯,x∗(M))M×pT，那么预测标签Y∗=f(X∗)+ϵ\mathcal Y_* = f(\mathcal X_*) + \epsilonY∗=f(X∗)+ϵ。首先，针对标签集合Y\mathcal YY与无高斯噪声结果f(X∗)f(\mathcal X_*)f(X∗)的联合概率分布P[f(X∗),Y∣X,X∗]\mathcal P \left[f(\mathcal X_*),\mathcal Y \mid \mathcal X ,\mathcal X_*\right]P[f(X∗),Y∣X,X∗]表示如下：
[Yf(X∗)](N+M)×1∼N{[μ(X)μ(X∗)],[K(X,X)+σ2IN×N,K(X,X∗)N×MK(X∗,X)M×NK(X∗,X∗)M×M](N+M)×(N+M)}\begin{bmatrix} \mathcal Y \\ \quad \\ f(\mathcal X_*) \end{bmatrix}_{(N+\mathcal M) \times 1} \sim \mathcal N \left\{\begin{bmatrix} \mu(\mathcal X) \\ \quad \\ \mu(\mathcal X_*) \end{bmatrix},\begin{bmatrix}\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I_{N \times N},\mathcal K(\mathcal X,\mathcal X_*)_{N \times \mathcal M} \\ \quad \\ \mathcal K(\mathcal X_*,\mathcal X)_{\mathcal M \times N} \quad\quad \mathcal K(\mathcal X_*,\mathcal X_*)_{\mathcal M \times \mathcal M}\end{bmatrix}_{(N+\mathcal M) \times (N+\mathcal M)}\right\}⎣⎡Yf(X∗)⎦⎤(N+M)×1∼N⎩⎪⎨⎪⎧⎣⎡μ(X)μ(X∗)⎦⎤,⎣⎡K(X,X)+σ2IN×N,K(X,X∗)N×MK(X∗,X)M×NK(X∗,X∗)M×M⎦⎤(N+M)×(N+M)⎭⎪⎬⎪⎫

此时就变成了已知联合概率分布，求解条件概率分布P[f(X∗)∣Data,X∗]=P[f(X∗)∣Y,X,X∗]\mathcal P \left[f(\mathcal X_*) \mid Data,\mathcal X_*\right] = \mathcal P\left[ f(\mathcal X_*) \mid \mathcal Y,\mathcal X,\mathcal X_*\right]P[f(X∗)∣Data,X∗]=P[f(X∗)∣Y,X,X∗]的形式。
这里用到了基于高斯分布的推断任务——已知联合概率分布求解条件概率分布的相关内容，这里就不推导了。

假设条件概率分布的高斯分布形式为：P[f(X∗)∣Y,X,X∗]∼N(μ∗,Σ∗)\mathcal P\left[ f(\mathcal X_*) \mid \mathcal Y,\mathcal X,\mathcal X_*\right]\mathcal \sim N(\mu^*,\Sigma^*)P[f(X∗)∣Y,X,X∗]∼N(μ∗,Σ∗)，那么μ∗,Σ∗\mu^*,\Sigma^*μ∗,Σ∗分别表示如下：
{μ∗=K(X∗,X)⋅[K(X,X)+σ2I]−1[Y−μ(X)]+μ(X∗)Σ∗=K(X∗,X∗)−K(X∗,X)[K(X,X)+σ2I]−1K(X,X∗)\begin{cases} \mu^* = \mathcal K(\mathcal X_*,\mathcal X) \cdot [\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1}[\mathcal Y - \mu(\mathcal X)] + \mu(\mathcal X_*) \\ \Sigma^* = \mathcal K(\mathcal X_*,\mathcal X_*) - \mathcal K(\mathcal X_*,\mathcal X)[\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1} \mathcal K(\mathcal X,\mathcal X_*) \end{cases}{μ∗=K(X∗,X)⋅[K(X,X)+σ2I]−1[Y−μ(X)]+μ(X∗)Σ∗=K(X∗,X∗)−K(X∗,X)[K(X,X)+σ2I]−1K(X,X∗)

此时f(X∗)f(\mathcal X_*)f(X∗)的条件/后验概率分布已经求解，但此时是无高斯噪声状态，需要将高斯噪声加回去。那么关于Y∗\mathcal Y_*Y∗的后验P(Y∗∣Data,X∗)\mathcal P(\mathcal Y_* \mid Data,\mathcal X_*)P(Y∗∣Data,X∗)可表示为：
Y∗=f(X∗)+ϵP(Y∗∣Data,X∗)∼N(μY∗,ΣY∗){μY∗=μ∗+0=μ∗ΣY∗=Σ∗+σ2IM×M\begin{aligned} \mathcal Y_* & = f(\mathcal X_*) + \epsilon \\ \mathcal P(\mathcal Y_* \mid Data ,\mathcal X_*) & \sim \mathcal N(\mu_{\mathcal Y}^*,\Sigma_{\mathcal Y}^*) \begin{cases} \mu_{\mathcal Y}^* = \mu^* + 0 = \mu^* \\ \Sigma_{\mathcal Y}^* = \Sigma^* + \sigma^2 \mathcal I_{\mathcal M \times \mathcal M} \end{cases} \end{aligned}Y∗P(Y∗∣Data,X∗)=f(X∗)+ϵ∼N(μY∗,ΣY∗){μY∗=μ∗+0=μ∗ΣY∗=Σ∗+σ2IM×M

实际上，使用函数空间角度求解预测任务相比于权重空间角度求解要简单一些。由于将随机变量集合设定为高斯过程，自然不会受到ϕ(⋅)\phi(\cdot)ϕ(⋅)的影响；并且它不需要求解模型参数W\mathcal WW的后验概率，只需要通过推断对预测任务进行处理即可。

至此，高斯过程部分介绍结束，在后续会将高斯过程与贝叶斯线性回归相关符号进行检查和修正。

相关参考：
机器学习-高斯过程回归-函数空间角度（Function-Space）

上一篇：创业开餐厅注意什么,创业开餐馆需要注意什么初次创业小白适合开什么餐馆创业开餐饮店需要注意哪些问题

下一篇：机电一体化大专生出路,机电一体化可以自己创业吗大专机电一体化怎么创业机电一体化大专最好去应聘什么

机器学习笔记之高斯过程(四)高斯过程回归——基于函数空间角度的预测任务求解

机器学习笔记之高斯过程——高斯过程回归[基于函数空间角度的预测任务求解]

引言

回顾：基于函数空间视角的表达

场景构建

权重空间视角(Weight-Space)观察预测任务

从权重空间视角(Weight-Space)到函数空间视角(Function-Space)的过渡

基于函数空间角度的预测任务求解

相关内容

热门资讯