全局向量的词嵌入（GloVe）

创始人

2024-05-25 23:49:49

诸如词-词共现计数的全局语料库统计可以来解释跳元模型。

交叉熵损失可能不是衡量两种概率分布差异的好选择，特别是对于大型语料库。GloVe使用平方损失来拟合预先计算的全局语料库统计数据。

对于GloVe中的任意词，中心词向量和上下文词向量在数学上是等价的。

GloVe可以从词-词共现概率的比率来解释。

上下文窗口内的词共现可以携带丰富的语义信息。例如，在一个大型语料库中，“固体”比“气体”更有可能与“冰”共现，但“气体”一词与“蒸汽”的共现频率可能比与“冰”的共现频率更高。此外，可以预先计算此类共现的全局语料库统计数据：这可以提高训练效率。为了利用整个语料库中的统计信息进行词嵌入，让我们首先回顾预训练——词嵌入（word2vec）、近似训练_流萤数点的博客-CSDN博客中的跳元模型，但是使用全局语料库统计（如共现计数）来解释它。

1.带全局语料统计的跳元模型

考虑词 $w_{i}$ 可能在语料库中出现多次。在整个语料库中，所有以 $w_{i}$ 为中心词的上下文词形成一个词索引的多重集Ci，该索引允许同一元素的多个实例。对于任何元素，其实例数称为其重数。举例说明，假设词wi在语料库中出现两次，并且在两个上下文窗口中以 $w_{i}$ 为其中心词的上下文词索引是k,j,m,k和k,l,k,j。因此，多重集Ci={j,j,k,k,k,k,l,m}，其中元素j,k,l,m的重数分别为2、4、1、1。

虽然交叉熵损失函数通常用于测量概率分布之间的距离，但在这里可能不是一个好的选择。一方面，规范化 $q_{ij}$ 的代价在于整个词表的求和，这在计算上可能非常昂贵。另一方面，来自大型语料库的大量罕见事件往往被交叉熵损失建模，从而赋予过多的权重。

2.GloVe模型

有鉴于此，GloVe模型基于平方损失 (Pennington et al., 2014)对跳元模型做了三个修改：

应该强调的是，当词 $w_{i}$ 出现在词 $w_{j}$ 的上下文窗口时，词wj也出现在词 $w_{i}$ 的上下文窗口。因此， $x_{ij}=x_{ji}$ 。与拟合非对称条件概率 $p_{ij}$ 的word2vec不同，GloVe拟合对称概率 $logx_{ij}$ 。因此，在GloVe模型中，任意词的中心词向量和上下文词向量在数学上是等价的。但在实际应用中，由于初始值不同，同一个词经过训练后，在这两个向量中可能得到不同的值：GloVe将它们相加作为输出向量。