全局向量的词嵌入(GloVe)
创始人
2024-05-25 23:49:49
0
  • 诸如词-词共现计数的全局语料库统计可以来解释跳元模型。

  • 交叉熵损失可能不是衡量两种概率分布差异的好选择,特别是对于大型语料库。GloVe使用平方损失来拟合预先计算的全局语料库统计数据。

  • 对于GloVe中的任意词,中心词向量和上下文词向量在数学上是等价的。

  • GloVe可以从词-词共现概率的比率来解释。

上下文窗口内的词共现可以携带丰富的语义信息。例如,在一个大型语料库中,“固体”比“气体”更有可能与“冰”共现,但“气体”一词与“蒸汽”的共现频率可能比与“冰”的共现频率更高。此外,可以预先计算此类共现的全局语料库统计数据:这可以提高训练效率。为了利用整个语料库中的统计信息进行词嵌入,让我们首先回顾 预训练——词嵌入(word2vec)、 近似训练_流萤数点的博客-CSDN博客中的跳元模型,但是使用全局语料库统计(如共现计数)来解释它。

1.带全局语料统计的跳元模型

考虑词w_{i}可能在语料库中出现多次。在整个语料库中,所有以w_{i}为中心词的上下文词形成一个词索引的多重集Ci,该索引允许同一元素的多个实例。对于任何元素,其实例数称为其重数。举例说明,假设词wi在语料库中出现两次,并且在两个上下文窗口中以w_{i}为其中心词的上下文词索引是k,j,m,k和k,l,k,j。因此,多重集Ci={j,j,k,k,k,k,l,m},其中元素j,k,l,m的重数分别为2、4、1、1。

 虽然交叉熵损失函数通常用于测量概率分布之间的距离,但在这里可能不是一个好的选择。一方面,规范化q_{ij}的代价在于整个词表的求和,这在计算上可能非常昂贵。另一方面,来自大型语料库的大量罕见事件往往被交叉熵损失建模,从而赋予过多的权重。 

 2.GloVe模型

有鉴于此,GloVe模型基于平方损失 (Pennington et al., 2014)对跳元模型做了三个修改:

应该强调的是,当词w_{i}出现在词w_{j}的上下文窗口时,词wj也出现在词w_{i}的上下文窗口。因此,x_{ij}=x_{ji}。与拟合非对称条件概率p_{ij}的word2vec不同,GloVe拟合对称概率logx_{ij}。因此,在GloVe模型中,任意词的中心词向量和上下文词向量在数学上是等价的。但在实际应用中,由于初始值不同,同一个词经过训练后,在这两个向量中可能得到不同的值:GloVe将它们相加作为输出向量。 

3.从条件概率比值理解GloVe模型

我们可以观察到以下几点:

  • 对于与“ice”相关但与“steam”无关的单词w_{k},例如w_{k}=solid,我们预计会有更大的共现概率比值,例如8.9。 

  • 对于与“steam”相关但与“ice”无关的单词w_{k},例如w_{k}=gas,我们预计较小的共现概率比值,例如0.085。 

  • 对于同时与“ice”和“steam”相关的单词w_{k},例如w_{k}=water,我们预计其共现概率的比值接近1,例如1.36.  

  • 对于与“ice”和“steam”都不相关的单词w_{k},例如w_{k}=fashion,我们预计共现概率的比值接近1,例如0.96.

由此可见,共现概率的比值能够直观地表达词与词之间的关系。因此,我们可以设计三个词向量的函数来拟合这个比值。对于共现概率p_{ij}/p_{ik}的比值,其中w_{i}是中心词,w_{j}w_{k}是上下文词,我们希望使用某个函数f来拟合该比值:

 

通过对 (14.5.7)的加权平方误差的度量,得到了 (14.5.4)的GloVe损失函数。

 

 

 

相关内容

热门资讯

资本界金控(00204.HK)... 格隆汇7月2日丨资本界金控(00204.HK)公告,公司近期与江苏福万代科技信息有限公司("福万代"...
新希望:独立董事彭龙接受纪律审... 转自:财联社【新希望:独立董事彭龙接受纪律审查和监察调查】财联社7月2日电,新希望公告,公司独立董事...
3岁萌娃迷路街头,妈妈急疯!两... 来源:杭州公安 “你好 我在天万街与羊头坝路交叉口的桥上 这边有个小孩子找不到家人一直在哭” 6月2...
中考成绩单|低波策略业绩盘点 (转自:国泰基金微幸福)
华菱钢铁:投资者建议连续三年回... 投资者提问:回购注销是财务手段里提升pb最稳定最可靠最有效的方式,在pb回升到1之前,每年分红可以少...
今年前5个月销量排名前十位轿车... 转自:北京商报北京商报讯(记者 刘晓梦)7月2日,据中国汽车工业协会统计分析,今年前5个月,销量排名...
法国已有2人死于热浪 转自:新华社新华社巴黎7月2日电(记者罗毓)法国商业调频电视台2日上午报道,最近该国遭遇强热浪天气,...
赛意信息(300687.SZ)... 格隆汇7月2日丨赛意信息(300687.SZ)公布,截至2025年6月30日,公司通过股份回购专用证...
比亚迪汽车:海洋网累计销售超5... 7月2日,比亚迪汽车官方微博显示,比亚迪海洋网6月热销196766辆,同比增长24.6%。2025年...
能特科技:拟以3亿元-5亿元回... 格隆汇7月2日|能特科技公告,公司拟使用自有资金及自筹资金,本次回购股份将全部用于注销并相应减少注册...