【NLP经典论文阅读】Efficient Estimation of Word Representations in Vector Space(附代码)
创始人
2024-05-29 11:31:22
0

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

NLP经典论文阅读

*(封面图由ERNIE-ViLG AI 作画大模型生成)*

【NLP经典论文阅读】Efficient Estimation of Word Representations in Vector Space(附代码)

1. 论文简介

Efficient Estimation of Word Representations in Vector Space(以下简称Word2vec)是一篇由Google的Tomas Mikolov等人于2013年发表的论文,该论文提出了一种基于神经网络的词向量训练方法,能够高效地学习到单词在向量空间中的分布式表示。

出处:https://arxiv.org/abs/1301.3781

作者:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

单位:Google

发表年份:2013年

论文大意:

论文提出了两种新的模型架构,用于从非常大的数据集中计算单词的连续向量表示。这些表示的质量通过单词相似性任务进行衡量,并将结果与基于不同类型的神经网络的先前表现最佳的技术进行比较。我们观察到准确率有大幅提升,而计算成本则更低,即从一个16亿个单词的数据集中学习高质量单词向量只需不到一天的时间。此外,我们展示了这些向量在测量句法和语义单词相似性的测试集上提供了最先进的性能。

2. 论文详解

Word2vec的主要思想是通过预测上下文或目标单词的方法学习单词的向量表示。具体来说,Word2vec通过一个简单的神经网络来学习单词的向量表示,该神经网络包括一个输入层、一个隐藏层和一个输出层。输入层接收到一个单词,将其转换为一个向量表示,然后将该向量传递到隐藏层中。隐藏层对输入向量进行一些变换,然后将结果传递到输出层。输出层则根据上下文或目标单词的不同,采用不同的损失函数来计算损失,然后通过反向传播算法来更新模型参数。

Word2vec有两种模型,分别是CBOW模型和Skip-gram模型。CBOW模型根据上下文单词来预测中心单词,而Skip-gram模型则根据中心单词来预测上下文单词。在训练时,Word2vec通过梯度下降算法来最小化损失函数,并将单词的向量表示作为最终的输出。
W2V

相比传统的词向量方法,Word2vec的优点在于它能够高效地处理大量的语料库,从而学习到更加准确的单词向量表示。此外,Word2vec的向量表示能够自动捕捉到单词之间的语义和语法关系,因此在自然语言处理任务中表现出了良好的性能。

除了论文之外,Word2vec的相关代码也已经在GitHub上开源,可以在https://github.com/tmikolov/word2vec上找到。在该项目中,提供了C++和Python两种版本的实现代码,包括CBOW和Skip-gram两种模型以及负采样和层次softmax两种训练方法。

2.1 Skip-gram

在Skip-gram模型中,我们的目标是通过中心单词来预测上下文单词。对于给定的一对(中心单词,上下文单词),我们希望最大化它们的共现概率。

假设我们有一个长度为TTT的文本序列w1,w2,...,wTw_1,w_2,...,w_Tw1​,w2​,...,wT​,我们的目标是最大化以下条件概率的对数似然函数:
L(θ)=1T∑t=1T∑−c≤j≤c,j≠0log⁡p(wt+j∣wt;θ)L(\theta)=\frac{1}{T}\sum_{t=1}^T\sum_{-c\le j\le c,j\ne 0}\log p(w_{t+j}|w_t;\theta)L(θ)=T1​t=1∑T​−c≤j≤c,j=0∑​logp(wt+j​∣wt​;θ)
其中,ccc是上下文单词的窗口大小,θ\thetaθ是模型的参数。

我们使用Softmax函数来估计每个上下文单词的概率:

p(wt+j∣wt;θ)=exp⁡(vwt+j′⋅vwt)∑i=1Wexp⁡(vi′⋅vwt)p(w_{t+j}|w_t;\theta)=\frac{\exp(v_{w_{t+j}}'\cdot v_{w_t})}{\sum_{i=1}^W\exp(v_i'\cdot v_{w_t})}p(wt+j​∣wt​;θ)=∑i=1W​exp(vi′​⋅vwt​​)exp(vwt+j​′​⋅vwt​​)​

其中,vwv_wvw​和vw′v'_wvw′​分别表示单词www在输入和输出层中的向量表示,WWW是词汇表大小。

2.2 CBOW模型

CBOW模型与Skip-gram模型类似,但是反过来。在CBOW模型中,我们的目标是通过上下文单词来预测中心单词。具体来说,我们希望最大化中心单词和其上下下文单词的共现概率,公式如下:
L(θ)=1T∑t=1Tlog⁡p(wt∣wt−c,…,wt−1,wt+1,…,wt+c;θ)L(\theta)=\frac{1}{T}\sum_{t=1}^T\log p(w_t|w_{t-c},\ldots,w_{t-1},w_{t+1},\ldots,w_{t+c};\theta)L(θ)=T1​t=1∑T​logp(wt​∣wt−c​,…,wt−1​,wt+1​,…,wt+c​;θ)
其中,ccc是上下文单词的窗口大小,θ\thetaθ是模型的参数。

我们使用Softmax函数来估计中心单词的概率:
p(wt∣wt−c,…,wt−1,wt+1,…,wt+c;θ)=exp⁡(∑j=−c,j≠0cvwt+j)∑i=1Wexp⁡(∑j=−c,j≠0cvwt+j)p(w_t|w_{t-c},\ldots,w_{t-1},w_{t+1},\ldots,w_{t+c};\theta)=\frac{\exp(\sum_{j=-c,j\ne 0}^cv_{w_{t+j}})}{\sum_{i=1}^W\exp(\sum_{j=-c,j\ne 0}^cv_{w_{t+j}})}p(wt​∣wt−c​,…,wt−1​,wt+1​,…,wt+c​;θ)=∑i=1W​exp(∑j=−c,j=0c​vwt+j​​)exp(∑j=−c,j=0c​vwt+j​​)​

其中,vwv_wvw​和vw′v'_wvw′​分别表示单词www在输入和输出层中的向量表示,CCC是上下文单词的数量,WWW是词汇表大小。

2.3 模型优化
在训练Word2Vec模型时,我们需要最大化对数似然函数。由于词汇表很大,如果使用标准的梯度下降法来优化模型,计算量将非常大。为了解决这个问题,作者提出了两种方法:Hierarchical Softmax和Negative Sampling。

2.3 Hierarchical Softmax

在Hierarchical Softmax中,我们将输出层的单词表示为一个二叉树,其中每个叶子节点都表示一个单词。每个非叶子节点都表示两个子节点的内积,每个叶子节点都表示该单词的条件概率。由于二叉树的形状,我们可以使用log⁡2W\log_2 Wlog2​W个节点来表示词汇表大小为WWW的模型,这将大大降低计算量。

在使用Hierarchical Softmax进行训练时,我们需要通过二叉树来计算每个上下文单词的概率,如下所示:
p(wt+j∣wt)=exp⁡(vwt+jT⋅vwt)∑i=1Wexp⁡(viT⋅vwt)=exp⁡(score(wt+j,wt))∑i=1Wexp⁡(score(wi,wt))p(w_{t+j}|w_t)=\frac{\exp(v_{w_{t+j}}^T\cdot v_{w_t})}{\sum_{i=1}^W\exp(v_i^T\cdot v_{w_t})}=\frac{\exp(\text{score}(w_{t+j},w_t))}{\sum_{i=1}^W\exp(\text{score}(w_i,w_t))}p(wt+j​∣wt​)=∑i=1W​exp(viT​⋅vwt​​)exp(vwt+j​T​⋅vwt​​)​=∑i=1W​exp(score(wi​,wt​))exp(score(wt+j​,wt​))​

其中,l(wO)l(w_O)l(wO​)是单词wOw_OwO​在二叉树中的深度,n(wO,j)n(w_O,j)n(wO​,j)表示在单词wOw_OwO​的路径上第jjj个节点,σ(x)=11+exp⁡(−x)\sigma(x)=\frac{1}{1+\exp(-x)}σ(x)=1+exp(−x)1​是Sigmoid函数。

2.4 Negative Sampling

在Negative Sampling中,我们将每个训练样本拆分成多个二元组(wI,wO)(w_I,w_O)(wI​,wO​),其中wIw_IwI​是中心单词,wOw_OwO​是上下文单词。
对于每个二元组,我们随机采样KKK个噪声单词,用它们来计算负样本。具体地,我们将每个单词的概率提高到3/43/43/4次方,并进行归一化,得到单词www的采样概率:

Psample(w)=f(w)3/4∑i=1Wf(wi)3/4P_{\text{sample}}(w)=\frac{f(w)^{3/4}}{\sum_{i=1}^{W}f(w_i)^{3/4}}Psample​(w)=∑i=1W​f(wi​)3/4f(w)3/4​

其中,f(w)f(w)f(w)是单词www在训练语料中出现的频次。

在使用Negative Sampling进行训练时,我们的目标是最小化负样本的概率和中心单词的概率的负对数似然:

−log⁡σ(vwO′⋅vwI)−∑k=1Klog⁡σ(−vwk′⋅vwI)-\log\sigma(v'_{w_O}\cdot v_{w_I})-\sum_{k=1}^{K}\log\sigma(-v'_{w_k}\cdot v_{w_I})−logσ(vwO​′​⋅vwI​​)−k=1∑K​logσ(−vwk​′​⋅vwI​​)

其中,wkw_kwk​是噪声单词,σ(x)=11+exp⁡(−x)\sigma(x)=\frac{1}{1+\exp(-x)}σ(x)=1+exp(−x)1​是Sigmoid函数。

使用Negative Sampling的优点在于计算速度较快,但是它有可能丢失一些信息,因为它只考虑了一部分的负样本。

3. 代码实现

下面,我们通过一个简单的案例来演示如何使用Word2vec训练词向量。首先,我们需要下载并解压缩一个语料库,例如维基百科的语料库。然后,我们可以使用Python中的gensim库来训练词向量。具体代码如下:

import gensim
from gensim.models import Word2Vec# 加载语料库
sentences = gensim.models.word2vec.Text8Corpus('path/to/corpus')# 训练模型
model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)# 保存模型
model.save('path/to/model')# 加载模型
model = Word2Vec.load('path/to/model')# 获取单词向量
vector = model['word']

在上面的代码中,我们首先使用Text8Corpus类加载语料库,然后使用Word2Vec类来训练模型。其中,size参数指定了向量的维度,window参数指定了上下文单词的窗口大小,min_count参数指定了单词出现的最小次数,workers参数指定了使用的线程数。训练完成后,我们可以使用save和load方法来保存和加载模型,使用model[‘word’]来获取单词的向量表示。

通过Word2vec训练出的词向量可以用于许多自然语言处理任务,例如词义相似度计算、命名实体识别和情感分析等。例如,在情感分析任务中,我们可以通过将一句话中的单词向量取平均来获取该句话的向量表示,然后使用分类器来对其进行情感分类。该方法在许多情感分析任务中表现出了良好的性能。

相关内容

热门资讯

特朗普与内塔尼亚胡切断联络? 本报特约记者 王 逸据土耳其阿纳多卢通讯社9日报道,美国总统特朗普决定切断与以色列总理内塔尼亚胡的直...
今天起,结婚离婚不需要户口本 修订后的《婚姻登记条例》自5月10日起施行。《条例》修订的主要内容包含三个方面:一是增加婚姻家庭服务...
【提振消费在行动】春季车展成绩... 转自:鹤岗发布  由商务局、东山区、兴安区、市工商联主办,市融媒体中心、市汽车协会承办的此次车展,创...
人鱼的眼泪作者这次说了3个好听 转自:河北新闻网 【#人鱼的眼泪作者这次说了3个好听# ...
划归本土防御指挥部,美拟调整其... 当地时间5月9日,三位知情人士称,特朗普政府官员正在权衡一项调整方案,将美国在格陵兰岛的安全利益责任...
伤员回归新援融入,海港逆转海牛... 主场连续输给成都蓉城与北京国安之后,本轮坐镇白玉碗面对尚处降级区的青岛海牛,上海海港势在必得。开场6...
智通ADR统计 | 5月10日 周五美股三大股指涨跌不一,恒生指数ADR下跌,按比例计算,收报22812.13点,较香港收市跌55....
走进长春!120个网红打卡地之... 2024年,长春在100个网红打卡地发布基础上又一次解锁20个新晋网红打卡地,长春网红打卡地增至12...
新华财经早报:5月10日 转自:新华财经•李强主持召开国务院常务会议 研究深化国家级经济技术开发区改革创新有关举措•中国人民银...
强生宣布特诺雅达、特诺雅在华获... 来源:@经济观察报微博行业动态 经济观察网讯 强生公司5月9日宣布,特诺雅达®(古塞奇尤单抗注射液(...
人民日报:永远不能忘却的纪念 转自:北京日报客户端80年前的伟大胜利打败了不可一世的法西斯势力,带给世人恒久的启迪:光明必将驱散黑...
一周重点活动回顾(0503-0...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (转自:信达证券研究...
红星美凯龙“五一”销售额增长2... 乐居财经 严明会 5月9日,据红星美凯龙全国商场统计数据显示,五一大促期间销售额同比增长28%。据悉...
追星赶月的首席科学家,用奋斗书... 转自:国资小新小新说日前,全国劳动模范和先进工作者表彰名单发布,中央企业400多位奋斗者榜上有名。他...
不搞AI的,不是好汽车公司 作者 |张力邢昀近期,李想带着他的VLA 司机大模型再谈AI,距离上一次他开诚布公地谈AI 和理想的...
关注妇幼优化服务 竞技提升科普...     健康科普节目呼吁大家关注自闭症儿童。    本报记者宋延康 摄  本报讯(记者廖欣)5月9日...
李洱的“超低空飞行”,会带领读... 转自:上观新闻《超低空飞行:同时代人的写作》是作家李洱的最新文学笔记,他透过一个个写作者(他者与自己...
好当家集团现重要股权变动,唐爱... 来源:泰山财经泰山财经记者 李迪近日,好当家集团有限公司(简称“好当家集团”)发生重要股权变动,冯永...
两台好戏只用四名演员,人艺口碑... 转自:北京日报客户端几个月前,《迷幻》作为北京人民艺术剧院跨年新戏首演,对角色关系抽丝剥茧的追寻、对...
三星统一视觉风格,One UI... IT之家 5 月 10 日消息,科技媒体 Android Authority 昨日(5 月 9 日)...