深度学习:GPT1、GPT2、GPT-3
创始人
2025-06-01 19:34:29
0

深度学习:GPT1、GPT2、GPT3的原理与模型代码解读

  • GPT-1
    • Introduction
    • Framework
      • 自监督学习
      • 微调
    • Experiment
  • GPT-2
    • Introduction
    • Approach
    • Conclusion
  • GPT-3

GPT-1

Introduction

GPT-1(Generative Pre-training Transformer-1)是由OpenAI于2018年发布的第一个基于Transformer模型的预训练语言模型。GPT-1主要针对的是生成型NLP任务,如文本生成、机器翻译、对话系统等。

在当时nlp领域没有一个像ImageNet那样的很大的数据集,而且一句字所含有的语义信息远不如一张图像的语音信息丰富,制作一个在nlp领域与imagenet 语义相当的数据集就需要很大的代价。

所以作者的想法是能不能通过 un-labeled的数据数据集 pre-train好一个通用的模型然后在各个细分领域进行微调。在这期间,作者发现两个问题:

  1. 训练通用的模型不知道选择什么优化目标。
  2. 不知道以哪种形式的output来适配所有的下游任务。

GPT的模型作者主要采用Transformer的decoder架构,由于它相较于rnn可以一次性读取更长的句子,容纳更多的语义信息。

Framework

自监督学习

首先介绍LOSS,在自监督训练期间训练标准语言模型,通过最大化最大化下面的likelyhood,其中 u为token的集合,条件概率P采用模型参数为 theta的模型建模。
在这里插入图片描述
在前向传播的过程中,首先通过词嵌入与位置嵌入获得h0,其中we为token嵌入矩阵,wp为位置嵌入矩阵,然后通过12层transformer块,输入输出保持一致,然后通过softmax获得logits。
在这里插入图片描述

微调

保存之前阶段训练的参数,在上述结构的基础上,去掉softmax层,然后加上一层全连接层与特定任务的softmax,然后用有标签的数据集训练,在这期间,半监督学习的参数可以选择处于冻结状态,然后只更新新的全连接层参数。 Loss function 采用 半监督阶段与微调阶段的加权和。

下面是作者给定的各个任务微调的模版:

在这里插入图片描述

Experiment

在这里插入图片描述

GPT-2

Introduction

GPT-2在初代的模型架构上变得更大了,参数量达到了1.5B,数据集改为百万级别的WebText,Bert当时最大的参数数量为0.34B,但是作者发现模型架构与数据集都扩大的情况下,与同时期的Bert的优势并不大。

作者提到在当时主流的方法就是在特定的任务上使用特定的数据集,模型跨任务之间的任务泛化性不是特别好,于是作者着重讲了Zero-Shot这个概念。
Zero-shot是指 GPT-2在训练语言模型时与GPT-1的方法一致(文字接龙),只是在模型结构上做了略微的调整,层数与维度做了更大了。在做下游任务时,不再进行微调,最后作者通过实验发现,只进行简单的Zero-Shot,就能与同时期微调后的模型性能相差不大。

Approach

GPT2是在预训练时就考虑各种不同的任务(就是在训练样本中加入了下游任务的相关描述)
在这里插入图片描述
,即从:

在这里插入图片描述

在模型结构上,调整了每个block Layer Normalization的位置:
在这里插入图片描述

Conclusion

GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练。但是很多实验也表明,GPT-2的无监督学习的能力还有很大的提升空间,甚至在有些任务上的表现不比随机的好。尽管在有些zero-shot的任务上的表现不错,但是我们仍不清楚GPT-2的这种策略究竟能做成什么样子。GPT-2表明随着模型容量和数据量的增大,其潜能还有进一步开发的空间,基于这个思想,诞生了我们下面要介绍的GPT-3。

GPT-3

GPT3 可以理解为 GPT2 的升级版,使用了 45TB 的训练数据,拥有 175B 的参数量,真正诠释了什么叫暴力出奇迹。

GPT3 主要提出了两个概念:

情景(in-context)学习:就是对模型进行引导,教会它应当输出什么内容,比如翻译任务可以采用输入:请把以下英文翻译为中文:Today is a good day。这样模型就能够基于这一场景做出回答了,其实跟 GPT2 中不同任务的 token 有异曲同工之妙,只是表达更加完善、更加丰富了。

Zero-shot, one-shot and few-shot:GPT3 打出的口号就是“告别微调的 GPT3”,它可以通过不使用一条样例的 Zero-shot、仅使用一条样例的 One-shot 和使用少量样例的 Few-shot 来完成推理任务。下面是对比微调模型和 GPT3 三种不同的样本推理形式图。
在这里插入图片描述

相关内容

热门资讯

投资者提问:你好董秘,近期中国... 投资者提问:你好董秘,近期中国武器在印巴冲突中表现出色,其中咱们出口巴方的红旗防空系统立下大功,公司...
建筑材料、火力发电、物流行业能... 转自:市场监管总局网站自6月起,建筑材料、火力发电和物流等三个行业能源计量器具配备和管理要求国家标准...
长光华芯今日大宗交易折价成交2... 6月16日,长光华芯大宗交易成交20万股,成交额1052.4万元,占当日总成交额的5.59%,成交价...
浅析农村自建房的地震风险   Hehson财经ESG评级中心提供包括资讯、报告、培训、咨询等在内的14项ESG服务,助力上市公...
富力地产:李海伦、吴又华获委任... 观点网讯:6月16日,广州富力地产股份有限公司宣布提名委员会组成变动,新增李海伦女士(非执行董事)和...
长青股份:烯草酮未生产,氯虫苯... 投资者提问:请问公司烯草酮原药和氯虫苯甲酰胺原药产能有多少?谢谢董秘回答(长青股份SZ002391)...
中天科技今日大宗交易平价成交2... 6月16日,中天科技大宗交易成交27.26万股,成交额375.37万元,占当日总成交额的0.57%,...
2014年小本创业项目精选 2... 2014年小本创业项目精选小本创业是目前比较受欢迎的创业方式,它的投资门槛低,吸引了不少普通大众的投...
提案摘编·工交邮电事业高质量发... 转自:人民政协报九三学社中央:构建动力储能电池回收利用绿色产业链案由:构建动力储能电池回收利用绿色产...
大连市启动2025年度首批光伏... 转自:中国电力新闻网  中国能源新闻网讯(记者 邱燕超)6月11日,大连市发展和改革委员会发布关于公...
中信建投:发行不超过60亿元科... 中信建投2024年营业收入合计为人民币211.29亿元,同比下降9.10%。 ...
爱科赛博6月16日现1笔大宗交...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   6月16日,爱科...
温州市市场监管局发布盲盒产品消... 中国消费者报杭州讯(记者施本允)为进一步规范盲盒产品市场秩序、引导消费者理性消费,浙江省温州市市场监...
大族激光控股股东解押并质押50... 6月16日,大族激光(002008)发布公告,控股股东大族控股集团有限公司将其持有的504万股解除质...
XD万丰股6月16日现1笔大宗...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   6月16日,XD...
华纬科技:公司产线按订单情况有... 每经AI快讯,有投资者在投资者互动平台提问:请问目前工厂开工率满负荷吗?今年新增产能有哪些?华纬科技...
广州型材成交低迷延续??期货飘... 广州型材成交低迷延续??期货飘红难振雨季信心   今日广...
新奥股份(600803.SH)... 新奥股份(600803.SH)发布公告,公司拟通过全资子公司私有化新奥能源控股有限公司(股票代码:0...
大黑河畔花开正浓 转自:草原云竞相绽放。6月15日,呼和浩特市大黑河郊野公园内五彩缤纷、芬芳四溢,亚麻花、薰衣草、波斯...
市场监管总局:从未委托任何机构... 近期,有违法分子擅自冒用“国家市场监督管理总局”名义,伪造市场监管总局印章,制作虚假文件,谎称在市场...