LSTM已死,Transformer当立(LSTM is dead. Long Live Transformers! ):上
创始人
2024-05-26 05:29:33

回想一下在Seq2seq模型中,如何使用Attention。这里简要回顾一下【1】介绍的方法2(并以此为基础展开对Transformer的讨论)。

下图中包含一个encoder(左)和一个decoder(右)。对于decoder来说,给定一个输入\mathbf{x}'_j,得到输出\mathbf{s}_j,如何进一步得到context vector \mathbf{c}_j呢?

我们需要根据\mathbf{h}_i\mathbf{c}_j的相关性来计算权重

相关内容

热门资讯

珠江啤酒涨0.58%,成交额2... 5月6日,珠江啤酒涨0.58%,成交额2.16亿元,换手率0.94%,总市值231.07亿元。异动分...
益盛药业跌0.12%,成交额8... 5月6日,益盛药业跌0.12%,成交额8348.36万元,换手率4.33%,总市值27.54亿元。异...
永辉超市跌1.04%,成交额4... 5月6日,永辉超市跌1.04%,成交额4.99亿元,换手率1.45%,总市值344.85亿元。异动分...
重药控股涨1.21%,成交额1... 5月6日,重药控股涨1.21%,成交额1.70亿元,换手率1.68%,总市值101.44亿元。异动分...
科德教育涨1.68%,成交额2... 5月6日,科德教育涨1.68%,成交额2.17亿元,换手率3.32%,总市值65.89亿元。异动分析...