LSTM已死,Transformer当立(LSTM is dead. Long Live Transformers! ):上
创始人
2024-05-26 05:29:33

回想一下在Seq2seq模型中,如何使用Attention。这里简要回顾一下【1】介绍的方法2(并以此为基础展开对Transformer的讨论)。

下图中包含一个encoder(左)和一个decoder(右)。对于decoder来说,给定一个输入\mathbf{x}'_j,得到输出\mathbf{s}_j,如何进一步得到context vector \mathbf{c}_j呢?

我们需要根据\mathbf{h}_i\mathbf{c}_j的相关性来计算权重

相关内容

热门资讯

3月26日博时主要消费ETF(... 数据显示,3月26日,博时主要消费ETF(159672)获净申购70.08万元,位居当日股票ETF净...
海思科涨2.12%,成交额19... 3月27日,海思科盘中上涨2.12%,截至09:46,报52.40元/股,成交1982.04万元,换...
百济神州涨2.07%,成交额1... 3月27日,百济神州盘中上涨2.07%,截至09:47,报220.98元/股,成交1.04亿元,换手...
华兰股份跌2.02%,成交额2... 3月27日,华兰股份盘中下跌2.02%,截至09:47,报83.92元/股,成交2598.74万元,...
航天宏图跌2.01%,成交额3... 3月27日,航天宏图盘中下跌2.01%,截至09:47,报19.50元/股,成交3134.91万元,...