LSTM已死,Transformer当立(LSTM is dead. Long Live Transformers! ):上
创始人
2024-05-26 05:29:33

回想一下在Seq2seq模型中,如何使用Attention。这里简要回顾一下【1】介绍的方法2(并以此为基础展开对Transformer的讨论)。

下图中包含一个encoder(左)和一个decoder(右)。对于decoder来说,给定一个输入\mathbf{x}'_j,得到输出\mathbf{s}_j,如何进一步得到context vector \mathbf{c}_j呢?

我们需要根据\mathbf{h}_i\mathbf{c}_j的相关性来计算权重

相关内容

热门资讯

深圳市特发信息股份有限公司董事... 证券代码:000070 证券简称:特发信息 公告编号:2026-09深圳市特发信息股份有限公司董事...
成都国光电气股份有限公司202... 证券代码:688776 证券简称:国光电气 公告编号:2026一003成都国光电气股份有限公司20...
财通成长优选混合A净值下跌4.... 财通成长优选混合型证券投资基金(简称:财通成长优选混合A,代码001480)公布2月27日最新净值,...
前海开源沪港深核心资源混合A净... 前海开源沪港深核心资源灵活配置混合型证券投资基金(简称:前海开源沪港深核心资源混合A,代码00330...
嘉合锦程混合A净值上涨3.04... 嘉合锦程价值精选混合型证券投资基金(简称:嘉合锦程混合A,代码006424)公布2月27日最新净值,...