解码器使用上编码器的上下文向量,然后 将之与解码器的第一个词合并,进行序列计算 实际上解码器的每个词都会参考编码器的 上下文向量,个人感觉更合理的应该是: 编码器上下文向量 + 隐藏层 + 解码器单词输入 这样拼接的一个向量做为RNN的输入更合适一些 该想法尚未验证》。。。