这是一篇记录对于论文Attention is all you need和模型Transformer的解读的文章 原理解读 参考Transformer代码完全解读 Why self-attention? 对于输入序列长度为n,每个token的特征表示(embedding)维度为d的情况,Self-At