先说说Transformer的“富贵病”。 Transformer确实很聪明,靠自注意力机制能够同时关注输入序列中所有词语之间的关联,比如阅读文章时可以快速建立首尾关键信息的联系。 但这种能力的实现需要较高的计算成本,随着输入序列长度的增加,其计算量会呈平方级 ...