在谈到推出 Titans 的初衷时,论文一作 Ali Behrouz 表示,「注意力机制一直是大多数 LLM 进展的重要组成部分,不过它无法扩展到长上下文。因此,Titans 应运而出,它成为了一种同时具备注意力机制和元上下文记忆的结构,可以在测试时学习记忆。该架构可以将上下文窗口扩展到 200 万 tokens。」 ...