针对大模型长文本处理难题,Transformer架构的核心作者之一Llion Jones领导的研究团队开源了一项新技术DroPE。 不仅无需昂贵的长上下文训练,就能实现无缝零样本上下文扩展; 且用DroPE重新校准模型所需预训练预算不到1%。 这项技术被网友调侃为“NoRoPE”(没有 ...
研究团队发现,通过一个看似简单的"剪切"操作,就能让AI的记忆处理能力提升近一倍。这个发现之所以令人兴奋,是因为它不需要重新训练整个AI模型,不需要购买更多计算设备,甚至不需要修改复杂的程序架构。就像给一台老电视调整天线一样简单,却能让画面质量显著提升。
当全行业还在给RoPE“打补丁”——线性外推、NTK-aware缩放、YaRN调参……Sakana AI团队突然甩出一张新牌:DroPE(Drop Positional ...