Rope - 搜索 News

把RoPE扔掉，AI更能看懂长上下文，Transformer作者团队开源大模型预 ...

针对大模型长文本处理难题，Transformer架构的核心作者之一Llion Jones领导的研究团队开源了一项新技术DroPE。不仅无需昂贵的长上下文训练，就能实现无缝零样本上下文扩展；且用DroPE重新校准模型所需预训练预算不到1%。这项技术被网友调侃为“NoRoPE”（没有 ...

12 天

研究团队发现，通过一个看似简单的"剪切"操作，就能让AI的记忆处理能力提升近一倍。这个发现之所以令人兴奋，是因为它不需要重新训练整个AI模型，不需要购买更多计算设备，甚至不需要修改复杂的程序架构。就像给一台老电视调整天线一样简单，却能让画面质量显著提升。

来自MSN

当全行业还在给RoPE“打补丁”——线性外推、NTK-aware缩放、YaRN调参……Sakana AI团队突然甩出一张新牌：DroPE（Drop Positional ...

一些您可能无法访问的结果已被隐去。