在现有的基于Transformer的模型中,所有标记均采用固定尺度,这一特性并不适用于视觉应用场景。 另一差异在于图像像素的分辨率远高于文本段落中的词汇密度。诸如语义分割等众多视觉任务需要在像素级别进行密集预测,而这对高分辨率图像上的Transformer模型 ...