AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected] ...
多模态大模型的研发范式,正在被彻底重构。 今天,商汤科技联合南洋理工大学发布了最新技术成果:NEO-unify。 这是一套真正实现“原生、统一、端到端”的多模态模型架构,其最核心的突破在于: 彻底砍掉了长期以来行业依赖的视觉编码器(VE)和变分自编码器(VAE)。不再通过“组件拼凑”来实现感知与生成,回归第一性原理,直接以近乎无损的像素和文字作为原生输入。 通过创新的混合变换器(Mixture-o ...
1.舍弃 VAE,预训练语义编码器能让 Diffusion 走得更远吗? 为什么流行的 VAE 是 Diffusion 的瓶颈?舍弃 VAE 的 DiT 有哪些做法?用 ...