多模态大模型的研发范式,正在被彻底重构。 今天,商汤科技联合南洋理工大学发布了最新技术成果:NEO-unify。 这是一套真正实现“原生、统一、端到端”的多模态模型架构,其最核心的突破在于: 彻底砍掉了长期以来行业依赖的视觉编码器(VE)和变分自 ...
说起当前的图像生成技术,扩散模型(Diffusion Models)无疑是绝对的主角。而在扩散模型的江湖里,一直存在着两条路径的“争端”:一条是目前如日中天的潜空间扩散(Latent Diffusion, LDM),另一条则是更直接、但也更难啃的像素扩散(Pixel Diffusion)。 长期以来 ...
本文针对小样本分子性质预测中模型易过拟合、泛化能力差的问题,提出了一种名为TasProp的任务特异性预训练新策略。该研究通过JT-VAE框架构建分子潜空间,并引入任务特异性对比损失以增强同类分子表征的内聚性,同时提出基于潜空间扰动的新型数据增强方法 ...
核心挑战:视觉基础模型虽然在理解与感知上表现出色,但其表征空间尚未被充分用于大规模、高质量的视觉生成。 研究空白:在VFM特征空间内端到端地训练大规模文本到图像生成模型是一个未经充分探索的领域,缺乏相关验证和可行的方案。 提出的方案 模型 ...
长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE + Diffusion」的范式在训练与推理效率上也存在显著瓶颈。 清华大学智能视觉团队和快手可灵 ...
针对 VQ-VAE 在欧氏和球面隐空间的局限,研究人员开展双曲空间几何先验对其学习能力提升的研究。提出 HVQ-VAE,使隐嵌入和码本在双曲庞加莱球学习。实验表明其图像重建更优、码本利用高效、收敛快,在低维隐空间表现更佳。 论文解读 在人工智能的图像生成 ...
国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一! 而且还是榜单前十名中唯一的国产玩家。 要知道,这俩榜首长期被OpenAI、ElevenLabs占据,前者不用多 ...
近日,川维化工公司6万吨/年VAE(醋酸乙烯-乙烯共聚乳液)再扩能项目一次投料试车成功,产出合格产品。至此,川维化工VAE ...
港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。 VideoVAE + 模型大幅超过 ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected] ...
在当前人工智能领域,变分自编码器(Variational Autoencoder, VAE)正成为一项不可忽视的技术,它以其独特的生成能力和高效的数据表示在许多应用中展示了强大的潜力。特别是在大型语言模型(LLM)的发展之中,VAE的角色显得尤为重要。本文将带您深入了解VAE的 ...
本项目包括了Feature-based magnetotelluric inversion by variational autoencoder using a subdomain encoding scheme一文中实测算例反演的开源代码。 大地电磁(Magnetotelluric, MT)反演通过地表测量到的电磁场推测地质结构分布,被广泛地应用于油气矿产资源勘探、深部地质调查等领域。