点击上方“Deephub Imba”,关注公众号,好文章不错过 !在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV ...
当大模型在长期的上下文中与环境进行几十甚至上百轮的交互时,计算的瓶颈从GPU的算力转为存储I/O带宽。由于每次只追加极少的Token,导致KV-Cache命中率极高(通常大于95%),GPU大量的时间被用来等待从外部存储中读取海量的历史KV-Cach ...
随着大模型在企业场景中的快速落地,AI 推理系统正面临新的基础设施挑战。上下文长度不断增长、用户并发请求数量快速上升,使得传统 GPU 显存架构逐渐成为制约推理效率的关键瓶颈。如何通过系统架构优化释放算力潜力,保证推理性能与控制成本,已成为企业掘金 AI 商机的核心命题。 近日,开放数据中心委员会(ODCC)在 NVIDIA、美团、三星、Solidigm 等产业链领军企业支持下成立的 AI 存储实 ...
研究团队经过严格的带宽分析证明,在常见的预填充和解码节点配比下,DualPath在使存储网卡带宽饱和的同时,计算网卡的带宽也不会成为新的瓶颈,能够覆盖绝大部分实际部署场景。
在目前流行的预填充-解码分离系统中,命中token的KV缓存完全由预填充引擎直接从远程存储加载。这种设计将所有存储I/O压力集中在预填充端的网卡上,而解码引擎端的网卡则基本处于空闲状态。
据多家权威研究机构最新研判,2026 年 核心存储供应链的结构性短缺已成行业刚性现实,供需缺口持续扩大且很可能延续至 2027 年。不仅是存储部件的单点问题,当前,生成式 AI 正从技术尝鲜全面走向规模化落地,大模型技术的应用场景正在从训练为主转向 ...
快科技7月31日消息,据媒体报道,2025(第二届)产融合作大会在北京召开。会上,浪潮存储重磅发布了推理加速存储产品AS3000G7,旨在解决大模型推理中因KV Cache重复计算导致的算力浪费和时延问题,为金融、科研等领域的模型规模化落地提供关键支撑。 当前 ...
目前,不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破,最高的已能支持数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百万Token(1M)级别的超长上下文处理能力。 但是这场有关提升大模型上下文长度的“军备赛”依然不 ...
上期我们讲了现代计算机体系结构通过处理器(CPU/GPU)和内存的交互来执行计算程序,处理输入数据,并输出结果。实际上 ...
根据测试结果表明,AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点 AMD目前已经在其EPYC服务器处理器和部分消费级处理器产品线上采用了3D V-Cache技术。但根据来自海外工程师的最新测试结果发现,AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点,这 ...
随着人工智能特别是大模型的飞速发展,对计算能力的需求呈指数级增长,推动了计算架构从单GPU节点向大规模异构集群的演进。在此背景下,系统性能瓶颈已从GPU内部计算转向多处理器间的数据交互效率,即“通信墙”问题。传统的互连技术难以满足现代AI ...
今年的Intel Architecture Day上,更多有关Intel GPU的产品信息揭开面纱。这次Intel主要谈到了面向游戏玩家的Xe-HPG架构Alchemist GPU;以及面向数据中心的Xe-HPC架构GPU芯片Ponte Vecchio。后者被Intel形容为技术难度“堪比登月”的芯片,这也是我们第一次见到MCM(Multi-chip Module ...