LLM Pytorch - 搜索 News

Karpathy 再次语出惊人：LLM 时代，PyTorch 之流的软件抽象都将成为历史

llm.c 是 Karpathy 用 C 语言（外加一点点 C++）从零开始写的一个 Transformer 训练框架为什么要写 llm.c？事情是这样的：一年前，Karpathy 想在他的视频系列（Karpathy非常喜欢分享AI技术）中添加一个关于 LLM 训练的视频，于是他开始用 PyTorch 写代码。结果，他被 PyTorch ...

腾讯网

用 PyTorch 实现 LLM-JEPA：不预测 token，预测嵌入

点击上方“Deephub Imba”,关注公众号,好文章不错过 !这篇文章从头实现 LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures。需要说明的是，这里写的是一个简洁的最小化训练脚本，目标是了解 JEPA 的本质：对同一文本创建两个视图，预测被遮蔽片段的嵌入，用表示对齐损失来训练。本文的目标是 ...

新浪网

Arm KleidiAI 助力提升 PyTorch 上 LLM 推理性能

生成式人工智能 (AI) 正在科技领域发挥关键作用，许多企业已经开始将大语言模型集成到云端和边缘侧的应用中。生成式 AI 的引入也使得许多框架和库得以发展。其中，PyTorch 作为热门的深度学习框架尤为突出，许多企业均会选择其作为开发 AI 应用的库。

新浪网

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【新智元导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「 ...

来自MSN

PyTorch 2.8发布：LLM推理性能大幅提升，Intel GPU分布式后端实验性支持上线

PyTorch，这一广受欢迎的开源机器学习框架，近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型（LLM）在Intel CPU上的推理性能，吸引了众多开发者和研究人员的目光。在PyTorch 2.8中，开发者团队通过算法优化和技术革新，显著提高了 ...

雷锋网

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制

导语：Colossal-AI团队开源了SwiftInfer，可以进一步提升大模型推理性能46%，为多轮对话推理提供了高效可靠的落地方案。在大型语言模型（LLM）的世界中，处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM，能够在不牺牲推理速度和 ...

36氪

DeepSeek倒逼vLLM升级，芯片内卷、MoE横扫千模，vLLM核心维护者独家回应 ...

“我们与 DeepSeek 合作，将优秀算法与底层框架的实现相结合，构建出更高效的推理框架，真正实现了强强联合。” vLLM 的故事始于加州大学伯克利分校 Sky Computing Lab 里一群充满热情的学生与研究员。2023 年，他们开源了核心的 PagedAttention 技术，vLLM 在短短一年多 ...

36氪

谷歌狂喜：JAX性能超越Pytorch、TensorFlow，或成GPU推理训练最快选择

7项指标排名第一。 JAX在最近的基准测试中的性能已经不声不响地超过了Pytorch和TensorFlow，也许未来会有更多的大模型诞生在这个平台上。谷歌在背后的默默付出终于得到了回报。谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果