大家都知道,AI计算(尤其是模型训练和推理),主要以并行计算为主。 AI计算中涉及到的很多具体算法(例如矩阵相乘、卷积、循环层、梯度运算等),都需要基于成千上万的GPU,以并行任务的方式去完成。这样才能有效缩短计算时间。 搭建并行计算框架 ...
EP 引入跨节点的传输。为了优化吞吐,需要设计合适的计算流程使得传输和计算可以同步进行。 EP 涉及多个节点,因此天然需要 Data Parallelism(DP),不同的 DP 之间需要进行负载均衡。 因此,本文的主要内容是如何使用 EP 增大 batch size,如何隐藏传输的耗时 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果