英特尔第 4 代至强Sapphire RapidsCPU 通过 AMX 实现高达 10 倍的 AI 稳定扩散性能
得益于 AMX,代号为 Sapphire Rapids 的英特尔第 4 代 Xeon CPU 在 AI Stable Diffusion 中实现了高达 10 倍的性能提升。
英特尔通过 AMX 加速在第 4 代 Xeon Sapphire Rapids CPU 上提升 AI 稳定扩散性能
最近推出的英特尔第 4 代至强“Sapphire Rapids”CPU在云和数据中心领域得到了加速采用。英特尔付出额外努力的关键领域之一是其用于深度学习加速的硬件功能集,该功能集通过新的 AMX(高级矩阵扩展)加速器得到提升。
英特尔下一代 Arrow Lake 和 Lunar Lake CPU 在 AIDA64 中获得初步支持
英特尔首先展示了当前一代 Sapphire Rapids 与上一代 Ice Lake CPU 之间的平均延迟。第三代 Xeon CPU 需要大约 45 秒来运行代码,而第四代 CPU 需要 32.3 秒。在不更改代码的情况下,延迟降低了 28%。那么,如果英特尔使用优化的开源工具包进行高性能推理,如 OpenVINO,会怎样呢?
答案是性能更快!借助 Optimum Intel 和 OpenVino,Intel Xeon CPU 将延迟降至 16.7 秒,加速超过 2 倍。将代码进一步优化为固定分辨率可将延迟降至仅 4.7 秒,这标志着与未修改代码相比加速了 3.5-3.8 倍。
使用静态形状,平均延迟减少到 4.7 秒,额外的 3.5 倍加速。
如您所见,OpenVINO 是加速稳定扩散推理的一种简单有效的方法。与 Sapphire Rapids CPU 结合使用时,与 Ice Lake Xeons 上的普通推理相比,它可提供近 10 倍的加速。
如果您不能或不想使用 OpenVINO,本文的其余部分将向您展示一系列其他优化技术。系好安全带!