实现生产的模型量化

什么是英特尔® Deep Learning Boost(英特尔® DL Boost)?

第二代英特尔® 至强® 可扩展处理器引入了一系列用于深度学习的特性,并一起打包为英特尔® Deep Learning Boost。 这些特性包括矢量神经网络指令 (VNNI),它通过将前几代的多条机器指令组合成一条机器指令,利用对 INT8 卷积的支持,提高推理应用程序的吞吐量。

了解更多

第一项 MLPerf 推理结果

VNNI 的技术描述

框架和工具

这些框架和工具包括对第二代英特尔® 至强® 可扩展处理器上的英特尔 DL Boost 的支持。

array of framework logos

模型量化

大多数深度学习模型使用 32 位浮点精度 (FP32) 构建。 量化是用较少的内存并以最少的精度损失来表示模型的过程。 在这种情况下,重点是用 INT8 表示。

arena render