Quantização de modelo para produção com

Intel® Deep Learning Boost


A inferência com a quantização de 8 bits inteiros (INT8) pode melhorar o desempenho do seu modelo de aprendizagem profunda em produção.

Quantização de modelo

A maioria dos modelos de aprendizagem profunda é criada usando a precisão de ponto flutuante de 32 bits (FP32). Quantização é o processo para representar o modelo usando menos memória com perda mínima de precisão. Nesse contexto, o foco principal é a representação no INT8.

renderização de arena


O que é o Intel® Deep Learning Boost (Intel® DL Boost)?

A segunda geração de processadores escaláveis Intel® Xeon® apresentou uma coleção de recursos para aprendizagem profunda, agrupados como Intel® Deep Learning Boost. Esses recursos incluem Instruções de Rede Neural Vetorial (VNNI - Vector Neural Network Instructions), que aumentam a taxa de transferência para aplicativos de inferência com suporte para convoluções INT8, combinando múltiplas instruções de máquina das gerações anteriores em uma única instrução de máquina.

Saiba mais

Primeiros resultados de inferência MLPerf

Descrição técnica sobre as VNNI

Frameworks e ferramentas

Essas frameworks e ferramentas incluem suporte ao Intel DL Boost nos processadores escalonáveis Intel® Xeon® de segunda geração.


Casos de uso de clientes