Windows® 10 2019 年 5 月更新有助于加速英特尔® 集成显卡上的机器学习

简介

2019 年 3 月,微软* 游戏开发者大会 (GDC) 公告 强调 Windows* machine learning (Windows ML) API 和 Direct Machine Learning (DirectML) 越来越多地应用于广泛的应用中,尤其是游戏引擎。Windows ML API 通过在每个算子/层执行中连接 DirectML,处理用于图形处理单元 (GPU) 加速的硬件抽象。DirectML 是一种运行机器学习操作的高性能低级 API。DirectML API 是 DirectX* 产品家族的一部分。GDC 公告还强调英特尔等独立硬件厂商 (IHV) 正与微软合作提供名为 MetaCommand 的架构特定优化,旨在提升 DirectML 算子的性能。

英特尔 2018 年 5 月发表的博文介绍了通过 DirectX 12 DirectCompute 接口在英特尔® 硬件上实施的 Windows ML API 和 DirectML API。2018 年 10 月,英特尔发布英特尔® 显卡驱动程序中的第一版 DirectX 3D* 12 MetaCommand 支持,后者随 Windows® 10 2018 年 10 月更新一同发运。该公告还强调将 DirectML 卷积算子执行为 DirectX 3D* 12 MetaCommand,而不是默认的高级着色器语言 (HLSL) 着色器路径时,可显著提升性能。

Windows 10 2019 年 5 月更新即将发布之际,英特尔很高兴为我们的客户展示全新 英特尔® 显卡- Windows® 10 驱动程序提供的最新 MetaCommand 特性更新和 Windows ML 性能提升

Windows* ML 性能提升

Windows 10 2019 年 5 月更新中,英特尔® 集成显卡上的 Windows ML API 性能通过 Windows ML 运行时中的图形级优化和英特尔显卡驱动程序中的 DirectX 3D* 12 MetaCommand 性能增强特性而提升。相比 Windows® 10 2018 年 10 月更新,两者的结合支持英特尔充分利用英特尔 GPU 的计算硬件引擎功能,显著提升性能。

Windows* ML 运行时图形级优化

Windows ML 运行时使用开放神经网络交换 (ONNX) 模型推理引擎评估经过训练的模型。此评估包括一个图形编译流程,它决定 GPU 提交数量、内存使用等严重影响总体拓扑性能的变量。借助数据驱动型分析,英特尔和微软成功设计了 Windows ML API 运行时图形处理器中的特定节点融合,从而降低了执行推理评估所需的层数。因此,GPU 执行时间和提交数量大幅减少,从而显著提升了性能

Windows® 10 2019 年 5 月更新通过 MetaCommand 提升 Windows ML API 性能

由于 Windows® 10 2019 年 5 月更新 提供 Windows ML 运行时图形级优化,并支持将更多算子作为 MetaCommand,因此相比 Windows 10 2018 年 10 月更新,FP32 速度提升约 3 倍 (*),FP16 速度提升约两倍(*) 

Windows® 10 2019 年 5 月更新使用 MetaCommand 加速 DirectML

MetaCommand 使用架构特定优化对 DirectML 算子进行硬件加速。除了卷积(FP16 和 FP32)和一般矩阵乘法 (GEMM) (FP32) 外,英特尔® 显卡 Windows® 10 驱动程序 目前支持将以下算子用作 MetaCommand。

  • 池化 MetaCommand 算子
  • FP16 GEMM MetaCommand 算子

这些新的 MetaCommand 提升了多个重要图像分类拓扑的性能(*),如 Resnet50 和 InceptionV1。下图显示使用与未使用 MetaCommand 执行推理工作负载时,拓扑的相对推理性能提升。

Adobe Lightroom* MetaCommand 案例研究

虽然以上示例反映了某些典型卷积神经网络 (CNN) 拓扑的性能,但是使用 MetaCommand 加速 Windows ML 的 GPU 也为各种应用提供了优势。Lightroom* Classic CC 版本 8.2 应用展示的 Adobe “增强细节(Enhance Details)” 特性使用 Windows ML API 对原始图像进行去马赛克处理,从而改善图像质量。在英特尔集成显卡上使用 MetaCommand 处理 FP16 精度时,应用速度提升高达 9 倍左右 (*) 

Adobe Lightroom Performance

结论

即将推出的英特尔显卡 Windows 10 驱动程序将支持更多 DirectX 3D 12 MetaCommand 功能,以加速 DirectML 算子。请务必查看最新版英特尔显卡 Windows 10 驱动程序,以获得最新的 MetaCommand 优势并提升 Windows ML 和 DirectML 应用的性能。

如欲获取有关在 PC 上运行 Windows ML 的更多信息,请访问 电脑上的人工智能:开发新用途并将其部署至电脑

配置披露

得出性能声明或性能指标评测数据的测试环境和系统配置。

  • 平台:采用锐炬® Plus 显卡 650 的英特尔® 酷睿™ i7-7567U 处理器
  • 显卡驱动程序:英特尔® 显卡驱动程序 26.20.100.6813
  • 操作系统:Windows® 10 2019 年 5 月更新版本 18362
  • 操作系统电源计划:高性能
  • 性能指标评测应用:使用 Windows ML 示例应用中的 Microsoft WinMLRunner 工具执行测试。推理/秒是根据应用报告的超过 1000 次迭代的“评估”时间计算的。
  • 预训练模型从 ONNX 文档中获取。
  • 执行测试的公司:英特尔,1900 Prairie City Rd,Folsom,CA 95630
  • 测试日期:2019 年 5 月 3 日

声明

文档不代表英特尔公司或其它机构向任何人明确或隐含地授予任何知识产权。

英特尔未做出任何明示和默示的保证,包括但不限于关于适销性、适合特定目的及不侵权的默示保证,及履约过程、交易过程或贸易惯例引起的任何保证。

本文包含尚处于开发阶段的产品、服务和/或流程的信息。此处提供的所有信息如有更改,恕不另行通知。联系您的英特尔代表,了解最新的预测、时间表、规格和路线图。

本文件所描述的产品和服务可能包含使其与宣称的规格不符的设计缺陷或失误。这些缺陷或失误已收录于勘误表中,可索取获得。

(*) 性能结果基于 2019 年 5 月 3 日的测试,可能不反映所有公开可用的安全更新。请参阅配置披露了解详细信息。没有任何产品能保证绝对安全在性能测试过程中使用的软件及工作负载可能仅针对英特尔微处理器进行了性能优化。SYSmark* 和 MobileMark* 等性能测试使用特定的计算机系统、组件、软件、操作和功能进行测量。上述任何要素的变动都有可能导致测试结果的变化。请参考其它信息及性能测试(包括结合其它产品使用时的运行性能)以对目标产品进行全面评估。

Para obtener información más completa sobre las optimizaciones del compilador, consulte nuestro Aviso de optimización.