针对英特尔® 至强™ 处理器 E5 系列的 Caffe* 评分优化

为了不断优化英特尔® 架构的深度学习工作负载,我们的工程师探索不同的路径,以达到最高性能。  基于 Caffe 的优化 AlexNet 训练的技术预览版于不久之前发布。 现在,我们分享另一版完全基于分类路径的技术预览,在英特尔 CPU 上展现了前所未有的出色性能。 

我们再次通过伯克利愿景和学习中心 (BVLC) 开发的Caffe 深度学习框架,来展示我们的成果。

我们专注于优化 AlexNet* 和 CaffeNet* 拓扑的分类路径。 技术预览版不包括训练路径和其他拓扑,并非和文件包一起运行。

英特尔® 数学核心函数库(英特尔® MKL)英特尔® 数据分析加速库(英特尔® DAAL) 将会提供高度优化的例程,用于评分和训练

代码生成的创新型方法,重要例程(如卷积函数)的低级别优化,可提高软件包的性能。 在 CPU(多线程)层面并行处理代码,修改 Caffe,使其在双插槽系统的两个插槽上运行,但不使用 OpenMP*。

软件包支持带有 96 批处理的 AlexNet 和 CaffeNet 的拓扑分类,利用由 Caffe 提供的 的Python* 界面,该界面具有较高的易用性。 调整界面,提供更精确的指标,提升实际网络分类的性能。 原版包括 Python 实际指标的代码开销。 这不是实施这些测试的最好方法,因为实际网络的输入数据持续地加载到内存,从不同设备异步加载,分类不会中断。

入门

首先,从 6 月份的版本获取 Caffe 所需的全部关联组件和 Python 脚本(提交 SHA: b051ce474425d4e991cf674107ee5f6999a2be38)。 然后,解压软件包,获取运行演示的逐步说明。

为方便您使用,请查看下面的说明:

  1. DEMO_ROOT 是解压文件的主目录。

  2. 获取 ilsvrc12 参考数据。
    转到 DEMO_ROOT/data/ilsvrc12/ subdir,并运行:
    get_ilsvrc.sh

  3. 获取参考网络参数:

    • 转到 DEMO_ROOT/models/bvlc_reference_caffenet/ subdir,并运行:
      获取 _reference_model.sh:

    • 转到 DEMO_ROOT/models/bvlc_alexnet/ subdir,并运行:
      get_reference_model.sh

  4. 转到 DEMO_ROOT/python subdir。

  5. 确保您可以访问 sudo。

    • sudo 能更改默认线程调度器(由轮询变为 fifo)和线程的优先级。 在本案例中,sudo 能提升性能。

    • 如果您不希望运行 sudo 模式,需要改变 execute_classification.sh 脚本。

  6. 获取 png 格式的图像。

  7. 每数据集运行一次:
    sudo ./split_data.sh <path/to/image/dir>

  8. 运行:
    sudo ./execute_classification.sh <path/to/image/dir> <iterations> <topology>
    • <iteration> is count of internal time-averaging loop iterations:
      use > 1 如欲测量内部的实施吞吐率,请参考以下注释,
       
    • <topology> 可以是 "caffenet" 或 "alexnet"(没有引号)
  9. 几秒之后(取决于进行分类的图像数量),Python 脚本对输入的初始化完毕。系统所有插槽的指标显示在屏幕上。
  10. 分类结果:
    • 提供二进制文件和文本输出文件
    • 每个节点有自己的结果文件

*) 每次批处理之后,Python 会产生强大干扰。因此,单一运行的性能标准被低估。 迭代越多,结果越精确,从而达到最高性能。

特别感谢英特尔视觉云计算团队的 Krzysztof Badziak、Jacek Czaja、Jaroslaw Dukat、Bartosz Kalinczuk、Piotr Majcher、Piotr Majchrzak、Jacek Reniecki 和 Maciej Urbanski,以及英特尔软件与服务事业部的 Vadim Pirogov。   他们是性能优化和 Caffe 工作背后的推动力量。

Caffe* 是第三方商标,归伯克利愿景和学习中心 (BLVC) 所有。 其他的名称和品牌可能是其他所有者的资产。

有关编译器优化的更完整信息,请参阅优化通知