英特尔® 至强™ 处理器 E5-2600 V3 产品家族技术概述

目录

1. 要点综述
2. 简介
3. 英特尔至强处理器 E5-2600 V3 产品家族增强性能。
  3.1 英特尔® 高级矢量扩展指令集 2 (英特尔® AVX2)指令
  3.2 Haswell 新指令 (HNI)
  3.3 支持 DDR4 内存
  3.4 电源改进
4. Grantley 平台改进
  4.1 英特尔® C610 系列芯片组 (Wellsburg)
  4.2 虚拟化特性
  4.3 全新安全特性
  4.4 英特尔® 节点管理器 3.0
5. 结论
作者介绍

1. 要点综述

英特尔® 至强™ 处理器 E5-2600 V3 产品家族(代号 “Haswell EP”)是基于英特尔最新微架构的一款双插槽平台。 它是基于 22 纳米制程技术的新 “TOCK” 。 该产品可为数据中心带来更多功能:更多的内核、更大的内存和更高的带宽。 因此,与上一代 “Ivy Bridge EP” 相比,基于英特尔至强处理器 E5-2600 V3 产品家族的平台的性能将提升 33%1。 该平台新增了许多特性(硬件和软件)。  在硬件端,将提供更多的内核和更高的内存带宽、DDR4 内存支持、功耗增强特性、虚拟化增强特性和一些安全增强特性(系统管理模式外部调用陷阱),它们能够提高显著提升应用性能,而无需开发人员提供任何支持。  在硬件端有 HNI 和 AVX2。  这些软件特性需要开发人员提供应用支持。

2. 简介

英特尔至强处理器 E5-2600 V3 产品家族基于 Haswell 微架构,它较之 Ivy Bridge EP 微架构在多方面进行了增强 (http://software.intel.com/zh-cn/articles/intel-xeon-processor-e5-2600-v2-product-family-technical-overview)。  支持英特尔至强处理器 E5-2600 V3 产品家族的平台名为 “Grantley”。 本文介绍了较之英特尔至强处理器 E5-2600 V2 产品家族,英特尔至强处理器 E5-2600 V3 产品家族中新增的特性。 每一章节都对开发人员利用新特性改进应用性能和安全性应执行的操作进行了介绍。

3. 英特尔至强处理器 E5-2600 V3 产品家族增强性能

Intel® Xeon® processor E5-2600 V3 product family

图 1: 英特尔® 至强® 处理器 E5 2600 V3 产品家族概述

英特尔至强处理器 E5-2600 V3 产品家族中随附的新特性包括:

  1. 英特尔® 高级矢量扩展指令集 2 (英特尔® AVX2)指令
  2. Haswell 新指令 (HNI)
  3. 支持 DDR4 内存
  4. 电源管理特性改进

图 1 概要展示了英特尔至强处理器 E5-2600 V3 产品家族微架构。 该产品家族的所有处理器都有 18 个内核(上一代中有 12 个内核),这提供了更高的计算能力。 它们还可提供更大的高速缓存(高频 SKU — 英特尔® 至强™ E5-2699 v3 拥有 45 MB(Ivy Bridge 仅为 30 MB))和更高的内存带宽。

表 1. 英特尔® 至强™ 处理器 E5–2600 V3 产品家族与英特尔® 至强™ 处理器 E5–2600 V2 产品家族之比较

Feature List

接下来本文将介绍该产品家族中的主要增强特性。

  3.1 英特尔® 高级矢量扩展指令集 2 (英特尔® AVX2)指令

借助英特尔 AVX,所有浮点矢量指令从 128 位扩展到 256 位。 英特尔 AVX 2 还将整数矢量指令扩展到 256 位。 英特尔 AVX 2 与英特尔 AVX 使用相同的 256 位 YMM 寄存器。 AVX2 指令可为高性能计算 (HPC) 的应用、数据库、音频和视频应用带来优势。 AVX 2 指令包括融合乘加 (FMA)、Gather、Shifts 和 Permute 指令。

融合乘加 (FMA) 指令仅使用一次凑整即可计算 ±(a×b)±c。不会对 .axb 中间结果进行凑整,因此比 MUL 和 ADD 指令更准确。 FMA 可以提升许多浮点计算的性能和准确性,如矩阵乘法、点积和多项式求值。 借助 256 位,我们能够执行 8 次单精度和 4 次双精度 FMA 操作。 由于 FMA 将 2 次操作合而为一,每秒浮点操作 (FLOPS) 提升;此外,由于 Haswell 有 2 个 FMA 设备,峰值 FLOPS 翻倍增长。

Gather 指令可将稀疏元素加载为一个矢量。 在一次操作中,它能够将 8 个单精度 (Dword) 或 4 个双精度 (Qword) 数据元素收集到一个矢量寄存器中。 有一个基本地址用来指明内存中的数据结构。 索引(偏移)可以显示每个元素相对于基本地址发生的偏移。 屏蔽寄存器可以追踪需要收集哪个元素。 当屏蔽寄存器全部为 0 时,Gather 完成。 gather 指令可支持工作负载矢量化,由于各种原因,以前无法对工作负载进行矢量化处理。

其他英特尔 AVX2 的新操作包括整数版 permute 指令、新 Broadcasts 指令和 Blend 指令。

  3.2 Haswell 新指令 (HNI)

Haswell 新指令包括 4 个 Crypto 指令,用于加速公共密钥和 SHA 加密算法;以及 12 个(位操作)指令,用于加速压缩或信号处理算法。 位操作指令可以执行任意位字段的操作,引导并追踪零位计数,追踪置位操作、改进旋转以及任意精度的乘运算。 它们可以加速执行位字段提取和打包的算法、以位精度编码的数据处理(压缩算法通用编码)、任意精度乘运算和散列。

如要使用 HNI,您需要使用更新的编译器,如下表所示:
Various Compiler support options

表 2: 多种适用于新指令的编译器支持选项

关于英特尔® C++ 编译器的更多信息,请访问: https://software.intel.com/zh-cn/intel-parallel-studio-xe

  3.3 支持 DDR4 内存

英特尔® 至强™ 处理器 E5–2600 V3 产品家族支持 DDR3 和 DDR4 内存。 相比 DDR3,DDR4 能够节省 35% 的功耗(每通道 2 个 DIMM),且带宽性能提升 50%1

  3.4 电源改进

英特尔® 至强™ 处理器 E5–2600 V3 产品家族的电源改进包括:

  • Per core P-states (PCPS)
    • 每个内核可以变成为操作系统 (OS) 要求的 P 状态
  • 非内核频率调整 (UFS)
    • 非内核频率的控制独立于内核频率。
    • 通过将功率用到需求最高的地方来优化性能
  • 更快的 C 状态
    • 当从 C3 或 C6 状态唤醒内核时,将需要一段时间。  这一时间在 HSX 上更快。  这减少了执行 C 状态的开销。
  • 更低的闲置功率

联系您的操作系统 (OS) 提供商,具体了解操作系统支持哪些功能。

4. Grantley 平台改进

Grantley 平台中的新功能包括:

  • 英特尔® C610 系列芯片组 (Wellsburg)
  • 全新虚拟化特性
  • 全新安全特性
  • 英特尔® 节点管理器 3.0

  4.1 英特尔® C610 系列芯片组 (Wellsburg)

Grantley 平台配备了英特尔® C610 系列芯片组 (Wellsburg),而上一代 Romley 平台配备了英特尔® C600 芯片组 (Patsburg) 。 C610 芯片组与 C600 相比,TDP 和每软件包的平均功率得到提升。

表 3 对 C600 和 C610 芯片组的特性进行了比较。

表 3 Patsburg 和 Wellsburg 特性比较

  4.2 虚拟化特性

Grantley 平台的虚拟化特性改进包括:

嵌套虚拟化可帮助根虚拟机监视器 (VMM) 支持客户机 VMM。 但是,额外虚拟机 (VM) 退出可能会影响性能。 VMCS 阴影可将客户机 VMM VMREAD/VMWRITE 导向 VMCS 阴影结构。 这可减少嵌套导致的 VM 退出。 VMCS 阴影可降低虚拟化延迟,从而提高效率


图 2: VMCS 阴影

该特性要求启用 VMM。 联系您的 VM 提供商,了解其何时提供该特性。

高速缓存监控技术(又称“相邻用户争用”管理)可提供末级高速缓存占用监控。 这支持 VMM 确认单个应用或 VM 级别的高速缓存占用。 借助该信息,虚拟化软件能够更好地决定如何调度和迁移工作负载。


图 3: Grantley 平台上的高速缓存监控

该特性要求启用 VMM。 联系您的 VM 提供商,了解其何时提供该特性。

在上一代 Romley 平台中,访问和“脏” 位(A/D 位)在 VMM 中进行仿真,访问它们会导致 VM 退出。 Grantley 在硬件中部署了 EPT A/D 位以减少 VM 退出。 这支持虚拟机实时、有效迁移,并支持容错。

EPT A/D in HW

图 4: 硬件中的 EPT A/D

该特性要求启用 VMM。 联系您的 VM 提供商,了解其何时提供该特性。

由于需要处理特权指令,在虚拟化来回转换时(从 VM “退出”到 VMM,从 VMM “进入” VM)性能开销会增加。   历代平台不断努力减少转换时间。 Grantley 进一步减少了 VMM 开销,并提升了虚拟化性能。

  1. 虚拟机控制结构(VMCS)阴影
  2. 高速缓存监控技术 (CMT)
  3. 扩展页表 (EPT) 访问/“脏” (A/D) 位
  4. VT-X 延迟减少

4.3 全新安全特性

Grantley 平台的安全特性改进包括:

  1. 系统管理模式 (SMM) 外部调用陷阱 (SECT)
    系统管理模式 (SMM) 是一款能够暂停所有正常执行(包括操作系统),并以优先模式执行特定的单个软件(通常为固件或硬件辅助调试器)的操作模式。 出现 SMI (系统管理中断)后,可输入 SMM 运行处理程序代码。 没有 SMM 外部调用陷阱 (SECT),SMI 处理程序可能会运行用户内存中可能是恶意代码的代码。 借助 SECT,SMI 处理程序无法调用用户内存中的代码。
    SIMM external call trap
    图 5: SIMM 外部调用陷阱

    启用该功能需要 BIOS 级别支持。
     
  2. 一般加密辅助 — AVX2、第四代 ALU、面向散列的 RORX

    AVX2 (256 位整数、更出色的位操作、Permute 粒度)和第四代 ALU (算法和逻辑单元)能够加速所有加密算法。 RORX 可以加速散列算法。 请参阅英特尔® 架构指令集扩展编程参考,了解关于该指令的更多信息

  3. 非对称加密辅助 — 适用于公共密钥的 MULX

    新指令 (MULX) 可以改进非对称加密并减少加密挑战。 请参阅英特尔® 架构指令集扩展编程参数,或关于该指令的其他信息

  4. 对称加密辅助 – AES-NI 优化
    Grantley 包括面向对称加密(英特尔® AES-NI 等)的增强特性和扩展。 请参阅本文,了解更多有关 AES-NI 及如何使用它的信息。
     
  5. PCH-ME 数字随机数生成器 (DRNG)

    管理引擎 (ME) 是平台架构中的一款独立的自动控制器。 ME 要求安全性较高的方法(鉴于其自动特性)以及访问低级别平台机制的权限。 如要最大限度地确保平台的安全性,须为 ME 提供高质量的随机数源。 PCH-ME DRNG 技术可提供真实的熵,并生成较难预测的随机数以便 ME 用来加密,这些随机数与其他系统资源相隔离。

4.4 英特尔® 节点管理器 3.0

Grantley 配备了最新版的英特尔® 节点管理器 — 3.0。 节点管理器 3.0 的改进包括:

  • 预测功率极限
    • 当系统功耗接近极限时,按计划出现功耗瓶颈
  • 在启动过程中强制执行功耗限制
    • 无需复杂的 IT 流程或禁用内核仅可控制“启动峰值”
  • 针对英特尔® 至强融核™ 协处理器的功耗管理
    • 为英特尔至强融核协处理器域及平台其他部分区分电源限制和控制
  • 节点管理器电源散热实用程序 (Power Thermal Utility, PTU)
    • 为 CPU 和内存域建立主要的电源特征值
    • 作为固件而提供

请访问该链接,了解关于节点管理器的更多详细信息。

5. 结论

概括而言,采用 Grantley 平台的英特尔至强处理器 E5-2600 V3 产品家族可提供多种全新及改进特性,从而能够显著提升您在企业平台上的性能和功耗体验。

关于作者

Sree Syamalakumari 现任英特尔公司软件和服务事业部的软件工程师。 Sree 拥有俄亥俄州代顿市莱特州立大学的计算机工程硕士学位。

有关编译器优化的更完整信息,请参阅优化通知