英特尔® Performance Counter Monitor – 测量 CPU 利用率的更好方法

此网页的简短 URL:www.intel.com/software/pcm

目录

发帖者(按历史顺序)

Roman DementievThomas Willhalm、Otto Bruggeman、Patrick Fay、Patrick Ungerer、Austen Ott、Patrick Lu、James Harris、 Phil KerlyPatrick Konsor

英特尔® PCM (Performance Counter Monitor) 简介

英特尔® PCM 版本 2.0 现已发布,并增添了对英特尔® 至强™ E5 系列处理器(基于代号 Sandy Bridge EP/EN/E 的英特尔微架构)的支持。参阅下文英特尔® PCM 版本 2.0 功能节中新功能的简述。

过去几十年内,计算系统的复杂性显著增加。 层次化高速缓存子系统、非一致性内存、同时多线程和乱序执行等技术均为现代处理器的性能和计算能力带来了巨大的影响。

 

Figure%201%20%u201CCPU%20Utilization%u201D%20measures%20only%20the%20time%20a%20thread%20is%20scheduled%20on%20a%20core
 图 1:“CPU 利用率”仅测量线程在内核上预定的时间

 

能够理解并自动调节以适应现代处理器资源利用率的软件具备出色的性能和功耗优势。 英特尔® Performance Counter Monitor 提供范例 C++ 例程和实用程序,用于估算最新英特尔® 至强™ 和英特尔® 酷睿™ 处理器的内部资源利用率,进而实现大幅度的性能提升。

当 CPU 利用率数据无法体现 CPU 利用率时

从操作系统获得的 CPU 利用率数字是一项重要的衡量指标,一直以来被用作多种目的,例如产品尺寸选择、计算能力规划和任务调度等。 该指标的当前实施(UNIX*“top”实用程序和 Windows* 任务管理器报告的数字)显示操作系统中的 CPU 调度程序可分配给正在运行的程序或操作系统本身执行的时段部分;剩余的时间则处于空闲状态。 对于受计算量限制的工作负载,采用上述方法计算的 CPU 利用率指标预测剩余的 CPU 计算能力,非常适合性能相较现代系统而言更一致、可预测性更强的八十年代架构。 但是,计算架构领域的进展使得该算法不再可靠,因为当前的计算架构引入了多核和多 CPU 系统、多层高速缓存、非一致性内存、同时多线程(SMT)、流水线、乱序执行等先进技术。

 

Diagram%20of%20a%20multi-socket%2C%20multi-core%20system
 图 2:现代化多处理器、多核系统的复杂性

 

采用英特尔® 超线程技术的处理器上的非线性 CPU 利用率即是突出的例子。 英特尔® 超线程技术是一项卓越的性能特性,能够提升性能多达 30%。 然而,不了解超线程技术的最终用户很容易会被报告的 CPU 利用率搞得晕头转向:假设某款应用程序在每枚物理内核上运行一条线程。 即使应用程序会占用高达 70%-100% 的执行单元,而报告的 CPU 利用率却只有 50%。 详细解释参见 [1]。

另一个不同的例子是多核系统上“内存吞吐量”密集型工作负载的 CPU 利用率。 在线程数量少于内核数量时,带宽测试“流”已经使内存控制器的容量达到饱和。

性能监视单元的抽象层

好消息是,英特尔处理器已经提供监视处理器内部性能事件的能力。 为了获得更精确的 CPU 资源利用率信息,我们依赖于从英特尔处理器内部实施的所谓性能监视单元(PMU)所获得的动态数据。 我们特别关注随当前英特尔® 至强™ 5500、5600、7500、E5、E7 和酷睿 i7 处理器系列提供的高级特性集 [2-4]。

我们实施了一系列采用高级接口的基本例程,这些例程从用户的 C++ 应用程序进行调用,能够实时提供各种 CPU 性能指标。 与其它现有框架如 PAPI* 和 Linux*“perf”不同,我们不仅支持内核,还支持英特尔处理器(包括最近推出的英特尔® 至强™ E7 处理器系列)的非内核 PMU。 非内核是处理器的一部分,它包括集成内存控制器以及通向其它处理器和 I/O 中枢的英特尔® QuickPath Interconnect (快速通道互联)。 总的来说,支持的衡量指标如下:

  • 内核:返回的指令、内核时钟计时单元历时数、内核频率(包括英特尔® 睿频加速技术)、二级高速缓存命中和未命中、三级高速缓存未命中和命中(包括或不包括探听)。
  • 非内核:来自内存控制器的读取字节、进入内存控制器的写入字节、通过英特尔® QuickPath Interconnect(快速通道互联)链路传输的数据流量。

英特尔® PCM 版本1.5(和更高版本)还支持英特尔® 凌动™ 处理器,但内存带宽、英特尔® QPI(快速通道互联)带宽和三级高速缓存未命中等计数器将始终显示 0,因为英特尔® 凌动™ 处理器没有三级高速缓存,也没有芯片上内存控制器或英特尔® QPI (快速通道互联)链路。

英特尔® PCM 版本 1.6 支持第二代英特尔® 酷睿™ 处理器家族(英特尔® 微架构代号 Sandy Bridge)的 核上 性能指标(如每时钟周期执行的指令数、三级高速缓存未命中次数),还实验性支持部分较早的英特尔® 微架构(如 Penryn):这可通过在 cpucounter.cpp 中定义 PCM_TEST_FALLBACK_TO_ATOM 来启用。

我想要看看这些计数器!

作为额外赠品,PCM 软件包包括易于使用的命令行和基于这些例程的图形实用程序。 它们支持即购即用,特别适合不能或不想在代码中集成这些例程但却希望能够实时监视和了解 CPU 能力极限的用户。

图 3 是 Windows* 平台上命令行实用程序的截屏。 虽然 Linux* 版本能够依赖随 Linux 内核提供的 MSR 内核模块,但 Windows 上没有此类工具。 在 Windows 操作环境中,一个 Windows 驱动程序的范例实施能够提供相似的界面。

 

Screenshot%20of%20Intel%20PCM%20command%20line%20tool
 图 3:英特尔® Performance Counter Monitor 命令行版本

 

不过,未来将推出更多功能。 对于 Linux 操作系统,软件包中含有一个可插入 KDE* utility ksysguard 中的适配器。 使用该后台程序,能够实时绘制各种指标的曲线图。 图 4 也是一个截屏,展示工作负载运行过程中的部分指标。

参见下文图 9 和图 10 显示的 PCM 版本 2.0 的这些截屏。

 

Screenshoot%20of%20ksysguard%20with%20Intel%20PCM
 图 4:Linux 上的 KDE utility ksysguard 可以使用一个插件(来自 PCM v1.7)绘制性能计数器的曲线图

 

由于这些实用程序能够直接洞察系统内部,甚至可以使用它们迅速地实时查找和了解基本的性能瓶颈。 (与英特尔® VTune™ 性能分析器不同,它们不会报告是应用程序的哪些部分导致性能问题。)

自 1.5 版本开始,英特尔® Performance Counter Monitor 软件包集成了一项基于 Microsoft .Net* 2.0 或更高版本的 Windows* 服务,该服务能够创建性能计数器,并显示在随 Microsoft Windows* 操作系统提供的性能监视程序中。 Microsoft 的性能监视程序能够在 Windows* 操作系统上显示大量有用的性能计数器,例如磁盘活动、内存使用、CPU 负载等。 点击此处了解与面向 Windows* 7 和 Windows* 2008/R2 的性能监视程序有关的更多信息(不过多个 Windows 版本均配有性能监视)。 请阅读 Windows_howto.rtf 文件,了解如何安装和卸载针对英特尔® PCM 的该服务。

针对上述所有面向 Nehalem 和 Westmere 架构平台的硬件计数器,我们创建了一个相应的性能监视计数器,因此,性能监视程序支持的所有特性将全部在这些计数器中提供,如在文件或数据库中持续记录日志等。 对于英特尔® 凌动处理器,由于前述原因,内存带宽、英特尔® QPI(快速通道互联)带宽和三级高速缓存未命中的性能监视计数器将始终显示 0。  在未来的英特尔® Performance Counter Monitor 更新版本中,该服务将只显示可用的计数器。

 

PCM+Service+screenshot.png
 图 5:Windows* 性能监视显示从英特尔® Performance Counter Monitor v1.7 获得的数据

 

集成于您的程序之内的英特尔® Performance Counter Monitor

借助函数库提供的抽象层,监视您的应用程序中的处理器性能指标将非常简易。 使用性能计数器之前,应首先对它们进行初始化。 完成初始化后,可在相关代码段之前和之后捕获计数器状态。 不同例程会捕获面向内核、插槽或整个系统的计数器,并将它们的状态存储于相应的数据结构中。 其它例程则可基于这些状态计算性能指标。 以下代码片段展示一个使用实例: 

PCM * m = PCM::getInstance();

// program counters, and on a failure just exit

if (m->program() != PCM::Success) return;

SystemCounterState before_sstate = getSystemCounterState();

     [run your code here] 

SystemCounterState after_sstate = getSystemCounterState();

  cout << "Instructions per clock:"<< getIPC(before_sstate,after_sstate)

  << "L3 cache hit ratio:"<< getL3CacheHitRatio(before_sstate,after_sstate)

  << "Bytes read:" << getBytesReadFromMC(before_sstate,after_sstate)

  << [and so on]...

“CPU 资源”感知型调度

为了评估掌握精确的资源利用率可能带来的影响,我们实施了一个简单的调度程序,在单条线程中执行 1000 个计算密集型和 1000 个内存带宽密集型任务。 我们所面临的挑战是,系统上存在无法预测的后台负载,这是当前采用大量第三方组件的多组件系统相当典型的情形。 图 6 显示不知悉后台活动的调度程序可能做出的调度安排。

Scheduler%20without%20Intel%20PCM
 图 6:未采用英特尔® Performance Counter Monitor 的调度程序

如果调度程序(使用提供的例程)能够检测到另一个进程目前正占用大量内存带宽,它便可以相应地调整安排。 我们的模拟实验显示,在测试系统上,此类调度程序执行 2000 个任务的速度与一般的非感知型调度程序相比提高了 16%。

Scheduler%20with%20Intel%20PCM
 图 7:采用英特尔® Performance Counter Monitor 的调度程序

英特尔® PCM 版本 2.0 功能

英特尔 PCM 版本 2.0 增添了对英特尔® 至强 E5 系列处理器(基于代号 Sandy Bridge EP/EN/E 的英特尔微架构)的支持。此处理器有一个新型非内核及许多监视选项。

有关英特尔® 至强™ E5 处理器的通用信息,参阅此网页

有关英特尔® 至强™ E5 的技术信息,参阅此网页

下图是该新型处理器的结构图,取自英特尔® 至强™ 处理器 E5-2600 产品家族非内核性能监视指南

英特尔至强 E5 系列结构图
 图 8:英特尔® 至强™ E5 系列结构图

至强 E5 系列处理器的非内核拥有多个“盒子”,这与至强 E7 处理器(英特尔微架构代号 Westmere-EX)相似。 英特尔 PCM v2.0 支持该新型处理器的英特尔® QPI(快速通道互联)和内存指标。

在基于至强 E7 (Westmere-EX) 的系统上比较版本 1.7 和版本 2.0 的 ‘pcm.exe 1’ 输出,主要差别是:

  • 版本 2.0 为每个内核(以及为至强 E5 处理器系列的每个插槽)输出一栏 TEMP(温度),其中 TEMP 值是以 1 摄氏度为单位的温度度数,而 TjMax 温度(热余量) 0 相当于最高温度。
  • 版本 2.0 还显示 C 状态内核和包的驻留时间。 这是内核(或整个包)在一个特定级别的 C 状态所花时间的百分比。 级别越高,节能越多。

英特尔® 至强™ E5 系列特殊功能

以下 PCM 版本 2.0 信息适用于英特尔® 至强™ E5 系列处理器。

PCM 版本 2.0 增添了更多英特尔® QPI (快速通道互联)信息:

  • 快速通道互联链路速度
  • 入站(接收的)快速通道互联带宽中用于数据的百分比
  • 每一链路的出站(传输的)数据和非数据流量的字节数,以及每一出站链路的利用率。

请注意,英特尔® QPI(快速通道互联)信息的可用性可能取决于 BIOS 和 BIOS 设置是否支持至强 E5 非内核性能监视单元。

PCM 版本 2.0 还增添了能源使用信息:

  • 按插槽的能源使用
  • DRAM 能源使用 如果 BIOS 不支持此功能,DRAM 能源使用将报告为零。

PCM-power 实用程序

对英特尔® 至强™ E5 系列处理器,PCM 版本 2.0 还提供 pcm-power 实用程序。 此实用程序的 MSVS Windows 项目文件位于 PCM-Power_Win 目录。

在所有场合,pcm-power 实用程序均显示:

  • 对每个插槽和英特尔® QPI(快速通道互联)端口,快速通道互联时钟在 L0p 和 L1 低能耗状态所花时间之百分比。 L0p 节能状态时,快速通道互联的一半通道被禁用。 在 L1 状态,所有通道处于待命模式。 上述非内核性能监视指南对这些指标提供更多信息(参见表 2-102)。 请注意,英特尔® QPI(快速通道互联)信息的可用性可能取决于 BIOS 和 BIOS 设置是否支持至强 E5 非内核性能监视单元。
  • 对每个插槽,显示使用的能量、瓦特数及热余量。
  • 对 DRAM,如果平台支持此功能。显示使用的能量和瓦特数。 如果不支持 DRAM 能量显示,显示的值为零。

pcm-power 的 ‘-m’ 选项显示 IMC(集成内存控制器)PMU(性能监视单元)的电源状态信息。 有效选项包括:

  • 选项 ‘-m 0’ 显示 DRAM 列 0 和列 1 的 ‘CKE off’ 驻留时间。
    • ‘CKE off’ 是 DRAM 节能状态,因此在 ‘CKE off’ 模式驻留时间比率越高,DRAM 耗能越少。
    • 列 0 和列 1 是 DRAM 的两个列。
    • 此选项是未输入其他 ‘-m’ 选项时 IMC PMU 的默认显示。
  • 选项 ‘-m 1’ 显示 DRAM 列 2 和列 3 的 ‘CKE off’ 驻留时间。
  • 选项 ‘-m 2’ 显示 DRAM 列 4 和列 5 的 ‘CKE off’ 驻留时间。
  • 选项 ‘-m 3’ 显示 DRAM 列 6 和列 7 的 ‘CKE off’ 驻留时间。
  • 选项 ‘-m 4’ 显示 DRAM 自刷新驻留时间。
    • ‘自刷新’ 模式是另一种 DRAM 节能模式。
  • 选项 ‘-m -1’ 省略 IMC PMU 输出。
    • 如果不需要 DRAM 信息,此选项有助于缩短输出。

pcm-power 的 ‘-p’ 选项显示 PCU(电源控制单元)PMU(性能监视单元)的电源状态信息。 有效选项包括:

  • 选项 ‘-p 0’ 显示频率驻留时间。
    • 此选项使用 PCU PMU 的“频率分带”特性来显示内核在三个频率“带”所花时间的百分比。
    • 默认频带是 10、20 和 40。可使用 ‘-a band0’、‘-b band1’ 和 ‘-c band2’ 来改写每个频带。 每个频带乘以 100 MHz。 这些默认频带表示内核在以下频率所处时间的百分比:
      • Band0:频率 >= 1GHz
      • Band1:频率 >= 2GHz
      • Band2:频率 >= 4GHz
    • 这是默认 -p 选项。
    • 在闲置系统上,运行 ‘./pcm-power.x "sleep 5" -p 0 -a 0 -b 12 -c 27’ 的输出为:
       S0; PCUClocks: 3994206932; Freq band 0/1/2 cycles: 98.52%; 92.61%; 0.02%
       该输出表示,在插槽 0 上,为时 3994206932 个 PCU 时钟计时单元,处理器所花时间:
      • 98.52% 在频带 0:频率 >= 0 GHz,
      • 92.61% 在频带 1:频率 >= 1.2 GHz,
      • 0.02% 在频带 2:频率 >= 2.7 GHz。 该插槽几乎没有达到完全额定频率(2.7 GHz)或超频模式(2.8 GHz 或以上)。
  • 选项 ‘-p 1’ 显示内核 C 状态驻留时间
    • 单位是在测定时段中,在该插槽上的内核处于 C0、C3 或 C6 的次数。
    • 在繁忙系统上,结果可能是:
       S0; PCUClocks: 26512878934; core C0/C3/C6-state residency: 7.28; 0.00; 0.72
       这表示,在此时段中,插槽 0 上,平均 7.28 个内核处于 C0(全能耗,模式),0.0 个内核处于 C3(低能耗状态),0.72 个内核处于 C6 状态(更低能耗状态)。
  • 选项 ‘-p 2’ 显示 Prochot(节流的)驻留时间和热频率限制周期。
    • 例如,在繁忙系统上,结果可能是:
       S0; PCUClocks: 50540355190; Internal prochot cycles: 0.00 %; External prochot cycles:0.00 %; Thermal freq limit cycles:0.00%
       因此,处理器未触及任何热节流。
  • 选项 ‘-p 3’ 显示 {热、电源、当前} 频率限制周期。
    • 在繁忙系统上,结果可能是:
       S0; PCUClocks: 26724849741; Thermal freq limit cycles: 0.00 %; Power freq limit cycles:2.36 %; Clipped freq limit cycles:89.63 %
       因此,对插槽 0,
      • 该频率在 0.0% 的时间内受热制约因素的限制。 这是根据 PCU 事件 0x4 FREQ_MAX_LIMIT_THERMAL_CYCLES。
      • 该频率在 2.36% 的时间内受电源使用的限制。 这是根据 PCU 事件 0x5 FREQ_MAX_POWER_CYCLES。
      • 该频率在 89.63% 时间内受当前使用限制。 这是根据 PCU 事件 0x7 FREQ_MAX_CURRENT_CYCLES。
  • 选项 ‘-p 4’ 显示 {操作系统、电源、当前} 频率限制周期。
    • 在繁忙系统上,结果可能是:
       S0; PCUClocks: 26170529847; OS freq limit cycles: 6.09 %; Power freq limit cycles:2.39 %; Clipped freq limit cycles:91.51 %
       因此,对插槽 0,
      • 该频率在 6.09% 时间内受操作系统限制。 这是根据 PCU 事件 0x6 FREQ_MAX_OS_CYCLES。
      • 该频率在 2.39% 的时间内受电源使用的限制。 这是根据与选项 ‘-p 3’ 的第二个事件相同的事件。
      • 该频率在 91.51% 时间内受当前使用的限制。 这是根据与选项 ‘-p 3’ 的第三个事件相同的事件。
  • 选项 ‘-p -1’ 省略 PCU PMU 输出。

面向 Linux Ksysguard 和 Windows* 性能监视 GUI 的插件更新

除了命令行工具外,面向 Linux Ksysguard 和 Windows* 性能监视的插件已被扩充,现包括与能耗相关的必要指标(C 状态、热余量、处理器和 DRAM 能耗)。

Ksysguard 截屏
 图 9:英特尔 PCM 版本 2.0 Ksysguard 插件,显示能耗指标。

Windows* 性能监视插件截屏
 图 10:英特尔 PCM 版本 2.0 Windows* 性能监视插件,显示能耗指标。

更改日志

 

1.0 版

  • 第一版

版本 1.5

  • 集成至 Windows* 性能监视
  • 支持英特尔® 凌动™ 处理器

版本 1.6

  • 支持英特尔® 至强™ E7 系列处理器(英特尔微架构代号 Westmere-EX)。
  • 第二代英特尔® 酷睿™ 处理器家族(英特尔® 微架构代号 Sandy Bridge)的内核性能指标。
  • 高度实验性支持部分早期英特尔® 微架构(如 Penryn)。 通过在 cpucounter.cpp 中定义 PCM_TEST_FALLBACK_TO_ATOM 来启用。
  • 增强的 Linux KDE ksysguard 插件。
  • 针对命令行 pcm 实用程序的新选项。
  • 在 Windows 7 和 Windows Server 2008 R2 上支持超过 64 枚内核。
  • 支持 Performance Monitoring Unit Sharing Guideline(性能监视单元共享指引 )以防与其它性能监视代理(如英特尔® VTune™ 性能分析器)冲突。

版本 1.7

  • 英特尔 PCM 现在根据 BSD 许可分发。 参见压缩文件中的 license.txt 文件。
  • 支持更多处理器型号(带英特尔® 微架构代号 Nehalem)。
  • 新指标:通过 RDTSCP 指令的时间戳,C0 活跃内核驻留时间,以及其他一些衍生指标。
  • 扩充了自定义内核配置设施/模式。
  • 修正错误

版本 2.0

  • 支持至强 E5 系列(基于英特尔微架构代号 Sandy Bridge EP/EN/E)。
  • CSV 格式输出,用于 pcm 命令行实用程序(-csv 选项)
  • 支持基本能源指标(可用性随处理器架构而异):内核及包的 C 状态、处理器和内存 DRAM 能耗、温度热余量。
  • 一款新命令行实用程序 (pcm-power),用于在至强 E5 系列(英特尔微架构代号 Sandy Bridge EP/EN/E)上扩充电源和能耗监视。
  • 频率驻留时间(频带)统计量
  • 处理器和 DRAM 能耗
  • DRAM 睡眠 CKE 状态统计量
  • DRAM 自刷新统计量
  • 快速通道互联节能状态统计量
  • 内核 C 状态统计量
  • 频率节流原因统计量
  •  用于 2 插槽至强 E5 系列(英特尔微架构代号 Sandy Bridge EP)的实验性 OpenGL 3D 可视化工具

版本 2.1

  • 第三代英特尔® 酷睿™ 处理器家族(英特尔® 微架构代号 Ivy Bridge)的内核性能指标。

版本 2.2

  • 支持 SGI UV 2(最多 256 个插槽)
  • 支持英特尔微架构代号 Sandy Bridge E(单插槽)上的非内核指标
  • 对 pcm-power 工具增添了频率过渡统计量
  • 修正错误

版本 2.3

  • 支持 Apple Mac OS X 10.7 ("Lion") 和 OS X 10.8 ("Mountain Lion")
  • 支持 FreeBSD
  • 在英特尔至强处理器 E5 产品家族上监视每一信道内存流量的新工具。

版本 2.3.5

  • 实验性 Linux perf 驱动程序支持(参阅 Makefile 和 LINUX_HOWTO.txt)
  • 根据勘误表,修复了英特尔至强 E5(基于英特尔微架构代号 Sandy Bridge-EP 和 Sandy Bridge-E) 的高速缓存指标计数
  • 增添了内核 C1 驻留时间指标
  • 改进了文档和错误消息

版本 2.4

  • 在第二代、第三代和第四代英特尔® 酷睿™ 处理器上使用集成内存控制器计数器支持内存带宽指标 (Linux) 。
  • 在更多基于英特尔® 至强™ E5 处理器的服务器系统上支持内存带宽指标。

版本 2.5

  • 支持第四代英特尔® 酷睿™ 处理器(先前代号 Haswell)
  • 新实用程序 (pcm-tsx) 用于监视 Intel® Transactional Synchronization Extensions (Intel® TSX) 指标(交易成功【总周期数/交易周期数/中止周期数】及自定义 TSX 事件)
  • 新实用程序 (pcm-pcie) 用于在英特尔® 至强™ E5 处理器上监视 PCIe 流量
  • 使用新的 PCM::getAllCounterStates 调用,提高读入性能计算器的速度达三倍。
  • 增添了 Windows 2012 支持

版本 2.5.1:

  • 在第二代、第三代和第四代英特尔® 酷睿™ 处理器上使用集成内存控制器计数器支持内存带宽指标 (Apple OS X)。
  • 对英特尔® 凌动™ 处理器 S1200 系列(先前代号 Centerton)支持内核指标
  • 修正错误

版本 2.6:

  • 支持英特尔® 至强™ E5 v2 处理器系列(微架构先前代号 Ivybridge-EP)
  • 支持英特尔® 酷睿™ i5-4350U(微架构先前代号 Haswell ULT)
  • 支持英特尔® 凌动™ 处理器 C2000 系列(微架构先前代号 Avoton)
  • 支持英特尔® 凌动™ 处理器 Z3000 系列(微架构先前代号 Baytrail)
  • 支持用于编程“核外响应”PMU 事件的 API。 新实用程序 pcm-numa 的使用实例。
  • 修正错误

参考资料

有关英特尔 PCM 及其使用案例的问题和评论,建议访问 Software Tuning, Performance Optimization & Platform Monitoring(软件调优、性能优化和平台监视)论坛。

[1] Drysdale, Gillespie, Valles 《英特尔® 超线程技术性能探究

[2] 《英特尔® 64 和 IA-32 架构软件开发人员手册》,第 3B 卷:系统编程指南,第 2 部分

[3] 《英特尔® 至强™ 处理器 7500 系列非内核编程指南》

[4] Peggy Irelan and Shihjong Kuo 《性能监视单元共享指南

[5] David Levinthal 《面向英特尔® 酷睿™ i7 处理器和英特尔® 至强™ 5500 处理器的性能分析指南

英特尔、至强、酷睿和 VTune 是英特尔公司在美国和其他国家(地区)的商标。 *文中涉及的其它名称及商标可能属于各自所有者资产。 英特尔处理器号不作为衡量性能的标准。 处理器号主要区分各处理器家族内部的不同特性,不同处理器家族之间的处理器号不具有可比性。 请访问:http://www.intel.com/products/processor_number。

本文档转载的软件源代码根据软件许可证提供,并且只能在许可证条款下使用或复制。 软件许可文本包括在代码示例中。

 英特尔® 睿频加速技术要求系统支持英特尔® 睿频加速技术。 请向您的电脑制造商查询。 实际性能因硬件、软件和系统配置的不同而有所差异。 要了解更多信息,请访问 http://www.intel.com/technology/turboboost。

结果根据英特尔内部分析预测得出,仅供参考。 系统硬件设计、软件设计或配置的任何不同都可能影响实际性能。

本软件受美国出口管理条例和其他美国法律约束,不得向某些国家(缅甸、古巴、伊朗、北朝鲜、苏丹和叙利亚)或被美国禁止出口的个人或实体(包括拒绝缔约方、特别指定的国家地区和出口管理局黑名单中的个人或实体或者涉及导弹技术、核武器、化学武器或生物武器的个人或实体)出口或再出口。

许可及下载

有关编译器优化的更完整信息,请参阅优化通知