为实现双倍于摩尔定律的发展速度做好准备:英特尔® Cluster Studio XE

今天,我们为大家介绍英特尔® Cluster Studio XE。这是一套功能强大的工具集合,专为使用 MPI 和其它编程模型以充分利用集群和超级计算机的 HPC 编程员提供。英特尔® Cluster Studio XE 提供了两项全新的功能以协助进行混合编程:现有的英特尔® Cluster Studio (带额外的 MPI 扩展和作业控制特性)以及强大的节点级分析能力。

混合编程结合了用于节点间并行性的 MPI 与用于节点内并行性的共享存储模型(如 OpenMP、英特尔® 线程构建块 (TBB) 或英特尔® CilkPlus)。为了协助混合编程,Cluster Studio XE 包含面向英特尔® Inspector XE 和英特尔® VTune Amplifier XE 的集群安装和使用支持。这些工具的集群安装使得上手更加容易。集群用法支持它们在数十、数百或数千个流程上收集节点级数据。然后,两款工具会计算结果,并将结果以层级格式(从“按队列”应用视图开始)呈现出来。

英特尔® Inspector XE有助于确定有待准确定位的内存错误(如内存泄露)和线程错误(如数据竞争现象和死锁)。(如欲了解更多信息,请参阅《利用英特尔® Inspector XE 2011 查找多线程代码中的数据竞争》)。

英特尔® VTune Amplifier XE支持探查准确的性能信息以全面了解发生了什么影响应用性能的事件。VTune Amplifier XE 能够探查节点级性能,对探查 MPI 通信性能的Intel Trace Analyzer and Collector英特尔® 跟踪分析器和跟踪采集器)形成了完美补充。总之,它们提供了无与伦比的混合程序性能视图。

全新的SLURM作业管理器支持

英特尔® MPI Library 4.0.3 能够更好地与 SLURM 作业管理器相集成,这有助于更加严格地控制作业提交和启动的时间。它还能够提供信息,以便在程序由于错误提前终止时清除进程。

MPI 库经过扩展,支持作业调度器查看和控制队列的数量以及各队列的资源利用率(内存、CPU 利用率和高速缓存访问等)。在英特尔® MPI 运行之前,作业调度器并不知晓某个队列已死亡/终止(会导致与资源泄露类似的情况,需要对进程执行“kill -9”)。当在运行许多进程时发生这种情况会导致重大的问题。现在,SLURM能够查看各队列的进程状态,并能够正确清除进程。针对如何配合任意兼容 SLURM 的作业调度器设置和使用这一功能,请参考其它更多信息。

超越摩尔定律

我被以下趋势所吸引:超级计算机的性能在以略超过摩尔定律两倍的速度在增长。此处所示的前 500 集群增长图表(摘自 www.Top500.org)清楚表明:前 500 强超级计算机一直在以每年超过 80% 的速度增长,而摩尔定律中的年增长率则为 40%。

当然,摩尔定律讲的是晶体管密度大约每两年翻一番。晶体管密度的增长反过来又推动计算机行业提供更高的计算机性能。超级计算机设计已经能够利用多个层级的并行性,以实现较摩尔定律的双倍增长和惊人的性能提升速度。

混合编程充分利用了这种趋势。十年之前,MPI 编程在大多数情况下能够满足大型系统的需求。在过去十年,我们发现单独的集群节点越变越“肥大”。节点级的“肥大”已经促使 HPC 开发人员为不同于节点级并行性的节点间级并行性编程。这种编程通常被视作 MPI + OpenMPI。同时,节点级编程变得越来越多样,有着更多的选项。

这就解释了Cluster Studio XE为什么如此重要尤其是考虑新的混合编程观点。

Cluster Studio XE 不仅仅是 Inspector 和 VTune Amplifier

Cluster Studio XE 包含了几乎所有英特尔开发的 HPC 软件开发工具。这是因为最大规模的机器以及其上的应用使用了每种可能的方法,以便以两倍于摩尔定律的速度跟上目前的发展进度。

Cluster Studio XE 包括英特尔® C/C++Fortran 编译器 以及相关的库,包括针对英特尔处理器和兼容处理器提供无与伦比的优化的英特尔® Math Kernel 库 (MKL)。我们的目标是提供出色的性能和标准支持。我们具备卓越的性能,而且我们还为C++11、Fortran 2003、Fortran 2008 和 IEEE 754-2008提供了行业领先的支持能力。我们支持全部四项新标准中的大多数,但不是全部。还没有公司实施了这全部四项标准--我们坚信我们至少已经取得了与其它公司同等的进步。查询我们的文档以了解有关哪些标准已实施以及哪些标准尚未实施。我相信您会发现我们已经实施了每种标准的最重要和应用最广的部分(将会支持更多)。我们还完全实施了最新的 Cilk Plus 1.1、TBB 4.0 和 OpenMP 3.1 标准。MKL 能够提供包括 BLAS、LAPACK、稀疏矩阵求解器、快速傅立叶转换和矢量数学等在内的核心数学函数。它还包括一个面向集群的高度优化的ScaLAPACK版本,提供了显著的性能提升。

支持今天的多核,并为未来的众核做准备

当前,Cluster Studio XE 包含面向多核编程所需的工具和模型,同时我们已瞄准未来的众核编程并为此做准备。我们坚信未来核的增长不会迫使编程人员分割编程方法。编写可扩展应用不是一件轻松的差事,但至少我们能够使其成为单次作业而非两次作业。今天用于多核扩展的技术和工具将与我们未来支持众核的技术和工具一样。未来的 Cluster Studio XE 将包含全面的多核和众核支持。您可确信对当前系统的多核支持将与未来的众核支持保持一致。我们现在已经为众核原型系统 (Knights Ferry) 的有限用法提供众核支持,并在为即将推出的首款众核系统 (Stampede) 之一做好准备。请来 Supercomputing(位于西雅图)拜访我们以了解更多信息。我将和英特尔软件开发产品团队的许多其他成员一起,全周呆在那里。您甚至可能会遇到 Fortran 博士。您将能够在未来全球各地举办的软件大会上找到我们 – 能够遇到开发人员同行并一起谈论我们怎样才能帮到您,我们真的很高兴!

英特尔® Cluster Studio XE:立即试用

英特尔® Cluster Studio XE 为 MPI 程序员提供了面向 HPC 需求开发优化程序所需的关键功能。Cluster Studio XE 以单个包的形式提供,简化了安装,价格也很经济,所有需要它的人们都负担得起。请赶快试用,并告诉我们您的想法以及我们还能为您做些什么。

For more complete information about compiler optimizations, see our Optimization Notice.