Intel 软件工具 开发指南 资源汇总
Intel® Parallel Studio XE 2011 开发指南
Intel® Parallel Studio 2011 开发指南
通过上面两个开发指南可以了解如何使用Intel Parallel Studio来优化您的串行和并行应用程序。
更多的参考文献,包括用户使用帮助,参考手册等内容可以从以下地址获得。 Intel® Software Documentation Library.
... 类型: Technical Article |
intel software tools intel software |
07.04.2012
|
格格不入 – 选择合适的英特尔® 软件开发工具
选择合适的英特尔® 软件开发工具
作者:Ken Strandberg
下载此白皮书 (PDF 303K)http://software.intel.com/file/37807
要改进您的串行代码以充分利用英特尔® 处理器中多核的任务和数据并行性及 SIMD 功能的数据并行性,您需要了解如何针对您的项目选择合适的并行编程工具。英特尔提供了多种用于实现并行性的软件开发工具。本文介绍了几种英特尔工 ... 类型: Technical Article |
|
06.04.2012
|
英特尔® 至强® 处理器E5系列专栏
英特尔® 至强® 处理器E5系列专栏 [image]
技术简介
基于全新英特尔® 至强® 处理器 E5 系列的服务器、工作站和存储解决方案提供了性能、内置功能和经济效益的最佳组合,使数据中心更为灵活高效。从虚拟化和云计算解决方案到设计自动化或实时金融交易,英特尔® 至强® 处理器 E5 系列前所未有的优异性能都会让您安然无忧。
... 类型: Technical Article |
|
12.03.2012
|
在不编写 AVX 代码的情况下使用 AVX
Using AVX Without Writing AVX Code (PDF 260KB)
摘要
英特尔® 高级矢量扩展指令集(AVX)是一套针对英特尔® SIMD 流指令扩展(英特尔® SSE)的 256 位扩展指令集,专为浮点密集型应用而设计。英特尔® SSE 和英特尔® AVX 均为单指令多数据指令集的示例。英特尔® AVX 作为第二代英特尔® 酷睿™ 处理器家族的一部分发布。英特尔® ... 类型: Technical Article |
|
07.03.2012
|
64 位英特尔® 架构处理器拓扑枚举
处理器拓扑信息对于许多处理器资源管理实践都非常重要,包括任务/线程调度、许可政策执行、相似性控制/迁移等。高速缓存结构的拓扑信息对于优化软件性能有着重要意义。本白皮书介绍了适用于使用 64 位和 32 位英特尔架构处理器的单路到多路平台的拓扑枚举算法。使用初始 APIC ID 的拓扑枚举算法(处理器和高速缓存)已被扩展为使用 x2APIC ID,后者已成为在一个相关域内超支持过 256 个逻辑 ... 类型: Technical Article |
|
07.03.2012
|
为实现双倍于摩尔定律的发展速度做好准备:英特尔® Cluster Studio XE
今天,我们为大家介绍英特尔® Cluster Studio XE。这是一套功能强大的工具集合,专为使用 MPI 和其它编程模型以充分利用集群和超级计算机的 HPC 编程员提供。英特尔® Cluster Studio XE 提供了两项全新的功能以协助进行混合编程:现有的英特尔® Cluster Studio (带额外的 MPI 扩展和作业控制特性)以及强大的节点级分析能力。
混合编程结合了用于节点间 ... 类型: Technical Article |
并行编程 性能与优化 软件工具 2 倍摩尔定律 Cluster Studio XE 英特尔® Cluster Studio |
12.02.2012
|
避免 AVX-SSE 转换造成的性能损失
避免 AVX-SSE 转换造成的性能损失 (PDF 678 KB)
由于硬件必须保存和恢复 YMM 寄存器的上层 128 位,因此一个程序中256 位英特尔® AVX 指令与传统英特尔® SSE 指令之间的转换可能会带来性能损失。本文讨论了这些转换损失产生的方式和原因、检测 AVX-SSE 转换的方法,以及消除转换或避免转换损失的方法。本文还讨论了 CPU 调度对 AVX-SSE 转换可能带来的影 ... 类型: Technical Article |
Intel AVX Sandy Bridge Intel® SSE |
12.02.2012
|
测试并行程序
作者:Cesar Martinez(英特尔)计算机科学领域的一条定律就是世人对更高性能的追求永远不会满足。如今,这些需求不仅仅针对速度,而且还针对体积更小、功能更加强大的移动设备。为了满足不断增长的用户期望,IDC 公司预期原始设备制造商 (OEM) 将会选择速度更快的多核处理器来支持他们的设备[1]。在这种背景下,并行程序将在移动设备中大量使用以充分利用多核技术。测试是软件开发周期中成本最高的阶段 ... 类型: Technical Article |
|
12.02.2012
|
并行优化规划
下载此白皮书:http://software.intel.com/file/37780
针对多核技术优化应用正在迅速成为一种行业趋势:多核电脑已经成为主流,占 2010 年 PC 发货量的 83%。而且,根据 IDC 《2009-2013 全球 PC 处理器预测报告》,内核的数量正在不断增长,预计 2012 年 PC 发货量中的 60% 将具备 4 个或更多内核。并行优化能够带来大幅性能提升,但是 ... 类型: Technical Article |
|
12.02.2012
|
VTUNE 性能分析器之一些高级用法
5.5 一些高级用法
对于一般用户上面的掌握上面介绍的知识,已经足够于一般的应用。但是,Vtune还对一些高级用户提供了一些高级的用法。
1. 使用Samples Over Time功能
用户可以在sampling view界面中通过点击工具栏中的“Display regular sampling view for selected time-range”按钮来切换到Samples Ove ... 类型: Technical Article |
|
28.12.2011
|
VTUNE 性能分析器之命令行调用
5.4命令行调用
除了图形界面之外,用户还可以通过命令行(command line)的方式来调用Vtune性能分析器。vtune性能分析器通过命令行方式,使得用户能够在自己的应用程序中使用它来收集性能数据和察看结果。该命令行模式能够在一个项目中重复调用,该方法能够使用一个收集器来配置一个活动(Activity),最后可以重复运行该活动(Activity)几次,并且比较该结果。
用户可以在命令 ... 类型: Technical Article |
|
28.12.2011
|
VTUNE 性能分析器之寻找和分析热点
5.3 寻找和分析热点
5.3.1快速性能分析(Quick Performance Analysis)
Vtune性能分析器提供几种分析方式用来帮助用户定位到瓶颈代码段。但是作为一般用户,使用Quick Performance Analysis (QPA) wizard就可以了。用户使用QPA wizard,可以指定要优化的应用程序,并且可以配置分析器,使用采样、调用图和计数器监视器来 ... 类型: Technical Article |
|
28.12.2011
|
VTUNE 性能分析器之简介
Vtune 性能分析器
5.1 什么是Vtune
Vtune可视化性能分析器(Intel VTune Performance Analyzer)是一个用于分析和优化程序性能的工具,作为Intel为众多开发者们提供的专门针对寻找软硬件性能瓶颈的一款分析工具,它能帮助你确定程序的热点(hotspot),帮助你找到导致性能不理想的原因,从而让你能据此对程序进行优化。
概括起来Vtune性能分 ... 类型: Technical Article |
|
28.12.2011
|
INTEL C++ COMPILER之常用优化方法
4.4 常用优化方法
4.4.1 简单的优化方法
Intel编译器在优化时采用了很多优化方法,包括拷贝传递、常数传播、公共子表达式、循环优化等。首先我们看看下面的代码:
// test1.c
#define DEBUG 0
int test1 ( )
{
int i = rand();
int j = rand();
int a,b,c;
a= ... 类型: Technical Article |
|
28.12.2011
|
INTEL C++ COMPILER之Intel 编译器支持的语言扩展
4.3 Intel编译器支持的语言扩展
前面介绍的都是利用编译器的优化选项开关来进行性能的优化,一般这些优化选项是针对所有代码或者针对某个源文件的所有函数时,有的时候我们可能只希望只对某个热点函数或者热点的代码块进行优化,这个时候就可以使用Intel编译器提供的语言扩展功能。关键字pragma是属于C语言中的关键字,但是具体的pragma的含义与作用是由具体的编译器来解释的,因此值得注意的是采 ... 类型: Technical Article |
|
28.12.2011
|
INTEL C++ COMPILER之常用的编译器选项
4.2 常用的编译器选项
4.2.1 选用编译器选项的基本步骤
编译器的强大的优化功能可以使得用户不需要耗费大量的精力来进行手动的优化,而且也有助于软件的可移植性,同时用户也可以专注于算法的选择和体系结构的设计。
由于编译器优化时可能会改变代码的结构,从而使得执行代码的结构可能无法直接和源代码对应起来,从而使得调试起来相对带来困难。软件开发过程中,代码的正确性是首先要保证的,因此代码调 ... 类型: Technical Article |
|
27.12.2011
|
INTEL C++ COMPILER之如何使用Intel C++ Compiler
Intel C++ Compiler
上一章我们介绍过在软件优化中一个很重要的工具就是利用强大的编译器的自动优化选项,由于现在的编译器的优化支持越来越强大,而且利用自动优化选项而不是自己手动来修改代码进行优化可以大大减少用户所要花费的时间和精力,同时也便于移植,以后编译器或者硬件升级之后并不需要对于代码作修改就可以直接运行。本章首先介绍了如何使用Intel C++编译器,包括如何安装、运行和设 ... 类型: Technical Article |
|
27.12.2011
|
多线程并行程序性能分析方法综述之Thread Profiler 线程档案器
2.5 Thread Profiler线程档案器
Intel(R) 线程档案器可以帮助调整Win32*和OpenMP*线程化软件的性能。该工具通过监控程序的运行来检测线程性能的相关问题,包括线程过载和同步冲突,能够帮助查找负载平衡, 同步开销等线程性能问题。可以进行关键路径分析。线程档案器最后提供图形式的检测结果,由此可以快速查明影响程序运行时间的代码位置,并通过以图象形式生动显示每个线程的 ... 类型: Technical Article |
|
19.12.2011
|
多线程并行程序性能分析方法综述之Thread Checker 线程检查器
2.4 Thread Checker线程检查器
1.1.1 计算机与微处理器
Intel(R) 线程检查器可以快速查找和修复Windows和OpenMP*线程软件中的bug。它监控程序执行过程中的线程行为,发现其中存在的竞争现象、线程阻塞以及潜在的线程死锁问题,提示同线程错误相关的源代码位置、侵权变量以及堆栈跟踪等。新版增添了从Windows主机系统分析Linux系统中运行的线程代码的功能。 ... 类型: Technical Article |
|
19.12.2011
|
多线程并行程序性能分析方法综述之MKL 数学核心函数库
2.3 MKL数学核心函数库
Intel(R) 性能库提供了高度优化的函数,这些函数可充分利用Intel(R) 多核处理器,从而能够最大限度地获得应用程序的性能并减少开发时间。
Intel(R) 数学核心函数库(MKL)是一套经过高度优化的、线程安全的数学例程、函数,并在此基础上加入了在Linux集群环境下的ScaLAPACK(Scalable LAPACK – http://www.net ... 类型: Technical Article |
|
19.12.2011
|
多线程并行程序性能分析方法综述之使用Intel® VTune 进行性能分析
2.2 使用Intel® VTune进行性能分析
Intel VTune性能分析器可以帮助程序员定位并定性程序中与性能问题有关的方方面面。VTune可以在程序运行的系统平台上自动搜集性能数据,可以将所获得的性能数据在各个不同的层次,大至系统层,下至程序源代码级,甚至到处理器指令级,进行不同粒度的交互式可视化,帮助查找可能的性能瓶颈,并提供可能的解决方案。VTune既可以在本地、也可以远程搜集性 ... 类型: Technical Article |
|
19.12.2011
|
多线程并行程序性能分析方法综述之性能调优周期
多线程并行程序性能分析方法综述
[引言] 本章主要介绍关于多线程并行程序性能分析方法的一些原则。并介绍如何利用一些Intel的软件工具来辅助进行多线程并行程序的性能调优。
2.1 性能调优周期:
性能调优周期指的是软件开发过程的一个螺旋式前进周期。其主要前进动力是数据驱动式的。如图2.1所示:
[image]
图2.1 性能调优周期示意图
在这个性能调优周期螺旋式上升循环中,在一 ... 类型: Technical Article |
|
19.12.2011
|
多核技术导论之操作系统对多核处理器的支持方法
1.4 操作系统对多核处理器的支持方法
1.4.1 调度与中断
随着多核处理器的发展,对软件开发有非常大的影响,而且核心的瓶颈在软件上。软件开发在多核环境下的核心是多线程开发。这个多线程不仅代表了软件实现上多线程,要求在硬件上也采用多线程技术。可以说多核提供了可以大幅提升性能的机制,多核软件就是可以真正利用这一特点的策略。只有与多核硬件相适应的软件,才能真正地发挥多核的性能。多核对软件的要求包括 ... 类型: Technical Article |
|
18.12.2011
|
多核技术导论之片上多核处理器架构
1.3 片上多核处理器架构
1.3.1 多核芯片
一直以来,处理器芯片厂商都通过不断提高主频来提高处理器的性能。但随着芯片制程工艺的不断进步,从体系结构来看,传统处理器体系结构技术面临瓶颈,晶体管的集成度已超过上亿个,很难单纯通过提高主频来提升性能,而且主频的提高同时带来功耗的提高,也是直接促使单核转向多核的深层次原因;从应用需求来看,日益复杂的多媒体、科学计算、虚拟化等多个应用领域都呼唤更为强 ... 类型: Technical Article |
|
18.12.2011
|
多核技术导论之并行计算机
1.2 并行计算机
1.2.1 并行处理思想与弗林(Flynn)分类
现代计算机发展历程可以分为两个明显的发展时代:串行计算时代、并行计算时代。并行计算机是由一组处理单元组成的,这组处理单元通过相互之间的通信与协作,以更快的速度共同完成一项大规模的计算任务。因此,并行计算机的两个最主要的组成部分是计算节点和节点间的通信与协作机制。并行计算机体系结构的发展也主要体现在计算节点性能的提高以及节点间通 ... 类型: Technical Article |
|
18.12.2011
|