共 1,393 篇文章
共 6,621 篇文章及评论
- Association for Computing Machinery TechNews (ACM)
- Go Parallel! (Dr. Dobbs)
- HPCwire (Tabor Communications, Inc.)
- insideHPC (John West)
- Joe Duffy's Weblog (Microsoft)
- Microsoft Parallel Programming Development Center (Microsoft Germany)
- MultiCoreInfo.com
- scalability.org (Scalable Informatics)
- Software Dev Blog (Intel Germany)
- Soft Talk Blog (Intel United Kingdom)
- The Moth (Microsoft)
Archives
帖子来自 Peter Wang (Intel) 
多种方法过滤Inspector XE 2011结果
作者: Peter Wang (Intel) (41 篇文章) 日期: 五月 10, 2012 在 11:05 上午
评论 (0)
使用Intel® Inspector XE 2011帮助开发人员动态检查运行程序的内存访问错误和线程访问错误(甚至是潜在的错误)。有的用户认为,Inspector XE报的错误基本不会发生,不必担心;有的用户认为,报错在第三方软件,无源代码可修改,可以跳过;有的用户认为,只需知道增量错误,老的错误不要再报。 这一切都可使用工具本身的Suppression功能来完成。 情形1. 假设用户是测试人员,每次只要关心有无新的报错。 步骤1. 检查内存错误或线程错误,结果放在指定目录, 如 inspxe-cl –collect mi2 ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:Inspector XE Filter
为什么你不能收集OFFCORE_相关的事件样本?
作者: Peter Wang (Intel) (41 篇文章) 日期: 三月 24, 2012 在 10:03 上午
评论 (0)
VTune™ Amplifier XE 性能分析工具可以使用处理器的性能计数器采集样本,进而对事件(如缓存不中,分支误测,写缓冲满等)高频发生的代码进行优化,以提高程序的整体性能。 可是当我们使用事件OFFCORE_RESPONSE.ANY_REQUEST.LLC_MISS_LOCAL.DRAM_0 和 OFFCORE_RESPONSE.ANY_REQUEST.LLC_MISS_LOCAL.DRAM_1 希望得到第三层缓存不中的情况, amplxe-cl -collect-with runsa -knob ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:VTune Event
怎么选择正确的CPU时钟进行性能测量?
作者: Peter Wang (Intel) (41 篇文章) 日期: 二月 28, 2012 在 1:34 下午
评论 (0)
虽然CPU时钟(clockticks)是一个基于英特尔架构共有的事件(任何Intel的处理器都含有此类事件)。但是每个处理器上,事件的名称会有所不同。以下以Intel(R)Sandy Bridge 处理器为例看看有那些CPU的时钟可以使用。 CPU_CLK_UNHALTED.THREAD 记录Core Cycles, 当你的线程处于非待机状态。我们知道,由于Intel (R) Step Speed 技术,核的频率可能由于CPU的“忙”或“不忙”随时发生变化。如果核上一直很忙(密集型计算)那么核的频率是个常量,这样程序的执行时间(Elapsed ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:VTune Amplifier XE clocktick
快速使用PTU工具得到函数调用次数
作者: Peter Wang (Intel) (41 篇文章) 日期: 二月 21, 2012 在 3:11 下午
评论 (1)
Intel® VTune™ Amplifier XE 改善了Call Graph的性能问题,采用统计调用(Statistical Call Graph)的方法,把Sampling(采样)和Call Graph(调用图)的功能(过程)合二位一。这种方法不仅帮助用户找到热点函数,而且找到了调用者的函数以及热点函数调用者的贡献度(消耗CPU的时间,对热点函数而言)。 美中不足的是,虽然基于统计的样本收集(Statistical Sampling)给出了热点函数以及调用关系,但是没有给出调用次数(call ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:call count, PTU Hotspot VTune
VTune(TM) Amplifier XE 报告输出gprof的格式
作者: Peter Wang (Intel) (41 篇文章) 日期: 一月 20, 2012 在 4:09 下午
评论 (0)
在VTune(TM)Amplifier XE 2011 中包含二类预定义的分析: 1. User-mode Sampling and Tracing Analysis: 热点分析(Hotspots Analysis),并行分析(Concurrency ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:VTune gprof format
VTune(TM) Amplifier XE 在 Ubuntu* 11.04 上使用碰到的问题
作者: Peter Wang (Intel) (41 篇文章) 日期: 十二月 15, 2011 在 2:59 下午
评论 (1)
在Ubuntu* 11.04上通过Sudo安装完Intel(R) VTune(TM) Amplifier XE 2011。整个过程没有任何报错信息。 使用amplxe-gui,调用工具的图形界面,创建一个项目,选择目标的应用程序。然后通过工具对目标程序进行热点分析(Hotspots Analysis), 意外得到出错信息。 同样的问题也会发生在并行性分析(Concurrency Analysis)和锁及等待分析(Locks And ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:"VTune Amplifier XE", Ubuntu 11.04
密码保护:使用VTune(TM) Amplifier XE收集Java程序的性能数据
作者: Peter Wang (Intel) (41 篇文章) 日期: 十一月 28, 2011 在 2:53 下午
评论 (18)
这是一篇受密码保护的文章。您需要提供访问密码: 密码:
分类: 并行计算, 英特尔® 软件网络 2.0
标签:VTune amplifier Java
何为高精度CPU时间的性能数据收集?
作者: Peter Wang (Intel) (41 篇文章) 日期: 十月 9, 2011 在 3:04 下午
评论 (2)
Intel® VTune™ Amplifier XE主要包含二种类型的性能数据收集:一种是用户模式下的数据收集和追踪分析, 还有一种就是基于硬件PMU事件的采样 (EBS)。 本文仅讨论的第一种情形(热点分析,并行分析,锁和等待分析),并不需要管理员权限(administrator privilege),缺省使用的是OS timer作为中断源。如 CPU Sampling ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:CPU Time, VTune Amplifier
使用Uncore Events 在Sandy Bridge处理器上测量内存访问带宽
作者: Peter Wang (Intel) (41 篇文章) 日期: 九月 28, 2011 在 2:35 下午
评论 (0)
1. 什么是Uncore 事件? VTune(TM)Amplifier XE 工具利用CPU上的Performance Monitor Unit (PMU) 上的性能事件计数器来测定影响程序性能的事件,从而定位到产生问题的代码,继而做相应的改善。在多核的CPU架构上,除了以前的PMU上的Events,还有一些监控内核间交互,内核和系统交互的事件(非CPU事件),称之为Uncore event。需要注意的是:你可以在系统平台上收集Uncore ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:vtune
使用amplxe-cl命令报告热点函数调用栈信息
作者: Peter Wang (Intel) (41 篇文章) 日期: 九月 15, 2011 在 4:40 下午
评论 (0)
Intel(R) VTune(TM) Amplifier XE 的命令行amplxe-cl可以用在性能的自动化测试(大多数情况由脚本调用)。关于使用的例子可以参阅我的这篇博客 - http://software.intel.com/zh-cn/blogs/2010/11/10/amplxe-cl/。 遗憾的是,早期的版本不支持在报告中输出热点函数的调用栈信息。现在VTune(TM) Amplifier XE Update ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:amplxe-cl callstacks
使用TBB的scalable_malloc 重载标准的内存分配接口函数
作者: Peter Wang (Intel) (41 篇文章) 日期: 八月 16, 2011 在 3:45 下午
评论 (0)
上月写过一篇如何使用TBB高效的内存申请接口。主要的好处在于,在程序执行中可以有效地使用缓存,提高效率。 问题在于,很多用户已经完成开发工作,并且代码中大量地使用了标准的内存分配函数,不见得所有的地方都要改成scalable_malloc 和 scalable_free,对于一个大项目来说,工作量太大。怎么才能做到较少修改源代码,有二个选项可供参考: 可以使用VTune™ Amplifier XE 找到热点函数和热点行,再进行内存访问(Memory Access)分析。如果热点行发生很多L2 Cache Misses,找到相应的内存变量,如果此变量的地址空间是通过标准的内存申请接口,则用scalable_malloc代替。当然变量的释放也要用scalable_free。简而言之,用TBB的内存申请接口替换“关键”变量的地址空间申请。 还有一种方法就是使用重载的办法,避免大量的代码的修改,如: #include "tbb/scalable_allocator.h" #define ...
分类: 并行计算, 英特尔® 软件网络 2.0
使用“include”过滤模式捕捉指定模块的内存访问错误
作者: Peter Wang (Intel) (41 篇文章) 日期: 八月 8, 2011 在 4:51 下午
评论 (0)
Intel® Inspector XE 2011 能够报告进程运行中所有的内存访问错误。可是,当用户运行一个比较大的程序,其中包含系统的库函数,开发工具的库函数,第三方的库函数。有时分析结果会报出一大堆的错误,反而和用户代码相关的错误会淹没在其中,不易被发现。 例如: inspxe-cl -collect mi1 -foo.exe Used suppression file(s): ...
分类: 并行计算, 英特尔® 软件网络 2.0
使用Memory Allocation API检测用户自定义的内存泄漏
作者: Peter Wang (Intel) (41 篇文章) 日期: 七月 15, 2011 在 4:08 下午
评论 (0)
我们知道,Intel® Inspector XE 2011 有一套接口函数库,比如支持在用户程序中Pause/Resume 性能分析,自定义的同步变量的识别, 帧(Frame)级别的性能分析,等。本篇要介绍的是另外一种功能,如何侦测自定义的内存泄露。即用户从自己的内存池里申请内存,而又没有释放。 一般工作流程:找到相关的INCLUDE文件和库文件。 Include ittnotify.h, located at ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:Inspector XE API, Memory Allocation
使用Intel(R) TBB的Scalable Memory Allocation
作者: Peter Wang (Intel) (41 篇文章) 日期: 七月 12, 2011 在 9:52 下午
评论 (0)
对于程序员而言,编程过程中一般使用malloc, realloc, new等标准的API进行内存的申请,使用free,delete等标准的API进行内存的释放。 而Intel的Thread Building Block (TBB)提供了Scalable Memory Allocation功能,来代替使用上述的API,高效地从全局堆中获得/释放内存。 scalable_malloc / scalabe_free ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:TBB Scalable memory allocation
Inspector XE 2011可以实现与GDB调试器的无缝连接
作者: Peter Wang (Intel) (41 篇文章) 日期: 六月 24, 2011 在 3:20 下午
评论 (0)
英特尔(R) Inspector XE 2011 支持二大类错误检查:内存检查和线程检查。 注意:这种检查是动态的(当然另外一种SSA(Static Security Analysis)是静态的,由Composer XE 2011扫描代码完成,结果在Inspector XE中显示。此种方法不在本文讨论之范围),也就是说由工具来运行目标应用程序,检测错误,事后显示错误报告。动态检查一般不“干预”程序的执行。 有时程序员希望能够让程序停留在错误行,加以调试。那么Inspector ...
分类: 并行计算, 英特尔® 软件网络 2.0
当使用并行的实现方法,怎样正确理解VTune(TM) Amplifier XE的并行结果
作者: Peter Wang (Intel) (41 篇文章) 日期: 五月 16, 2011 在 4:38 下午
评论 (2)
在多核的平台上,用户使用VTune(TM) Ampplifier XE 找到性能瓶颈,如果是串行代码,可以使用并行化的方法来提高性能。如: void Serial_Pi() { double x, sum = 0.0; int i; for ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:VTune(Tm) Amplifier
如何着手使用VTune™ Amplifier XE针对你的项目进行性能调优,以及进行常规化自动测试
作者: Peter Wang (Intel) (41 篇文章) 日期: 四月 20, 2011 在 4:26 下午
评论 (1)
介绍最新的VTune™ Amplifier XE的文章写了不少,虽然新的产品集成的VTune™ Performance Analyzer和Intel Thread Profiler的大部分功能,可能用户还是难以针对自己的项目找到突破口。 记得以前写过一篇名为<12步法-用英特尔的性能工具诊断性能问题>, 可能对大家有些帮助。觉得有必要针对新的产品,重新写一篇简单指导,顺便把以前有用的文章“串联”进本文。 还是论述下三个层次上的调优。 系统调优:和VTune™ Amplifier XE ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:"VTune Amplifier XE"
VTune™ Amplifier XE: 命令行上直接使用用户分析参数,无需创建新的分析类型
作者: Peter Wang (Intel) (41 篇文章) 日期: 四月 18, 2011 在 4:16 下午
评论 (0)
VTune™ Amplifier XE 2011是一款新型的性能分析工具,集VTune™ Performance Analyzer 和 Intel Thread Profiler ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:"VTune Amplifier XE", Command line
在时间线报告中标注“用户任务”的起始和终止
作者: Peter Wang (Intel) (41 篇文章) 日期: 三月 24, 2011 在 8:37 上午
评论 (0)
在VTune(TM) Amplifier XE 产品中提供了一组用户API接口,包含支持性能数据采集的控制,线程的重命名,循环中每一"帧"的数据采集设置,自定义的同步对象的识别,等。 这里要介绍的是有关"用户关注"的代码(也可称之为"用户任务")在时间线报告上的识别。 我们知道时间线报告给出了程序在运行过程中线程的活动情况,包含状态(运行/等待),CPU的利用率,线程的并发度,线程的转换,等。 当我们的应用程序含有大量代码而本身又比较复杂时,如何在时间线报告中标出"用户任务"呢? 首先在代码中要使用ittnotify.h Windows* - Amplifier XE 2011\include\ittnotify.h Linux* - vtune_amplifier_xe_2011/include/ittnotify.h 其次在链接库中加入库函数 Windows* ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:VTune(TM) Amplifier XE timeline
Inspector XE 2011:缩减程序运行负荷
作者: Peter Wang (Intel) (41 篇文章) 日期: 三月 23, 2011 在 4:27 下午
评论 (1)
Intel(R) Inspector XE 2011 帮助程序开发员查找内存访问错误和线程运行过程中的错误。此工具动态监控所有的内存访问及相关的API;还有线程运行中的共享变量的冲突,线程死锁。这样,在程序运行过程中不可避免地增加了额外开销(Overhead)。 这就要求在测试过程中,缩减相应的工作负荷,以减少额外开销。如: 1. 减少代码中循环的次数 2. 缩小处理对象的尺寸 除此之外,我们还可以在Inspector XE的Project's Properties 中免除一些系统库函数和第三方的库函数的追踪,以节省运行时间。 还可以修改分析类型中的设置,如: “Stack ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:Inspector overhead
什么是Cross-thread Stack Access?
作者: Peter Wang (Intel) (41 篇文章) 日期: 二月 20, 2011 在 10:27 上午
评论 (1)
Intel(R) Inspector XE 2011 产品支持内存错误检查和线程错误检查。以前类似产品中,线程检查包含:代码执行时数据冲突和线程死锁的检查。当前产品还提供了“Cross-thread Stack Access” 警告信息。 这个警告信息指的是堆栈变量发生的多线程共享,这仅是一个警告(不是错误信息),用户需要进一步进行数据冲突检查。这里要说明的是每个线程仅报告一个这样的警告。 请看下面的例子: #include <stdio.h> #include <time.h> #include ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:Inspector Cross-thread Stack Access
解决VTune™ Amplifier XE 和 Performance Tool Utility 驱动程序冲突
作者: Peter Wang (Intel) (41 篇文章) 日期: 二月 15, 2011 在 4:38 下午
评论 (0)
Intel新一代的性能调试工具VTune™ Amplifier XE 2011 集成了Intel® VTune™ Performance Analyzer 和 Thread ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:VTune Amplifier PTU driver
在VTune(TM) Amplifier XE 2011中增加新的分析类型
作者: Peter Wang (Intel) (41 篇文章) 日期: 一月 20, 2011 在 3:10 下午
评论 (0)
在VTune(TM)Amplifier XE 2011 中包含二类预定义的分析:1)User-mode Sampling and Tracing Analysis 2) Hardware ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:Analysis type, Intel VTune Amplifier XE
如何从VTune(TM) Amplifier XE 2011的分析结果中快速找到你关心的线程
作者: Peter Wang (Intel) (41 篇文章) 日期: 一月 19, 2011 在 1:40 下午
评论 (0)
VTune(TM) Amplifier XE 2011 的 Concurrency 分析报告可以给出基于时间线的线程状态图。在此报告中,线程的名字缺省以线程的入口函数来命名。本工具提供了一种方法:用户可以对线程的名字重命名 ( 在分析报告)。这是因为: 1)当一个应用含有大量的线程,寻找一个自己关心的线程,殊为不易。 2)由于缺省使用入口函数为线程名。当多个线程使用相同函数作为入口函数,不易分辨。 以下是一个使用产品中ittnotify接口的例子。 参考代码:itt_set_thread_name.cpp #include <stdio.h> #include ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:"VTune Amplifier XE", concurrency analysis, ittnotify
Intel(R) VTune(TM) Amplifier XE 2011 功能演示 (中文视频)
作者: Peter Wang (Intel) (41 篇文章) 日期: 十一月 19, 2010 在 2:25 下午
评论 (4)
全部中文演示,每节5-10分钟,快速掌握产品的使用技巧。 Intel(R) VTune(TM) Amplifier XE 2011 功能演示1 - 总述 (中文)- http://software.intel.com/zh-cn/forums/showthread.php?t=78632&o=a&s=lr Intel(R) VTune(TM) ...
分类: Blog Challenge, 并行计算, 英特尔® 软件网络 2.0
标签:"VTune Amplifier XE"
使用inspxe-cl 命令行进行内存和线程检查
作者: Peter Wang (Intel) (41 篇文章) 日期: 十一月 10, 2010 在 3:52 下午
评论 (2)
Intel® Inspector XE 2011 是新一代的内存和线程检查工具,含图形界面以方便分析结果。但有时我们基于二点原因需要使用命令行来分析: 1.含图形界面的工具增加应用程序的负载 2.用户需要做自动(回溯)内存和线程分析的工作(Run Script),及产生报告 准备工作: Windows环境下:Command Prompt > $Inspector XE ...
分类: Blog Challenge, 并行计算, 英特尔® 软件网络 2.0
标签:Inspector XE command line
使用amplxe-cl 命令行进行性能数据收集和分析
作者: Peter Wang (Intel) (41 篇文章) 日期: 十一月 10, 2010 在 3:48 下午
评论 (4)
Intel® VTune™ Amplifier XE 2011 是新一代的性能分析工具,含图形界面以方便分析结果。但有时我们基于二点原因需要使用命令行来收集性能数据和进行分析: 1.含图形界面的工具自身消耗系统的资源 2.用户需要做自动(回溯)性能收集和分析的工作(Run Script),及产生报告 准备工作: Windows环境下:Command Prompt > $Amplifier ...
分类: Blog Challenge, 并行计算, 英特尔® 软件网络 2.0
标签:VTune Amplifier Command line
Intel® Parallel Studio 2011 助你实现代码的静态检查
作者: Peter Wang (Intel) (41 篇文章) 日期: 九月 17, 2010 在 2:14 下午
评论 (0)
最近Intel新发布的产品Intel® Parallel Studio 2011包含四个组件:Intel® Parallel Composer 2011, Intel® Parallel Inspector ...
分类: Blog Challenge, 并行计算, 英特尔® 软件网络 2.0
标签:Intel Parallel Studio SSA
Intel® Parallel Advisor 2011来了
作者: Peter Wang (Intel) (41 篇文章) 日期: 九月 6, 2010 在 4:49 下午
评论 (2)
最近Intel新发布的产品Intel® Parallel Studio 2011是以前Intel® Parallel Studio的升级版。除了以前的三个组件:Intel® Parallel Composer, Intel® Parallel ...
分类: Blog Challenge, 并行计算, 英特尔® 软件网络 2.0
重复使用已创建的线程以减少系统的额外开销
作者: Peter Wang (Intel) (41 篇文章) 日期: 八月 20, 2010 在 4:26 下午
评论 (0)
在多核平台上开发程序,我们主张把子任务并行化。这样需要创建多个进程。问题是,是不是线程越多越好呢? 下面是把多任务进行划分,并行工作的例子。第一种方法共创建了84个子线程;第二种方法仅创建了4个子线程(我的实验平台是四核的CPU) 限于篇幅的限制,和便于对照。说明如下:1)紫色代码是在原代码上新增的;2)蓝色的代码是修改对应的函数(原代码已不再用);3)黑色的是原代码(含被注释掉的) 这样,也可以很方便的编译原代码,以作比较。 #include <stdio.h> #include <stdlib.h> #include <math.h> #include <windows.h> #define NPARTS 1000 #define NITER 21 #define DIMS ...
分类: Blog Challenge, 其他, 并行计算
标签:Thread Profiler
关于Intel(R) Core(TM) 2 Duo 的性能计数器
作者: Peter Wang (Intel) (41 篇文章) 日期: 七月 1, 2010 在 4:47 下午
评论 (1)
(以前在CSDN上的旧文,比较零乱,现整理出来,有关Intel(R) Core(TM) i7处理器上的性能计数器,可参阅这里) 有过VTune(TM) Performance Analyzer使用经验的人知道,这个工具与其他性能检测软件不同的是-不仅可以检测程序所耗用的时间,而且可以检测程序执行中处理器的内部事件(Performance Monitor Unit:PMU)发生次数(及样本),称之为Event based sampling。 本篇通过对常用的处理器的事件(Intel(R) Core ...
分类: 其他
使用Intel性能调试工具测量Xeon® 5500 Series平台上内存访问的带宽
作者: Peter Wang (Intel) (41 篇文章) 日期: 六月 12, 2010 在 11:06 上午
评论 (0)
基于新一代Nehalem架构的Intel® Xeon®5500处理器改变了传统的FSB(front-side-bus)设计,使用的是NUMA(non-uniform memory access) 架构以增强内存访问的带宽。 以前写过一篇如何在Nehalem架构上用Intel® VTune™ Performance Analyzer性能计数器MEM_UNCORE_RETIRED.REMOTE_DRAM测量多线程应用程序中由于等待IMC(Integrated memory controller)与 ...
分类: 并行计算, 英特尔® 软件网络 2.0
标签:memory bandwidth, PTU, vtune, xeon 5500 series
关于获得Intel® Thread Profiler RDC for Linux* 和一般的使用方法
作者: Peter Wang (Intel) (41 篇文章) 日期: 三月 26, 2010 在 5:06 下午
评论 (0)
Intel® VTune™ Performance Analyzer for Windows* 包含VTune™ Analyzer 和 Intel® ...
分类: 并行计算, 软件技术学习及认证
标签:Intel Thread Profiler, linux
使用Intel® Parallel Amplifier: 一站式解决的最佳方案
作者: Peter Wang (Intel) (41 篇文章) 日期: 二月 22, 2010 在 1:50 下午
评论 (2)
以前针对复杂而又功能强大的VTune(TM) Performance Analyzer 和 Intel® Thread Profiler, 我写过一个《用Intel调式工具,即12步法诊断你的应用程序的性能问题》 (参见http://software.intel.com/en-us/articles/twelve-steps-to-diagnose-performance-problems-with-intel-performance-tools/ )相信读过的朋友可以以此为抓手,方便的利用工具来解决你的性能调优问题。 现在Intel推出一款新的产品,Intel® ...
分类: 并行计算
标签:Amplifier
在Intel® Core™ i7 processor上针对NUMA使用性能计数器
作者: Peter Wang (Intel) (41 篇文章) 日期: 十二月 25, 2009 在 1:18 下午
评论 (0)
在Intel® Core™ 2 processor 平台上对应用程序的性能进行调试,我们推荐使用Intel® VTune™ Performance Analyzer, 该产品支持处理器内部的很多性能计数器,当然可能需要花费大量的时间去学习,一个比较“取巧”的方法是阅读David, Levinthal ...
分类: 并行计算
标签:VTune NUMA
在Intel® Parallel Inspector中使用命令行
作者: Peter Wang (Intel) (41 篇文章) 日期: 九月 15, 2009 在 1:18 下午
评论 (0)
我们知道英特尔提供了Intel® Parallel Studio的套件,包含Intel® Parallel Inspector组件其必须在Microsoft* Visual Studio* 上运行。但有时我们需要做一些自动测量工作(例如用Script来实现自动运行),并且不运行在IDE上可以避免其对测量工作的额外负载。 Intel® Parallel Inspector ...
分类: 并行计算
标签:Inspector 命令行
在Intel® Parallel Amplifier中使用命令行
作者: Peter Wang (Intel) (41 篇文章) 日期: 九月 15, 2009 在 11:31 上午
评论 (0)
我们知道英特尔提供了Intel® Parallel Studio的套件,包含Intel® Parallel Amplifier组件,其必须在Microsoft* Visual Studio* 上运行。但有时我们需要做一些自动测量工作(例如用Script来实现自动运行),并且不运行在IDE上可以避免其对测量工作的额外负载。 Intel® Parallel Amplifier ...
分类: 并行计算
标签:Amplifier 命令行
一个使用Intel® Parallel Studio优化Minibench的例子
作者: Peter Wang (Intel) (41 篇文章) 日期: 七月 14, 2009 在 4:28 下午
评论 (6)
COSBI OpenSourceMark是清晰的,全面的开放源码的基准,含Windows*的图形用户界面框架,许多测试是在Delphi中写于2005年,但现在大部分测试支持Visual Studio* C和C + + 。开发者可以从http://sourceforge.net/projects/opensourcemark/files/ 下载miniBench_v1.0 for Visual ...
分类: 并行计算
标签:Composer, Intel Parallel Amplifier
一个使用TBB Lambda 表达式实现并行执行的例子
作者: Peter Wang (Intel) (41 篇文章) 日期: 六月 10, 2009 在 2:41 下午
评论 (0)
我曾经有一个用所有已知的方法来实现Pi的计算的例子,http://software.intel.com/en-us/blogs/2009/01/22/an-example-to-show-performance-data-for-different-implementations-of-pi-calculating/ 现在Intel(R) Parallel Studio 中Composer 组件包含了最新的Threading Building Block 2.1 - 这个版本支持Lambda表达式,可以简化你的TBB代码。请注意新旧方法的异同。 #include ...
分类: 并行计算
标签:TBB Lambda
比较Intel Parallel Amplifier 和 VTune(TM) Analyzer, Thread Profiler 之异同
作者: Peter Wang (Intel) (41 篇文章) 日期: 四月 27, 2009 在 4:59 下午
评论 (2)
许多开发人员也许感到满意,使用英特尔的性能分析工具,如VTune (TM)性能分析器和英特尔®线程档案器(http://software.intel.com/en-us/intel-vtune/)来确定程序中的性能问题。 现在,英特尔即将发布新的高性能工具命名为英特尔Parallel Amplifier (http://software.intel.com/en-us/intel-parallel-amplifier/)。这个工具对用户的知识准备没有特殊的要求, 作为 Visual Studio 的一个插入部件,界面友好,无需额外的工作, 只需运行程序就能立即得到结果。 那么英特尔Parallel Amplifier 和VTune ...
分类: 并行计算
标签:Amplifier VTune Thread Profiler
在Intel(R) Core(TM) i7 处理器上的Intel(R) VTune(TM) Performance Analyzer 的性能计数器
作者: Peter Wang (Intel) (41 篇文章) 日期: 三月 18, 2009 在 4:58 下午
评论 (3)
以前在CDSN的多核软件开发论坛上发表过有关Intel(R) Core(TM) 2 Duo 的性能计数器的论述(http://topic.csdn.net/u/20080527/17/44d9ebf9-959d-4495-8456-62e4b2d40f05.html),现在就Core(TM) i7 处理器的同样话题作一梳理。 VTune(TM) Performance Analyzer不仅可以检测程序所耗用的时间,而且可以检测程序执行中处理器的内部事件(Performance Monitor ...
