Archives

帖子来自 Bruce Chen 陈宇达 (Intel) RSS

Bruce Chen 陈宇达 (Intel)

海量数据

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 15, 2012 在 12:55 下午
评论 (0)

随着数据中心的不断发展,数据量日益扩大,如何有效地处理海量数据成为了浮出水面的新问题。在过去的IDF上,Intel介绍了海量数据处理的一些现状和经验,供大家参考。 http://intelstudios.edgesuite.net/idf/2012/bj/keynotes/idf2012_db-en/main.htm

继续 ›

分类: 企业应用开发, 并行计算

高性能的E5-2600

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 15, 2012 在 12:42 下午
评论 (0)

附件是E5-2600的一篇白皮书,介绍了高性能的E5-2600的应用,供参考。 高性能的E5-2600

继续 ›

分类: 企业应用开发, 并行计算

美国航空航天管理局的云架构

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 15, 2012 在 12:36 下午
评论 (0)

这里是美国航空航天管理局的云架构白皮书,供参考。 美国航空航天管理局的云架构

继续 ›

分类: 企业应用开发, 并行计算

安全的云计算

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 15, 2012 在 12:23 下午
评论 (0)

云计算越来越火,安全也日益为人关注,这里是一篇关于云计算安全的白皮书,供大家参考。 安全的云计算

继续 ›

分类: 企业应用开发, 并行计算

应用英特尔的集成I/O 改进I/O 性能

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 16, 2012 在 10:05 上午
评论 (0)

英特尔® 至强® 处理器 E5 系列中的I/O性能增强功能减少了I/O延迟并提高了数据吞吐量,这是关于它的一个介绍video,供参考。 集成I/O

继续 ›

分类: 企业应用开发, 并行计算

英特尔® 智能功耗节点管理器

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 16, 2012 在 9:54 上午
评论 (0)

数据中心的不断扩张,带来了能耗的大幅增加。如何有效地降低IPDC能耗呢,英特尔® 智能功耗节点管理器提供了一个选择。这是关于英特尔® 智能功耗节点管理器的一篇白皮书,供参考。 英特尔® 智能功耗节点管理器

继续 ›

分类: 企业应用开发, 并行计算

企业计算的未来

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 16, 2012 在 9:50 上午
评论 (0)

这是一篇介绍企业计算展望的白皮书,供大家参考。 企业计算的未来

继续 ›

分类: 企业应用开发, 并行计算

选择合适的英特尔服务器

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 16, 2012 在 9:44 上午
评论 (0)

英特尔有着众多的服务器型号,如何选择合适的英特尔服务器,是经常被客户问到的一个问题,下面就是最新的一个概要介绍,供大家参考。 选择合适的英特尔服务器

继续 ›

分类: 企业应用开发, 并行计算

成长型数据中心的明智选择

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 12, 2012 在 4:36 下午
评论 (0)

这是关于成长型数据中心的一篇白皮书,供参考。 成长型数据中心

继续 ›

分类: 企业应用开发, 并行计算

采用英特尔® 至强® 处理器 E5 家族的数据中心和私有云解决方案

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 12, 2012 在 4:33 下午
评论 (0)

这是采用英特尔® 至强® 处理器 E5 家族的数据中心和私有云解决方案的白皮书,供参考。 数据中心和私有云解决方案

继续 ›

分类: 企业应用开发, 并行计算

互联计算

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 二月 13, 2012 在 3:35 下午
评论 (0)

这是关于互联计算的一篇白皮书,供参考。 为互联计算做好准备

继续 ›

分类: 并行计算

加速企业计算环境虚拟化

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 二月 13, 2012 在 3:30 下午
评论 (0)

这是一篇加速企业计算环境虚拟化的白皮书,供参考。 加速企业计算环境虚拟化

继续 ›

分类: 并行计算

虚拟化环境的部署与扩展

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 6, 2011 在 1:17 下午
评论 (0)

这是一篇讲述虚拟化环境的部署与扩展的白皮书,供参考。谢谢 虚拟化环境的部署与扩展

继续 ›

分类: 并行计算

服务器虚拟化部署优势

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 6, 2011 在 1:15 下午
评论 (0)

下面是一篇讲述服务器虚拟化部署优势的白皮书,供参考。谢谢 虚拟化平台部署优势

继续 ›

分类: 并行计算

关键业务应用的虚拟化

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 6, 2011 在 1:10 下午
评论 (0)

附件是针对关键业务应用进行虚拟化的一篇白皮书,供参考。 关键业务应用的虚拟化

继续 ›

分类: 并行计算

关键业务迁移

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 6, 2011 在 1:01 下午
评论 (0)

附件是一篇关于关键业务向IA迁移的白皮书,供大家参考。 关键业务迁移

继续 ›

分类: 并行计算

客户端如何影响云计算的用户体验

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 3, 2011 在 1:57 下午
评论 (0)

云计算已经成了热门词汇,更是IT投资的重点。那么客户端设备如何影响用户体验呢?这是一篇客户端如何影响云计算的用户体验的白皮书,供大家参考。 客户端如何影响云计算的用户体验

继续 ›

分类: 并行计算, 服务器

横向扩展数据中心存储

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 3, 2011 在 1:51 下午
评论 (0)

数据中心的存储一直是多多益善,但总是经常发现不够用。如何经济高效的扩展呢?这是一篇横向扩展数据中心存储的白皮书。 横向扩展数据中心存储

继续 ›

分类: 并行计算, 服务器

提高数据中心的能效

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 3, 2011 在 1:24 下午
评论 (1)

数据中心的重要开支就是能耗,如何降低能耗,更加绿色呢? 下面就是一篇通过对服务器功耗进行测量、评估,以提高数据中心的能效的白皮书。 提高数据中心的能效

继续 ›

分类: 并行计算, 服务器

云计算中心再落户重庆

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十月 24, 2011 在 2:51 下午
评论 (23)

云计算已经是全民皆知的热门概念了。不仅仅是软件厂商(ISV,SI)推出基于云计算的解决方案/软件产品,在各个重点城市的战略规划中,云计算也是不断涌现,在各地纷纷落户。 之前上海建了云计算中心,在近日推出的重庆“重庆市工业转型升级“十二五”规划”中,云计算也成了重点之一:重庆计划在十二五中,建成智能云端集群,同时使电子信息成为重庆的重要支柱产业。 据网上介绍,其智能云端集群是通过聚集移动运营商,金融客户,高端制造业客户,互联网客户等来做大数据处理业务。其中国内客户的在岸业务主要是商家对客户的B2C,而国外客户的离岸业务主要是商家对商家的B2B。 云计算中心就好比是信息的梧桐树,而其上的应用就是金凤凰了。看来国内除了公路机场的基建以外,信息化的基建也是热火朝天,云计算正当其时!

继续 ›

分类: 并行计算, 服务器

优化云计算的用户体验

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 15, 2011 在 2:00 下午
评论 (0)

附件是优化云计算的用户体验的一篇白皮书,供参考: 优化云计算的用户体验

继续 ›

分类: 并行计算

客户端感知型云计算

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 15, 2011 在 1:56 下午
评论 (0)

附件是客户端感知型云计算的一篇白皮书,供参考: 客户端感知型云计算

继续 ›

分类: 并行计算

云计算私有云的一篇白皮书

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 15, 2011 在 1:51 下午
评论 (0)

看大家对云计算这么感兴趣,再发一篇云计算私有云的白皮书,供参考: 云计算私有云

继续 ›

分类: 并行计算

数据中心功耗管理技术的一篇白皮书

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 15, 2011 在 1:47 下午
评论 (0)

这是数据中心功耗管理技术的一篇白皮书,应用了英特尔® 智能功耗节点管理器,供大家参考。 智能功耗节点管理器

继续 ›

分类: 并行计算

云计算白皮书

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 6, 2011 在 2:19 下午
评论 (3)

下面是一份云计算数据中心白皮书,供大家参考: 云计算数据中心白皮书

继续 ›

分类: 并行计算, 服务器

苹果已经成为美国最大上市公司

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 八月 11, 2011 在 2:16 下午
评论 (13)

近日不论美股还是A股,都是跌落的入水声一片,夹杂着小民的眼泪声和割肉声。但其中也发现了一个令人激动的消息:苹果已经成为美国最大上市公司! 大概在去年,苹果就已经是美股IT业最大市值的上市公司了,而今天,更是超过了各个传统产业公司,看来创新的力量真大啊。

继续 ›

分类: 并行计算

至强E7的一篇中文案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 八月 9, 2011 在 2:30 下午
评论 (0)

下面是至强E7的一篇中文案例,供大家参考。 用友案例

继续 ›

分类: 并行计算

至强E7的一篇案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 八月 1, 2011 在 4:26 下午
评论 (0)

至强E7已经发布一段时间了,我们也继续跟客户一起在其上进行测试调优。这里是一篇新的案例,供大家参考。但它是英文的,中文翻译正在进行中,呵呵。 E7案例

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

一篇云计算案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 七月 13, 2011 在 2:15 下午
评论 (0)

这是一篇云计算案例,供大家参考: 印第安纳大学

继续 ›

分类: 并行计算

企业云计算战略

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 七月 7, 2011 在 1:18 下午
评论 (0)

这是一篇关于企业云计算战略的白皮书,供大家参考。 企业云计算战略

继续 ›

分类: 并行计算

富客户端和云计算

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 七月 7, 2011 在 1:15 下午
评论 (3)

这是一篇关于富客户端和云计算的白皮书,供大家参考。 富客户端和云计算

继续 ›

分类: 并行计算

企业私有云架构和实施蓝图

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 15, 2011 在 10:32 上午
评论 (0)

云计算一般分为公有云与私有云,而私有云在企业中的应用更加广泛,这就是一篇企业私有云架构和实施蓝图的白皮书。 企业私有云架构和实施蓝图

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算中客户端设备如何影响用户体验

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 14, 2011 在 2:21 下午
评论 (0)

这是另外一篇白皮书,分析了云计算中客户端设备如何影响用户体验。 云计算:客户端设备如何影响用户体验

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算的分类和生态系统分析介绍

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 14, 2011 在 2:16 下午
评论 (0)

这是一篇云计算的分类和生态系统分析介绍白皮书,供同学们指正 :-) 云计算分类和生态系统分析

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

一篇云计算的成功案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 10, 2011 在 2:59 下午
评论 (7)

下面是一篇云计算的成功案例,供大家参考: 中铁信

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

基于至强服务器的企业ERP应用成功案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 10, 2011 在 2:13 下午
评论 (0)

我们与用友合作,完成了基于至强服务器的UFIDA U9测试与调优,取得了很好的效果,这就是本次的案例,供各位同学参考 用友U9

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

英特尔至强E7介绍:强大的性能

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 9, 2011 在 2:25 下午
评论 (2)

性能始终是评价处理器CPU的一项基本指标,E7作为新一代的至强处理器,当然在性能上也给客户以更好的体验。 E7与性能相关的特性与优势主要是以下3点: 1。采用32纳米制程工艺,集成了更多的功能,又不增加能耗 2。最多达 10 个内核和20个线程,以及 30MB 的末级高速缓存为数据最密集的关键业务应用提供了充分的性能保证 3。最高达 2TB DDR3 的内存支持和 102GB/秒的内存带宽,支持可扩展性极大的部署和关键业务工作负荷 跟上一代对应的至强服务器7500相比,经过软件厂商的测试,在同等配置的E7上,性能普遍有20%左右的提升,足见E7优异的性能表现。下图就是E7在标准的benchmark上测试出的结果(具体请见:http://www.intel.com/Assets/PDF/prodbrief/325213.pdf ) 在可扩展性方面,一台E7四路服务器则最多可以支持2TB ...

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

英特尔至强E7介绍:AES指令

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 25, 2011 在 4:22 下午
评论 (1)

随着英特尔处理器性能的不断提升,除了通用的计算性能,英特尔还进一步关注一些具体的得到广泛应用的要求高性能的算法,将其用处理器硬件实现,以大大提升其性能。在至强E7中,就实现了AES指令。 AES(高级标准加密算法)是一种加密算法,又称Rijndael算法,它定义在FIPS第197号公告中,是现今最常用的对称型加密算法之一,已经广泛应用于金融安全,数据库以及整体硬盘加密等各种领域。针对AES算法,英特尔引入了AES 指令集,最早出现在英特尔至强5600系列中,它使用六条指令在硬件设计上实现对AES操作的支持,使AES加密解密操作更加高效安全:  四条指令针对AES加解密操作  两条指令用于支持密钥的扩展 英特尔AES指令同以前的软件AES算法相比,有3个明显的优点: 1。更灵活:它支持AES算法的各种使用方式,支持各种标准密钥的长度、各种模式的操作,以及某些非标准或未来可能的各种方式 2。更高效:相比目前纯软件的实现,该指令在硬件上的支持,使它对AES加解密操作的性能提升非常显著 3。更安全:因为是硬件实现,它不使用内存数据表,减少了基于cache的攻击;它减少代码量了,由此降低了发生安全漏洞的风险,也使AES算法易于实现 使用英特尔AES指令时,首先要与OEM确认,在BIOS设置中打开对AES指令的支持。可以有两种方式利用AES指令: 1。直接使用指令:编写汇编代码或使用相应的内部函数。这种方法比较复杂,需要一定的代码改动,且需要编译器支持 2。使用英特尔IPP软件库:英特尔IPP 6.1 update 2以上的版本已经包含了利用AES指令的AES算法实现,使得代码移植方便简单,立即获得性能的大幅度提升 我们内部用AES指令对OpenSSL的AES算法进行了改写,轻松获得5倍左右的性能提升。

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算, 服务器

英特尔至强E7介绍:RAS特性

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 25, 2011 在 3:24 下午
评论 (1)

随着至强在高端服务器领域的不断应用,除了基本的高性能以外,使用者对至强的RAS(可靠性、可用性、服务性)要求也越来越高,希望至强成为一个高效、节能、可靠的关键应用基础平台。对于关键应用领域(典型的如电信、金融),业务基础架构一旦出现问题,哪怕只是几分钟的服务中断,所带来的损失也是非常巨大,甚至不可接受的。正是基于这个要求,英特尔也不断的将原先RISC支持的RAS特性迁移到至强平台上,让至强更加可靠! 对于关键应用来说,对RAS的要求涵盖很广,一般可以小结为几大方面: 1。高可靠,高容错:系统可以容忍尽可能多的故障和错误 2。高可用:系统需要维护、修复的时间尽可能的短 3。高可服务性:系统可服务型好,最好可以有一定程度的自我诊断、自我修复能力,可以及时地提示各种问题。 英特尔在至强E7中,进一步的发扬支持了各种RAS特性,基本支持了4大类,20多种的RAS技术,下面就是相应的小结(去过今年IDF的朋友一定已经见过了,呵呵): 1。CPU处理器: • Machine Check Architecture (MCA) recovery • Corrected Machine Check Interrupt (CMCI) • Corrupt Data ...

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算, 服务器

至强E7案例:卓望信息

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 10, 2011 在 10:46 上午
评论 (2)

至强E7顺利发布,这是卓望信息的解决方案验证案例 卓望信息验证案例

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

至强E7案例:金证

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 10, 2011 在 10:39 上午
评论 (0)

至强E7顺利发布,这是金证的解决方案验证案例: 金证验证案例

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

连接的世界——由日本地震想起

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 15, 2011 在 2:38 下午
评论 (29)

日本突然地震,随之就是异常大的海啸。看着这么多的无家可归的人,漂在水里的车,停在屋顶的船,再想起以前看到的精致的日本寺庙,觉得自然的力量真是大到可怕。 要是在几百年前,发生了这样的天灾,远离日本的我们大概除了叹息一下,生活也不会有什么影响。可是现在,却发现灾难很远,但影响很多:日本的半导体器器件产量据说是全球的1/5左右,短期半导体原料一定紧缺(据说包含苹果配件);日本产的奶粉淘宝价已经翻倍;中国进口车中,大概1/3来自日本,车价也得涨了... 那有什么跌了呢?股票跌了;中国对日外包估计也不好过了吧;出口是不是也要跌呢?... 又听说日本核电危机加重,会不会飘到中国啊? 这真是一个连接的世界,被全球化连在一起的世界。我们很多IT人也都是在跟五湖四海的人合作,听着各种口音的英语、汉语。海明威 “不要问丧钟为谁而鸣,它就为你而鸣”,还真是,呵呵。

继续 ›

分类: 并行计算

虚拟化技术应用案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 15, 2011 在 2:06 下午
评论 (1)

一篇虚拟化技术应用案例,供参考。 虚拟化提升管理灵活性

继续 ›

分类: 并行计算

一篇云计算验证案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 15, 2011 在 2:03 下午
评论 (0)

云计算验证案例,供参考。 使用英特尔至强处理器和英特尔数据中心管理平台进行云计算研究

继续 ›

分类: 并行计算

云计算的一篇成功案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 15, 2011 在 1:55 下午
评论 (1)

云计算的一篇成功案例,供参考。 至强5600系列处理器助力世纪互联云计算

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

期待IDF北京

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 9, 2011 在 2:29 下午
评论 (0)

每个人都在不同的时期不停的期待: 小孩子想什么时候可以有更好的游戏,更多的零食,不用再上学(?) 大了就想更多的收入,更大的房子,更贵的车子,其他(略去XXXX字) 估计没什么期待的也就是清心寡欲的和尚道士了(真的?成佛成仙算不算期待?) 工作时间,就在的我在期待IDF北京。 在4月12日,一年一度的英特尔IDF就要在北京开幕了,可以见到更多更详细的英特尔最新技术的说明,也可以见到更多的合作伙伴。可以听到更深入的技术讲解,也可以看到更炫的demo。今年还有新的形式:Poster Chat。我就有个Poster,可以跟大家闲聊一下性能优化,云计算,... 期待更多的关注! IDF的正式网站以经上线:http://www.intel.com/cn/idf/ 大家可以在上面查到各种讲座、展示的信息,期待各位参加!

继续 ›

分类: Blog Challenge, 博客征文专栏, 图形和视觉计算, 并行计算, 英特尔信息技术峰会

成功案例:天健

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 9, 2011 在 2:15 下午
评论 (0)

这里是一个天健公司基于Xeon的成功案例,供参考。 天健

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

浙大网新成功案例:基于至强打造“数字城市”

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 二月 23, 2011 在 2:50 下午
评论 (2)

又完成了一个成功案例,这个跟大家分享:浙大网新“一卡通”构建数字城市。希望可以有所帮助。 浙大网新

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

我们可以定义CPU里cache的行为吗?

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 二月 16, 2011 在 1:28 下午
评论 (18)

最近在跟客户交流中,有两个客户都提到了CPU 缓存cache的行为的问题。他们都希望可以在应用中指定一些cache的行为(如指定某些内容一直在cache里,或是一直不要放在cache里),以加速应用的性能。那么,我们可以定义CPU里cache的行为吗? 我的印象中CPU的cache是不可以人为指定的,为了确认,又特地的和几位硬件的专家请教了一番。我的印象是对的:应用程序只能告诉CPU,你希望的cache行为模式是什么,而不能硬性的指定CPU一定这么做。就好比雷锋纪念日,可以号召大家学雷锋,但不能强迫每个人都必须当天做件好事。 CPU已经内置了相应的cache策略。应用程序可以用prefech等指令告诉CPU你希望的场景是什么,但CPU出于安全、性能、全局的考虑,一般不会保证一定按你指定方式做,只是会尽量的满足你的需求。有的同学会说,“我已经找到了小窍门,按XXX步骤,CPU一定按我设置的做。”这个的确是有可能的,但请注意,CPU的cache策略细节是不公开的,也就意味着是不保证不改变的。对于不同代的CPU,小窍门是可能有问题的。 还要跟大家分享一下,CPU的cache策略一定是已经千方百计地优化了的,对于绝大多数应用而言,它应该是已经蛮好了 :-)

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

虚拟化案例:神州数码Sm@rtESB

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 26, 2011 在 2:15 下午
评论 (0)

这里是我们与神州数码合作,应用虚拟化技术的企业服务总线(Sm@rtESB)案例。ESB是企业整合信息的中心枢纽,虚拟化已是无处不在了。 神州数码

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算, 服务器

虚拟化的一个案例:东软社保

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 18, 2011 在 1:47 下午
评论 (0)

最近有个东软基于虚拟化技术构建社保系统的案例,这里就做个分享: 东软社保

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算, 服务器, 虚拟化技术

多样的需求,多样的IT

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 12, 2011 在 2:45 下午
评论 (7)

近来看到一篇对媒体多样化的分析,感想联翩。IT又何尝不是呢? 以前的主流媒体比较少,基本就是电视+报纸,后果就是不管你愿不愿意,大家收到的信息都是差不多的,导致想法也是差不多,行为也就差不多。但现在就大不一样了,有围脖,有各种非主流网站,有各种RSS,... 现在就变成了是你去选择你个人感兴趣的信息,真正可以涵盖主流的主流媒体在哪里呢? IT也是一样。同样的ipad,有人用来打游戏,有人用来看片子。据说现在又有了针对ipad设计的小设备,把ipad模拟成了棋盘,万能的ipad! 虚拟化技术又是一个这样的案例。最初提出虚拟化的时候,大家想的就是在一台物理机上装几个操作系统,然后并行的跑起来,把服务器的性能用起来(服务器整合)。可是用到现在,就发现各种用法都有了,有用来灾备的,有用来实现“多线程”的,有实现高安全性的,… 各种用法都可以! 看来有了技术,有了设备,如何用它们就完全是客户的事了。但从技术/设备提供者的角度,如何预先研发,使你的技术/设备可以满足更多人的需求,也就越来越难了,真的是需要花大力气好好的挖掘。

继续 ›

分类: 其他, 并行计算

云计算成功案例:浩方

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 30, 2010 在 2:16 下午
评论 (0)

这是本系列的最后一篇:浩方 浩方

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算成功案例:用友

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 30, 2010 在 2:11 下午
评论 (0)

这个是用友的成功案例: 用友

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算成功案例:中创

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 30, 2010 在 2:09 下午
评论 (0)

这个是中创的云计算案例: 中创

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算成功案例:东软

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 30, 2010 在 2:06 下午
评论 (1)

最近又完成了几个云计算案例的整理,这里就跟大家做一分享 :-) 东软

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算案例访谈5

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 26, 2010 在 9:24 上午
评论 (0)

第5篇,也是本系列的最后一篇。但以后一定还会有,会不断有更多的案例跟大家分享。 案例5-东软

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算案例访谈4

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 26, 2010 在 9:22 上午
评论 (0)

第4篇: 案例4-中创

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算案例访谈3

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 26, 2010 在 9:21 上午
评论 (0)

第3篇: 案例3-伟库网

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算案例访谈2

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 26, 2010 在 9:20 上午
评论 (0)

这是第二篇: 案例2-金蝶

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

云计算案例访谈1

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 26, 2010 在 9:18 上午
评论 (0)

为了更好的总结云计算在中国的成功案例,我们同ISV合作,进行了云计算访谈,了解了云计算在他们的企业和产品中的应用过程以及相应的经验,这里就分别跟大家分享,希望可以有帮助。 案例1-浩方

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

不断增强的Xeon RAS支持

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 3, 2010 在 1:59 下午
评论 (0)

提起Intel的Xeon服务器,很多朋友都已经是非常熟悉了,也普遍认同它的性能。但当拿Xeon与RISC小机比较时,经常就会问:Xeon的可靠性好吗?现在就介绍一下Intel提升Xeon可靠性所做的努力。 在今年的4月份,Intel发布了Xeon 7500系列处理器。它不仅性能上有很大的提升,在RAS(可靠性、可用性、服务性)上也有了极大的改善,实现了很多以前小机才使用的RAS技术,使得7000系列Xeon更加可靠。这些功能可以增进对数据完整性的保护,提高系统的可用性,最大限度的缩短可以预计的停机时间。 比较典型的是MCA(Machine Check Architecture)机器校验恢复功能,可以检测处理器、内存和I/O的错误,可以和操作系统协作纠正,可以帮助系统从严重错误中恢复。通过MCA,就尽量避免了因为内存等的一点硬件错误,就导致整个系统的瘫痪。 包括MCA,Xeon 7500共有22项主要的RAS技术,这里分别列出,供大家参考。 这里是个概要的介绍,欢迎大家提问!:-)

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

快速判断是否NUMA架构下远端内存访问过多

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十月 27, 2010 在 2:19 下午
评论 (0)

就像之前发出的Blog里说的,目前的基于Intel CPU的服务器本质上都是NUMA架构,而不是传统的SMP架构。也就是说,不同的CPU上的线程访问不同的内存耗时将不一致,数据在内存里的组织形式将影响到内存访问速度,如果远端内存访问过多,那么将影响性能。(NUMA相关,详见本人的系列Blog:http://software.intel.com/zh-cn/blogs/2008/11/24/numaxeon1/ 做个广告,呵呵) 最近在跟客户沟通时,有好几次被问到怎么来快速判断是否NUMA架构下远端内存访问过多,这里就小结一下: 1。如果是系统级别的就可以满足需求(一般是可以的,你可以对跑自己程序的前后做对比),那Linux下有个工具Numastat,很方便。 Numastat提供了本地内存与远程内存使用情况的对比以及各节点的内存使用情况,例如:numa_miss显示分配失败的本地内存,numa_foreign显示分配远端内存信息。如前所述,过多的访问远端内存将增加系统的延迟而影响性能。详情可以参考Numastat的help。 〉Numastat node0 ...

继续 ›

分类: Blog Challenge, 其他, 并行计算

值得期待的AVX

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 29, 2010 在 11:43 上午
评论 (0)

在刚刚结束的Intel美国IDF(开发者大会)上,展示了基于32nm制造工艺的Sandy Bridge架构的更多细节,这其中就包括最新的AVX指令集。经常有人问起AVX的细节,这里就详细介绍一下 :-) AVX全称Advanced Vector Extensions,从名字也可看出其根本是进一步扩展了原有的向量指令,也就是尽可能在一条指令里完成更多的操作。 AVX的特点可以归结为5大方面: 1。更宽的向量 AVX是在之前的128位基础上扩展到256位的SIMD(Single Instruction Multiple Data)。不仅Sandy Bridge的SIMD运算单元扩展到了256位,数据传输也同样的扩展,理论上Sandy Bridge的浮点运算性能提升就到了2倍,当然,前提是可以充分的把提升的能力利用起来。 2。增强了的数据处理 使用新的256位的原语来提升数据I/O效率:更好的标记、传播载入的数据,动态的改变数据序列。以此来组织、访问、载入运算所需的数据,速度更快,效率更高。 3。支持3个和4个操作数 通过一条指令里使用更多的操作数,降低了寄存器的拷贝次数,提升了执行效率。 4。灵活的不对齐内存访问支持 传统的指令中,当访问不对齐内存(unaligned ...

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算, 服务器

又一个大佬:微软云计算创新中心落户上海

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 19, 2010 在 1:23 下午
评论 (3)

刚刚看到NEC的动作,上海政府的推动,又一个大佬来了:微软云计算创新中心落户上海。 据称这是微软全球的首个云计算中心,定位是“沟通、连接微软的云计算解决方案客户以及微软本身,同时包括基于微软WindowsAzure平台的应用开放商”。 看来大佬们都在着力打造自己的云计算产业链,让自己在云计算的生态系统中占据有利的位置。据我所知,某些行业、某些应用目前的确已经是在用云计算的方式在运营了,但还不是主流。随着越来越多的IT巨头把目光投向云计算,在这个领域做出自己的承诺和努力(也就意味着投入越来越多的真金白银),我相信云计算大规模的普及不远了。 当然,在这个普及过程中,究竟主导权掌握在哪里?谁制定标准?都还是未知,但也是必不可少的。究竟哪位可以执牛耳呢?我们拭目以待!

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算, 服务器

Sandy Bridge亮相旧金山IDF

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 15, 2010 在 12:38 下午
评论 (0)

今年的Intel旧金山IDF(信息技术峰会)在9/13日开幕了(无缘参加,曾经有一个参加的机会摆在我的面前,可是我没有珍惜,... )虽然没有参加,但还是把新的资料拉了下来,最吸引我的就是Sandy Bridge亮相了! Sandy Bridge是Intel下一代CPU微架构。除了微架构的硬件工艺上有很多的改进,还更新了设计: 1。支持新的AVX指令集(高级矢量扩展):AVX可以大大加速浮点计算,帮助图像、视频、音频、加解密等的处理。其长度可达256位,从而可以尽可能的一条指令完成更多的运算。大量的科学运算也是基于浮点数的,AVX也可以好好帮忙。 2。使用了环形互联(Ring Interconnect):这个设计使得CPU不同的核加速彼此间的数据交换和分享。目前CPU的趋势是核越来越多,越来越快,CPU的很多性能瓶颈就发生在数据的I/O上:读取、交换、写入。Ring Interconnect就是进一步加快了I/O速度 3。Turbo Boost:跟我们以前用的超频类似,但是是全自动的、有安全保障的。能够根据工作负载情况,只要散热许可,自动转换或分配处理器计算资源,提升频率,在用户需要的时候提升性能。 说了这么多,Sandy Bridge明年就会正式面世了,我们到时一起用用看!

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算, 英特尔信息技术峰会

云计算再进一步!

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 九月 1, 2010 在 7:52 下午
评论 (0)

就最新的消息, NEC与东软合作, 将在大连成立一家合资公司, 在中国提供“云计算”服务. 云计算再进一步! 据本人查到的新闻资料, NEC早就已看好云计算, 力图在全球主要地区开展云计算服务业务. 而东软也一直在云计算方面投入资源, 进行了长期而有效的积累. 合资公司将应用NEC方面与东软方面的技术环境, ...

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算, 虚拟化技术

上海首个云计算产业基地正式落户闸北

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 八月 24, 2010 在 1:07 下午
评论 (6)

云计算最近是红红火火,不仅是在报纸上,网页中,上海政府也在不断的推进:上海首个云计算产业基地正式落户闸北。以后我们是不是也就生活在云里雾里了呢? 上海将打造“亚太云计算中心”,上海首个云计算产业基地也正式落户闸北市北高新技术服务业园区。腾讯、阿里巴巴、付费通等企业和机构,作为上海数据港云计算基础设施服务平台的首批客户,开始入驻上海市云计算产业基地。 据说中国电信上海分公司与园区签署了战略合作框架协议,双方合作的第一期重点包括:创建中国首个国际通讯运营商聚集区,利用云计算基础设施服务平台(IaaS)为国内40家上市互联网公司打造“数据总部”,以及为特大型互联网公司定制运营数据中心等。 同时,上海数据港分别与上海超级计算中心、Oracle、Dell签订战略合作协议。根据协议,上海超级计算中心将与上海数据港合作建立云计算联合实验室、容灾备份中心、金融衍生品计算服务中心等。Oracle和Dell将利用各自的云计算技术和解决方案与上海数据港联合研发、建设、推广云计算服务。

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

计算后移,支持End-to-End计算

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 七月 27, 2010 在 10:48 上午
评论 (0)

现在大家的手机、上网本、笔记本都越来越fancy,而随着应用越来越多,对这些前端的要求也是水涨船高:速度更快,体验更好,待机时间更长… 这么多的要求,其中有些是有着难以调和的矛盾的。比如:要求速度更快,那么就换更强大的处理器,就会发热更高,拿在手里肯定时间长了不舒服,体验就差了。而且处理器越强大,一般来说耗电就越大,待机时间就长不了了… 毕竟顾客是上帝,不能对这些要求放任不管,否则就可能丢掉客户。怎么去调和这些矛盾的要求呢?将计算后移到后端是一个解决方案。 举个简单的例子,你手机上网炒股,且是个技术派。希望用某个复杂的公式来对沪深的股票梳理一遍,看看有什么新的机会。如果是笔记本或台式机,很简单,直接算就行了。但在手机上可以吗?如果计算都放在手机上,你愿意拿着手机等10分钟吗?这时,就可以把计算后移到后端,服务器可以在短到可以忽略的时间内完成计算,可能耗时最多的是网络传输时间了  其实目前很多的应用已经在这么做了。我相信当我在手机上看网页时,后端一定已经将很多图片做了压缩,否则几千K的高清图一定会让浏览非常慢… 期待前端更快更省电,后端更强更高效。

继续 ›

分类: Blog Challenge, 博客征文专栏, 并行计算

使用IPP提升ImageMagick性能

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 七月 14, 2010 在 3:55 下午
评论 (0)

工作需要,最近在帮助客户提升ImageMagick的性能。ImageMagick大家比较熟悉,是一套免费的开发包,功能强,也比较稳定。它可以用来处理各种基本格式的图片文件(如通用的JPEG, GIF, PDF等)。使用ImageMagick,可以动态生成图片, 也可以对图片进行更改大小,旋转,锐化,调色等操作。因为免费,ImageMagick也有很多派生,如GraphicsMagick就是继承ImageMagick的函数而来。 看到要求,我首先想到的就是IPP:对图像处理支持全,效果好。(只要把函数替换成相应的IPP函数就可以实现,效果又不错,特别适合我这个懒人,呵呵) IPP中对图像的支持函数非常多,有几千个。基本涵盖了ImageMagick的常用操作:ippi是基本的操作,ippcc是颜色改变,ippj是JPEG专用,此外还有客户需要的压缩、加密等函数。兴冲冲的替换了客户使用频率比较高的压缩等几个图像处理函数,用测试脚本测了一下,性能提升是3.35到4.80倍(取决于图像的大小:一般数据量越大,IPP效果越好,因为并行化/向量化更好了)!测试还在进行中,希望可以进一步提升!

继续 ›

分类: 并行计算

SSD固态硬盘速度真快啊

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 30, 2010 在 1:47 下午
评论 (6)

之前一直听人讲SSD比较快,但自己没有亲自测测,没什么感觉。近日系统的测了一下,真快啊。 正规的SPEC测试结果我就不写了,网上也到处都是。在作完正规测试之余,我碰巧的重新启动了两台机器:一个用SSD,一个用传统SAS硬盘。结果SSD已经把Windows启动了,而SAS还不到一半,差距太大了。 我看SSD跟传统硬盘比,主要特点是: 1。速度快 2。容量相对小 3。价格相对高 这些就决定了SSD用在一些I/O速度特别高的地方是合适的,但还不会大量的立即普及。就我看,SSD跟传统硬盘比目前还是各有优势,估计也不可能把传统硬盘挤出市场,就好比磁带虽然比硬盘慢很多,但磁带还是有自己便宜量大的优势,在硬盘出现这么久后还是有着广泛的应用的。 忙里偷闲,写了几句,赶紧工作去...

继续 ›

分类: 其他, 并行计算

Atom进入服务器市场?

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 21, 2010 在 1:53 下午
评论 (11)

近日,SGI推出了封装了5000个Atom处理器的服务器。下面是一些概要的特点: 1。计算能力不差:5000个Atom处理器,也就是10000个核。虽然每个核的运算能力不如传统X86的Xeon处理器的核,但架不住多阿 2。体积小:只有3U。据说应用了SGI特有的降温技术,才实现了这么多的处理器。 3。节电:Atom的节电性是不用说了。 难道Atom进入服务器市场?我觉得这取决于应用。Xeon就像是重型卡车,而Atom就是轻卡。如果应用的多线程性能很好,可以有效地多线程化(想象一下,10000个核,充分利用的话就是10000个线程在跑),那么这种Atom解决方案是个不错的选择。 仅是一家之言,还期待更多的评测数据和市场的反响。它是一个尝试,还是一种趋势,我跟大家一样都在拭目以待。

继续 ›

分类: 并行计算

Open Source下的一些简单的性能测试脚本

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 11, 2010 在 10:35 上午
评论 (0)

最近需要测试PHP Engine的性能,但苦于没有合适的测试脚本,自己从头开始写又觉得有点太麻烦,时间也来不及。正在困惑的时候,有人推荐了一个提供简单的Open Source下常用性能测试脚本的网站,上去看了看,果然可以: http://shootout.alioth.debian.org/ 在上面把PHP Engine相关的一些脚本下载下来作了测试。总体感觉不错,但也有美中不足的,就是一些脚本不是很稳定。我计算了在同一环境下的平均方差,发现有一些的偏差超过了5%。 个人建议大家如果使用,需要事先先多跑几遍(我是每个10遍),看看稳不稳定,然后再拿出来作性能测试。:-)

继续 ›

分类: 并行计算

使用Intel编译器,请注意链接

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 28, 2010 在 4:46 下午
评论 (2)

使用Intel编译器是一个比较方便的方法快速的提升C/C++/Fortran的性能。最近一连做了好几个跟Intel编译器相关的项目,发现链接是大家经常容易出错的地方,而不是Intel编译器与GCC等不兼容。就这里小结一下: 1。Intel编译器与GCC(Linux)、微软编译器(Windows)是兼容的。除非你用Intel编译器去编译Linux Kernel,否则基本碰不到有什么GCC(这里就以GCC为例)的选项是Intel编译器不支持的。其实,目前的Linux Kernel用Intel编译器也是可以编译的,只是个别地方要小改一下source (目前的商业Linux Distribution中已经有了直接发布Intel编译器编译的Kernel的,你安装时可以选择是用GCC编的还是Intel编译器编的) 2。Intel编译器支持一些针对Intel CPU的性能优化选项,有一些这类选项是GCC不支持的。 那么大家用Intel编译器经常碰到的问题是什么呢?这就是下面要说的:链接问题。而链接问题的由来一般是这样的: 很多的程序本身是考虑到了使用不同的编译器的,而且不同编译器的版本有时候也影响编译(比如,某个版本有个Feature,为了使用这个Feature,就需要特殊处理)。例如如下的代码: #ifdef __GNUC__ /* 分支1 */ ...

继续 ›

分类: 并行计算, 软件开发工具

高性能的Xeon7500

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 26, 2010 在 9:35 下午
评论 (0)

Xeon7500已经发布一个月了,越来越多的用户使用了Xeon 7500,也进行了相关的测试。结果非常的吸引人,普遍不经过任何的优化,就可以达到跟Xeon 7400相比2倍以上的性能提升,甚至是到3倍多。这里就是一个中文的测试结果案例,供各位参考。 东软基于Xeon 7500的测试案例

继续 ›

分类: 并行计算

使用AES-NI提升AES加解密性能的中文案例

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 25, 2010 在 1:27 下午
评论 (2)

终于找到了一份中文版的使用AES-NI提升AES加解密性能的案例,赶紧在这里献上,感兴趣的同学可以看看 :-) 使用AES-NI提升AES加解密性能

继续 ›

分类: 并行计算

使用AES-NI,提升加解密速度

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 五月 18, 2010 在 3:17 下午
评论 (2)

在Intel最新发布的Xeon 5600中,提供了对AES-NI的支持。经本人试用,对提升加解密速度大有帮助。 AES(Advanced Encryption Standard) 是一种对称块密码,通过多轮反复替代将纯文转换成密文。AES-NI 是英特尔至强 5600 系列处理器中七个新指令的集合,使在执行 AES 算法的某些复杂的、计算密集型子步骤时更好地利用底层硬件。这些新指令加速和加强了AES ...

继续 ›

分类: 并行计算

人满为患的云计算lab——2010英特尔信息技术峰会亲历2

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 14, 2010 在 11:32 上午
评论 (17)

今年的2010英特尔信息技术峰会上,13日有一个云计算lab,教大家动手体验云计算。整个教室挤得满满登登,30几个人的lab报名了100多人,把负责的小伙子/小姑娘们忙得热火朝天,累且开心着,没白准备。:-) 看来云计算的确已经深入人心,有这么旺的人气,云计算必将走进我们更多的应用,走进我们生活的点点滴滴。 Lab过程中为了不打扰大家,就没有拍照,只照了一张Lab结束后大家仍然与讲师讨论的图片,留作印记,看明年时是否已经更多的开花结果。

继续 ›

分类: 并行计算, 英特尔信息技术峰会

走进生活的云计算——2010英特尔信息技术峰会亲历

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 14, 2010 在 11:17 上午
评论 (1)

云计算早就已经不仅仅不是高高在“云端”的计算,而是走进了生活,更走进了2010年的英特尔信息技术峰会。作为今年的重点之一,在4月13日上午的主题演讲中,英特尔副总裁兼软件与服务事业部总经理詹睿妮就将重点放在了云计算上。东软董事长刘积仁同台介绍了基于云计算的公共健康服务解决方案:整合零散的医疗资源,提升医疗服务质量;使用云计算技术,减少服务器资源投入,降低数据中心能耗,并且明显降低了熙康服务的建设及运营成本,提供更加节能更加高效的解决方案。

继续 ›

分类: 并行计算, 英特尔信息技术峰会

Xeon 7500案例分享:Kingsoft JX Online III

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 2, 2010 在 3:05 下午
评论 (0)

这是Xeon 7500的一个案例分享:Kingsoft JX Online III Kingsoft JX Online III

继续 ›

分类: 并行计算

Xeon 7500案例分享:Neusoft Telecom BSS

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 2, 2010 在 3:04 下午
评论 (1)

这里是Xeon 7500的一个案例分享:Neusoft Telecom BSS。 Neusoft Telecom BSS

继续 ›

分类: 并行计算

利用Xeon 5600的AES-NI来提升加解密性能

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 23, 2010 在 4:15 下午
评论 (4)

5600已经正式发布了,这里就是一份利用Xeon 5600的AES-NI来提升加解密性能的案例。因为是支持全球发布,所以这个案例是用英文写的,以后会翻译成中文,更方便大家阅读。这里先给大家解解渴 :-) AES-NI案例

继续 ›

分类: 并行计算

至强5600正式发布了!

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 18, 2010 在 9:39 下午
评论 (13)

一个好消息, 英特尔正式发布了新一代6核心服务器处理器: Xeon 5600系列。 Xeon 5600采用了目前最先进的32纳米制造工艺,因此与早前的产品相比,不仅速度大增,制造工艺的提升更使得其性能能效比也是得到提升。 Xeon 5600一颗CPU包含6核,同时还支持HT技术,使得逻辑CPU为12个,对于一般的多线程/多进程程序的处理能力有了进一步的提升。 Xeon 5600的另外一个突出的亮点是它新增加了AES-NI指令集(Encryption Standard New Instructions),通过CPU的指令实现了一些加解密运算,大大提升相应的操作,对于大量使用加解密的应用来说绝对是个好消息。 其他的特性还有TXT(Trusted ...

继续 ›

分类: 并行计算

漫谈从RISC向IA移植(3)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 二月 24, 2010 在 9:29 上午
评论 (4)

移植中的OS一般是需要格外注意的,特别是与底层交互比较多的软件。虽然UNIX中的C/C++/脚本语言等基本上与Linux/Windows一致,Java语言等更是移植方便,但细节上还是有很多不同。比如,不同OS的底层API基本都有很多的差异,不同的JVM版本也有细微的差别。这里一定要仔细分析。 分析企业的基础架构之后,就可以相应的分析移植的风险,主要是在技术上和组织上: 1。技术风险  技术上是否可行,是否超出了技术数据的上限。比如,系统需要多少的CPU才能实现性能要求,已选定的OEM是否有对应产品 2。组织风险  相关人员的技术能力是否胜任,是否需要外部培训,经费和时间是否足以支持。 计划好之后,就可以按如下开发、验证、部署的三步走来进行移植过程。重点说说移植开发。 移植的第一步当然是开发。开发时首先要确保相应的开发工具和人员到位。比如,想在Linux上进行移植,那么是不是可以找到相应得IDE开发环境,开发使用的编译器等是否齐备,开发人员需不需要进行相应的培训… 当确保工具和人员到位之后,就要对移植方法进行分析。一般需要将复杂的解决方案分解为相对细化的模块,然后分析它们的依赖关系,如下图所示: 要按照依赖关系,分清移植的步骤顺序,结合模块的功能,判断好关键节点:什么模块是必须按时完成的,什么模块是可以放后执行的,什么模块是根本就不特别需要移植的。

继续 ›

分类: 并行计算

漫谈从RISC向IA移植(2)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 二月 9, 2010 在 2:12 下午
评论 (0)

下面就说说我个人总结的移植方法论,欢迎板砖。 移植考虑的内容很多,绝不仅仅是软件,要对整个系统通盘考量。我们一一展开讨论,这里面最关键的就是通篇考虑企业基础架构,制定移植计划。 移植首先要分析的就是企业的基础架构,只有基础架构可以顺利移植,才能实现对整个解决方案的移植,否则就会减缓移植的进程,甚至导致移植的失败:  > 移植必须建立在符合要求的企业基础架构之上  > 对基础架构的考量要有系统的变动管理流程,使用流程而不仅仅是经验来进行管理  > 基础架构变动的流程管理一般需要考虑以下方面,所有以下方面均应考虑好移植的可行性,是否有替代方案,分析出移植的可能瓶颈:  >> 网络  ...

继续 ›

分类: 并行计算

漫谈从RISC向IA移植(1)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 二月 3, 2010 在 3:11 下午
评论 (1)

计算机已经广泛应用了几十年,许多的传统关键业务也经常传统上就部署在基于RISC的UNIX系统之上。随着计算机技术的不断发展,基于IA架构的解决方案也快速的发展进步,在关键业务领域得到了日益广泛的应用,不断地体现着自己独到的特点和优势。那么,如何从RISC向IA移植呢?经常有客户问到这些,我这里就对移植的方法加以讨论。 一家之言,欢迎板砖。 先说说为什么要移植。 传统上,采用基于RISC的UNIX解决方案主要是基于如下的考虑:  > 性能  > 可扩展性  > 可靠性  > 安全性 在十几年前,这些的确是RISC的优势,但随着IA架构及相关软件的不断发展,企业环境的不断变化,RISC系统受到了越来越大的挑战:  > 企业对价格日益敏感,希望尽可能低的价格实现对不断增长的业务的支持  > 企业对可扩展性持续有着较高需求的同时,希望有足够的灵活性  > 随着IT基础设施的不断扩张,复杂又高昂的IT维护已成为企业的一大负担 随着IA架构的性能、安全可靠性的快速提升,这些挑战的解决恰恰就是IA架构的强项:  > 高性能,高性价比: 以目前最新的Xeon ...

继续 ›

分类: 并行计算

英特尔平台上使用IPP高性能库加速软件并行化开发(6)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 27, 2010 在 1:44 下午
评论 (5)

写了这么多关于IPP的文章,很多同学在问,IPP性能提升的效果到底怎么样?我这里就写写IPP的性能表现,也算是IPP文章的收山之作了,来个漂亮的尾巴。 这里以P4为例(也有最新平台的数据,性能表现也很好,但拿不准是不是最新的数据公布处理太敏感,就还是用这个吧),都是用的基本优化后的标准C算法代码,使用IPP之后,跟之前相比: Video处理性能平均提升300% Audio处理性能平均提升200% Image处理性能平均提升260% 向量处理性能平均提升300% 信号处理性能平均提升180% 字符串处理性能平均提升120% 加解密处理性能平均提升30% ... 以我个人的经验,客户的代码用IPP改写后,性能提升多数在1倍以上,如果只有百分之几十,多半是没有使用好,还有空间。 IPP另外的十分明显的好处,就是随着英特尔最新CPU的发布而同步更新,使用者免去了汇编之苦,就可以享受到最新指令集的优势。 好了,就这么多,继续工作了。IPP在英特尔网站上有1个月试用版的下载,欢迎试用,欢迎讨论!

继续 ›

分类: 并行计算

英特尔平台上使用IPP高性能库加速软件并行化开发(5)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 18, 2010 在 4:31 下午
评论 (3)

前面一直有兄弟问怎么做自己的动态链接库,这里就给个简单示例。 1。将你用到的IPP函数的名字放到export.def中,例如: EXPORTS ippsCopy_16u 2。然后就跟自己写dll库一样了:自定义一个dll的c文件(如my_dll.c)定义一个Dllmain函数;在Dllmain函数中调用ippStaticInit函数。 3。编译my_dll.c,将它跟ippsemerged.lib , ippsmerged.lib 和ippcorel.lib 链接在一起,救生成了我们自己的dll了。例如: #define WIN32_LEAN_AND_MEAN #include "windows.h" #include ...

继续 ›

分类: 并行计算

使用英特尔软件工具优化系统性能白皮书

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 12, 2010 在 9:34 上午
评论 (2)

前面提到了许多英特尔软件工具,这里就是我们使用英特尔软件工具优化系统性能的一份白皮书,主要是使用编译器。 :-) 使用英特尔软件工具优化系统性能白皮书

继续 ›

分类: 并行计算

英特尔虚拟化技术企业级部署指南

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 12, 2010 在 9:27 上午
评论 (4)

各位好,我们团队同客户合作,进行了大量的虚拟化实践。基于以前的合作,写了这份“英特尔虚拟化技术企业级部署指南”,希望可以给大家一些参考,帮助对虚拟化感兴趣的朋友们。 英特尔虚拟化技术企业级部署指南

继续 ›

分类: 并行计算, 虚拟化技术

英特尔平台上使用IPP高性能库加速软件并行化开发(4)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 7, 2010 在 2:31 下午
评论 (16)

讲了这么多,IPP具体怎么使用呢? IPP的使用非常方便,同其他第三方库基本没有区别。IPP基本是由三部分组成: > 头文件(.h): 作为第三方库,头文件就是编译的时候需要包含进项目文件里的。包含进去之后就可以在项目文件里调用IPP函数了。具体需要包含哪些头文件进项目,取决于使用的函数。 > 链接库(lib、dll): 链接库是项目链接的时候应用的,以生成可执行文件。具体链接方式后面详述。 > 示范代码,以及辅助文档: 当大家觉得有些函数不好理解时,强力建议看看说明文档和示范代码。因为IPP函数很多,所以是不可能每一个都背得滚瓜乱熟的,一般都是应用到了就去找。文档很详细,示范代码很好用 :-) 现在详细说说链接,链接有3种方式可选: > 静态链接:顾名思义,在编译链接时就把库链接进去,生成最终可执行文件。优点是发布产品时不用把IPP动态链接库.dll再拷过去;缺点也有:这样代码就生成了,如果以后Intel发布了新的CPU,IPP是会随着发布针对最新CPU的最新库的。如果是静态链接,那就用不上了。 > 动态链接:也很好理解,就是库并不直接链接进可执行文件。发布产品时要把.dll也带上。好处是:如果发布了新的IPP库,里面的函数接口不会变,只是函数实现变了,你可以直接换上最新的.dll库,就可以享受最新变化了;而不是要重新编译。 > ...

继续 ›

分类: 并行计算

英特尔平台上使用IPP高性能库加速软件并行化开发(3)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 4, 2010 在 1:14 下午
评论 (0)

IPP中的函数这么多,但是为了实现各个部分的高效率,IPP中基本不包含某个函数可以一下子实现一个比较大的功能,如MP3解码。相反的,而是包含了大量的基本模块函数,通过函数的组合就可以实现相应功能。下面以视频解码为例进行说明: 视频解码的流程一般是: 其中各部分的处理耗时典型统计数据为: 在IPP中并没有一个函数可以一下子就完成整个过程,原因是:如果有这样的函数,那么: > 它的通用性就不是太好,太过专用  > 为了考虑方方面面的可能,它内部的判断会非常多,这会显著的影响效率 (我个人觉得,众多的软件开发商和开发人员大概也不希望出现某个函数,一下子就可以实现其软件的基本计算功能,否则还开发什么劲呢 :-) 但IPP提供了一系列的模块函数,组合起来就实现了视频解码的功能:

继续 ›

分类: 图形和视觉计算, 并行计算

英特尔平台上使用IPP高性能库加速软件并行化开发(2)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 31, 2009 在 11:25 上午
评论 (0)

IPP主要是支持C/C++开发的应用程序。同时,IPP还可以集成在Windows的Visual Studio中和Intel的Parallel Studio中,简化开发过程。 经常有人问IPP支不支持Java等语言。目前是没有直接的支持的。原因是IPP定位于高性能计算,而其他语言一般不是以追求高性能为目标的。当然,在其他语言里,一般都为C/C++的库预留了接口,也是可以使用这种方式把IPP包装引用的。 可以使用的OS也是经常有人问的。目前可以应用在Windows,Linux和Mac OS上,支持各种32位和64位OS版本。至于各种UNIX,目前还没有可以在UNIX上使用的版本。 IPP包含了图像,音频,视频,信号处理,加解密,压缩/解压缩,矩阵处理,向量处理等15个主要领域,提供了高效的并行化算法。 吃饭去,以后再续。

继续 ›

分类: 图形和视觉计算, 并行计算

英特尔平台上使用IPP高性能库加速软件并行化开发(1)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 29, 2009 在 1:24 下午
评论 (3)

在同软件开发人员的交流中,发现随着现在处理器的核越来越多,如何充分利用它们已经成为了开发应用程序需要考虑的一个问题。一个直接的方法是进行并行化(多线程化/多进程化),但面对复杂的并行编程,很多程序员会感到比较困难,维护起来也比较复杂。英特尔IPP高性能库就是为了解决这个问题而开发的,可以帮助程序员比较简单的解决并行化的问题。 传统的并行化开发模式是显示的进行并行编程,基本方式如下: 这个看似简单的流程涉及到了很多复杂的方面:  1.任务的分配:如何将任务“均匀”的分配给各个线程  2.数据共享访问的控制:如何避免死锁、数据访问冲突  3.不同任务的调度:如何决定线程何时终止,如何控制线程创建、销毁的系统开销(实践证明这些开销不可忽略,非常好用系统资源)  4.高效率的并行化:如何保证在正确的并行化的前提下,实现高效的并行化,真正提升执行效率 所有这些都为并行化的开发、调试、调优带来了很大的困难。能否快速有效的实现并行化呢?IPP就是一个选择。 IPP(Intel® Integrated Performance Primitives)作为一个高性能库,实现了线程级的多线程化,它的高性能来自:  1.内部使用OpenMP实现多线程化  2.针对具体处理器指令集采用最高效的代码:Streaming ...

继续 ›

分类: 图形和视觉计算, 并行计算

云计算成功案例:卓望应用云技术升级无线解决方案

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 25, 2009 在 1:40 下午
评论 (12)

圣诞快乐! 在这个洋节日里,作为已婚老男人,工作的激情大于过节,就又翻箱倒柜,找出新鲜出炉的一份成功案例,希望对大家有帮助。 卓望应用云技术升级无线解决方案

继续 ›

分类: 并行计算

英特尔® 至强® 5500 处理器案例:用友帮助碧桂园搭建集团集中管控系统

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 10, 2009 在 2:26 下午
评论 (1)

房地产+5500,是不是很charming呢?:-) 用友帮助碧桂园搭建集团集中管控系统

继续 ›

分类: 并行计算

使用Parallel Studio加速并行程序开发(下)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 4, 2009 在 4:47 下午
评论 (3)

二、Intel Parallel Inspector Parallel Inspector可以帮助快速的检测并行编程的正确性,帮助发现多线程编程中的漏洞。它的运行速度较快,提供的选择很多,可以精确查找潜在的多线程编程问题和内存错误。 它支持内存检测模式和线程检测模式,可以方便的发现各种潜在的多线程问题(哪怕只是以一定的概率发生的多线程问题),如内存泄露,未初始化的内存访问,数据竞争,死锁… 它的使用比较方便,且可以和源文件具体行对应起来,一目了然。 三、Intel Parallel Amplifier Parallel Amplifier可以让开发人员快速发现多核性能瓶颈,无须了解处理器的架构和内置编码即可实现性能优化,充分利用处理器的性能。 它可以分析程序的热点,发现程序并行执行的模式,锁和等待的发生和时间等,所有这些都是多线程编程中影响性能的重要部分。 这里仅是一个基本的介绍,作为基于Windows平台的并行程序开发套件,Intel Parallel Studio为基于英特尔多核平台的软件开发人员提供了全功能的并行开发支持,可以显著提高其开发效率,缩短软件开发周期。

继续 ›

分类: 并行计算

英特尔® 至强® 5500 处理器案例:虚拟化解决方案为网游运营提供动力

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 1, 2009 在 3:24 下午
评论 (0)

兄弟姐妹们,又看到一篇比较好的成功案例,同时也是虚拟化的解决方案。供大家参考。:-) 虚拟化解决方案为网游运营提供动力

继续 ›

分类: 并行计算, 虚拟化技术

使用Parallel Studio加速并行程序开发(上)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 27, 2009 在 4:03 下午
评论 (11)

最近,因工作需要,利用Intel Parallel Studio进行了并行代码的开发。觉得比之前单独的并行开发工具要好用,很适合希望不花太多时间,实现并行化的同学。这里就整理一下,简单的介绍一下Parallel Studio的各个部分,基本用法。欢迎拍砖! 现在处理器的核越来越多,如何充分利用这么多的计算资源就成了应用程序不得不考虑的问题。比较直接的想法就是进行并行化(多线程化/多进程化),但面对复杂的并行编程,很多程序员会感到比较困难。为了加速并行程序开发,英特尔正式推出Intel Parallel Studio 并行程序开发套件,旨在为基于Windows下微软 Visual Studio 的C/C++ ...

继续 ›

分类: 并行计算

英特尔® 至强® 5500 处理器案例:盛京医院数字化医疗体系

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 20, 2009 在 2:02 下午
评论 (11)

这里是强劲的英特尔® 至强® 5500 处理器的又一个成功案例,欢迎免费下载 :-) 盛京医院数字化医疗体系

继续 ›

分类: 并行计算

如何准确的确认英特尔CPU的型号

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 16, 2009 在 11:32 上午
评论 (11)

因工作需要,我自己经常需要确认手头某个英特尔CPU的型号,也经常有客户/朋友这样问。 当然最基本的方法是用CPUID指令,编一个小汇编,再去对手册。但这个十分麻烦,不是一般人可以承受的。 还有就是网上有很多现成的小程序,可以安装了之后运行一下。但这招普遍有两个问题: 1。这些程序的更新不见得十分及时,最新发布的CPU一般认不出 2。为了运行程序,需要安装OS,不能裸机就看出CPU类型来。 最近,发现一个网站,十分有效,可以根据英特尔CPU上的标志,直接查出已经正式发布的英特尔CPU类型来,好用阿! http://ark.intel.com/sspecqdf.aspx 查时请看CPU背面(没有针脚的一面,是背面吧),上面一般都有如下的一些字: 450/512/100/2.0V S1 ...

继续 ›

分类: 其他, 并行计算

英特尔® 至强® 5500 处理器案例:宝信一体化监控指挥平台iCentroView5

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 12, 2009 在 3:44 下午
评论 (4)

经常有人问:你介绍的很多东西有没有什么具体的例子呢?我收集了一些可以公开的成功案例,特此陆续献上,希望可以帮助大家更好的理解英特尔的产品,英特尔的技术。 之前介绍过英特尔® 至强® 5500 处理器。这款已经正式发布的CPU,性能十分强劲,这里就是宝信的一个例子: 宝信一体化监控指挥平台iCentroView5采用基于英特尔® 至强® 5500处理器的测试平台显著提升软件整体性能

继续 ›

分类: 并行计算

数据中心的虚拟化与云计算

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 12, 2009 在 3:33 下午
评论 (7)

(*本文由作者于2009年10月首发于中国移动专家博客) 数据中心是企业的核心竞争力之一,可靠高效的数据中心是确保企业正常运转的核心基础设施之一。但由于企业的快速发展,数据中心的规模也是不断扩张,带来了很多的问题。 在同企业信息部门的交流中,经常发现对数据中心的抱怨:抱怨不好管理,抱怨维护高昂,抱怨升级痛苦… 也走进了许多数据中心,深为里面的“万国旗”而震动:采购直不同时期,不同品牌不同配置的硬件,不同版本不同参数的软件… 也见过整洁划一的数据中心,但了解下来,多是把老系统彻底推倒重来,我们真的不差钱吗? 如何应对系统处理容量的快速发展,如何解决复杂的管理问题,如何保护现有投资呢?虚拟化和云计算是一个解。 从总体架构上讲,数据中心的硬件资源可以分为两个部分:一部分是由虚拟化平台软件所管理的x86服务器池,也就是传统上说的PC服务器。虚拟化平台软件则是把这些物理的计算资源转换成了逻辑的计算资源。什么是逻辑的计算资源?说白了就是通过创建虚拟机使得计算资源按需分配。现在的x86服务器都从硬件上支持虚拟机操作,而且计算资源也很充沛,4核服务器都很普遍了,所以可以根据实际的需要切出合适大小的虚拟计算机,这个包括处理器的个数和内存的大小。虚拟机是在软件控制下产生的,平台管理软件的控制,所有的设备是虚拟的,和底层物理硬件无关,所以一致性好做到了“异中求同”,从而可以保护大量原有投资。虚拟机可以根据需要动态的产生,撤销,迁移,这些都可以有平台软件的控制下自动完成,更加方便管理。在这种架构的支持下,上层可以支持不同的应用,这些应用不再关心运行在那个具体的物理服务器上,这个过程由虚拟化平台软件负责调配完成:虚拟化平台软件就像一个操作系统管理这些物理服务器,上层的解决方案就像应用程序。当某个解决方案需要更多的计算资源的时候,虚拟化平台软件就为他分配更多的虚拟机,当不需要的时候,虚拟化平台软件就把这些虚拟机在撤销。就这样,控制者物理服务器资源在不同的解决方案中灵活的调度,这个过程是自动实现的。当社保的系统规模增大的时候,就添加更多的物理机到资源池中去,虚拟化平台软件会很好的把他们自动的管理起来。由于虚拟机和物理机的差别是老的软件感觉不到的,所以原有的解决方案不需要做改变即可在虚拟化平台上运行,由此兼容原有的系统。新系统可以为新的运行平台做优化,更好的实现可管理性和资源的动态调度。 从本质上说,这种虚拟化了的数据中心隔离了硬件与应用:应用看到的是计算资源,而不再是一台台的机器。这不就是云计算吗? 而数据中心的虚拟化和云计算建设可以本着循序渐进的原则,从一点开始,逐步建立虚拟化平台,渐进的把更多应用切换的这个平台上。而一些应用,可能由于历史限制或者说非常关键,短期内迁移还有很大的顾虑,就继续沿用,不必改变。从技术路线上说,数据中心虚拟化的过程,是一个循序渐进的过程,是逐步演进,逐步改良的过程而不是一下子推到重来。

继续 ›

分类: 并行计算, 虚拟化技术

云计算与虚拟化技术相关的VMM对比介绍

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 八月 27, 2009 在 4:16 下午
评论 (11)

介绍了云计算,也介绍了虚拟化的内容,有人问,在IA架构上实现云计算和虚拟化时,底层需要虚拟机管理器(Virtual Machine Monitor,简称VMM)来进行管理,那么VMM都有哪些呢,之间有什么区别呢?本文就对此探讨一下。 先学一下港片:“郑重声明:本部分仅是本人使用各路VMM的心得总结,不含任何广告倾向,也不保证所有内容不会随着时间流逝而失效,仅供参考。如对某种VMM有具体需求,请联系相关厂商,获得详细的最新信息,(此处略3000字)” VMM是在底层实现对其上的虚拟机的管理和支持。以前的虚拟软件必须是装在一个OS上,然后再在虚拟软件之上安装虚拟机,装OS和应用。但现在Intel的CPU已经对虚拟化技术做了硬件支持,大多数VMM就是直接装在裸机上,在其上再装几个虚拟机… 这样就大大提升了虚拟化环境下的性能体验。如图就是目前常见的VMM工作模式: 小结一下VMM的市场现状。VMM自从05年以来一直是蓬勃发展,随着云计算/虚拟化日益广泛的应用,不仅厂商越来越多,VMM的功能和性能也是有了长足的进展。最初虚拟化对大量I/O的支持还是比较弱的,性能不佳;但到了现在,结合Intel芯片的硬件支持,I/O性能损耗已经很小了。 看看VMM的众多厂商,就会发现,大多数的VMM都有收费版和免费版,它们之间的区别一般是功能上的差别:免费版一般都只能实现最基本的功能, 让你体验一下;而收费版则功能支持比较全面。厂商是要靠收费版赚钱的,但需要用免费版来普及概念,扩大人气。不要小看了免费版,其实我们很多基本的虚拟化需求用免费版就可以满足了。 先说说VMWare。VMWare是VMM的一大供应商,美国上市公司。它的VMM产品目前有两大系列:免费的ESXi,收费的vSphere。ESXi支持服务器整合等基本的VMM功能;而vSphere则支持了更多的更高级的特性,比如动态迁移、负载均衡… 这些高级功能可以让基于VMM之上的应用有更高的可用性、可靠性、容灾度等。当然,vSphere也是比较贵的,买过的人都知道。 另一大VMM供应商就是Citrix。Citrix的产品也是分成了两大类:免费的XenServer,收费的Essentials。XenServer虽说是免费的,但也是声称支持企业级应用,所以有动态迁移等功能。而Essentials当然也是功能齐备了。目前,Essentials的价格还不算很贵。 微软也有自己的VMM产品:Hyper-V。Hyper-V是集成在Windows Server 2008里的,可以实现服务器整合、快速迁移等功能。因为Windows Server是收费的,这个也应该算收费的。微软的号召力也很强大,有很多的第三方软件公司基于Hyper-V进行二次开发,进一步提升Hyper-V的功能。 提到VMM,也一定要讲XEN。XEN本身是开源的,很多商业的发行Linux中也集成了XEN的rpm包,一些企业也在使用这些不同版本的XEN搭建虚拟化环境。 就说这么多吧,欢迎板儿砖。

继续 ›

分类: 并行计算, 虚拟化技术

基于英特尔平台与虚拟化技术构建企业云计算(2)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 八月 5, 2009 在 1:21 下午
评论 (13)

基于英特尔平台与虚拟化技术构建企业云计算(下) 接着上篇文章,重点介绍企业云计算的应用模式。 四、企业云计算的应用模式初探 基于英特尔平台与虚拟化技术,企业云计算有着众多新的应用模式。这里仅谈谈几种,抛砖引玉。 1.整合的IT资源管理 云计算带来的一个显著好处就是整合的IT资源管理。以虚拟化技术为基础,云计算平台能够有效屏蔽底层硬件平台的差异性。底层硬件被集中管理,形成硬件资源池,并以资源服务的形式提供给上层应用。从而使资源的动态分配成为可能,真正做到IT As Service。由于云对底层资源的整合和屏蔽,应用可以轻易实现资源的动态扩充、更换和无间断的硬件维护:新购入的硬件资源只需安装简单的Agent即可自动纳入云的管理之中;当硬件需要升级时,应用只需在云内部进行迁移,即可实现无宕机的硬件更换。由于云的硬件屏蔽特性, 老旧的服务器资源在云中也可以得到充分利用,从而保护了IT投资。 2.动态部署 动态部署是指依赖于云计算平台的解决方案模板库来实现对解决方案进行灵活部署的应用模式。如图所示,当需要在云中重新部署一个独立的解决方案实例的时候,我们可以通过云的资源分配接口得到所需的物理资源,并从解决方案模板库中提取所需的服务器模板组,从而便捷的组成独立的应用实例。该实例既可以同普通实例一样用作多租赁, 更可以指定为特定用户独享。另外,在云的资源调度优先策略的限定下,实例拥有的资源也可得到保障。 当前的SaaS类应用往往采用单一实例多租赁的方式,即一个解决方案的实例同时为多个甚至上千个用户提供服务。这一应用模式对SMB客户非常适用,但由于数据安全性、系统稳定性等因素,往往不能满足大型客户的需求。动态部署带来的实例部署便捷性和单一租赁的模式能够有效的解决SaaS应对大型客户需求的问题。 3.智能化解决方案 - 自适应系统 自适应系统是能够利用云的动态资源调配的特性,自适应的应对业务流量变化的智能化解决方案,因此又可以叫做弹性应用服务。在运行有Cloud-Aware应用的云计算平台里,云可以通过应用程序通报,服务器状态监控等手段获取负载和压力的相关信息。当负载压力过大时,云可以根据既定的智能策略调整该应用的服务器数目, 自动增加服务资源以满足客户需求; ...

继续 ›

分类: 并行计算, 虚拟化技术

NUMA架构下的Java应用小探

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 七月 17, 2009 在 4:20 下午
评论 (0)

在基于最新的英特尔® 至强® 5500 系列处理器的服务器中, NUMA架构被引入了到了服务器系统中。它对Java应用有什么影响呢?这就是本文讨论的内容。 对于用C/C++等开发的程序来说,因为程序直接决定了内存的访问模式,对编程者而言,就需要对对NUMA架构有所了解,以最大的利用NUMA带来的优势,避免反被它伤害。但对Java应用来说,因为代码不会直接执行,一定是通过JVM进行,所以很大程度上Java应用的性能就取决于JVM了。这里就对针对JVM在NUMA下的性能表现作了一些测试。 在基于最新的英特尔® 至强® 5500 系列处理器的服务器中,对SUN和ORACLE的JVM分别做了测试。采用了一个标准的Java应用,测试了性能表现、Heap size、GC等。因为本文无意对SUN和ORACLE的JVM的性能进行比较,故下面没有标出具体使用的JVM。 ...

继续 ›

分类: 并行计算

英特尔服务器中的英特尔® 超线程技术应用技巧

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 七月 14, 2009 在 2:19 下午
评论 (4)

...

继续 ›

分类: 并行计算

基于英特尔平台与虚拟化技术构建企业云计算(1)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 六月 30, 2009 在 9:43 上午
评论 (50)

云计算(Cloud Computing)是如今的一个热点,但也是一个容易让人感到云里雾里的热点,它不像一般的技术那样明确具体,相对抽象。究竟什么是云计算?如何让云计算为应用软件服务?这正是本文探讨的内容。希望各位老大看完本系列之后,云计算就不再只是一个脑子里云里雾里的概念了。 一、企业云计算概述 云计算作为一种新兴的计算模型,其核心是将IT整合为服务。它的特点是将计算资源分布在由大量计算机构成的资源池上,将数据和计算任务以服务的方式提供。用户则根据自身需要,通过网络来获取这些计算力和各种服务。 云计算区别于传统的软件产品的关键特性包括: 1. 以服务的形式进行访问:无论云提供的是应用软件,基础平台API或者完全的抽象运算资源,这些都是整合了底层的IT资源,以服务的形式呈现给上层用户。 2. 弹性扩展支持能力:不能自由伸缩的系统不能称之为云。一个合符定义的云具备动态扩展的能力, 无论是内容还是资源。这种扩展可能是运营商操作下的整体扩展, 也可能是某一个具体应用对客户需求的自动响应. 相对于传统软件模式,基于云计算的应用具有以下优点: 1. 易管理:无需上门安装和部署,也无需特定的设备和硬件需求。基于云计算的应用通常只需要浏览器支持,通过网络付费购买即可使用。 2. 高可靠:云计算拓展了传统的备份、容灾模式,给使用者以更多的选择,在同等的硬件条件下,相对传统模式更加可靠。 3. 低成本:由于云计算统一了资源管理,降低了维护运营费用,进行管理时能够大规模整合硬件和人力资源,统一运营服务平台,因而能够有效降低TCO。 4. 高灵活:基于服务的云计算可以随时终止服务或者调配服务等级。在业务增长的情况下,扩展服务的容量也极为容易,因而应用极为灵活。 对于云计算而言,一般又将其分为公共云计算和企业云计算(私有云计算)。公共云计算基于Internet,利用公开的应用程序接口,访问接口和统一的访问介面向包括企业,团体,个人在内的Internet用户提供服务;企业云计算则是专门为企业内部服务的云。但这只是从服务对象的商务角度来说,企业云计算是将IT资源整合提供给企业内部使用,而公共云计算也不过是将企业内部整合好的IT资源提供给外部,两者的底层支持架构其实是没有区别的。 这里对云计算的核心概念再做个比喻。我个人以为,云计算最核心的概念是整合了后台的服务器计算资源,而跟前台的表现形式是无关的。传统的后台模式是这样的:应用A(如CRM)共用了1,2,3,4四台服务器,这四台服务器也仅为应用A服务;应用B(如HR)另用了5,6两台服务器。A和B之间的服务是没有交叉的,也不能统筹使用。比如:应用A高峰到了,四台不够用了,这时应用B的服务器在波谷,几乎闲置。但就算这种情况下,应用A也不能不应用B的两台服务器的闲置计算资源利用起来,只能另想办法。而在云计算下,服务器1,2,3,4,5,6被整合成统一的计算资源,以资源服务的形式提供给上面;应用A和B都看不到下面到底是哪些服务器在支持他们的工作,他们只知道下面给了他们一定的计算能力。这样,如果还是出现了应用A的波峰,又是B的波谷,云计算的控制部分就可以把多余的计算资源分配给A,这在以前是不能实现的(或者要大费周折才能实现)。 今天就写到这,下次有时间继续。。。

继续 ›

分类: 并行计算, 虚拟化技术

让服务器更加节电

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 四月 30, 2009 在 10:33 上午
评论 (10)

配置服务器一般都是按照系统的峰值标准配置的。但实际使用中,一般服务器的绝大多数时间都是远低于峰值的,甚至只是其5% - 10%。这就导致了在大多数时间内,大多数服务器处理器都是空闲的,能否将它们的耗电降下来,又同时可以应对突发的峰值呢?   4核的英特尔® 至强® 5500 系列处理器在2009年3月正式发布,在众多的新特性中,不仅仅是提升了性能,还包含了如何让处理器同时更加节能,这就包括英特尔® 智能加速技术(Intel® Turbo Boost Technology)和处理器的C6模式。他们就可以解决前述问题。   英特尔® ...

继续 ›

分类: 并行计算

虚拟化到底可以干什么——3.15晚会有感(2)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 30, 2009 在 10:23 上午
评论 (4)

本来是想继续回前面的文章的, 不成想不知道为什么,就是发不了,这就另起炉灶,发篇新的: 以前X86架构上的虚拟化,是一定要先装个OS,再在OS上装虚拟机,然后在虚拟机里装新的OS。目前的情况下,由于CPU硬件支持了虚拟化,现在的虚拟技术也更先进了。由于CPU在硬件上支持了虚拟技术,目前的虚拟机可以有新的使用模式: 现在可以在裸机上直接装一个比较薄的虚拟机管理器VMM(XEN和VMware等都有相关产品),然后直接在VMM上装多个操作系统,这样就比较安全(至少目前没有厅听说什么病毒可以直接攻进VMM去,不过以后也不一定),操作系统间隔离的很好。 以前没有CPU硬件支持的虚拟化,虚拟机本质上还是在用户态运行,对OS特权指令的模拟是不可能完全实现的。而有了CPU硬件的支持,虚拟机就不再是在用户态了,升级了一大步,呵呵。 通过CPU硬件支持虚拟化,可以把VMM的性能作的更好,功能也更强,这也是为什么现在在服务器上,虚拟化有了很多的应用。 比如,现在IA服务器上的虚拟化可以做到:不同的虚拟机映像可以动态的在不同的物理服务器间迁移,这就可以实现动态的负载均衡:当一台物理机的负荷过大时,把这个虚拟机整个迁移到另外一台物理机上,中间只有一个极短的服务时间中断。这种能力是以前在传统的X86平台上比较难于实现的。 先写到这,以后再补。

继续 ›

分类: 并行计算, 虚拟化技术

虚拟化到底可以干什么——3.15晚会有感(1)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 17, 2009 在 4:01 下午
评论 (27)

终于干完了今天老板交代的几件事,忙里偷个闲,想起之前看3.15晚会的感受,就写写虚拟化吧。   虚拟化已经是个十分火爆的词,大概除了打酱油之类的,能跟我的工作挂上的热门词汇就是它了。但放眼望去,虚拟化到底能干什么呢?   读书的时候,就玩过虚拟化:在Windows机器上装了个VMWare,然后再在其上装个Linux,就算玩过虚拟化了。那时的感觉就是速度有点慢,对支持的操作系统的限制也较强。   几年前,VMware上市了,股票飞涨,据说颇有些人发了一笔。在羡慕之余,不禁在想,它凭什么这么火啊?还真有些不太懂。   现在开始做虚拟化相关的项目,做了小一年,再想想,这个虚拟化还真有用。   看今年的3.15晚会,不禁为自己微薄的钱袋子担心:甭管什么银行卡,信用卡,身份证,统统拿下。看来电影里的“IP、IC、IQ卡,通通告诉我密码”,已经是没有任何技术含量的了。这时,我就想起了一个股民朋友的做法。他特别怕木马把他的帐号密码都拿走,就这么利用了虚拟化:家里的机器装的Windows A,再在上面装了VMWare虚拟机,然后在虚拟机里装了另外一个Windows B。他的炒股软件就装在Windows B里;而且Windows B除了炒股,别的什么都不干。日常的聊天、冲浪,都在外面的Windows A里做。通过虚拟机,成功地营造了一个干净的炒股环境。高!   后来我又了解到,某家国内的OEM,就是出了一款台式机,预装了一个虚拟机,作用和我朋友的不谋而合。   其实呢,这就是虚拟化的隔离作用,它可以避免不同的软件彼此干扰影响,好啊。   虚拟化不仅仅是在一台机器上装几个操作系统,可以演化出很多新的使用模式。特别是现在的多核平台十分强劲,更是使各种模式成为可能。   今天就写到这,又有新的任务了,下次再写。

继续 ›

分类: 并行计算, 虚拟化技术

NUMA与英特尔下一代Xeon处理器学习心得(10)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 二月 1, 2009 在 11:38 上午
评论 (7)

过完新年,头累脚累肚子累,上个班休息休息,再写一篇,也顺路给各位拜个年! 前面说了NUMA的总总特点,有朋友问了这么一个问题:要是我的程序就是乱序的访问内存,也不太可能改了,那怎么办呢?是不是就注定被NUMA欺负了?也不是。 在英特尔下一代Xeon处理器平台中,BIOS里有一个NUMA 选项,可以指定怎么映射内存。以两颗CPU为例。如果指定NUMA mode,那么前一半内存空间被指定到直接连接CPU0, 后一半内存空间被指定到直接连接CPU1,换句话说就是我们说的NUMA方式;如果指定Non NUMA,那么就是奇数页面被指定到直接连接CPU0,偶数页面被指定到直接连接CPU1,也就是页面奇偶交错分布,用户体验上就跟传统方式类似,虽然没有了NUMA的好处,但也没被NUMA伤了。

继续 ›

分类: 其他, 并行计算

NUMA与英特尔下一代Xeon处理器学习心得(9)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 22, 2009 在 10:20 上午
评论 (0)

新春将至,在回家前再写一篇,续续前文。 libnuma  -- NUMA策略的应用程序编程接口   尽管numactl能够用作进程级别的内存控制,但其缺点也很明显:分配策略作用于整个进程,无法指定到线程或者特定内存区域。Libnuma为更加精细的控制提供了API接口。   应用程序只需在代码中引用numa.h头文件, 并在连接时如下连接libnuma的共享库即可方便使用libnuma:   #include <numa.h> …. cc ... -lnuma   在开始使用NUMA API更改策略或分配内存之前, 首先需要调用numa_available()函数。 之后, ...

继续 ›

分类: 其他, 并行计算

NUMA与英特尔下一代Xeon处理器学习心得(8)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 一月 7, 2009 在 7:13 上午
评论 (7)

下面是一些NUMA策略控制工具 NUMACTL 是设定进程NUMA策略的命令行工具。对于那些无法修改和重新编译的程序,它可以进行非常有效的策略设定。Numactl使管理员可以通过简单的命令行调用来设定进程的策略, 并可以集成到管理脚本中。   Numactl的主要功能包括: 1.  设定进程的内存分配基本策略 2. 限定内存分配范围,如某一特定节点或部分节点集合 3. 对进程进行节点或节点集合的绑定 4. 修改命名共享内存,tmpfs或hugetblfs等的内存策略 5. 获取当前策略信息及状态 6. 获取NUMA硬件拓扑  下面是使用numactl设定进程策略的实例:  numactl --cpubind=0 --membind=0,1 program  其意义为:在节点0上的CPU运行名为program的程序,并且只在节点0,1上分配内存。Cpubind的参数是节点编号,而不是cpu编号。在每个节点上有多个CPU的系统上,编号的定义顺序可能会不同。  下面是使用numactl更改共享内存段的分配策略的实例:  numactl --length=1G ...

继续 ›

分类: 其他, 并行计算

NUMA与英特尔下一代Xeon处理器学习心得(7)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 23, 2008 在 9:35 上午
评论 (14)

下面介绍NUMA策略的实现方式和策略 在最新的通用操作系统, 如Windows和linux上, 都不同程度的提供了面向NUMA架构的系统控制和API支持。下面以linux为例,对该类接口进行说明。   Linux下的NUMA API   版本为2.5之后的linux内核在进程调度,内存管理等方面对NUMA系统做了大量优化。同时,基于2.6内核版本的各主要linux发行版,如Redhat,SUSE等均包括了面向用户空间的numautils工具包,提供对NUMA系统内存策略的监控功能,并开放面向用户空间程序的API接口。该接口习惯上称为NUMA API。   NUMA API主要任务是管理NUMA的内存策略。NUMA策略通过几个子系统的协同工作来实现。内核管理进程的内存分配机制以及特殊的内存映射。NUMA API通过新引入的3个内核系统调用来实现这一点。在用户空间中,NUMA API通过libnuma库提供了统一的接口供用户空间程序使用。相对于系统调用,libnuma接口更加清晰易用。同时NUMA API还提供了命令行工具numactl和numastat来帮助系统管理员实现进程级别的策略管理。   在Linux上NUMA ...

继续 ›

分类: 其他, 并行计算

NUMA与英特尔下一代Xeon处理器学习心得(6)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 22, 2008 在 10:48 上午
评论 (11)

接下来讲讲NUMA策略,也就是为了更好的利用NUMA来给咱们干活: 为描述在NUMA架构下针对内存访问的优化,我们可以引入NUMA策略的概念。NUMA策略(NUMA Policy)即是指在多个节点上合理的进行内存分配的机制。对于不同软件设计要求,策略的目标可能会不同:有一些设计可能强调低延迟访问,另一些则可能更加看重内存的访问带宽。   对于强调低延迟访问的设计,基本的分配方式就是尽量在线程的本地内存上为其进行分配, 并尽量让线程保持在该节点上。这被称为线程的节点亲和性(Node affinity)。这样既充分利用了本地内存的低延迟, 同时也能有效降低节点间的通信负担。   NUMA架构的一个优势是,即便是在拥有大量CPU的大规模系统中,我们也可以保证局部内存访问的低延迟。通常来讲,CPU的处理速度是远大于内存的存取速度的。在读写内存时,CPU常常需要花大量的时钟周期来等待。降低内存访问的延迟因而能够有效的提升软件性能。   另外,为SMP设计的操作系统通常会有缓存亲和性(Cache Affinity) 的优化措施。缓存亲和性机制可以让数据尽量长时间的保留在某一个CPU的缓存中,而不是来回在多个CPU的缓存里换来换去。操作系统通常是通过优化进行线程/进程调度来保证这一点:在线程被重新调入时,调度器会尽量让线程在之前运行的同一个CPU上运行,从而保证缓存利用率。这一机制显然是和NUMA系统尽量利用本地内存的策略是一致的,有利于面向SMP系统的程序向NUMA架构移植。   但缓存亲和性机制同NUMA系统的节点亲和性又是有区别的:首先,同一个节点间多个CPU或者核的线程迁移并不影响该线程的节点亲和性;其次,当线程被迫迁移到其他节点时,他所拥有的内存是不会跟着迁移的, 仍然保留在原来位置。这个时候,本地内存就变成了远端内存,对它的访问既慢又占用节点通信带宽。相对的,线程在迁移之后能够以较小的代价迅速建立起新的缓存,并继续在新CPU上体现缓存的亲和优势。 因此,NUMA系统对于节点亲和性的依赖更大。   操作系统的调度器同时也不能仅仅为保证节点亲和性做优化。因为通常相对于频繁访问远端内存来说,让CPU空闲带来的性能损失更大。如果特定应用系统的性能受内存访问的影响远大于CPU的利用率,这个时候程序员或者管理员则可采用特别的NUMA策略来强调节点的亲和性,从而提升性能。   另外, 尽管大部分应用会因为优化响应时间而收益,还有一部分应用则对内存带宽比较敏感。为了提升内存带宽,NUMA架构下的多个内存控制器可以并行使用。这类似于RAID阵列通过并行处理磁盘IO来提升读写性能。通过适当的软件或者硬件机制,NUMA架构可以使内存控制单元在各个内存控制器上交替的分配内存。这意味着分配得到的连续内存页面会水平地分布到各个节点上。当应用程序对内存进行流式读写时,各个内存控制器的带宽就相当于累加了。此机制获得性能提升决定于NUMA架构的实现。对于远端内存访问延迟严重的架构,该提升往往会比较明显。在一些NUMA系统中,系统硬件本身提供了节点交织分配机制;而在没有硬件提供节点交织的系统中,可由操作系统来实现该机制。  

继续 ›

分类: 其他, 并行计算

进步的科技,退化的人

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 22, 2008 在 10:34 上午
评论 (24)

“进步的科技,退化的人”,好像是要挨砖头的。 科技现在是越来越强了,很多以前不可能的都可能了,包括NUMA都进了IA架构(详情请见本人的系列博客,做个广告先:http://software.intel.com/zh-cn/blogs/2008/11/24/numaxeon1 :-)。但与此同时,越来越多的事情不需要自己做了:可以开车,不用走路;可以喝营养液,不用吃饭;可以上网聊天,不用真的见朋友(当然,也有见网友的,呵呵)... 记得前几天看了部电影,就是说科技太发达了,人完全不需要做什么,也就彻底退化了。就好比现在交通工具和机械很发达,人的体能就退化了,爬山对很多人来讲已经是奢侈了。 以前算东西要用纸笔,现在有计算器、计算机,甚至于复杂的公式都不用自己算了。炒股是方便了很多,可脑子有没有退化呢? 肌肉退化了,消化退化了,和真人说话的能力都退化了(好像有个什么宅男,宅女,是说这个吧)。慢慢的,估计人都可以坐在椅子里,一切搞定... 好事还是坏事,谁知道呢。电脑算命一下吧(算命也不用人了,牛!)

继续 ›

分类: 其他

NUMA与英特尔下一代Xeon处理器学习心得(5)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 8, 2008 在 11:22 上午
评论 (8)

多谢各位的参与和支持,让我更有动力去把这个系列写好。前面有同学问起了QPI,我这里就详细解释一下,而QPI也是下一代Xeon处理器的特性之一。 QPI全称Intel® QuickPath Interconnect,是直接连接同一台机器的不同CPU之间的传输通道,使得各个核(CORE)之间的数据传输更快:如果数据在cache里,就可以直接用QPI来传输,而不用再访问内存了。 下一代Xeon处理器使用QPI架构代替了原来的FSB架构,QPI是基于数据包传输,高带宽低延迟的点到点传输技术,速度可以达到6.4GT/s,远远高于原来基于FSB架构的数据带宽。当然,具体平台的实现中QPI连接数目可以根据目标市场和系统复杂性而有所不同,表现出极大的灵活性和扩展性。  又有同学可能要问,那同一个CPU内的不同的核怎么交换数据呢?这就更简单了。下一代Xeon处理器的不同核是存在cache共享的,这样如果数据在cache里,那就直接共享了,不用再到内存里找,简单吧,呵呵

继续 ›

分类: 其他, 并行计算

NUMA与英特尔下一代Xeon处理器学习心得(4)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 5, 2008 在 9:12 上午
评论 (15)

在传统SMP系统上,所有CPU都以同样的方式通过一个共享内存控制器来访问内存,各CPU之间也是通过它来进行交流,所以很容易造成拥堵。而一个内存控制器所能够管理的内存数量也是非常有限的。此外,通过唯一的hub访问内存造成的延迟也是非常高的。   在NUMA结构下,每个计算机不再只有唯一的内存控制器,而是把整个系统分成多个节点。每个节点分别有自己的处理器和内存。系统中所有的节点都通过全互联的方式连接。所以,每当在系统中增加新的节点,系统所能够支持的内存和带宽都会增加,具有非常好的扩展性。   下面就讲讲NUMA的内存组织   在NUMA系统中,每个CPU可以访问两种内存:本地内存(Local Memory)和远端内存(Remote Memory)。和CPU在同一个节点的内存称为本地内存,访问延迟非常低。和CPU在不同节点上的内存叫做远端内存,CPU需要通过节点互联方式访问,所以访问延迟要比访问本地内存长。   从软件的角度来看,远端内存和本地内存是以同样的方式访问的。理论上讲,NUMA系统可以被软件视为与SMP同样的系统,不区分本地和远端内存。但是如果追求更好的性能,这个区别还是需要被考虑的。   经实验,对于常规的内存操作,如清空(Memset),块复制(Memcpy),流读写(Stream),指针追溯(Pointer Chase)等操作来说,本地内存的访问速度要远远优于远端内存。   由于 NUMA 同时使用本地内存和远端内存,因此,访问某些内存区域的时间会比访问其他内存区域的要长。本地内存和远端内存通常用于引用当前正在运行的线程。本地内存是指与当前正在运行线程的 CPU 位于同一节点上的内存。任何不属于当前正在运行的线程所在的节点的内存均为远端内存。访问远端内存的开销与访问本地内存的开销比率称为 NUMA 比率。如果 ...

继续 ›

分类: 其他, 并行计算

NUMA与英特尔下一代Xeon处理器学习心得(3)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十二月 3, 2008 在 10:32 上午
评论 (7)

前面介绍了NUMA的很牛的架构,那目前系统层面上,软件对NUMA的支持怎么样呢?请见本文:NUMA架构软件支持栈   对于NUMA架构而言,经过了几十年的发展,目前的软件支持栈已经非常完备,从底层的操作系统,到之上的数据库、应用服务器,基本所有主流的产品均以为NUMA提供了充分的支持。 操作系统(Operating System)   目前,Windows Server 2003 和Windows XP 64-bit Edition, Windows XP等都是NUMA ...

继续 ›

分类: 其他, 并行计算

NUMA与英特尔下一代Xeon处理器学习心得(2)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 28, 2008 在 12:49 上午
评论 (9)

上回说到NUMA的一个简介,现在再扯扯NUMA与英特尔下一代Xeon处理器的关系,咱们切入正题 :-) 做为英特尔下一代的45nm Xeon处理器, 它会成为未来英特尔从台式机、笔记本到服务器全线产品的主流处理器。 比较前一代酷睿处理器平台,它的平台在对以前的系统架构和内存层次体系进行了重大改变的同时,对微架构也进行了全方位的细化, 主要改进表现在以下的特性:  > 新的核心架构,最大可扩展到每个接口4个核心  > 同步多线程(SMT) ...

继续 ›

分类: 其他, 并行计算

NUMA与英特尔下一代Xeon处理器学习心得(1)

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十一月 24, 2008 在 1:27 下午
评论 (49)

作为一名工程师,一名做技术的工程师,NUMA也是我的近期工作重点之一。在工作时间,在茶余饭后,也看了些NUMA的资料,学习了英特尔下一代Xeon处理器。这里就是我的一点小结,一点心得,和感兴趣的朋友分享分享。 因时间有限,每次就总结一部分,慢慢道来,欲知详情,下回分晓! :-)  一、概述 从系统架构来说,目前的主流企业服务器基本可以分为三类:SMP (Symmetric Multi Processing,对称多处理架构),NUMA (Non-Uniform Memory Access,非一致存储访问架构),和MPP (Massive Parallel ...

继续 ›

分类: 其他, 并行计算

软件开发人员又要学习了:需要知道NUMA

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 十月 21, 2008 在 12:24 上午
评论 (35)

在今年的英特尔信息技术峰会上,Intel披露了即将推出下一代的Xeon处理器Tylersburg-EP,介绍了他的几大特点。这款新的处理器会给我们软件开发人员带来什么呢?除了更好的性能,也需要我们更好的学习,学习NUMA。 很早以前推出新的处理器的时候,软件开发人员一般不需要做什么,处理器主频的提升自然提升了性能;现在多核成了主流,软件开发人员就需要学习多线程化,看看怎么样来把多核的强大运算能力充分的利用起来。Tylersburg-EP的出现就需要大家进一步学习了。就像大家在网上、在英特尔信息技术峰会上看到的,Tylersburg-EP会把内存控制器集成到CPU处理器中,大家想一下,在这样的情况下,如果你的系统有不止一个CPU处理器,那么不同的CPU处理器访问不同的内存的耗时就不一样了:每个CPU处理器都是访问跟他的内存控制器直接相连的内存速度最快!这就是传说中的NUMA架构啊! 为了充分的把它用起来,看来就需要学习NUMA了,想想怎么样分布你的数据,让内存访问速度最快。天啊,又要学习了。。。不过反过来想想,IT行业就是这样的,不断地推陈出新,让行业里的每个人都得不断地学习,谁让咱进了IT的门呢?

继续 ›

分类: 其他

使用OpenMP实现多线程,不仅是用在循环处理上

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 八月 21, 2008 在 7:22 下午
评论 (5)

提到使用OpenMP实现多线程编程,相对比叫便捷,很多兄弟一定已经很熟悉了。一般的用法都是把OpenMP用在for等循环上,论坛上好多OpenMP在这上的用法也有好多的解释了,我也不班门弄斧了。   但for等循环如果要用在OpenMP上,一般的限制还是比较多的,比如循环不同序列间的数据或逻辑依赖不能过强,必须可以将其分解为或转化为互相独立的关系。此外,有时候虽然看是做到互相独立,但代价很大,比如加了很多的锁,多线程的效果不是很好。这就导致了对OpenMP的使用受到了比较大的限制。一般以我的经验,当for循环处理大的矩阵、数组等时,用OpenMP比较合适,但如果涉及到了很多的逻辑判断,就不是很理想。   从上面可以看出,for等循环不总是适合使用OpenMP。但是不是除了循环,OpenMP就没有用武之地了呢?当然不是,还可以用OpenMP的section,如下图说示,原先线性执行的程序被分成了并行的三段: #pragma omp parallel sections {     #pragma omp section {    Function1 }       #pragma omp ...

继续 ›

分类: 其他

英特尔® 虚拟化技术

作者: Bruce Chen 陈宇达 (Intel) (125 篇文章) 日期: 三月 6, 2008 在 9:57 下午
评论 (0)

虚拟化作为一项技术,可以使计算机物理资源得以在一台机器上的多个虚拟分区上抽取、配置、共享和利用。虚拟化一般通过硬件手段、软件手段、或二者的配合来完成。每个虚拟分区包含它自己的操作系统环境。虚拟化可以通过各种技术来实现,对于用户而言,理想的虚拟化解决方案应该提供不同虚拟机之间的彻底的安全的隔离,并为每个虚拟机提供卓越的性能,从而确保整个平台的出色实用性、可靠性和安全性。 虚拟化本身并不是一个很新的概念,早在几十年前就已经出现了。那么英特尔公司为什么要发展自己的虚拟化技术,英特尔® 虚拟化技术又有什么技术特点呢?这正是本文所要介绍的。 英特尔® 虚拟化技术是一组基于芯片级别的技术,进而改进纯软件虚拟化解决方案。这些虚拟化解决方案使多个操作系统和相关应用能够同时在各分区内运行。因此,一个物理系统能够作为一系列逻辑虚拟系统运行。英特尔® 虚拟化技术通过增强虚拟化解决方案的可靠性、可支持性、安全性和灵活性,可改进现有纯软件虚拟化解决方案。这些芯片进步代表着技术的巨大进步,具体表现在大大减少了软件虚拟机的相关开销,以及支持了更广泛的操作系统。  以往纯软件虚拟化解决方案为IT 部门和最终用户提供了显著的优势,但它们存在着很多的限制。下面举两个例子来说明。上层模拟的Guest OS很多情况下是通过虚拟机监视器(VMM)来与硬件进行通信,再由VMM 来决定其对系统上所有虚拟机的访问。而这里请注意传统的VMM在操作系统看来也是一个应用程序,是运行在RING 3上的,而不是RING 0。这就导致了VMM是不能执行一些特权指令的,而我们知道Guest OS是一定会涉及到特权指令的,所以VMM对Guest ...

继续 ›

分类: 其他, 虚拟化技术