| 最终修改于 : | 2007年09月29日 14:09 |
评级 |
|
作者:Justin R. Rattner
英特尔高级院士
去年秋天,我和保罗•欧德宁共同宣布了英特尔的万亿级研究计划和多核研究处理器系列中的首款产品 Polaris 处理器这两项工作所取得的初步成果。Polaris 项目旨在开发全新的设计技术和方法,以适应快速万亿级芯片的开发。设计团队创建了拥有 80 个内核的 Polaris,这些内核通过芯片中内置的路由器进行平面二维阵列互连。内核比现有的英特尔® 处理器要简单得多,因此我们能够集中精力应对在单一封装中构建多个内核的挑战。Polaris 的目标还包括最大限度减少全局时钟网络的设计工作、减少时钟功耗预算,以及为多核处理器提供更精细的电源管理能力。
嵌入第一款芯片后,Polaris 在 2 个小时内提供了 1 tera-FLOP 的性能,完成这项工作只消耗了不到 62 瓦的功率——超过了我们最新的双核服务器处理器的设计功率。凭借 Polaris,我们实现了研发万亿级处理器的首要目标。
当我们宣布 Polaris 的研究结果后,人们的疑问扑面而来,比如哪些人需要使用如此多的内核、哪些人需要 TFLOP 级的计算能力等等。
几年来,英特尔一直在思索怎样的未来应用才有资格成为其万亿级研究计划的一部分。我们认为,要想被纳入万亿级研究计划,未来应用就必须能够以 TFLOP 的速度处理数 TB 的数据。而要达到 TFLOP 级别的速度,该应用就必须具有目前仅在超级计算中存在的计算能力。但是台式机也需具有这样的计算能力,才能支持未来万亿级应用的运行。
识别、挖掘与合成我们已经将一种全新的软件进行了分类,称之为识别、挖掘与合成 (RMS)应用。这些应用不仅能够从万亿级计算中受益,而且它们也需要这样强大的计算能力。RMS 的各个含义如下:
请思考下面的例子,这是我们的研究团队采用 RMS 和万亿级计算开发的实际软件项目之一。
如果您希望看到最喜欢的球队的精彩体育赛事,那么您就必须等待收看当地电视台的体育新闻播报;或者访问体育网站,通过一个视频小窗口来观看赛事回放。计算机视觉软件可以将体育节目中数十万个视频帧挖掘出来,并总结成一小段视频,但是这个过程需要花费您数小时的时间。而借助万亿级处理器,您在比赛进行的同时就可以完成这项任务。比赛、球队或者球员,一切需要总结的内容都由您来决定——识别代码从帧创建模式,挖掘代码通过其它帧寻找这些模式的例程,然后二者在总结“带”中相互结合,最终将一盘完整的视频呈现给您。
那么合成部分发挥什么作用呢?我们在一个动作捕捉研究应用中演示了 RMS:在一个 3D 空间中使用 4 个摄像头来识别一个身体没有任何标记的人以及他的动作,接着在提取这个人的骨骼模型后,利用射线跟踪技术在一个全新的环境中为这具骨骼模型添加灯光、阴影和新的皮肤,最后得到一具完整的合成模型。目前还只能进行离线处理,但是通过万亿级处理器,我们就能实时完成这项任务了。
您能想像有一天,可以在万亿级计算机上运行 RMS 应用吗?这些类型的应用将对教育和培训、娱乐、科学研究甚至生日聚会都产生深远的影响。
通过万亿级计算和 RMS 应用:
学习者能够完全融入环境中,他们真实的举动将成为场景的一部分——以这种方法实现终极学习模式。
游戏玩家无需佩戴动作感应设备,即可融入游戏,感受游戏的刺激之处。
在很短的时间内,将 50 年来值得珍藏的照片和家庭录像编辑成一个几分钟的节目,然后在家庭成员的生日聚会上播放。
当然,还有更多的可能性,如实时分析能力会影响政府部门、能源和零售行业;以及医疗行业的个人健康可视化方面和许多其它的行业。真正有趣的计算应用需要您充分发挥想象,开动脑筋。万亿级计算永远支持那些敢于创新的人。
尽管英特尔的万亿级研究项目已经迈出了通往成功的第一步,但是我们任重而道远,还有很长的路要走。
单纯依靠几个内核或者一些多核处理器是无法达到万亿级计算水平的。万亿级计算需要几十甚至数百枚内核并行工作,才能以 TFLOP 的速度处理数 TB 的数据。我们需要借助一些独特的新技术来支持这些内核的工作,以避免它们缺乏足够的内存访问和 I/O 带宽,或者过久地等待讯息通过那些内核阵列。万亿级研究项目的团队正在努力解决这其中的一些问题,包括处理堆叠内存/处理器封装的新方法、集成新的片上网络,以及探究光信号等。但是只有在多核芯片上运行大量并行处理所需要的冷代码,才是对万亿级计算的真正支持。这就意味着无论是 BIOS 代码,还是虚拟机、操作系统和最终用户应用,都需要改变现有的软件设计方式。
未来是并行的天下多核芯片、并行处理和万亿级计算都需要范例转换。这种转换向我们展示了未来计算层级将给世界带来的贡献。它使我们面临很多挑战,同时也为我们带来了大量机遇。回想一下几十年前电脑刚刚进入市场的情景吧,那时不是立即有若干应用相随涌现了吗。
未来的万亿级工作负载将是什么样子?这些工作负载的哪个部分可以实现并行?它们将如何在万亿级处理器和平台上受益?英特尔的万亿级研究团队正在与业界和学术界共同合作,力求早日攻克以上这些难题。
RMS 带来了一些令人振奋的可能性。英特尔已经开发出了几项 RMS 研究应用代码和基元,并且正在公共研究领域中应用其中一些研发成果。它们将与对万亿级研究感兴趣的先进思想家和软件设计师开发的许多代码结合在一起。
除 RMS 外,我们的研究还显示了实时分析代码在金融行业的巨大潜能。此外,万亿级能力在人工智能 (AI)、机器学习优化和预测等其它领域也有巨大潜力。
目前,一些现有的代码已能够实现并行。可是若想所有的代码实现并行,我们还需付出更艰辛的努力。想想看,从软件开发之初起,大规模并行处理就是万亿级计算的一项要求,但是其中暗藏挑战。并行并非微不足道,这是一个反复的过程,需要全新的工具、优化器和编译器来完成。英特尔正携手研究人员、学术界和业界,共同致力于开发全新并行编程技术、并行算法和工具的工作。
万亿级计算将需要全新的万亿级并行性能指标评测来测试软硬件的性能。而当前的性能指标评测却并未针对多核万亿级计算进行优化。
我们要进一步开拓这些领域,以加速万亿级计算的研发进程。
同时从软件和硬件的角度来看,开发并充分利用未来万亿级平台的挑战将带来惊人的效果。但是,将这些计算能力提供给未来客户所带来的机遇与优势同样不可小觑。展望未来的5-10年,万亿级计算研究项目正为英特尔的未来进行充分准备。那时,数十或数百枚内核将在同一个系统中协同工作。为了实现这一远景目标,我们团队将努力在如下方面寻求进步:
随着多核处理器、新技术和并行应用将大量并行处理和万亿级计算能力带入台式机领域,我们也在逐渐步入计算“可能性”新时代。作为一个行业,目前我们正开始定义这些未知的可能性;还有许多工作需要我们去完成。
我们需要“以并行的方式”思考问题。我们需要更全面地了解可能运行在万亿级处理器上的未来工作负载。我们需要开发全新的算法、编程技术和工具,以及更多代码和基元。我们也需要一套全新的性能指标评测标准。此外,我们还需要全新的操作系统和虚拟化软件来管理多核的性能、可靠性和安全性。
英特尔认为,业界应当共同努力将万亿计算能力发挥到极致。让我们携手共创未来。
请访问下列链接,了解关于万亿级计算和英特尔在万亿级处理方面的研究的更多信息。 
Justin Rattner 现任英特尔企业技术事业部高级院士兼总监,同时还是英特尔的首席技术官 (CTO)。他主要负责英特尔的微处理器、通信和系统技术实验室以及英特尔研究方面的领导工作。
1989 年,Rattner 先生因其在并行和分布式计算机架构方面的领导才能而被《研发杂志 (R&D Magazine)》评为“本年度最杰出科学家”。1996 年 12 月,Rattner 先生凭借在美国能源部 ASCI(加速战略计算创新)Red 系统中的前瞻性工作,而作为“本周风云人物”接受了 ABC 世界新闻网的专访。ASCI Red 系统是世界上第一台能够支持每秒钟一万亿次运算(一个 teraFLOPS )的计算机,并且是 1996 年到 2000 年间全世界运算速度最快的计算机。1997 年,Rattner 先生光荣地入选了“计算精英 200 杰 (Computing 200)”。这 200 名入选者都是对当今美国的计算机工业产生了深远影响的杰出人物。“计算精英 200 杰”后来被载入《奇才与他们的奇迹 (Wizards and Their Wonders)》一书,并由美国计算机学会 (ACM) 出版社出版发行。
Rattner 先生曾因在高性能计算和先进集群通信架构方面所做的突出贡献而两度荣获“英特尔成就奖”。他是英特尔研究委员会和学术顾问理事会的长期会员。他目前担任康奈尔大学的英特尔执行赞助人,并且是该校工程学院外聘顾问委员会的成员。
Rattner 先生于 1973 年加盟英特尔公司,1979 年被任命为公司的第一位首席工程师,并于 1988 年成为第四位英特尔院士。在加入英特尔之前,Rattner 先生曾先后供职于惠普公司和施乐公司。他先后于 1970 年和 1972 年获得康奈尔大学电气工程和计算机科学专业的学士和硕士学位。