Article

并行软件优化三步走

提高并行软件的性能需要采用结构化的方法,充分利用开发资源,快速取得出色成效。本文将这种方法划分为三个不同阶段:  

Criado por aaron-tersteeg (Intel) Última atualização em 05/07/2019 - 10:18
Article

并行优化规划

下载 (英语 PDF, 75KB)

Criado por Diana B. (Intel) Última atualização em 05/07/2019 - 10:45
Article

使用英特尔® 线程构建模块(英特尔® TBB)实现并行化

面向英特尔® MIC 架构的编译器方法

使用英特尔® 线程构建模块(英特尔® TBB)实现并行化

概述

Criado por Ronald W Green (Blackbelt) Última atualização em 15/10/2019 - 21:23
Article

游戏行业的人工智能设计(第一部分)

The gaming industry has seen great strides in game complexity recently. Game developers are challenged to create increasingly compelling games. This series explores important Artificial Intelligence (AI) concepts and how to optimize them for multi-core.
Criado por administrar Última atualização em 12/12/2018 - 18:00
Article

循环修改增强数据并行性能

When confronted with nested loops, the granularity of the computations that are assigned to threads will directly affect performance. Loop transformations such as splitting and merging nested loops can make parallelization easier and more productive.
Criado por administrar Última atualização em 05/07/2019 - 14:48
Article

粒度与并行性能

One key to attaining good parallel performance is choosing the right granularity for the application. Granularity is the amount of real work in the parallel task. If granularity is too fine, then performance can suffer from communication overhead.
Criado por administrar Última atualização em 05/07/2019 - 19:53
Article

通过避免或消除人工相关性实现并行性

Many applications and algorithms contain serial optimizations that inadvertently introduce data dependencies and inhibit parallelism. One can often remove such dependences through simple transforms, or even avoid them altogether through.
Criado por administrar Última atualização em 05/07/2019 - 19:50
Article

优化数据结构和内存访问模式以改进数据局部性

优化数据结构和内存访问模式以改进数据局部性 (PDF 782KB)

Criado por Victoria Gromova (Intel) Última atualização em 05/07/2019 - 19:48
Article

整理您的数据和代码: 数据和布局 - 第 2 部分

Apply the concepts of parallelism and distributed memory computing to your code to improve software performance. This paper expands on concepts discussed in Part 1, to consider parallelism, both vectorization (single instruction multiple data SIMD) as well as shared memory parallelism (threading), and distributed memory computing.
Criado por David M. Última atualização em 12/03/2020 - 23:40
Article

面向 NUMA 优化应用

优化面向 NUMA 的应用 (PDF 225KB)

Criado por Última atualização em 19/03/2020 - 23:20