Article

利用英特尔® SIMD 流指令扩展和英特尔® 高级矢量扩展指令集的图像处理加速技术

This article details optimized implementations of data transformations and algorithms together with analysis comparing performance and providing speedup measurements for Intel® SSE optimized code and estimates for Intel® AVX optimized code.
作者: Larsson, Petter (Blackbelt) 最后更新时间: 2018/05/25 - 15:30
Article

英特尔® MKL 中的英特尔® AVX 优化代码

Starting from Intel MKL 10.3, AVX code will be dispatched as one of the platforms in MKL and does not require special activation as in MKL 10.2.
作者: Vipin Kumar E K (Intel) 最后更新时间: 2019/03/27 - 12:20
Article

诊断信息 15532: 循环无法进行矢量化处理:编译时间不足妨碍了循环进行优化

产品版本: Intel(R) Visual Fortran 编译器 XE 15.0.0.070

原因:

使用 Visual Fortran 编译器的优化选项 ( -O2  -Qopt-report:2 )  时出现矢量化报告,表示编译时间不足妨碍了优化。

作者: Devorah H. (Intel) 最后更新时间: 2019/07/05 - 14:23
Article

安装英特尔® Theano*软件优化包和支持工具

Theano* is a Python* library developed at the LISA lab to define, optimize, and evaluate mathematical expressions, including the ones with multi-dimensional arrays. Theano can be installed and used with several combinations of development tools and libraries on a variety of platforms. This tutorial provides one such recipe describing steps to build and install Intel-optimized Theano with Intel®...
作者: Sunny G. (Intel) 最后更新时间: 2018/05/08 - 10:50
Article

英特尔® MKL-DNN:第一部分 – 库的概述和安装

英特尔 MKL-DNN 教程系列的开发人员简介从开发人员的角度介绍了英特尔 MKL-DNN。第一部分提供了丰富的资源,详细介绍了如何安装和构建库组件。
作者: Bryan B. (Intel) 最后更新时间: 2018/05/08 - 10:50
Article

英特尔® MKL-DNN:第二部分 – 代码示例创建与详解

在本篇中 (系列教程第二部分),将介绍如何配置集成开发环境 (IDE),以创建 C++ 代码示例,并提供基于 AlexNet* 深度学习拓扑的代码详解。
作者: Bryan B. (Intel) 最后更新时间: 2018/05/23 - 11:00
Article

最大限度提升 CPU 上的 TensorFlow* 性能:推理工作负载的注意事项和建议

本文将介绍使用面向 TensorFlow 的英特尔® 优化* 进行 CPU 推理的性能注意事项
作者: Nathan Greeneltch (Intel) 最后更新时间: 2019/08/09 - 02:02
Article

准确预报各种天气:英特尔五步框架帮助实现代码现代化

天气预报是现代生活的一个重要方面,它可在出现恶劣天气状况时即时发出警报,从而帮助有效制定计划和安排物流,并可保护生命财产安全。 但是,准确预测长期的天气情况非常复杂,通常涉及到大量数据集,并且要求对代码进行优化以利用最高级的计算机硬件功能。

作者: 最后更新时间: 2019/09/30 - 17:28
Article

评估使用 HEP 工作负载的多核平台的能效和性能

As Moore’s Law drives the silicon industry towards higher transistor counts, processor designs are becoming more and more complex. The area of development includes core count, execution ports, vector units, uncore architecture and finally instruction sets. This increasing complexity leads us to a place where access to the shared memory is the major limiting factor, resulting in feeding the cores...
作者: Mike P. (Intel) 最后更新时间: 2019/10/02 - 15:20