‹ 返回视频系列: 面向新手的人工智能从业者指南

视频系列:面向新手的人工智能从业者指南 | 第 2 部分:裸机

  • 概览
  • 资源
  • 文字稿

了解裸机环境的定义以及如何在该环境中训练与测试单节点 TensorFlow* 框架和多节点英特尔® 至强® 可扩展平台。

欢迎回到面向新手的人工智能从业者指南。我是 Beenish Zia。在本期节目中,您将快速了解如何在单节点中训练与测试 TensorFlow* 框架,以及基于裸机的环境中的多节点英特尔® 至强® 可扩展平台。

首先,我们介绍裸机部署。小型企业和好奇的开发人员通过裸机将人工智能模型和工作负载部署在基于英特尔至强可扩展处理器的平台上。裸机的意思是您购买一台只配备基本硬件的英特尔至强可扩展系统,需要组装硬件组件,然后自己配置所有软件,包括操作系统和所有人工智能软件包。

您可以在单节点或多节点集群上部署裸机。我们首先看一下单节点部署的步骤。单节点意味着您需要一个安装最新英特尔至强可扩展处理器和所有必要硬件配置的服务器系统。

硬件配置包括选择合适的处理器 SKU,安装正确的内存 DIMM、适用的固态盘和以太网或 InfiniBand* 连接,后两者可根据需要安装。此外,开始前需要确保 BIOS 是最新版。本指南为您提供了面向硬件和软件堆栈的示例配置,希望对您有所启发。

下一步是安装操作系统。在本示例中,我们使用 CentOS*,本指南包括详细的操作系统安装步骤,以供参考。安装操作系统后,您需要配置 YUM,安装 EPEL [企业版 Linux* 附加软件包],后者为 Linux 分发版提供 100%、高质量附加软件包。最后,如果 GCC* 不是操作系统安装的一部分,安装 GCC。

安装操作系统和基本附加软件包后,接下来开始安装 TensorFlow。可使用各种方法安装框架。在本指南中,我使用虚拟环境来安装。这包括安装必要的关联组件。安装关联组件后,安装虚拟环境并激活它。在安装最新版英特尔® Optimization for TensorFlow 前,确保所有关联组件都是最新的。

现在您已经安装了 TensorFlow,需要测试环境。在本指南中,我使用 CFR 10 训练数据测试环境。训练与测试经过训练的模型需要您运行 TensorFlow 软件包中的多个 Python* 脚本。本指南包含预期结果和每个步骤的详细信息。

我们已经介绍了单节点部署,接下来介绍多节点部署步骤。多节点指的是您有一个系统集群。例如,您有两个及以上基于最新款英特尔® 至强® 可扩展处理器的服务器系统,它们由一个主机节点连接与管理。

多节点部署的前几步类似于单节点部署。主要变化出现在安装编译器之后。您需要安装 OpenMPI 和 Python 3.6,然后安装 Horovod。Horovod 有助于以分布式的方式运行 TensorFlow。

完成该操作后,训练与测试环境的其余步骤与单节点类似,本指南提供了完整的详细信息。使用单节点还是多节点主要取决于用户以及特定应用的要求。

请参阅面向新手的人工智能从业者指南,了解如何在裸机环境中部署 TensorFlow。感谢大家收看,请继续提升自己。