‹ 返回视频系列: 面向新手的人工智能从业者指南

视频系列:面向新手的人工智能从业者指南 | 第 4 部分:云中的人工智能

  • 概览
  • 资源
  • 文字稿

了解如何在英特尔® 至强® 可扩展平台上通过云部署 TensorFlow* 框架。
 

欢迎回到面向新手的人工智能从业者指南视频系列。我是 Beenish Zia。在本期节目中,我将向大家简要介绍如何在英特尔® 至强® 可扩展平台上通过云部署 TensorFlow* 框架。

本指南中使用的云平台是两个公有云服务提供商,仅用于演示目的。您可以选择支持英特尔® 至强® 可扩展平台的任何云服务提供商。可以使用各种云服务提供商(CSP)通过云部署人工智能工作负载。本指南使用 Amazon Web Services*(AWS*)进行单节点部署,使用谷歌云平台服务*(GCP)进行多节点部署。您可以使用您选择的 CSP。

我们先从单节点部署开始。如果您从未用过 AWS,登录 AWS 管理控制台之前,需要创建一个账户。然后选择 EC2 实例并对其进行配置。

在配置步骤中,您将选择用于深度学习的基本操作系统和实例类型。本指南使用 C5 实例来获得针对 CPU 优化的硬件和软件。

启动实例并完成所有必要步骤后,将连接您的实例。连接后,您可以使用 Jupyter*Notebook 运行 TensorFlow 框架或直接在命令终端上运行。无论使用哪种方法,您都可以在终端或笔记本电脑上运行英特尔® Optimization for TensorFlow* 与 Docker* 图像。有关具体步骤,请观看该系列的往期视频。

一旦框架开始运行,您可以从 GitHub* 获得 TensorFlow 性能指标评测并运行一个或多个评测。例如,您可以使用这样的命令运行 TensorFlow [卷积神经网络] CNN 性能指标评测。

需要指出的是,您的性能指标评测需要兼容正在运行的 TensorFlow 版本。我在演示中使用 GCP 进行多节点部署。如果您之前从未使用过,您需要登录您的谷歌* 账户,创建一个 GCP 项目,启用项目计费、云机器学习引擎和计算引擎 API。

完成后,您需要设置身份验证,安装并初始化云 SDK。接下来设置环境,包括打开您的 GCP 控制台并激活云 shell。然后验证谷歌云 SDK 组件,下载运行示例的代码。

谷歌托管一个公有云存储器,您可以从中获得相关训练数据。获得训练数据后,安装关联组件。为了在 GCP 上运行分布式训练,您需要设置您的云存储器,包括存储器名称和区域,然后上传您的数据文件至云存储器。

现在,整个平台已经设置完毕,可以开始在云中运行分布式训练。为此,您需要分配工作名称和输出路径,以转储您的结果,然后选择 scale-tier 参数 Standard 1,以使用基于 CPU 的所有配置。

提交工作后,您可以在 GCP 控制台上监控进度。训练完成后,您可以以相似的方式运行推理。

最后一步是清理云存储,以避免产生额外的 GCP 费用。请查看链接中提供的指南,获得通过云部署 TensorFlow 的详细信息。感谢大家收看,请继续提升自己。