英特尔® OpenVINO™ 工具套件分发版助力加速基于深度学习的大规模反向运动学

简介

反向运动学 (IK) 技术诞生于机器人领域,旨在计算关节角度,将机械臂(末端器)移到具有特定自由度的目标位置(图 1)。IK 采用运动方程确定关节角度,以便末端器移动到预期的位置。IK 技术目前还应用于许多其他领域,如工程、计算机图形和视频游戏。

example of inverse kinematics
图 1.反向运动学示例。左机械臂有三个关节角度、一个末端器和目标对象。右机械臂必须确定关节角度,才能将末端器移动至目标对象。

在 3D 动画领域,通常有两种方法设置骨骼网格的动画效果。一种是使用前向运动学,将直接旋转数据直接馈送到骨骼网的骨骼中。它根据旋转数据直接移动关节或骨骼。第二种是使用 IK,控制相反方向,并将目标位置提供至骨链。之后,名为“IK Solver”的 IK 算法计算旋转数据,骨链(末端器)的端位根据这些数据到达目标位置。如果目标位置发生变化,IK Solver 重新计算旋转数据并旋转骨骼,以便末端器到达新的目标位置。

IK 动画让游戏环境中角色的动作更自然、更灵敏。例如,它可用于将角色的脚放在不平坦的地面或楼梯上。还可以让手握住移动的物体。

有两种传统的 IK 解决方案。分析方法使用闭合方程求单一解,很难在链路超过三个的情况下计算闭合形式(图 2)。数值方法以迭代的方式使用误差函数求解,直至误差达到最小(图 3)。

analytical approach of i k solution
图 2.IK 解决方案的分析方法。θ1 和 θ2 用闭合方程计算。

numerical approach of i k solution
图 3.IK 解决方案的数值方法。θ1、θ2 和 θ3 用误差函数求解。

对比这两种方法,它们各有利弊。数值方法提供的 IK 质量比分析方法好,但所需的计算时间比分析方法长。虽然这两种方法都有优点,但在 PC 环境中,它们都无法实现高质量、大规模 IK。这是因为高质量 IK 解决方案需要复杂的计算和大量计算资源,因此很难支持 PC 环境中的大规模 IK。在大型多人在线角色扮演游戏 (MMORPG) 应用中,如果想设置大量 3D 角色的动画效果,我们需要采用另一种方法来支持 PC 环境中的高质量 IK 动画(图 4)。

n c soft siege warfare
图 4.NCSOFT* 的围攻战示例。在 MMORPG 游戏应用中,需要设置大量 3D 角色的动画效果。

最新研究表明,深度学习和神经网络工具对角色控制和人体移动非常有用。1, 2, 3。我们为大规模 IK 解决方案引入了一种新方法。在本文中,我们考虑将全身 IK 应用于 MMORPG,设置 100 个角色的动画效果,每个角色有 4 个末端器和 23 个关节(图 5)。全身 IK 将 IK Solver 应用于整个骨架,而不是某一个骨链。

full body i k animation
图 5.为 100 个攀登悬崖峭壁的角色设置全身 IK 动画的演示截图。每个角色有四个末端器(双手双脚)和 23 个关节。

为解决大规模角色动画的 IK 问题,我们使用了两个深度神经网络 (DNN)。本文首先介绍两个 DNN 的架构,然后探讨为满足产品质量和性能水平所需的优化方法。对于性能优化,我们仅考虑 PC 客户端环境中的游戏应用,其中图形渲染和 DNN 推理任务同时存在。首先,我们在同时处理 DNN 推理任务和游戏工作负载时,比较 CPU 和 GPU。接下来,我们比较不同 DNN 库的性能,如 NumPy*、TensorFlow*、面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN)和英特尔® OpenVINO™ 工具套件分发版4。最后,我们将介绍如何更改批处理流程,及其对性能的影响。

文中所述的项目由 NCSOFT* 主导,包括构思、DNN 模型设计,以及测试应用开发。英特尔提供支持,包括测试、使用英特尔® OpenVINO™ 工具套件分发版进行优化,以及性能分析。

基于深度学习的 IK Solver 的结构

我们的 IK Solver 主要由两个 DNN 组成。它获取当前手(两个末端器)、当前脚(两个末端器)、下个目标手(两个目标位置)和下个目标脚(两个目标位置)的数据,作为输入。它为两秒的角色动画生成 60 帧移动数据,作为输出(图 6)。

i k solver architecture overview
图 6.结构概览。左:IK Solver 以四个当前位置和 4 个下一目标位置为输入。中:输入数据通过由两个 DNN 组成的 IK Solver。右:IK Solver 为两秒的角色动画生成 60 帧移动数据,作为输出。

我们最初使用一个 DNN 生成运动,但它要变得很大,才能同时推断和生成所有运动。输出结果不令人满意。此外,计算成本大,输出运动质量低。因此,我们将工作负载分散到两个 DNN 中。

第一个 DNN 创建动画的轨迹数据(角色移动路径的五个点)。第二个 DNN 创建动画的姿势数据(骨骼的 23 个关节旋转值)。在两个 DNN 之间,我们使用曲线拟合步骤来平滑轨迹数据(图 7)。

d n n architecture detail
图 7.结构详情。第一个 DNN 创建动画的轨迹数据,第二个 DNN 创建动画的姿势数据。在两个 DNN 之间,我们使用曲线拟合步骤来平滑轨迹数据。

第一步,将输入数据发送至 DNN,并生成根和四个末端器(双手双脚)的轨迹。轨迹由 60 个连续的位置数据组成,分别对应 60 帧单独的运动。DNN 输出中通常会有一些噪声,小型 DNN 中的噪声往往更大。轨迹 DNN 的输出中也有导致运动颤抖的噪声。第二步,我们使用 Cubic Hermite Spline5 曲线拟合解决方案将噪声降到最小。最后一步,对于每个 60 运动帧,姿势 DNN 接收通过曲线拟合步骤平滑的根和四个末端器位置,并生成 23 个关节角度(构成一个姿势)。从结构的角度看,我们做出了两个重要贡献。首先,我们将一个大型 DNN 分成两个轻量级 DNN,以显著提升性能。然后,我们增加了曲线拟合步骤,通过降低轨迹中的噪声提高 IK 质量。

训练数据

通常,DNN 只有用大量高质量训练数据进行训练后才执行推理任务。在我们的项目中,近 10,000 高质量运动数据用于训练轨迹 DNN 和姿势 DNN。因为几乎不可能直接从运动捕捉设备处获取数量如此庞大的运动数据,所以我们使用雅可比方法(Jacobian method,一种数值方法)6 生成运动数据(图 8)。

training data generation
图 8.生成训练数据。首先手动创建参考运动。然后根据参考运动随机安排末端器和目标位置。最后用数值方法生成其他运动数据。

为生成训练数据,我们用最合适的方式手动创建一种参考运动。然后根据参考运动随机排列 10,000 个位置集(每个位置集包含 4 个末端器和 4 个目标位置)。最后我们将一个参考运动和各个位置集组合起来,并使用数值方法生成运动数据。

现在,我们使用 10,000 运动数据,借助深度学习框架(如 TensorFlow)在专用服务器上训练两个 DNN。训练 DNN 后,我们将这两个 DNN 部署在游戏客户端上。部署之后,IK Solver 将在游戏客户端上执行推理任务。

 

IK 质量对比

本节将对比 IK Solver 的动画质量和 Unreal Engine* 示例的典型双骨骼 IK 解决方案结果。应用相同的轨迹数据,我们发现在几个身体关节处,IK Solver 中的移动更加自然(图 9)。

i k quality comparison
图 9.质量对比。左:角色动画使用双骨骼 IK。右:全身 IK Solver 用于角色动画,显示更自然的运动。

在图 9 中,左侧的角色收胳膊动作不自然。双骨骼 IK 可能生成意想不到的运动,全身 IK Solver 生成的运动更自然,如图右侧所示。

优化:CPU 对比 GPU

本节将介绍游戏应用和 IK Solver 的推理任务中常见的工作负载特征。通常而言,游戏应用要求极低的延迟,因为快速响应是游戏提供良好用户体验的关键因素。任何类型的游戏延迟都会破坏用户体验。对于旨在实现高端图形质量的游戏,GPU 资源通常忙于执行图形渲染任务,而多核 CPU 资源剩余较多(托管渲染线程的内核 0 除外)。

至于 IK Solver 推理任务的工作负载特征,它使用的神经网络和批量尺寸极小。每次游戏循环迭代期间,都需要使用 IK 动画为每个游戏角色执行推理任务。除了绝对硬件性能外,工作负载本身对当前可以频繁执行小型推理任务的 CPU 架构非常友好。

考虑到常见游戏和 IK Solver 的推理任务的工作负载特征,我们可以假设使用 CPU 处理推理任务是提升整体性能的更好选择。为了验证这一假设,我们评估了三款商业游戏的整体性能。我们用帧时间(毫秒)和推理任务数量作为性能指标。我们玩这三款商业游戏,其中 CPU 和 GPU 处理推理任务,同时对比性能指标。请注意,这种动画推理计算实际上并不驱动受测游戏的动画;相反,它是一种代理工作负载配置,用于模拟推理计算如何影响系统性能。运行时测量使用表 1 中的测试机器 A 完成。

表 1.测试机器 A 的系统配置。

CPU英特尔® 酷睿™ i7-6700K 处理器。
GPUGPU NVIDIA* GTX 1080
内存16 GB
操作系统Microsoft Windows® 10

测量这三款游戏的帧时间之前,我们首先查看主要游戏播放期间 CPU 和 GPU 的利用率(图 10)。

c p u  and g p u utilization without i k inference task
图 10.测试机器 A 上没有 IK 推理任务时的 CPU 和 GPU 利用率。

观察结果,我们发现在游戏播放期间,多核 CPU 剩余较多,投入使用的是大部分 GPU 资源。

为了更详细地了解增加 DNN 推理任务后如何影响这三款游戏的性能,我们首先测量没有 DNN 推理任务时的游戏延迟,以此为基准。之后,我们分别在 GPU 和 CPU 上以单独 OS 进程形式运行基于 TensorFlow 的推理任务,测量游戏延迟(图 11)。游戏延迟是指处理一帧所用的帧时间。

latency change with i k inference tasks
图 11.测试机器 A 上处理 IK 推理任务时的延迟变化。蓝条显示没有推理任务时的帧时间,红条显示 GPU 处理推理任务时的帧时间,绿条显示 CPU 处理推理任务时的帧时间。

观察结果,在 CPU 上处理推理任务只稍微影响了帧时间,但是将推理工作负载移到 GPU 上后,帧时间大幅延长。

我们还测量了运行游戏时 GPU 和 CPU 上的推理吞吐量(图 12)。推理吞吐量是指一秒内所处理的推理任务数量。

 

inference throughput on g p u and c p u
图 12.测试机器 A 上 GPU 和 CPU 的推理吞吐量。红条显示 GPU 每秒处理的推理数量,绿条显示 CPU 每秒处理的推理数量。

观察结果,CPU 上的推理吞吐量更高,因为在 GPU 上处理推理任务和播放游戏会相互竞争 GPU 资源。在这种情况下下,我们选择 CPU 处理推理任务并专注于 CPU 优化,以提高推理吞吐量。

优化:DNN 库

在本节中,我们将测量不同 DNN 库的性能:Naïve C++ (OpenMP*)、NumPy (OpenBLAS)、TensorFlow (Eigen* 1.12.0) 和英特尔® OpenVINO™ 工具套件分发版 (2018 R5) 的推理引擎。所有运行时测量均使用表 2 中的测试机器 B 来完成。

表 2.测试机器 B 的系统配置。

CPU英特尔® 酷睿™ i9-7900X 处理器
内存16 GB
操作系统Ubuntu* 16.04 LTS

我们将平均响应时间(延迟)作为每种库的性能指标。为了观察性能扩展,我们根据内核数量测量延迟(图 13)。延迟是指所有推理任务创建 100 次 IK 运动的处理时间。

average latency on test machine b

图 13.测试机器 B 上 DNN 库的平均延迟。蓝条显示 4 核配置下各库完成推理任务的总处理时间。红条显示 6 核配置的延迟,绿条显示 8 核配置的延迟,紫条显示 10 核配置的延迟。

如图 13 所示,英特尔® OpenVINO™ 工具套件分发版的推理引擎性能最高,延迟最短。

至于将 DNN 模型部署到游戏客户端的常见流程,模型会首先在各种环境中进行训练。然后,模型优化器将经过训练的模型转换为中间表示 (IR) 格式。最后,推理引擎加载 IR 并在游戏客户端上处理推理任务(图 14)。

免费版英特尔® OpenVINO™ 工具套件分发版支持用户优化深度学习模型,以加快英特尔® 处理器上的执行速度。该工具套件从 Caffe*、Apache MXNet* 和 TensorFlow 导入经过训练的模型,无论用于训练模型的硬件平台是哪种。开发人员可使用统一应用编程接口快速集成各种经过训练的神经网络模型和应用逻辑。该工具套件可通过降低解决方案的整体占用空间,以及优化所选的基于英特尔® 架构的硬件性能,最大限度地提升推理性能。

open vino incorporates the deep learning deployment toolkit
图 14.英特尔® OpenVINO™ 工具套件分发版集成了深度学习部署工具套件 (DLDT)。DLDT 主要包含模型优化器和推理引擎。

运行英特尔® VTune™ 放大器后,我们发现 Naïve C++ 以 OpenMP 库,NumPy 以 OpenBLAS 库,TensorFlow 以 Eigen 库,推理引擎以 MKL-DNN 库为其中一种热点函数(图 15)。

hotspot functions for naïve c plus plus, numpy, tensorflow and inference engine
图 15.Naïve C++ 版本、NumPy 版本、TensorFlow 版本和推理引擎版本的五大热点函数。

优化:批处理

如果多次处理相同的操作,显然,我们可以统一分组多个操作,然后批处理一次,以此提高吞吐量。例如,如果有四个包含三次输入和三次输出的完全连接层,它们可以在一个批次中处理,因为每个实例的形状都相同(图 16)。

batch processing example
图 16.批处理示例。通常,统一分组操作并批处理一次,可显著提高吞吐量。

本节将介绍如何更改批处理流程,以显著提高吞吐量。早期的 IK Solver 无法批处理角色的请求。在游戏应用中,有多个角色请求 IK Solver 生成 IK 动画姿势数据。在每个游戏循环中,每个动画角色都提出下一帧请求。IK Solver 逐一处理每个请求非常耗时,因此我们添加了批处理管理器 (Batch Manager),高效收集和管理向 IK Solver 提出的请求(图 17)。

workflow change in batch type
图 17.以批处理形式更改工作流程。左:每个角色请求专用 IK Solver 生成 IK 动画姿势数据。右:所有角色请求一个可批处理 IK 请求的批处理管理器。

如本文第 2 节所述,IK Solver 主要包含三个步骤:轨迹、曲线拟合和姿势。借助批处理管理器,轨迹和姿势步骤可批量完成。而拟曲线拟合步骤无法批量完成,因为它以立方多项式的形式使用 Cubic Hermite Spline。图 18 定义了 Cubic Hermite Spline 的多项式。

the polynomial of the cubic hermite spline
图 18.Cubic Hermite Spline 的多项式。t 可以替换为 01 之间的任何值以获取曲线上的一个点。

计算 p(t) 很简单。但为 100 个角色创建运动需要 25,000 次计算,我们需要更高效的计算方法。通常情况下,可以在一个矩阵表中表示多个多项式。例如,可以有一个包含六个多项式的矩阵,求解对应 t0t5 的 6 个点(图 19)。

multiple polynomials in a matrix form
图 19.矩阵表中的多个多项式。一个矩阵可以表示 6 个多项式,求解 p(t0)p(t5)。由于 t0t5 的值是常数,因此矩阵预先相乘之后,灰色阴影部分也会成为常数。

在此矩阵表中,矩阵预先相乘后,灰色阴影部分可视作常数,并且在运行时通过单次矩阵相乘可获得 6 个点。因此,我们可以像轨迹和姿势步骤一样,批量完成曲线拟合步骤(图 20)。

 

curve fitting in a batch type
图 20.批处理类型的曲线拟合。左:曲线拟合步骤使用多项式形式的 Cubic Hermite Spline 算法。右:算法转换为矩阵表达式以执行批处理。

我们评估每次用于批处理的转换,以了解它如何提升性能(降低延迟)。工作负载是为 100 个角色生成 60 帧运动数据(图 21)。

latency for generating a hundred characters motion data for sixty frames
图 21.测试机器 B 上为 100 个角色生成 60 帧运动数据的延迟。灰条显示在没有批处理和多项式形式曲线拟合情况下完成推理任务的总处理时间。橙条显示执行批处理和多项式形式曲线拟合的延迟。蓝条显示执行批处理和矩阵形式曲线拟合的延迟。

在第一次测试中,我们在不执行批处理的情况下逐一计算推理任务;曲线拟合采用多项式形式。它的速度极慢。在第二次测试中,我们在执行批处理的情况下计算推理任务;曲线拟合采用多项式形式。延迟得以显著降低。最后,我们将曲线拟合步骤的多项式形式转换为矩阵形式,并批处理所有推理步骤。延迟进一步降低。

为了将最终结果转换为标准性能指标 — 帧时间,我们将最终延迟分为平均轨迹和曲线拟合时间以及平均姿势时间(图 22)。

generating a hundred characters motion data
图 22.测试机器 B 上为 100 个角色生成运动数据的延迟转换为帧时间。蓝条显示批处理和矩阵形式曲线拟合的延迟。橙条显示轨迹和曲线拟合步骤占据最终延迟的时间。绿条显示姿势步骤占据最终延迟的时间。红条显示最长帧时间。紫条显示平均帧时间。

轨迹和曲线拟合步骤一次执行 60 帧,姿势步骤每帧执行一次。我们用轨迹和曲线拟合时间加上每帧的姿势时间,得出最长帧时间(1.19 毫秒 = 0.7 毫秒 + (29.63 毫秒 ÷ 60))。我们用最终延迟除以 60,得出平均帧时间(0.51 毫秒 = 30.33 毫秒 ÷ 60)。最终结果超过了我们的预期,我们之前的目标是 5 毫秒。

总结

我们介绍了如何采用深度学习方法生成大规模反向运动学数据。我们将一个大型 DNN 分成两个轻量级 DNN,并采用曲线拟合处理方法,降低轨迹 DNN 中的噪声。在性能优化方面,我们发现,相比在 GPU 上处理推理任务,在 CPU 上处理推理任务对整体游戏性能几乎没有影响。这通常是因为 GPU 已经超负荷处理其他工作负载,而多核 CPU 还有闲置的内核或线程。之后我们评估了不同 DNN 库的性能。最终我们发现,批处理推理任务能够显著提升性能。

就英特尔® OpenVINO™ 工具套件分发版的推理引擎而言,我们发现在 CPU 上处理推理任务能够带来显著的性能优势。未来,我们可能会探索使用英特尔® 处理器显卡处理这些工作负载。

NCSOFT 开发了一款简单的演示游戏,其中 100 个游戏角色借助 Unreal Engine* 4 和我们的 IK Solver 攀登悬崖峭壁。我们验证了每个角色在接触悬崖表面时如何更精确地移动他们的双手双脚。NCSOFT 计划不久之后将 IK Solver 部署在商业游戏中。

关于作者

英特尔

Tai Ha 是英特尔的高级应用工程师,他在软件开发领域拥有超过 10 年的丰富经验,在面向数据中心、媒体和游戏应用的软件优化方面拥有 13 年的丰富经验。

Kyle Park 是英特尔的高级应用工程师,他在云服务的后端服务器领域拥有超过 10 年的工作经验,在面向 AI、数据中心、高性能计算 (HPC) 和游戏应用的软件优化方面拥有 9 年的丰富经验。

Jeff Park 是英特尔的高级技术咨询工程师。6 年来他一直致力于优化和调试英特尔® 系统和软件。在此之前的 14 年时间里他担任过嵌入式软件开发人员和系统调试工程师。

NCSOFT* AI 中心,游戏 AI 实验室

Dr. Hanyoung Jang 是全球游戏公司 NCSOFT 的运动 AI 团队的队长。他的研究领域涵盖机器人、通用图形处理器 (GPGPU)、计算机显卡和 AI。目前他主要致力于通过深度学习创建自然的角色动画。

Hyoil Lee 是 NCSOFT AI 系统团队的队长。获得首尔高丽大学的计算机科学硕士学位后,他在软件开发、嵌入式系统和算法优化方面积累了 10 年的丰富经验。在过去的 3 年,他一直致力于设计和开发机器学习系统。

Dongwon Yoon 是 NCSOFT 的高级游戏 AI 研究员。Dongwon 致力于服务器工程设计和服务运营,拥有超过 10 年的丰富经验。在过去的几年,他开发了与 AI 相关的解决方案,专注于优化深度学习推理和模拟强化学习系统。

脚注

1.Katerina Fragkiadaki,Sergey Levine,Panna Felsen 和 Jitendra Malik.人类动力学递归神经模型.《IEEE 国际计算机视觉大会会议记录》,第 4346-4354 页,2015 年.

2.Daniel Holden,Taku Komura 和 Jun Saito.面向角色控制的相位函数神经网络.ACM Transactions on Graphics (TOG),36(4):42, 2017.

3.Julieta Martinez,Michael J Black 和 Javier Romero.On Human Motion Prediction Using Recurrent Neural Networks. arXiv 预印本 arXiv:1705.02445,2017 年.

4.英特尔® OpenVINO™ 工具套件分发版

5.Gerald Farin.Curves and Surfaces for CAGD:A Practical Guide(第 5 版).Morgan Kaufmann Publishers Inc., San Francisco, CA, USA,2002 年.

6.Samuel R. Buss.采用雅可比转置、伪逆和阻尼最小二乘法的反向运动学简介.《IEEE 机器人和自动化杂志》17(1),2004.

有关编译器优化的更完整信息,请参阅优化通知