摄影测量技术和立体捕捉

individuals inside spinning base with mounted cameras

作者:Underminer Studios 有限责任公司 Timothy Porter
图像编辑:Alex Porter

目前,视频、增强现实 (AR) 和虚拟现实 (AR) 通信所采用的技术在信息交换方面有所欠缺,通常需要额外的资源来帮助传递信息。这将耗费更多时间和成本,最终降低平台的效率,因此,我们需要更好的解决方案。

立体捕捉与摄影测量使用来自摄像头与传感器的图像来创建 3D 网格,后者可无缝整合至游戏引擎、虚拟现实头显、增强现实环境和融合现实 (MR) 世界,对用户造成显示深层次的心理影响。对于之前使用计算机生成的任何 (CG) 素材,您都能将其替换为立体对象,以增强沉浸感。

本文比较了立体捕捉与摄影测量,并深入研究了技术规格、封装尺寸、捕获选项、计算需求和成本分析。本文还介绍了每种技术及其用例的优势和复杂性,以及创建面向数字格式的沉浸式现实的交互与保存,包括虚拟现实、增强现实与混合现实。


图 1.有关虚拟现实、增强现实与融合现实的说明

摄影测量与立体捕捉技术

摄影测量的定义是使用摄影技术“进行测绘,以确定物体间的距离。”早在 19 世纪中期,研究人员发现至少需要使用两张图像,才能确定从单个相机到照片中物体的视线,并由此推断 3D 数据。

计算摄影测量已经沿用了数十年,它极大增加了这项技术的应用,这和人们的预期一致。立体捕捉是近期出现的创新技术,根据 Techcrunch* 的说明,它从不同视角记录了真人的镜头,“然后使用软件分析、压缩并重建完全立体的 3D 人物的所有视角。”

摄影测量与立体捕捉是两种截然不同的技术,但是在图像处理方面,它们的软件拥有大部分共通之处。

拍摄多张照片后,系统检测一个系列中每张图像的兴趣点。然后返回检查图像,并将某张图像的兴趣点匹配不同图像的其他兴趣点。这些点匹配后,它将在 3D 空间中创建一个同样包含颜色信息的点。对 1000 个(或数百万个)兴趣点重复该操作,在运行过程中调整网格,创建一个稀疏点云。目前,这是该流程最重要的部分。


图 2.摄影测量的工作原理。

稀疏点云是其他流程的核心。在稀疏云生成过程中,您通常可以追溯失败模型的故障。然后通过其他系统发送该稀疏点云,将其转换为密集点云,它最终会成为高多边形网格。对该网格进行优化,提高它的平滑度,以删除不属于主网格的点。最后得到了更容易处理的美观平面。

torus shaped sparse point cloud
图 3.稀疏点云是创建摄影测量与立体捕捉不可或缺的一部分。

立体捕捉(从一帧或一系列帧中创建点云的流程)和立体视频(以视频格式播放捕捉的立体)在过去有互相矛盾的定义。这些领域的变化速度之快,使开拓该领域的专业人士难以达成共识。数年来,该流程演变为使用包含深度信息(RGB-D 相机)的相机,现在情况已经发生了变化。深度相机使用二级技术以多种不同的方式创建深度信息,从红外线 (IR) 到立体 disparagement,激光落在中间的某处。现在可以使用许多其他技术创建深度。如果深度能与任何技术或相机加以区分,便可用于立体捕捉物体并创建 CG 网格。从捕获到点云的深度是首个得到广泛认可的立体术语定义方法。以下部分介绍了立体视频扫描仪,上文与多相机的使用相同。


图 4.摄影测量点云能做什么?

这些扫描仪的输出通常分为三部分:图像、深度图和稀疏点云信息。深度图和稀疏点云是同一数据的不同部分。稀疏点云输出是包含特定点的 RGB 和 3D 信息的文本文件,深度图仅提供基于相机相对位置及视图的距离信息。图像信息与相同视图的深度图可在稀疏点云中创建相同的数据与信息。此时,在生成流程中,大多数管线合为一体,来自 RGB-D 相机与 RGB 相机的数据在处理中无法区分。接下来执行清除、密集点云生成、网格创建、平滑化和优化。

An RGB-D scanner used for volumetric capture
图 5.Structure Sensor*:在立体捕捉中使用 RGB-D 扫描器。

摄影测量的类别

可通过几种不同的方法创建摄影测量。最常见的方法是对准即拍式系统,用户使用单台相机拍摄景色或物体。其他摄影测量类别使用多台相机和视频到摄影测量。

对准即拍摄影测量

使用对准即拍摄影测量时,每次变换一个位置,以充分覆盖整个区域,避免网格出现孔洞或纹理问题。该设置价格低廉,甚至可以在移动设备上进行捕捉,同时将处理迁移至 PC。该系统的巨大优势在于可随处捕捉网格。当您充分理解对准即拍系统时,便可在极短的时间内获得令人满意的网格结果。它还便于携带,所需的设备最少。

为了简化捕捉流程,为管线添加一个旋转底座,如图 6 所示。在旋转底座上设置物体,针对每张新照片移动数度,以确保系统具有相同的光照条件以覆盖整个模型。接下来,抬高或降低相机三脚架,从多个角度捕捉素材。这减少了灯光成本,缩短了设置时间,同时生成了持续的结果。

individuals inside spinning base with mounted cameras
图 6.添加旋转底座简化了重复的相机拍摄。

对准即拍技术需要您以各种方式围绕网格移动。如果您错过了某个角度,从特定视角来看,网格是无效的。同时,该技术几乎无法捕捉运动物体。拍照时,静止物体也会受到外力的影响,如被风卷起的树叶。抛开缺点不说,对于摄影测量新手,对准即拍是最佳捕捉技术。了解网格生成的工作原理以及响应输入对网格生成的成功至关重要。

Olympus Camera
图 7.对准即拍技术需要高端相机。

多相机摄影测量

多相机摄影测量是一种更为先进的摄影测量类别,您可以从多个位置拍摄物体照片,这与对准即拍系统相同。但是多相机摄影测量通过更多相机模拟相机移动,免除了工作人员在多个位置摄影的重复劳动。

多相机摄影测量有很多优势:

  • 支持更快地捕捉物体
  • 支持捕捉真正的时间片段
  • 更轻松地捕捉运动物体
  • 支持生成运行的网格

由于相机是静止的,因此,网格和稀疏点云的质量提高了。

如果团队捕捉了大量图像,多相机摄影测量将花费更少时间计算相机位置与角度。同时,可记录计算结果,以供未来的设置使用,这极大减少了处理时间。

但是请谨记,多相机摄影测量的成本更高,更复杂,并且不容易携带,大多数多相机系统需要至少 40 台相机来创建可信的结果。这增加了捕捉的难度和设置的成本。所有快门必须精确同步,才能生成最佳结果。40 台或更多相机至少需要 3,000 瓦功率,这本身降低了便携性。因此,大多数系统设置在专用工作室中。

 

models within a circle of multiple cameras
图 8.具有视觉测量功能的多相机摄影测量。

视频到摄影测量

另一项常用技术是视频到摄影测量。它结合了两种摄影测量方法,产生了不好的结果,因此,这部分内容主要作为一个警告。视频到摄影测量通常在手机或 GoPro* 相机上捕捉。相机录制时,您将在某个区域内从一个位置移动到另一个位置。借助当前的技术和可用的软件,该流程生成低于标准的结果和低质量网格。即使改进了技术,采用滚动快门和低质量镜头的相机本身也会引发质量问题(例如,使用低端无人机在低空捕捉)。不建议使用视频到摄影测量,尽管它易于使用。

A drone
图 9.搭载小型相机的无人机,用于视频到摄影测量。

摄影测量用例

摄影测量在不同行业有多种用途。档案保管员可用它研究并安全存档脆弱物品或历史文物。在娱乐行业,它可用于创建游戏或电影。现在,法医学可利用摄影测量重建犯罪现场。

物品保存的用法和技术

易碎物体可以以数字形式永久保存。学生和科学家可同时在多个教育机构研究这些物品,无需担心标本腐烂或毁坏。不易运输的科学标本(如遗迹化石)风险比以前小得多。摄影测量出现之前,如果您想研究动物足迹、痕迹和洞穴,您需要将它们从地下挖出来,这使损坏的可能性急剧上升,或者向洞穴中浇筑石膏或其他硬化剂,等到凝固后,将模型带回实验室。在考古研究中使用石膏模型存在阻碍更先进方法的危险。随着科技的发展与进步,可对数字形式的对象进行重新检查。

在研究界,使用单台相机是最常见的摄影测量捕捉形式。可通过添加移动基座捕捉所有方向并提高结果的一致性。

skull
图 10.捕捉人类头骨进行医学研究。

面向娱乐的捕捉技术

为了防止高片酬演员受伤,避免制作结束前发生意外死亡,视频游戏与电影通常使用通过摄影测量捕捉的数据来创建数字网格。这些网格可随时通过绑定、清除和重新布光进行 CG,然后添加至场景。数字网格使拍摄不可能完成、危险或空中镜头的替身演员的数量翻了一番,如电影《黑客帝国》中的时间切割或子弹时间特效。为了捕捉这种效果,将多台相机呈弧形摆放在拍摄该镜头的演员周围。

电影或游戏中最常用的摄影测量类别为多机摄影测量和动作捕捉。通过阵列以数字的方式捕捉角色,然后进行绑定。(绑定是在网格内创建结构的流程,动画师可以操控它高效、准确地移动网格。)角色的移动受动作捕捉的驱使。有时,也可以通过摄影测量捕捉场景。如今,大多数依赖 CG 的电影均使用某种形式的摄影测量。

犯罪重建

摄影测量越来越多地用于重建犯罪现场,保护已有的现场和证物,以供未来检查。通常情况下,案件发生几天后,照片和证据袋是仅剩的物品。检察官或调查人员需要拼凑犯罪现场时,如果他们无法重返现场,使用虚拟现实头显和通过摄影测量捕捉的位置将按照案件发生时的原样重建现场。标有尺寸的完全捕捉位置可提供准确的结果,支持从各个视角查看物体。就算您亲临实际地点,也不可能在不破坏证据的情况下观察如此细致。可重新调整物体,使其覆盖其他物体,这样有助于更全面地了解可能发生的事件。刑警可分析现场和证物,不用担心污染或毁坏证据。

立体捕捉类别

与历史悠久的摄影测量理论相比,立体捕捉是颇具颠覆意义的后起之秀。硬件选择多样且多变;英特尔® 实感™ 深度摄像头,Occipital 的 Structure Sensor*、Microsoft Kinect*(已弃用)等低成本选项均提供之前非常昂贵、高端的扫描仪才具有的功能。

individual wearing a VR headset
图 11.Vive* 虚拟现实设置,配备护目镜和控制器。

2018 年 1 月,Variety 报道了名为英特尔® 工作室的全新专用立体视频捕捉设施,“英特尔想帮助好莱坞采用下一代沉浸式媒体……本质上生产面向虚拟现实、增强现实等的高端全息内容。”

Volumetric capture studio
图 12.全新立体捕捉工作室(英特尔)内部。

窄带与宽带激光扫描仪

激光是最常用的立体捕捉技术。鉴于激光是一个非常宽泛的话题,本文仅简要介绍市场上出售的激光扫描仪的小分支。

激光分为窄带和宽带。生成窄带的强度范围从 1 类到 4 类不等,1 类表示自身安全,4 类会对眼睛和皮肤造成永久损伤。商用激光扫描仪以 2a 类居多,2a 位于 2 类光谱的末端,意味着短时间内观看不会造成永久损伤(尽管总会建议用户在使用激光扫描仪时采取安全预防措施,但连续观看 1,000 秒才会损伤视网膜)。窄带激光扫描仪生成更准确的结果,在远距离外也能精确到微毫秒。该技术的缺点包括成本、扫描时间和文件格式。

主要制造商生产的高质量扫描仪可轻松节省数百美元成本。扫描一个房间并生成准确结果通常需要超过 24 小时。如果房间内的任务物体在扫描过程中移动,会出现重影或其他问题。另一个成本因素是文件格式。大多数公司会创建自己的扫描数据文件格式。因此,您通常不得不使用该公司的专有查看与转换软件,这将增加成本与管线复杂度。IEEE 倡导标准化的文件格式,它们已经在专业消费者和学术研究领域的应用方面取得了显著进步。由于设备难以设置与维护,它更适合超高端的专业使用。

宽带激光包括低于可见光的红外线 (IR)。IR 技术用于创建每秒发出多个脉冲的宽波束激光,并附有图案。激光从物体上反射后,该图案将被物体表面扰动。红外摄像头检测到图案的中断,并从中快速计算深度。Microsoft Kinect* 是该领域内最早的商用单元之一。Microsoft Kinect 存在二次照明(尤其是阳光)、反射面和检测用户等问题。微软* 公司在稍后的软件与固件更新中修复了这些问题,但是该单元最终仍被弃用。开发人员喜爱这款随时可用的廉价红外传感器,以至于最流行的传感器连接软件 (OpenNI*) 拥有多个专门面向其使用与连接的分支。

甚至更先进的系统(如英特尔实感深度摄像头 D400-系列)也可以关闭 IR 发射器,使用阳光或任何来自外部的 IR。这一经济高效的解决方案可解决长期困扰低端传感器的主要问题 - 阳光。大多数 IR 系统仅创建自己的 IR 图案;英特尔系统接受从任何物体反射的 IR,并检测物体的位置。该技术拥有明显的优势,如提高深度检测的准确性,加速处理和减少所需的相机。相比单相机设置,缺点是经常生成噪声结果,边缘缺少大量细节以及增加了技术上的复杂程度。

The Intel® RealSense™ Depth Camera D400-Series
图 13.英特尔®实感™ 深度摄像头 D400 系列能将阳光用作红外光源。

结构化光成像扫描仪

另一个最常用的立体捕捉类别使用结构化光成像。Occipital Structure Sensor 就是这样一款扫描仪。这些扫描仪能以极快的速度创建高强度光束,后者可在任何物体表面上创建图案。系统根据接受返回光线的时间和图案的扰动程度来预测物体上某一点到相机的距离。

结构化光成像扫描仪使用了许多 IR 扫描仪的概念,但是这项技术受光线问题的影响较小(即使强光导致跟踪损失)。这些扫描仪具有和 IR 扫描仪相同的难度和易用性,是针对红外线的光敏性问题开发的。

立体播放

以视频的形式立体播放结合了 IR 和结构光技术,将摄影测量概念向前推进了一步,以制作全数字化的移动物体。该技术在每帧创建一个网格。但是扩展到立体视频领域会带来不同的问题。每台相机(通常超过 40 台)均需要保持同步。每个传感器(通常是相机数量的四分之一到三分之一)需要保持相同的速度或相同速度的数倍,因为相机将通过掉帧匹配相机速度。如果光线不合适,网格将受到影响。例如,卤素光在光线中形成正常视力无法感知的脉冲,但是后者会干扰计算机视觉和传感器技术。

处理时间较长 - 数小时,有可能数天;甚至最顶尖的工作室一天也只能处理 6 分钟视频。这代表最高的难度、复杂性和成本。工作室花费数百万美元,仅仅创造了一个只容一人站立的圆圈,其直径比臂展宽不了多少。然后是播放素材面临的挑战。原始立体捕捉视频每秒的输出至少为 700 MB。在当前的格式下很难播放该输出,因此,必须对它进行大规模优化。优化后,大多数立体视频为每秒 18 MB 到 28 MB,仍旧很大,但是操作起来要容易得多。

Timothy Porter head model
图 14,作者 Timothy Porter 的立体视频(查看 sketchfab 模型)。

摄影测量成本与复杂性分析

本文讨论的每种摄影测量技术各有利弊。考虑下表中每种方法的成本、优势和劣势:

表 1.摄影测量技术的成本/优势分析。

摄影测量比较
摄影测量类别成本优势劣势
对准即拍50 美元 - 5,000 美元易于设置,快速拍摄,便携性无运动物体,捕捉时间长
多相机5,000 美元 - 200,000 美元能捕捉运动物体,缩短捕捉时间成本,便携性
视频50 美元 - 5,000 美元最容易设置
便携性
质量低于标准,用户需要根据软件从视频中制作帧,以便导入

下图以另一种方式利用计算需求纵轴和成本横轴展示了不同类别的摄影测量。


图 15.比较不同的摄影测量类别。

高质量、低成本将是未来的趋势

立体视频将革新我们消费与使用内容的方式,像电视和计算机一样带来深远影响。目前,我们可以采用某些技术来满足快速的计算机解释需求,如控制自动驾驶汽车绕过大型物体。未来,这些技术将变得更优质,能完全克服目前捕捉实时图像的技术难关。这一技术在消费与商业领域内快速发展。有可能在几年内超越甚至完全取代当前的摄影测量技术。我们无从知晓什么技术将取代它,但是考虑到物理定律,光束的创建与捕捉仍是必要条件。我们将看到一些有趣的选项,如 wifi、无线电和可见光谱。目前,我们的文化未来与这项技术的进步都指向同一个方向,即将立体捕捉与摄影测量打造成视觉体验。

在低端设备上执行摄影测量将花费不到 5,000 美元,相比价格相近的扫描仪,使用摄影测量扫描研究对象、存档对象或创建 CG 素材通常会得到更好的结果。尽管英特尔实感 D4000 等市场领导者正尝试通过低成本扫描仪来颠覆市场,但是基于成本和质量的考量,摄影测量仍是最理想的技术。

总结

与摄影测量和立体捕捉相关的技术正快速变化,但是了解不同类型的立体捕捉(包括成本、优势和复杂性,当前用例,详见本文)为您提供了将这些技术整合至下一个项目的指导,您还可以在英特尔 Developer Mesh 上发布项目。您可以访问 DevMesh 上的 VolumationSiggraph 2018 Volumation 简介查找我们的项目。

关于作者

Timothy Porter 是视觉技术领域的先驱,现任 Underminer Studios 首席技术官。最初,他以技术美工的身份开发视频游戏,后来成了为一名连续创业者,不久后在索尼图像工作室担任管线技术总监。任职期间,他在多个平台上发布了 50 多个游戏。他的任务是利用尖端技术中的娱乐模式,他最擅长激励员工畅想技术的无限可能并将愿景变为现实。他被英特尔评选为 2017 年杰出创新者。

logoUnderminer Studios 正使用虚拟现实/增强现实使数字世界变得人性化,在教育、娱乐、医疗和商业领域积极探索,提供了更具吸引力的体验。我们将分析功能和可视化技术结合在一起,设计出有助于定义未来人机交互的创新产品,并赋予它神奇的功能。访问 VOLUMATION 了解我们在立体捕捉领域取得的进展。

Para obtener información más completa sobre las optimizaciones del compilador, consulte nuestro Aviso de optimización.