BigDL:一种面向 Apache Spark 的分布式深度学习库

Overview

BigDL 是一种面向 Apache Spark* 的分布式深度学习库,用户可以通过 BigDL 将深度学习应用编写为标准的 Spark 程序,这些程序可以直接在 Spark 或 Hadoop 集群上运行。本文介绍了三个特性:深度学习支持、出色的单节点英特尔® 至强® 性能以及利用 spark 架构实现高效的横向扩展。

Transcript

大家好,我是 Radhika。我将通过本视频向您介绍 BigDL 的某些高级特性,BigDL 是一种面向 Apache Spark 深度学习库。如欲获取更多资源,请访问以下链接。请跟随我进一步了解。 

我在前面提到了,BigDL 是一种面向 Apache Spark 的分布式深度学习库。用户可以通过 BigDL 将深度学习应用编写为标准的 Spark 程序,可以直接在现有的 Spark 或 Hadoop 集群上运行。 

深度学习作为分布式机器学习的主要框架,将其添加至颇为常用的 Spark 框架具有重要意义,有助于 Spark 开发人员处理各种数据分析任务,包括单个框架内的数据处理、交互式查询和字符串处理。这样能够避免使用多个框架和库时产生固有的复杂性。  

BigDL 提供三个重要特性,分别是丰富的深度学习支持、较高的单节点至强性能以及最后一个同样重要的特性 - 利用 spark 架构实现高效的横向扩展。下面我将向您详细介绍这三个特性。首先是丰富的深度学习支持。BigDL 提供全面的深度学习支持,包括数值计算和高级神经网络。此外,用户可以使用 BigDL 将预训练 Caffe 或 Torch 模型加载至 Spark 程序。 

第二个特性是较高的单节点至强性能。为了实现较高的性能,每个 Spark 任务均采用英特尔数学核心函数库和多线程编程。因此,在单节点至强处理器中,相比现成的开源 Caffe 和 Torch,BigDL 的速度高出多个数量级。第三个特性是利用 Spark 架构实现高效的横向扩展。BigDL 可以利用 Apache Spark 高效地横向扩展至电话数据分析和大数据规模,并在 Spark 上高效实施同步 SGD 和 all-reduce 通信。 

下面我们将讨论 BigDL 的一般用户。如果您想利用深度学习在存储数据的 Hadoop 或 Spark 集群上分析大数据,可以选择 BigDL。如果您希望将深度学习功能、数据链接和预测添加 BigDL 程序或工作流,请使用 BigDL。如果您希望使用现有的 Hadoop 或 Spark 集群运行深度学习应用,并将该应用与其它工作负载动态分享,BigDL 是一个不错的选择。 

BigDL 为用户带来怎样的优势?作为全新的统一平台,BigDL 将消除各个系统之间大量的、不必要的数据集传输。消除单独的硬件集群,实现 CPU 集群,降低系统复杂性和端到端学习的延迟。 

最终,用户将受益于更高的扩展性、更强大的性能、更高效的资源利用、更高的易用性和更低的总体拥有成本。希望通过与您分享关于 BigDL 的信息,能够鼓励您加入这个项目。如欲获取关于 BigDL 的更多信息,请查看以下链接。请记得给该视频点赞,订阅英特尔软件 YouTube 频道,或在 Facebook 上与我们联系。

产品和性能信息

1

英特尔的编译器针对非英特尔微处理器的优化程度可能与英特尔微处理器相同(或不同)。这些优化包括 SSE2、SSE3 和 SSSE3 指令集和其他优化。对于在非英特尔制造的微处理器上进行的优化,英特尔不对相应的可用性、功能或有效性提供担保。该产品中依赖于微处理器的优化仅适用于英特尔微处理器。某些非特定于英特尔微架构的优化保留用于英特尔微处理器。关于此通知涵盖的特定指令集的更多信息,请参阅适用产品的用户指南和参考指南。

通知版本 #20110804