Analytics Zoo: 面向 Apache Spark* 的统一分析与人工智能平台

人工智能应用的不断进步使深度学习成为新一代数据分析开发领域的前沿技术。特别是,我们看到组织日益需要在其大数据平台和管道中应用深度学习技术(如计算机视觉、自然语言处理、生成对抗网络等)。

这通常需要手动“拼接”许多单独的组件(例如 Apache Spark*、TensorFlow*、Caffe*、Apache Hadoop * 分布式文件系统 (HDFS)、Apache Storm*/Kafka* 等),这是一个复杂且容易出错的过程。

英特尔一直与开源社区用户以及多个合作伙伴和客户开展广泛合作,包括 京东UCSFMastercard*等,以构建基于 Apache Spark 的深度学习 (DL) 和人工智能应用。为了简化端到端开发和部署,英特尔开发了 Analytics Zoo,它是一个统一的分析与人工智能平台,可将 Spark、TensorFlow、Keras 和 BigDL 程序无缝整合到一个集成管道中。这个集成管道可透明地扩展到大型 Apache Hadoop/Spark 集群,以进行分布式训练或推理。

Analytics Zoo 还为开发人员和用户提供了多种分析和人工智能工具,以便为端到端管道提供支持,包括:

  • 简单易用的抽象,如 Spark DataFrame 和 ML 管道支持、迁移学习支持以及服务 API 的 POJO 式模型等等。

  • 面向图像、文本和 3D 图像的常用特征工程操作

  • 内置的深度学习模型,如文本分类、推荐和对象检测

  • 参考用例,例如时间序列异常检测、欺诈检测和图像相似性搜索等。

我很高兴宣布,我们最近发布了 Analytics Zoo开源版本,以供社区广泛使用。

世界银行CrayTalrooBaosight和 Midea/KUKA 等早期用户已经构建了基于 Analytics Zoo 的分析与人工智能应用,以满足各种工作负载的需求。这些包括基于迁移学习的图像分类、用于临近降水预报的序列到序列预测、用于作业推荐的神经协同过滤以及非监督式时间序列异常检测等。

英特尔将继续与开源社区和用户开展合作,共同推进 Apache Spark 上分析与人工智能的融合。

有关编译器优化的更完整信息,请参阅优化通知