在容器化环境中提升大数据的性能与灵活性

Performance Check Mark

利用 Apache* Hadoop*、Apache* Spark* 等其他大数据框架分析大数据集将获得深入的洞察,为企业提供较大的业务价值。由于数据规模非常庞大,在某些情况下,在大型计算集群执行和处理任务会消耗数个小时。资源成本非常高昂且任务成本与吞吐率成反比,因此,性能是最重要的。

为了确保最佳性能,多数企业利用裸机物理服务器部署了内部大数据分析。截至目前,许多 IT 部门仍不愿意使用虚拟机或容器实施大数据。通常与虚拟化和容器化相关的处理开销和输入/输出 (I/O) 延迟是造成这种现象的主要原因。

因此,大多数内部大数据计划受到灵活性的限制。在传统裸机设置上进行部署通常花费数周至数月的时间,这点影响了企业对 Hadoop、Spark 和其他大数据部署的采用。由于多数云服务在虚拟机上运行,因此公有云可能会降低性能。尽管如此,越来越多的分析师和数据科学家为了提高灵活性,使用了面向大数据的公有云。

英特尔与 BlueData* 的协作

大约一年半以前,英特尔宣布与 BlueData 签订“投资和合作协议”,致力于解决上述问题。BlueData 的 EPIC* 软件平台利用 Docker* 容器固有的部署灵活性加快大数据的部署速度。BlueData 平台中的基于容器的集群在外观与风格上都与裸机部署中的标准物理集群非常相似,未更改 Hadoop 和其他大数据框架。可以实施于内部、公有云或混合云架构。

借助 BlueData,企业能够快速、轻松地部署大数据(灵活的、按需供应的自助服务式 Hadoop 或 Spark 集群提供了大数据即服务的体验),同时降低了成本。BlueData 平台专为大数据的性能需求而定制。例如,BlueData 利用分级数据缓存和分层提升了基于容器的集群的 I/O 性能和扩展性。它还支持多个用户组安全共享相同的集群资源,每个组不再需要专用的大数据基础设施,极大地降低了复杂性。 

为了确保大数据部署的灵活性与高性能,英特尔对 BlueData EPIC 平台进行测试与性能指标评测,并协助增强该平台的性能,推动与 BlueData 的战略技术和业务协作。 我们与 BlueData 密切合作,通过业经验证和量化的性能指标评测结果,证明了相比裸机部署,BlueData 软件创新面向 Hadoop、Spark 等大数据工作负载提供了不相上下的性能。 

性能指标评测结果

英特尔在 BlueData(利用容器)和裸机环境中运行了相同的内部大数据工作负载,通过性能指标评测对比性能差异。利用 BigBench 性能指标评测套件执行了最新的测试,对基于英特尔® 至强® 处理器的架构进行完全相同的配置,以确保同类对比。

深入研究显示,BlueData EPIC 上基于容器的 Hadoop 工作负载性能比等于(在某些情况下略高于)裸机 Hadoop。例如,利用 50 个 Hadoop 计算节点和 10 TB 数据评测性能指标后发现,相比裸机性能,BlueData EPIC 平台的性能平均提升了 2.33%。这是一个里程碑式的进步,是英特尔和 BlueData 软件工程团队持续协作的结果。

这意味着企业不需要在性能和灵活性中作出选择, 他们可以两者兼顾,在内部部署中确保大数据分析的性能与灵活性。借助 BlueData EPIC 软件和英特尔至强处理器,实现了 Docker 容器的灵活性和经济高效性,同时确保了裸机的良好性能。数据科学团队在多租户架构中利用企业级数据管理和安全,获得了按需访问大数据环境的优势。因此,运行于英特尔架构上的 BlueData EPIC 软件成为许多大数据计划的解决方案堆栈首选。

如欲进一步了解性能指标评测结果,请下载最新版英特尔白皮书:“Docker 容器中面向大数据工作负载的裸机性能”

*其他的名称和品牌可能是其他所有者的资产。

作者:英特尔软件与服务事业部系统技术和优化副总裁兼总经理 Michael Greene。 请关注我的 Twitter,通过访问 Greene1of5 加入我们的讨论。

有关编译器优化的更完整信息,请参阅优化通知