e-works数字化企业网  »  文章频道  »  基础信息化  »  IT综合

Spectrum Scale+ESS,制造业HPC应用实践

2019/6/27    来源:e-works    作者:e-works  熊东旭      
关键字:Spectrum Scale  云计算  大数据  
由于云计算技术的快速普及与发展,如何将高性能计算应用与云平台结合就成了很多企业探讨和实践的话题。

    随着企业的数字化转型以及智能化应用的逐渐深入,企业每天产生的数据开始呈现出快速增长趋势,需要处理的数据量和类型也越来越多,在这一过程中企业需要更快的存储系统以及更强的并行计算能力满足需求。如AI以及大数据分析等,不仅依赖高性能的I/O存储性能,还需要功能强大的软件定义存储软件整合异构的存储产品,以及管理庞大的数据。同时由于云计算技术的快速普及与发展,如何将高性能计算应用与云平台结合就成了很多企业探讨和实践的话题。

制造业HPC应用挑战

    谈到制造企业的高性能计算应用,大多会想到基于CAE的虚拟仿真应用,但随着数字化转型的深入,企业通过打通全流程的业务系统,使得产品从研发、管理到生产的整个过程中产生的数据越来越多,业务系统之间的数据交互频繁。有些关键的生产数据需要及时的做出处理,比如某企业生产线部署了基于AI的视觉检测系统能在线检测产品质量,通过为产品质量数据建模来快速分析和发现产品的质量问题,并作出不同的处理。为了支撑这一过程,企业专门购置了性能强大的硬件平台。

    然而对广大制造企业而言,由于IT资金投入有限,很难为新业务应用的实施专门购置新软硬件产品,大多希望充分利用现有的IT资源,或者干脆直接部署到云平台,但这很容易产生新的问题。比如如何实现对老旧异构的硬件系统进行整合?如何实现本地数据与云平台数据的统一管理?如何保证计算过程的I/O性能以及负载均衡等。

    e-works调查显示,目前制造企业的IT基础架构主要处于这样一种现状:服务器、存储等核心系统的品牌数量多,性能差别较大。存储中磁盘阵列为主,少量的闪存系统,磁带库主要用于归档和备份;服务器有浪潮、IBM、Intel和AMD等多家产品,有部分新的业务已经迁到云端。整体来说,由于系统之间缺乏整合,数据孤岛广泛存在。这种现状下企业很难充分利用现有数据,挖掘数据价值。

制造业HPC应用实践

    制造业大数据应用实践的第一步就是整合分散在在各个存储系统中的业务数据,不管数据在什么地方或任何类型的存储设备上,同时还要支持存储系统的不断接入。因此,企业首先需要的是一套能够跨区整合的分布式集群软件,这款软件的扩展性要好,可靠性要高,具有很高I/O并发能力,能保证磁盘I/O性能的负载均衡。其次,实现对整合数据的统一管理,以支撑AI及大数据分析等高性能应用的运行。第三,要支撑本地数据和云端数据集成,能充分的利用云平台的计算能力。

    面对这样一种需求,IBM推出了以Spectrum Scale、Storage Server为核心的软件定义存储解决方案。

    其中,Spectrum Scale是一款与硬件解耦的存储虚拟化软件,能实现对企业现有异构跨区的存储系统进行整合和管理,为所有数据提供单一文件命名空间,提供Swift/S3对象服务和Openstack接口、大数据等存储服务接口,支持AIX/Linux/Windows等操作系统,可以与IBM Cloud、OpenStack等云平台集成。

    此外,Spectrum Scale理论上支持超过100TB的文件系统,每个文件系统支持20亿个文件,是目前面向海量数据计算最理想的平台。为保证磁盘I/O性能,避免磁盘资源的竞争,Spectrum Scale还能保证大规模计算过程中的I/O负载均衡。

    最近,IBM通过投标参与到某制造企业的高性能计算机的存储系统搭建。参与投标的系统由一个包含77个节点的IBM Storage Server(ESS)集群组成,该集群在Spectrum Scale 5.0.0上运行。IBM ESS的节点使用两台双插槽IBM POWER9存储服务器配置为½(20U)机架构建块,每个服务器配备1TB的内存及4个4U/106驱动机箱(每个机箱配备104个磁盘及2个NVMe SSD),每个节点的原始磁盘存储容量可达到4PB。每个IBM ESS节点通过一个4X EDR InfiniBand网络与集群中的其他节点相连接,该网络最高可实现90GB/秒的网络带宽。

存储系统搭建

存储系统搭建

    首先,超级计算机存储系统的小文件IO性能必须达到或超过每秒50,000个小文件的创建量。IBM ESS解决方面每秒大约可创建57,000个文件。在此次测试中,IBM ESS使用的是1Kb的小文件,并通过23个客户端节点完成测试。该测试在23个节点中使用了小文件IO和一个共享式目录。IBM Spectrum Scale 5.0.0的许多性能增强推动了这次测试的顺利完成,尤其是在节点间通讯速度方面的提升。

    其次,超级计算机要求1MB顺序读/写总计带宽最低要达到1TB/秒。为此,我们对IBM Spectrum Scale 5.0.0 ESS进行了两次测试:一次是使用Lustre IOR,另一次是使用GPFS TQOSPERF。两次测试均针对单个客户端/单个文件顺序写入工作负载进行配置。IOR测试结果显示,每个ESS节点的顺序写入性能是23GB/秒,而TQOSPERF的基准测试结果显示,每个ESS节点的顺序写入性能是16GB/秒。当扩展到77个ESS节点后,两个测试的顺序写入带宽均超过了1TB/秒。在这一方面,新的多层小数据块写入缓存起到了非常大的作用。

    第三,该超级计算机要求顺序读/写总计峰值带宽达到2.5TB/秒。在针对约49TB的文件使用16MB的数据传输规模时,IBM ESS存储系统的峰值顺序写入性能是36.2GB/秒,峰值顺序读取性能是43.4GB/秒。当扩展到77个ESS节点之后,顺序读取和写入性能可轻松超过2.5TB/秒。

    第四,要求每秒总计完成260万次32Kb文件的创建。IBM ESS与IBM Spectrum Scale 5.0.0的组合可通过32KB小文件的非共享目录实现这一要求,而且每个ESS节点也可实现每秒5.6万个文件的创建量。当扩展到77个ESS节点之后,IBM ESS每秒将能够实现超过430万个文件的创建量。

    在元数据活动方面,IBM ESS与IBM Spectrum Scale 5.0.0的组合执行了单个线程(从客户端到服务器再到设备)的小数据块随机读取和写入操作,分别实现了平均80µs和200µs的响应时间。

    此外,在多线程小数据块读取访问方面,之前一代的IBM Spectrum Scale (4.2.2)在使用4Kb传输规模的情况下,3到4个线程时可实现的峰值性能不到40万次操作/秒;而借助IBM Spectrum Scale 5.0.0,在使用4Kb传输规模的情况下,16个线程时可实现的峰值性能大约可达到270万次操作/秒,在小文件读取IO性能方面提升了700%。

    最后,之所以能满足上述需求,很大程度上有赖于IBM ESS能够将单个节点的性能扩展到77个节点的能力。IBM能够在多个节点中提供经验证的ESS节点性能。举例来说,IBM ESS与IBM Spectrum Scal 5.0.0的组合在12个节点中,每秒可完成超过500万次远程程序调用(PRC)。

总结

    IBM ESS与IBM Spectrum Scale 5.0.0的组合在各个方面都满足或超出了超级计算机的IO子系统性能需求。IBM Spectrum Scale 5.0.0包含有大量设计和代码方面的增强功能,可显著提升小文件的IO性能,在单个用例中,可将小文件块的读取IO性能提升700%。

    在面向大规模的AI及大数据分析应用中,它们要求存储系统可实现多个TB/秒的大文件带宽、1TB/秒或以上的小文件带宽,以及每秒数百万个文件的创建量,这样才能支持容量可能超过200PB的存储需求。在这个环境中,IBM ESS与IBM Spectrum Scale 5.0.0的组合可提供其他产品难以企及的世界级性能。

责任编辑:程玥
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐