解决方案
云曦高性能集群解决方案
项目背景
高性能计算 (HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。
大多数基于集群的 HPC 系统使用高性能网络互连,比如那些来自 InfiniBand 或 Myrinet或OPA 的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率。
高性能集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的*终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。高性能计算在一个国家的科研中居于基础性地位,是科技创新的动力源之一。以E级超级计算机为代表的高性能计算具有广阔的应用前景,有望在石油勘探、航天国防、气候科学、可再生能源、基因组学、天体物理学以及科学研究等领域“大显身手”。
方案介绍
云曦计算机力推的高性能集群是专门为满足大规模分析计算而设计的超级并行计算机集群系统,它遵循 X86 开放的 HPC 生态体系架构来系统的部署所有的软硬件:采用x86架构的双路 和四路 作为计算节点。云曦高性能计算集群采用集群体系结构,通过标准开放的高速网络实现互连,运行开放源代码的 Linux 系统,对外提供单一系统接口,它针对大规模科学并行计算设计,兼顾事务处理和网络信息服务。
该方案主要通过构建管理节点、计算节点、以及并行文件存储系统,构建计算力高达100Tflops以上的计算能力高性能计算集群,存储采用高性能低延迟得SSD分布式存储池,以及大容量得存储池。满足对于高性能计算力以及高速存储IO带宽的需求。
方案解析
【硬件部分】
计算节点:CPU计算节点
管理节点:双路服务器
登陆节点:双路服务器
存储节点:分布式并行存储
网络系统:包含以太网络系统、 光纤存储网络、机柜、PDU等
【软件部分】
操作系统:CentOS 7
集群软件:资源管理与调度软件Powercloud
开发环境:FortranCC++等
并行环境:OpenMP、OpenMPI、MVPAICH2等MPI并行环境
文件系统:分布式并行文件系统
应用软件:客户自带应用软件
方案优势
高带宽、低延迟
计算网络采用高速的100G 200G网络,确保用户的计算任务在运行过程中不受网络带宽的限制,业务网络使用10G以太网路,延迟低速度快。两层高速网络保障集群中所有节点无阻塞、全线速的运行,可充分满足高速互联的需求。
高性能、高扩展
计算节点由云曦双路或四路服务器组成,每台服务器至少64核心,支持2T以上内存,多核心计算能力和大内存运行能力,为要求苛刻的HPC和横向扩展工作负载提供动力。
存储容量高、灵活性强
存储资源分为两个分布式资源池,其中SSD存储池运行重要数据和热数据,HDD存储池保存冷数据和大容量数据,同时兼顾IO性能和容量。
高可靠、易维护
整套集群采用多种可靠性设计方案大幅度提升系统的可靠性,确保系统无单点故障。同时为用户提供简单易用的使用和维护接口,降低系统的使用维护门槛,提高整套系统的维护效率