Top500 上周公布了最新的超算榜单,深圳国家超算中心的灵晟首次亮相即登顶榜单。灵晟超算在 Linpack 测试中比排名第二的美国劳伦斯利弗莫尔国家实验室 El Capitan 超算快 22%,在 HPCG 测试中快 26%。它是首个仅靠 CPU 实现持续双精度浮点性能逾 2 Exaflops 的超算系统,美国的超算使用了 GPU 加速器。据 Chips and Cheese 根据相关幻灯片和相关 arXiv 论文报道,灵晟使用的 LX2 CPU 是基于 ARMv9.2 架构,支持 Scalable Matrix Extension(SME)指令集。相比下日本 ARM 超算富岳(Fugaku)是基于 ARMv8 架构,在今天已经相当老了。LX2 的每个核心都有 32 KB 的 L1 指令缓存和 32 KB 的 L1 数据缓存。芯片由两个计算模块(die)组成,每个模块包含四个 40 核心簇。每个簇有 2 个核心被禁用,因此每个簇有 38 个活跃核心,每个模块有 152 个活跃核心。每个簇配备 28.5 MB 的 L2 缓存,每个模块有 114 MB 的 L2 缓存,整个 LX2 封装有 304 个活跃核心和 228 MB 的总 L2 缓存。304 个核心以 1.55 GHz 运行,每个 LX2 CPU 提供 60.3 TFLOP/s 的 FP64 计算性能,功耗为 690 瓦。LX2 配备了八个“高带宽内存”,带宽为 4 TB/s(另一篇报道称 4 TB/s per chiplet,8 TB/s per socket)。所谓的高带宽内存可能不是 HBM。灵晟超算系统包含了逾 22,000 个节点和 1379 万个 CPU 核心。
Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.
