首页 >

关于 >

新闻中心 >

公司新闻 >

支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统

支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统

发布时间

2025-09-08 12:01:44

作者:科技

分享:

【导语】2025重庆世界智能产业博览会(9月5日至8日)上,中科曙光重磅发布国内首个基于AI计算开放架构设计的曙光AI超集群系统,该系统以GPU为核心实现全链路一体化紧耦合设计,兼具高效性能与开放生态,在算力规模、能效比、可靠性及兼容性上实现全面突破,为万亿参数大模型等前沿AI场景提供强有力支撑。

支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统

  在 9 月 5 日至 8 日的 2025 重庆世界智能产业博览会上,中科曙光发布了国内首个基于 AI 计算开放架构设计的产品 ——曙光 AI 超集群系统

  该系统以 GPU 为核心,实现了“算、存、网、电、冷、管、软”一体化紧耦合设计,可为万亿参数大模型训练推理、行业大模型微调、多模态大模型开发、AI4S 等场景提供算力底座。

  相比封闭系统,曙光 AI 超集群系统除了通过紧耦合设计像一台计算机般高效工作外,还支持多品牌 AI 加速卡以及兼容 CUDA 等主流软件生态,为用户提供更多开放性选择,并降低硬件成本和软件开发适配成本,保护前期投资。

  附曙光 AI 超集群系统技术特点:

  •   单机柜可搭载 96 张 GPU 卡、算力规模达百 P 级、访存总带宽超 180TB/s;支持多精度、混合精度运算;支持百万卡超大集群扩展

  •   千卡集群大模型训练推理性能达到业界主流水平 2.3 倍、开发效率提升 4 倍、人天投入减少 70%;存算传协同,提升 GPU 计算效率 55%;先进冷板液冷,394 项节能设计 PUE 低于 1.12。

  •   121 项设备和链路 RAS 可靠性设计;平均无故障(zhàng)时(shí)间(jiān)(MTBF)提(tí)高(gāo) 2.1 倍(bèi);平(píng)均(jūn)故(gù)障(zhàng)修(xiū)复(fù)时(shí)间(jiān)(MTTR)降(jiàng)低(dī) 47%;超(chāo) 30 天(tiān)长(zhǎng)稳(wěn)运(yùn)行(xíng)集群(qún)可(kě)靠(kào)性(xìng)测(cè)试(shì);实(shí)现(xiàn)百(bǎi)万(wàn)级(jí)部(bù)件(jiàn)故(gù)障(zhàng)自(zì)动(dòng)分(fēn)析(xī)与秒级隔离。

  •   基于 AI 计算开放架构设计;硬件适配多品牌 AI 加速卡;软件兼容主流 AI 计算生态;多项技术能力开放与共享。


相关新闻

返回顶部