2025-10-15 09:32:32
作者:科技
分享:
【导语】10月14日消息,据人民邮电报报道,中国移动近期实现智算万卡池长周期训练持续稳定运行,攻克超大规模算力集群调度等难题,训练稳定性达行业领先;其主导(dǎo)研发的全调度以太网技术体系及系列新技术,大幅缩短大模型训练周期、提升资源利用率;此外,中国移动宣布升级“AI+”行动计划,明确2028年底总体投入翻番,探索十万卡智算集群建设。

10 月 14 日消息,据人民邮电报报道,中国移动近期实现了智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,标志着我国在超大规模智算集群管控领域已具备领先水平,解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。
据介绍,人工智能技术正迎来爆发式的发(fā)展(zhǎn),大(dà)模(mó)型(xíng)参(cān)数(shù)规(guī)模(mó)正(zhèng)向(xiàng)万(wàn)亿(yì)级(jí)升(shēng)级(jí),因(yīn)此(cǐ)智(zhì)算(suàn)基(jī)础(chǔ)设(shè)施(shī)的(de)算(suàn)力(lì)密(mì)度(dù)、稳(wěn)定(dìng)性(xìng)和(hé)协(xié)同(tóng)效(xiào)率(lǜ)面(miàn)临(lín)挑(tiāo)战(zhàn),万(wàn)卡(kǎ)级(jí)规(guī)模(mó)协(xié)同(tóng)训(xun)练(liàn)场(chǎng)景(jǐng)是(shì)全球(qiú)普(pǔ)遍(biàn)面(miàn)临(lín)智(zhì)算(suàn)集群(qún)稳(wěn)定性问题。
中国移动基于哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI 运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术难题。在关键技术突破层面,团队重点攻关三大核心难题:
创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率
研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降 50%
引入 AI 运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖 25 类软硬件故障解决方案,将故障处理时长从数天级降至分钟级
从人民邮电报报道获悉,长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近 100%,为 AI 技术工业化量产奠定基础,可支撑自动驾驶、生物医药、新材料研发等前沿领域技术进步。此外,中国移动还在黑龙江、广东打造了智算运维样板间。
值得一提的是,在今年 10 月 11 日的 2025 中国移动全球合作伙伴大会主论坛上,中国移动宣布升级“AI+”行动计划,明确到 2028 年底,中国移动将持续加大对人工智能领域的投入力度,总体投入翻一番,建成国内规模最大、技术领先的智算基础设施,探索十万卡智算集群建设,全国产智能算力规模突破 100 EFLOPS。