语种
中文简体 中文繁体 English
营业厅
网上营业厅 掌上营业厅
返回顶部
向新向智 “息壤”生出澎湃算力
张佳丽 徐书馨 2024-10-21 人民邮电报
分享:
   

作为云服务国家队,中国电信天翼云始终坚持科技创新,在技术方面不断取得突破,推出多项研发成果。作为其中的重要代表,“息壤”入选“2022年度央企十大超级工程”,通过将复杂的算力资源智能、有序地调度到目的地,不断刷新算力传输的“中国速度”。

《山海经注》云:“息壤者,言土自长息无限,故可以塞洪水也。”进入人工智能时代,“息壤”如同它的名字一般,持续向智能“生长”,进一步升级为一体化智算服务平台,为大模型的快速发展和落地持续提供多样化的算力资源和一体化的智算服务。

统筹调度 全网算力“随愿可得”

数字时代,以算力为核心的数字信息基础设施成为国家战略性布局的关键组成部分。但是当前,我国算力分布呈现总量大但分布不均衡的特征,总体需求旺盛与局部算力闲置并存,供需匹配不畅。因此,在全国范围内实现高效的算力统筹和调度,满足千行百业对算力的不同需求,提升全局算力的利用率,成为提升算力“中国速度”的一项重要工程。

为优化数据中心建设布局,统筹调度、高效利用算力资源,2022年2月,国家发展改革委、中央网信办等四部门联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝,以及内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群,“东数西算”工程正式全面启动。作为算力基础设施建设的排头兵,中国电信积极贯彻落实“东数西算”工程和加快构建全国一体化算力网的要求,在上海青浦、浙江嘉善、江苏吴江、广东韶关、甘肃庆阳等国家算力枢纽节点新建了大型数据中心,在算力建设上落实“东数西算”“东数西备”“东数西存”,助力提升资源利用率和算力算效。同时充分发挥电信运营商的网络资源禀赋,推进以DC为中心组网,提升国家枢纽节点网络互联能力,构建四区六轴八枢纽多通道的低时延光缆网底座,持续深化区域一体化组网,同步加快新型云化城域网建设,全面满足一体化算力网1ms/5ms/20ms时延要求,全方位打造支撑“东数西算”战略落地所需的大带宽、低时延、智能敏捷、安全可靠的网络基础设施。

作为国家云,天翼云在优化算力资源配置、提升资源使用效率方面做出一系列努力,自主研发的“息壤”平台应运而生,为算力的高效统筹和调度提供了解决方案。

通俗来讲,“息壤”好比是一个算力传输的枢纽,能够在全国范围内实现每分钟数万次、每天上千万次的算力统筹调度,满足千行百业对算力的需求,让算力像水和电一样即取即用、“随愿可得”。“息壤”通过把多方算力汇集到一个平台,实现一体化供给,具备对多服务商异构算力的跨区域调度能力,支持对通用计算、智算、超算和网络进行一体化调度,降低算力使用成本。

基于“息壤”强大的算力调度能力,智慧教育资源随时共享,让偏远地区的孩子也能像大城市的孩子一样享受优质的教学资源;在汽车工业领域,300次的仿真碰撞试验在一分钟内便能成功模拟完成……从市民生活到工业生产,从城市中心到偏远地区,“随愿可得”的算力赋能千行百业,走入千家万户,重塑着每个人的生活。

云智一体 大模型训推“一步到位”

科技不断向前发展,我们迎来了人工智能时代。当前,人工智能行业进入以大模型为代表的快速发展阶段,国产多模态大模型爆发式更新,AI应用有望迎来更多功能和形态方面的突破升级,未来发展空间广阔。

但大模型的研发与推广仍然面临一定的压力和挑战。一方面,大模型的训练和应用需要大量的高质量数据,当前我国数据资源有限且分散,导致模型训练效果并不理想;另一方面,模型的参数量和计算复杂度持续增加,对算力的需求以几何级数增长。

作为云服务国家队、数字中国建设主力军,天翼云顺势而为,积极响应国家政策号召,布局智算基础设施建设,为人工智能产业发展筑牢算力基石。为满足大模型的市场需求和变化,天翼云能力全面升级,构建“息壤”一体化智算服务体系和能力,提供极致的算力调度、高效的计算加速、普惠的一站式智算服务。

在算网调度能力方面,“息壤”在三方面取得显著技术突破。通过算力插件和算力网关,实现了算力的统一、高效和云化接入;通过算数协同和多级算力互联调度,实现了算数网的一体化调度,数随算走、算随数动,调度区域更广,算力更泛在;借助大模型认知能力和业务调度,实现算力选择和应用部署简单化,故障自动恢复与负载均衡,使算力简便易用。

基于技术突破和产品化应用,“息壤”可服务于三大算力场景。一是天翼云自营公共算力服务平台,目前已接入超40家算力伙伴,实现三方各类算力可调度22EFlops,显著扩大了算力规模和品类,满足公有云客户的多元算力需求。二是帮助客户构建行业算力互联网,例如高校算力联盟等,实现行业内算力利用率的有效提升。三是助力建设城市算力互联网,实现区域内多方算力的一体化统筹调度,助力地方经济和产业发展。

在异构计算能力方面,“息壤”具备高效的异构计算能力,能够破解大模型训练推理中面临的大算力、高性能、高稳定需求等挑战。在大算力需求方面,天翼云建立PB级并行文件存储,并组建低延时超大规模RDMA网络,通过计算、内存和通信的多维优化,提升综合算效。在性能方面,自研AI框架、算子加速库、集合通信库、网络拓扑感知、存储加速等关键技术,将国产算力的综合算效提升到行业领先水平。在稳定性方面,通过多项指标的监控分析,实现故障训前发现,有效控制大模型训练中断恢复时长,实现训练任务长期稳定、高可用运行。此外,天翼云基于国产万卡智算集群和自研智算平台,已具备支撑万亿参数基础大模型训练的能力。

在训推服务能力方面,“息壤”一站式的训推服务能力,可降低大模型应用创新开发门槛,实现了业界首个国产芯片万卡并行训练。平台预置行业数据集、主流开闭源基础大模型,并提供模型训练全栈工具链,将大模型精调场景简化操作至选数据、选硬件和选模型三个步骤,简化部署、提升效率;通过自研AI框架、3D并行加速、自研训练加速库、容器调度优化等核心技术,大幅提升训练效率;通过模型量化压缩、自研推理加速算子库、自研AI推理加速框架等核心技术,显著提高推理效率;通过全链路故障检测、定位、告警,全链路日志监控与可视化、断点续训快速恢复等核心技术,提升大规模集群训推稳定性。其中,断点续训实现分钟级发现、定位、恢复,覆盖75%的故障场景,支持优雅容错无感恢复,MFU(算力利用率)达业界领先水平。

在近期公布的2024IOMM数智化转型最新评估结果中,天翼云息壤·一站式智算服务平台在模型管理、模型开发、模型训练、模型推理、资源调度、性能等11个能力领域35个测试项中全部通过,以“卓越级”能力通过评估。

人工智能已经成为数字经济发展的新引擎。作为云计算原创技术策源地、数字中国建设主力军,天翼云将持续攻关云计算领域核心技术,不断迭代升级“息壤”一体化智算服务体系和能力,赋能企业跑出“AI加速度”,携手行业共同推动经济社会智能化水平迈向新高度。

扫一扫在手机打开当前页
//