算力网的"巴别塔"：调度系统如何跨过芯片异构这道坎？-赛迪网 - 集科技期刊、产业信息资讯、网络新媒体、视频新媒体于一体的融媒体智能化传播平台

首页> 新闻> 正文

算力网的"巴别塔"：调度系统如何跨过芯片异构这道坎？

来源：赛迪网作者： 2026-06-20 10:42:52

70多条算力大通道已经建成，国家枢纽间时延压到了20毫秒以内，广东韶关到广州只要1.3毫秒。网络够快了，光纤铺好了，通道打通了。

但算力还是调不动。

不是带宽不够，不是时延太高，而是"听不懂"——英伟达GPU说的是CUDA，华为昇腾说的是CANN，寒武纪说的是BangC，摩尔线程说的是MUSA。调度系统要做的，是在一个没有"普通话"的世界里，让说不同方言的人协作完成一项精密工程。

这就是算力网与电网最本质的技术分野：电网调度的是同质的电子，电子不需要翻译；算力网调度的是异构的计算任务，每一个任务都需要被"翻译"成目标芯片能理解的指令。70条大通道解决的是"路"的问题，异构调度解决的是"语言"的问题。路再宽，语言不通，货也送不到。

巴别塔之所以建不成，不是因为砖不够，而是因为大家说的是不同的语言。

CUDA的"方言效应"：二十年的护城河，不只是软件

第一篇里提过，CUDA形成了事实上的"技术方言"。现在需要追问：这个方言到底有多难翻译？

先看一组时间线。CUDA在2006年首发，到2020年左右形成完整的AI训练生态，花了14年。这14年里，英伟达不是只造了一个编程框架——它造了一整套"语言体系"：cuBLAS做线性代数，cuDNN做深度学习，NCCL做分布式通信，TensorRT做推理加速，CUDA C做底层编程。每一个库都针对自家GPU的寄存器分配、线程调度、内存层次做了极致优化。这种"软硬件深度耦合"带来的效率，不是写个兼容层就能复刻的。

数字更能说明问题。CUDA拥有，全球400万至500万开发者，90%的主流AI框架默认适配CUDA。华为CANN的第三方库数量不足2万，开发者约40万——差距不是几倍，是一个数量级。

更关键的是开发者的"肌肉记忆"。一个在CUDA上写了5年代码的工程师，闭着眼睛都能写出高效的GPU Kernel。让他切换到CANN的Ascend C，不是说"语法差不多"就行——内存管理模型不同（GPU统一寻址，NPU物理隔离），线程调度机制不同（GPU用SIMT，NPU用SIMD+专用硬件调度），甚至连显存分配的耗时都是CUDA的1.8倍。这些不是"兼容层"能抹平的差异，是底层架构的根本性分歧。

有人会说：华为CANN不是宣称95%的CUDA代码兼容吗？

这个数字需要拆开看。95%的兼容意味着最常见的算子可以"跑起来"，但"跑起来"和"跑得好"之间，隔着一道鸿沟。DeepSeek团队在迁移V4时发现，大量CUDA算子在CANN上的首次运行效率极低——不是因为不兼容，而是因为CANN的优化算子库覆盖还不完整，很多操作只能走"通用路径"，性能损耗达到20%至30%。DeepSeek V4推理效率从初始版本到优化版本提升了35倍——这个数字不是芯片进步带来的，而是14个月的算子重写和深度优化换来的。35倍，就是"兼容"和"优化"之间的距离。

DeepSeek的"飞行换引擎"：200个算子重写背后的硬仗

2026年4月24日，DeepSeek发布V4系列模型。最大的看点不是模型性能本身——而是它完全运行在华为昇腾950PR芯片上，底层代码从CUDA全面转向CANN框架。全球第一个脱离英伟达CUDA生态的顶级AI大模型。

这件事有多难？DeepSeek创始人梁文锋在内部说，这相当于"在一架飞行中的飞机上更换引擎"。

不是比喻。迁移过程面临三类硬核挑战，每一类都是工程地狱。

算子对齐：不是"差不多就行"，是逐位对齐。 CUDA的算子库（cuBLAS、cuDNN等）经过多年优化，每种操作的实现都针对GPU架构做了极致调优。CANN需要提供对应的算子，且精度必须完全一致。大模型在不同硬件上运行，浮点运算的并行分拆策略不同，而浮点加法不满足结合律——同一个矩阵乘法，分拆成几千个线程同时计算再求和，不同分法得到的末位数值不一样。对于7B小模型，误差在10的负4次方量级，可以忽略。对于V4这种1.6万亿参数的模型，处理百万Token长上下文时，误差随层数和序列长度累积，在输出层可能产生明显偏差。DeepSeek团队耗时数月重写了超过200个核心CUDA算子，反复进行精度对齐测试。有工程师透露，"精度对齐是最耗时的工作"。

通信优化：从NCCL到HCCL，不是换一行代码那么简单。万亿参数模型的分布式训练和推理，高度依赖芯片间的高速通信。CUDA生态有NCCL库，在NVLink互连下效率极高。昇腾芯片之间的通信走的是HCCL，带宽和延迟特性不同，通信拓扑需要重新优化。MoE模型的All-to-All通信是最大的瓶颈——专家路由导致访存离散，不同芯片间需要频繁交换中间结果。CANN团队通过数据预取、通道合并、乱序发送等技术，将跨节点专家路由的通信延迟降低了58%。但这不是通用方案，是针对DeepSeek V4架构的定制优化。换一个模型，通信优化可能需要从头再来。

内存管理：GPU的"统一地址空间"和NPU的"物理隔离"，是两套完全不同的哲学。 GPU的内存层次是SRAM→L2→HBM→主机内存，统一寻址，开发者几乎不需要关心数据在哪个层级。NPU的内存管理更接近显式控制，数据在设备内存和主机内存之间的搬运需要开发者主动触发。DeepSeek V4引入的Engram分层存储机制——模型静态参数自动卸载到主机内存和SSD，GPU显存只留核心计算——在昇腾上的实现路径和NVIDIA GPU完全不同。CANN团队结合这一机制，实现了"GPU显存-主机内存-SSD存储"的三级自动调度，单卡可承载的模型规模提升了3倍。但同样，这是深度定制的结果。

14个月的攻坚，最终的回报是惊人的：经过CANN全链路优化的DeepSeek V4-Pro，在昇腾950PR上的推理时延低至20毫秒，单卡推理性能达到英伟达特供版H20的2.87倍，能耗降低40%。推理侧，国产芯片第一次在顶级大模型上实现了性能反超。

但14个月这个数字本身就是问题。一个模型从发布到在国产芯片上"好用"，需要14个月的深度协同——这意味着，如果算力网要实现"任意算力任意调度"，每接入一种新芯片、每上线一个新模型，都可能需要数月的适配。这不是"调度"，这是"翻译工程"——而且翻译不是自动的，是手动的。

更值得注意的是DeepSeek的技术路线选择。V4采用了TileLang——一种领域专用语言——来开发底层算子，而不是继续用CUDA C。TileLang可以跨硬件平台编译，降低向国产芯片的迁移成本。同时，V4引入MXFP4量化感知训练，对MoE专家权重实现FP4量化，降低了对NVIDIA FP8生态的绑定。这些不是适配层的"打补丁"，而是从模型架构设计阶段就在为异构部署做准备。

这意味着一条重要的分叉路：与其让调度系统去"翻译"CUDA，不如让模型本身就说"多国语言"。

谁在造"普通话"：三家路径，三种逻辑

既然翻译这么难，能不能造一门"普通话"？正在做这件事的，至少有三股力量。

第一股：智源FlagOS——"世界语"路线。

智源研究院牵头的众智FlagOS，是目前最接近"统一语言"的尝试。它的核心思路是：不翻译方言，而是造一门所有芯片都能听懂的新语言。

FlagOS的技术栈包括三个核心组件：FlagGems统一算子库，替换掉所有CUDA原生算子；FlagTree统一编译器，一次编写、多芯编译；FlagScale训推框架，屏蔽底层硬件差异。开发者不需要知道自己的代码跑在什么芯片上，FlagOS负责适配。

2026年4月24日，DeepSeek V4发布当天，FlagOS社区完成了9种AI芯片的Day0适配——海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯、英伟达、清微智能。这意味着，V4发布当天就能在这9种芯片上运行，不需要等数月的适配周期。

更关键的突破在训练侧。FlagOS已在海光、沐曦、摩尔线程等芯片上实现了同构千卡端到端训练，在"96台沐曦服务器+32台英伟达服务器"的异构千卡集群上，完成了Qwen3-10B模型的端到端混合训练，异构混合效率达到81.64%，与同构基线的平均误差仅为0.46%。

81.64%的异构效率意味着什么？如果在英伟达集群上跑一个任务需要100小时，在"沐曦+英伟达"混合集群上需要122小时。差距存在，但已经进入了"可用"区间。更重要的是，它证明了一个关键命题：不同厂商的芯片真的可以在同一个训练任务中协同工作——这不是理论推演，而是工程现实。

但"世界语"也有它的问题：世界语发明于1887年，比任何一种自然语言都简洁优雅，但至今使用者不到200万。语言的推广从来不只是技术问题。FlagOS需要每家芯片厂商主动对接它的标准，而芯片厂商有自己的考量——华为有CANN，寒武纪有NeuWare，摩尔线程有MUSA。谁愿意让自己的芯片变成FlagOS生态的"兼容机"？

第二股：国家算力标识体系——"身份证"路线。

工信部2025年发布《算力互联互通行动计划》，2026年2月印发《关于组织开展国家算力互联互通节点建设工作的通知》，正式启动"1+M+N"国家算力互联互通节点体系建设。"1"是国家算力互联网服务节点，"M"是区域节点，"N"是行业节点。

这套体系的核心发明是"算力标识"——给每一份算力资源分配一个唯一编码，就像给每个人发身份证。截至2026年1月，全国已部署1032万条算力标识，接入31个省（区、市）的155家企业的578个资源池，汇聚316 EFLOPS智算资源。

"身份证"解决的是"找得到"的问题——调度系统能知道某个资源池有什么芯片、多少算力、在什么位置、时延多少。但"找得到"和"调得动"之间，还隔着"能不能跑"这道鸿沟。身份证可以告诉你"这里有一个昇腾910B集群"，但无法告诉你"你的CUDA模型能不能在上面跑"。

"三统一"机制（统一标识、统一标准、统一规则）正在填这道沟。国家标准层面，鹏城实验室牵头起草了12项算力网相关指导性技术文件，涵盖算力并网技术要求、算力资源管理与调度技术要求、算力多量纲计费技术要求等。通信行业标准层面，YD/T 6505《算力网络标识解析技术要求》和YD/T 6431《面向公共通信业务体验的统一算力标识技术要求》已正式发布。

标准在跑，但标准的落地需要时间。12项国家标准尚在"正在起草"阶段，行业标准的执行力度也有待观察。更核心的问题是：标准能规定"怎么描述算力"，但无法规定"算力之间怎么互操作"。这就像你可以用标准格式描述一个人的身高体重，但无法让他和别人自动成为搭档。

第三股：启元实验室"九源"——"编译器"路线。

启元实验室牵头提出的"九源统一智能计算架构"，走的是第三条路：不造新语言，也不发身份证，而是造一个"超级编译器"，让同一套代码自动适配不同芯片。

九源架构的核心设计分三层：统一算子库/通信库及运行时，提供底层算子接口的统一调用流程；统一领域编程语言及编译器，对Triton进行扩展，实现跨平台编译；兼容CUDA的NPU编译器，让现有CUDA代码可以在非CUDA芯片上运行。目前已在英伟达、天数智芯、沐曦、寒武纪、摩尔线程、昇腾、海光等芯片上初步适配。

这条路线的野心最大——它不仅要解决新代码的跨平台问题，还要让存量CUDA代码"自动迁移"。但难度也最高：CUDA的闭源特性意味着编译器必须"猜测"底层优化逻辑，而非直接复用。英伟达也明确禁止第三方通过翻译层运行CUDA代码，封堵了生态外溢的路径。

三条路线，三种逻辑：FlagOS造新语言，国家体系发身份证，九源造编译器。它们不是竞争关系，而是互补——但任何一条单独都无法解决异构调度的全部问题。算力网需要的，是一种能把"找得到""听得懂""调得动"三层能力串起来的系统。

算力网需要的不是"翻译"，是"操作系统"

到此为止，我们讨论的都还是在解决"怎么让不同芯片听懂彼此"的问题。但异构调度的真正难点，不是翻译，而是编排。

翻译是点对点的：CUDA→CANN是一对，CUDA→NeuWare是另一对，CANN→MUSA又是一对。N种芯片，需要N×(N-1)/2对翻译。而且每对翻译都是定制的，换了新模型可能又要重新调优。

互联网当年也面临过类似的问题——1970年代有十几种不同的计算机网络协议，IBM有SNA，DEC有DECnet，每个厂商都在说自己的"方言"。解决方案不是在每两种协议之间做翻译，而是发明TCP/IP——一套统一的抽象层，屏蔽底层差异，让上层应用不感知物理网络。

算力网需要自己的"TCP/IP时刻"。

中国电信的"息壤"平台正在朝这个方向探索。它提出的"Triless"架构——资源无关、框架无关、工具无关——本质上是在构建一个算力网的"操作系统"。用户不需要知道底层是什么芯片、什么框架，只需要描述"我要跑什么模型、需要什么性能"，平台自动匹配最优算力资源并完成适配。目前，息壤平台自有及接入智算总规模已突破91 EFLOPS，支持跨服务商、跨架构、跨地域的统一调度管理。

但"操作系统"的难度远超"翻译"。一个真正的算力操作系统，至少需要解决四个问题：

感知能力：知道每一块芯片此刻在干什么。这不仅仅是"状态监控"，而是理解芯片的实时负载、可用算力、内存余量、通信带宽——并且以足够细的粒度（毫秒级）感知变化。目前国家级算力互联网平台的月均调度仅约300次，大部分算力资源的状态还是"离线登记"而非"实时感知"。

匹配能力：知道什么任务该派给什么芯片。这不是一个简单的"性能排序"问题。训练任务需要大显存和高带宽互联，推理任务需要低时延和高吞吐，MoE模型的训练需要特定的All-to-All通信优化。一个任务在A100上跑得好，不代表在昇腾950上也能跑得好——不是性能不够，而是算子适配、通信模式、内存分配都需要针对性优化。中国联通的研究团队提出，算力调度需要考虑任务优先级、完成截止时间、数据位置、节点负载、网络带宽和时延等多维因素，是一个"典型的多约束优化问题"。目前的调度算法主要基于贪心策略和启发式算法，距离真正的"智能调度"还有距离。

迁移能力：正在跑的任务能无损地搬到另一块芯片上。电力调度可以让电流瞬间切换路径。算力调度做不到——一个训练到一半的模型，要从A100集群迁移到昇腾集群，需要先保存检查点、转换权重格式、重新分配内存、重建通信拓扑，整个过程可能耗时数小时。这期间任务完全中断。当前最先进的做法是"断点续训"，但"断点续训"不等于"无缝迁移"——它只是让你能从上次中断的地方继续，而不是让你在迁移过程中不中断。

容错能力：任何一块芯片出问题，任务不崩。在万卡集群中，硬件故障是常态而非异常。CUDA生态有成熟的容错机制——NCCL的通信容错、PyTorch的DDP弹性训练。国产芯片生态在这方面的能力还远远不够。2025年Q4，昇腾910C适配DeepSeek R2时出现"大规模推理时随机崩溃"的问题，一度让生态信心动摇。

四个问题，没有一个被完美解决。但方向已经清晰：算力网的调度系统，不是一个"翻译器"加上一个"路由器"，而是一个具备感知、匹配、迁移、容错能力的操作系统——它不是在芯片之间做翻译，而是在芯片之上做编排。

写在最后

回到巴别塔的隐喻。巴别塔建不成，不是因为砖不够，是因为语言不通。算力网面临同样的问题：70条大通道是砖，异构调度是语言。

但巴别塔故事的结局，不一定是永恒的分裂。

DeepSeek V4用14个月证明了"飞行换引擎"是可能的——200多个算子重写、35倍推理效率提升、单卡性能反超H20。FlagOS用Day0适配证明了9种芯片同日跑通一个模型是可能的。国家算力标识体系用1032万条标识证明了"给算力发身份证"是可行的。息壤的Triless架构证明了"屏蔽底层差异"的调度逻辑是可以落地的。

但这些"可能"都还停留在"点"的突破，没有连成"网"的贯通。DeepSeek的迁移是定制的，FlagOS的适配需要每家芯片厂商主动对接，国家标准还处于起草阶段，息壤的跨域调度月均只有300次。

算力网要真正跨过芯片异构这道坎，需要的不是更多的"翻译"——翻译再多，也只是让两种方言能对话。它需要的是一个足够好的"操作系统"——让上层应用完全不关心底层芯片是什么，就像你用手机打电话时不需要关心信号走的是4G还是WiFi。

互联网等了13年（1983年ARPANET切换TCP/IP）才迎来真正的爆发。算力网的"TCP/IP时刻"会什么时候到来？

三个信号值得盯住：第一，FlagOS或类似平台能否实现"零成本"的跨芯片迁移——即一个模型在A芯片上优化好的代码，能在B芯片上直接跑且性能损失低于10%；第二，国家级算力互联网平台的月调度量能否从300次跃升到30万次——这意味着调度不再是"试验"而是"日常"；第三，是否会出现第一个"算力原生"应用——离开算力网的异构调度能力就无法存在的应用，就像离开互联网就无法存在的电商。

巴别塔的故事还有一层被忽视的含义：人们被分散到各地，不是因为他们说不同的语言，而是因为他们不再愿意沟通。算力网面临的风险，不只是技术上的"听不懂"，更是商业上的"不想听"——每家芯片厂商都希望用自己的生态锁定用户，每家云厂商都希望用自己的平台圈住客户。异构调度越成熟，生态锁定就越难维持。

算力网的巴别塔，最终可能不是被技术推倒的，而是被利益重建的。（文/王子祺）

10亿融资背后：边缘算力的"碎片化陷阱"

3小时前

没有了

你可能也喜欢这些文章