国产AI算力的殊途同归：单卡性能 vs. 超节点

年底的AI行业热闹非凡。前有摩尔线程、沐曦先后登陆科创板，创造国产GPU的历史性时刻，后有壁仞、天数智芯排队冲刺港交所。另一边，以中科曙光、特斯联、新华三为代表的企业，陆续发布全新超节点产品，以期通过系统优化能力弥合信创芯片与国际芯片的单卡性能差距。

在国产化替代的战略机遇下，两条看似迥异、实则互补的产业路径日益清晰：其一是深耕“硬件为王”，力求在单卡性能上持续迭代，缩短与国际顶尖产品的代差；其二是探索“超节点”架构，通过系统级优化最大化集群算力效能。二者恰如攀登“自主可控”巅峰的不同路线，虽策略与重心不同，却共同支撑起中国数字经济的算力基石，勾勒出国产算力突围的立体图景。

“硬件为王”路径：单卡性能持续迭代

尽管美国加紧限制先进半导体技术外流，在一定程度上致使我国芯片厂商在先进制程获取等层面承压，然而其技术封锁客观上亦催生了中国芯片产业的“倒逼式创新”。据美国智库乔治城大学新兴技术观察站数据，中国在芯片设计与制造领域的研究论文产出量已达美国两倍，且保持年均两位数增长态势，人才储备与广阔的潜在市场正在重构全球半导体创新要素流向。政策支持与市场活力的双重共振，使中国设计力量在全球份额争夺战中持续获得结构性优势。

以摩尔线程、沐曦为代表的中国GPU厂商持续推出全新架构，缩短与国际芯片的单卡代差。其上市后的亮眼表现，亦折射出了市场对“国芯”的期待。

摩尔线程：构建全功能GPU“瑞士军刀”

上市两周后，被誉为中国版“英伟达”的摩尔线程推出了全新架构“花港”，及三大全新芯片产品路线图“华山”、“庐山”和“长江”。

先说花港。作为摩尔线程推出的第五代全功能GPU架构，“花港”在多个性能指标上实现了提升。算力密度提升50%，计算能效提升10倍，支持从FP4到FP64的全精度端到端计算，新增MTFP6/MTFP4及混合低精度支持……

基于花港架构，摩尔线程发布了两款芯片路线，其中，华山聚焦AI训推一体机高性能计算，从浮点算力、访存宽带、访存容量和高速互联宽带等维度努力追赶英伟达Hopper架构芯片，其推出标志着摩尔线程正式具备支撑万亿参数大模型训练的能力，为国产AI基础设施不上关键一环。另一款庐山芯片则转为图形计算而生，延续了摩尔线程在国产渲染卡领域的领先优势。

此外，在端侧，摩尔线程还首次推出了智能SoC芯片长江，向端侧场景发起进军。不难看出，摩尔线程的野心，是基于其MUSA架构，构建一把全功能的瑞士军刀，以“AI+图形”双轮驱动，打造全功能GPU，覆盖云边端全场景，从性能上全面追赶英伟达。

沐曦：专攻推理与训练优化的“高精度手术刀”

如果说摩尔线程打造的是全功能GPU“瑞士军刀”，那么沐曦在做的则是构建一柄高性能GPGPU“高精度手术刀”。与摩尔线程的全功能路线不同，沐曦自创立之初的战略核心便是以自主知识产权的高性能GPU IP为基石，在特定的训推一体赛道上实现单卡性能的极致突破。

国产AI算力的殊途同归：单卡性能 vs. 超节点(图2)

沐曦的技术路径体现为“深”而非“广”。其核心产品曦云C500系列作为国内首个对标英伟达A100的国产训推一体芯片，在部分客户测试中性能已实现超越。更为重要的是，沐曦已构建起从芯片设计到量产的全国产供应链闭环。2025年7月发布的新一代曦云C600芯片，以及计划于2027年量产、性能直指英伟达H100的C700旗舰芯片，清晰地展示了其通过自研核心IP在现有工艺条件下持续压榨单卡性能的决心和技术纵深。

沐曦的“手术刀”特性不仅体现在硬件上，更关键的是其软件生态策略。公司自主研发的MXMACA软件栈，实现了对主流CUDA生态的高度兼容。这套软件方案能显著降低用户的迁移成本，使得其曦云C500系列在推出后迅速获得市场认可，截至2025年3月累计销量已突破2.5万颗，应用于全国10余个智算集群。2025年，沐曦GPU集群成功支持了中国科学院自动化研究所类脑脉冲大模型SpikingBrain-1.0的全程训练与推理，该集群连续稳定运行两周未中断，不仅在能效上展现出巨大优势（推理能耗暴降97.7%），更在实践中验证了国产GPU支撑前沿AI探索的可行性。这表明，沐曦正通过精准的产品定义和软硬件协同优化，在国产算力生态中扮演着关键角色。

“超节点”路径：系统级效能的最大化

当“硬件为王”路径在单卡性能上奋力追赶时，另一条突围路径——“超节点”（Supernode）则展现出不同的思路：在单卡性能较国际顶尖水平仍存代差的前提下，通过先进的系统架构、互联技术和软件调度，将多个国产计算节点整合成一个高效的规模化算力池，从而在集群层面弥合差距。

这条路径的兴起，源于现实需求。对于许多需要处理千亿甚至万亿参数大模型的机构而言，单一芯片的性能固然重要，但算力集群的整体效率和稳定性才是决定其AI研发进度的更实际因素。超节点的核心理念在于，通过架构创新优化芯片间、节点间的通信效率，最大限度地释放国产芯片的聚合算力。国内厂商特斯联、中科曙光等均陆续推出了其自研超节点架构。

特斯联T-Cluster 512：异构融合，混推效率实现2倍提升

25年10月顶尖科学家论坛期间，AIoT企业特斯联自研打造超节点产品T-Cluster 512正式亮相。

特斯联以AIoT技术起家，所谓AIoT是指AI（人工智能）与IoT（物联网）技术的融合，其中IoT负责产生数据、采集数据，AI负责分析数据并做出数据驱动的智能决策，强调通过AI实现物与物之间的智能互联。大模型诞生以前，特斯联聚焦于以AIoT技术打通万物互联链路，推动楼、社、园、城等物理空间场景实现数智化转型。生成式智能时代，特斯联的AIoT能力进一步延伸至“算力”与“智能体”场景。

延续其AIoT的万物智联思路，特斯联的算力业务同样聚焦于异构芯片的高效智联。根据公开资料，T-Cluster 512聚焦于混合训推，由512颗异构芯片构成。通过搭建异构算力通用适配引擎，T-Cluster 512得以提取模型GPU算子，通过数学等价重构或子图融合实现不支持的算子，实现模型快速适配；屏蔽硬件差异，通过构建通用适配抽象层，实现算法代码零侵入迁移，迁移效率提升300%以上。目前，T-Cluster 512已经实现对MUSA、MXMACA、Neuware、CANN等多种不同计算架构的兼容。

国产AI算力的殊途同归：单卡性能 vs. 超节点(图3)

作为支撑T-Cluster 512异构混推的核心，其上搭载的混合推理引擎HICE在芯片与模型之间打造了统一抽象层，以实现多种大模型算法在多元异构芯片上的高效、统一部署。值得注意的是，据其官方公布，特斯联混合推理引擎HICE于近日正式升级为混合智算平台ThiCP（Terminus Hybrid Intelligent Computing Platform）。

升级后的ThiCP在原有基础之上新增面向大规模混合智算场景的训练功能，以期在训练场景亦能充分释放国产芯片的价值。除兼容既有vLLM、SGLang等推理框架外，ThiCP新增支持DeepSpeed、Megatron-LM等分布式训练框架，支持万亿参数模型的预训练、微调。根据测算，基于ThiCP，GPU集群利用率可实现70%以上提升，千卡集群线性加速比超过90%（9216卡规模下可达90%），大模型后训练场景（以Llama3.1-405B为例）训练时间可缩短约50%，典型GPU算子优化后性能实现超3倍提升。

中科曙光ScaleX 640：极致算力密度

继T-Cluster 512之后，由中科曙光打造的ScaleX 640超节点万卡超集群亦于光合组织2025人工智能创新大会期间亮相。ScaleX640是全球首个单机柜级640卡超节点。相较于业界同类产品，ScaleX640单机柜的算力密度大幅提升。这意味着，用户可以在更小的空间内获得更强的计算能力，极大地提升了计算效率。

采用“一拖二”的高密架构设计，ScaleX 640能够在单个机柜内实现640张AI加速卡的超高速总线互联。在原生RDMA高速网络加持下，配合存、算、存紧耦合深度优化，可将AI加速卡的资源利用率提升55%。全新亮相的万卡超集群由16个ScaleX640超节点互联可部署10240块AI加速卡，总算力超5 EFLOPS。这样的设计构建了大规模、高带宽、低时延的超节点通信域。

正如光合组织秘书长任京旸在日前落下帷幕的光合组织2025人工智能创新大会上所指出的，开放计算意味着在计算架构的每一层都有多个优秀厂商贡献力量。特斯联、中科曙光正是践行这种开放架构的代表厂商。伴随协同效应集中爆发，产业链上下游正加速形成突围合力。

单卡性能的“硬件为王”路径与系统优化的“超节点”路径，看似选择不同，实则都是中国AI算力产业在特定发展阶段的理性选择。前者力图在核心硬件上实现根本性突破，后者则更务实，旨在通过系统集成创新快速满足市场需求并反哺硬件迭代。

未来，这两条路径或将进一步融合。芯片厂商在提升单卡性能的同时，业已开始布局集群解决方案，而系统厂商的超节点方案，也必然随着国产芯片单卡性能的提升而不断进化。无论是“瑞士军刀”式的全面布局，还是“高精度手术刀”式的垂直突破，亦或是“超节点”的系统级智慧，其最终目标都共同指向构建自主可控、安全高效的国产算力底座，为中国数字经济的高质量发展提供核心动力。