年底的AI行业热闹非凡。前有摩尔线程、沐曦先后登陆科创板,创造国产GPU的历史性时刻,后有壁仞、天数智芯排队冲刺港交所。另一边,以中科曙光、特斯联、新华三为代表的企业,陆续发布全新超节点产品,以期通过系统优化能力弥合信创芯片与国际芯片的单卡性能差距。
在国产化替代的战略机遇下,两条看似迥异、实则互补的产业路径日益清晰:其一是深耕“硬件为王”,力求在单卡性能上持续迭代,缩短与国际顶尖产品的代差;其二是探索“超节点”架构,通过系统级优化最大化集群算力效能。二者恰如攀登“自主可控”巅峰的不同路线,虽策略与重心不同,却共同支撑起中国数字经济的算力基石,勾勒出国产算力突围的立体图景。
“硬件为王”路径:单卡性能持续迭代
尽管美国加紧限制先进半导体技术外流,在一定程度上致使我国芯片厂商在先进制程获取等层面承压,然而其技术封锁客观上亦催生了中国芯片产业的“倒逼式创新”。据美国智库乔治城大学新兴技术观察站数据,中国在芯片设计与制造领域的研究论文产出量已达美国两倍,且保持年均两位数增长态势,人才储备与广阔的潜在市场正在重构全球半导体创新要素流向。政策支持与市场活力的双重共振,使中国设计力量在全球份额争夺战中持续获得结构性优势。
以摩尔线程、沐曦为代表的中国GPU厂商持续推出全新架构,缩短与国际芯片的单卡代差。其上市后的亮眼表现,亦折射出了市场对“国芯”的期待。
摩尔线程:构建全功能GPU“瑞士军刀”
上市两周后,被誉为中国版“英伟达”的摩尔线程推出了全新架构“花港”,及三大全新芯片产品路线图“华山”、“庐山”和“长江”。
先说花港。作为摩尔线程推出的第五代全功能GPU架构,“花港”在多个性能指标上实现了提升。算力密度提升50%,计算能效提升10倍,支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持……
基于花港架构,摩尔线程发布了两款芯片路线,其中,华山聚焦AI训推一体机高性能计算,从浮点算力、访存宽带、访存容量和高速互联宽带等维度努力追赶英伟达Hopper架构芯片,其推出标志着摩尔线程正式具备支撑万亿参数大模型训练的能力,为国产AI基础设施不上关键一环。另一款庐山芯片则转为图形计算而生,延续了摩尔线程在国产渲染卡领域的领先优势。
此外,在端侧,摩尔线程还首次推出了智能SoC芯片长江,向端侧场景发起进军。不难看出,摩尔线程的野心,是基于其MUSA架构,构建一把全功能的瑞士军刀,以“AI+图形”双轮驱动,打造全功能GPU,覆盖云边端全场景,从性能上全面追赶英伟达。
沐曦:专攻推理与训练优化的“高精度手术刀”
如果说摩尔线程打造的是全功能GPU“瑞士军刀”,那么沐曦在做的则是构建一柄高性能GPGPU“高精度手术刀”。与摩尔线程的全功能路线不同,沐曦自创立之初的战略核心便是以自主知识产权的高性能GPU IP为基石,在特定的训推一体赛道上实现单卡性能的极致突破。

沐曦的技术路径体现为“深”而非“广”。其核心产品曦云C500系列作为国内首个对标英伟达A100的国产训推一体芯片,在部分客户测试中性能已实现超越。更为重要的是,沐曦已构建起从芯片设计到量产的全国产供应链闭环。2025年7月发布的新一代曦云C600芯片,以及计划于2027年量产、性能直指英伟达H100的C700旗舰芯片,清晰地展示了其通过自研核心IP在现有工艺条件下持续压榨单卡性能的决心和技术纵深。
沐曦的“手术刀”特性不仅体现在硬件上,更关键的是其软件生态策略。公司自主研发的MXMACA软件栈,实现了对主流CUDA生态的高度兼容。这套软件方案能显著降低用户的迁移成本,使得其曦云C500系列在推出后迅速获得市场认可,截至2025年3月累计销量已突破2.5万颗,应用于全国10余个智算集群。2025年,沐曦GPU集群成功支持了中国科学院自动化研究所类脑脉冲大模型SpikingBrain-1.0的全程训练与推理,该集群连续稳定运行两周未中断,不仅在能效上展现出巨大优势(推理能耗暴降97.7%),更在实践中验证了国产GPU支撑前沿AI探索的可行性。这表明,沐曦正通过精准的产品定义和软硬件协同优化,在国产算力生态中扮演着关键角色。
“超节点”路径:系统级效能的最大化
当“硬件为王”路径在单卡性能上奋力追赶时,另一条突围路径——“超节点”(Supernode)则展现出不同的思路:在单卡性能较国际顶尖水平仍存代差的前提下,通过先进的系统架构、互联技术和软件调度,将多个国产计算节点整合成一个高效的规模化算力池,从而在集群层面弥合差距。
这条路径的兴起,源于现实需求。对于许多需要处理千亿甚至万亿参数大模型的机构而言,单一芯片的性能固然重要,但算力集群的整体效率和稳定性才是决定其AI研发进度的更实际因素。超节点的核心理念在于,通过架构创新优化芯片间、节点间的通信效率,最大限度地释放国产芯片的聚合算力。国内厂商特斯联、中科曙光等均陆续推出了其自研超节点架构。
特斯联T-Cluster 512:异构融合,混推效率实现2倍提升
25年10月顶尖科学家论坛期间,AIoT企业特斯联自研打造超节点产品T-Cluster 512正式亮相。
特斯联以AIoT技术起家,所谓AIoT是指AI(人工智能)与IoT(物联网)技术的融合,其中IoT负责产生数据、采集数据,AI负责分析数据并做出数据驱动的智能决策,强调通过AI实现物与物之间的智能互联。大模型诞生以前,特斯联聚焦于以AIoT技术打通万物互联链路,推动楼、社、园、城等物理空间场景实现数智化转型。生成式智能时代,特斯联的AIoT能力进一步延伸至“算力”与“智能体”场景。
延续其AIoT的万物智联思路,特斯联的算力业务同样聚焦于异构芯片的高效智联。根据公开资料,T-Cluster 512聚焦于混合训推,由512颗异构芯片构成。通过搭建异构算力通用适配引擎,T-Cluster 512得以提取模型GPU算子,通过数学等价重构或子图融合实现不支持的算子,实现模型快速适配;屏蔽硬件差异,通过构建通用适配抽象层,实现算法代码零侵入迁移,迁移效率提升300%以上。目前,T-Cluster 512已经实现对MUSA、MXMACA、Neuware、CANN等多种不同计算架构的兼容。

作为支撑T-Cluster 512异构混推的核心,其上搭载的混合推理引擎HICE在芯片与模型之间打造了统一抽象层,以实现多种大模型算法在多元异构芯片上的高效、统一部署。值得注意的是,据其官方公布,特斯联混合推理引擎HICE于近日正式升级为混合智算平台ThiCP(Terminus Hybrid Intelligent Computing Platform)。
升级后的ThiCP在原有基础之上新增面向大规模混合智算场景的训练功能,以期在训练场景亦能充分释放国产芯片的价值。除兼容既有vLLM、SGLang等推理框架外,ThiCP新增支持DeepSpeed、Megatron-LM等分布式训练框架,支持万亿参数模型的预训练、微调。根据测算,基于ThiCP,GPU集群利用率可实现70%以上提升,千卡集群线性加速比超过90%(9216卡规模下可达90%),大模型后训练场景(以Llama3.1-405B为例)训练时间可缩短约50%,典型GPU算子优化后性能实现超3倍提升。
中科曙光ScaleX 640:极致算力密度
继T-Cluster 512之后,由中科曙光打造的ScaleX 640超节点万卡超集群亦于光合组织2025人工智能创新大会期间亮相。ScaleX640是全球首个单机柜级640卡超节点。相较于业界同类产品,ScaleX640单机柜的算力密度大幅提升。这意味着,用户可以在更小的空间内获得更强的计算能力,极大地提升了计算效率。
采用“一拖二”的高密架构设计,ScaleX 640能够在单个机柜内实现640张AI加速卡的超高速总线互联。在原生RDMA高速网络加持下,配合存、算、存紧耦合深度优化,可将AI加速卡的资源利用率提升55%。全新亮相的万卡超集群由16个ScaleX640超节点互联可部署10240块AI加速卡,总算力超5 EFLOPS。这样的设计构建了大规模、高带宽、低时延的超节点通信域。
正如光合组织秘书长任京旸在日前落下帷幕的光合组织2025人工智能创新大会上所指出的,开放计算意味着在计算架构的每一层都有多个优秀厂商贡献力量。特斯联、中科曙光正是践行这种开放架构的代表厂商。伴随协同效应集中爆发,产业链上下游正加速形成突围合力。
单卡性能的“硬件为王”路径与系统优化的“超节点”路径,看似选择不同,实则都是中国AI算力产业在特定发展阶段的理性选择。前者力图在核心硬件上实现根本性突破,后者则更务实,旨在通过系统集成创新快速满足市场需求并反哺硬件迭代。
未来,这两条路径或将进一步融合。芯片厂商在提升单卡性能的同时,业已开始布局集群解决方案,而系统厂商的超节点方案,也必然随着国产芯片单卡性能的提升而不断进化。无论是“瑞士军刀”式的全面布局,还是“高精度手术刀”式的垂直突破,亦或是“超节点”的系统级智慧,其最终目标都共同指向构建自主可控、安全高效的国产算力底座,为中国数字经济的高质量发展提供核心动力。