OCS:中国 AI 算力建设的特别意义
<![CDATA[
当 AI 大模型参数突破万亿、集群规模以每年翻倍的速度扩张时,对中国而言,OCS 不仅是技术升级,更是摆脱高端芯片依赖、筑牢算力自主底座、领跑全球 AI 基建的战略抓手。
AI 集群的核心矛盾,从来都是 “算力够快,网络拖后腿”。当前主流的电交换机(LAN Switch),面临物理工艺的硬约束:
带宽极限:受半导体工艺限制,当前高端电交换芯片(ASIC)的处理带宽被牢牢锁在51.2T以内;
规模错配:AI 集群从千卡向万卡、十万卡扩张时,传统 CLOS 电交换架构需指数级增加交换机,布线复杂度、运维成本、故障风险同步飙升,陷入 “规模越大,算效越低” 的怪圈;
能耗黑洞:万卡集群中,电交换网络功耗占比超30%,既推高运营成本,也给数据中心散热、供电带来巨大压力。
简单说:电交换的带宽已锁死中国 AI 集群的扩张上限。若继续依赖海外高端电交换芯片,更面临供应链 “卡脖子” 风险 ——OCS,正是打破这一困局的关键钥匙。
OCS 端口可从 256→512→1K 平滑演进,集群规模可从千卡向万卡、十万卡无缝扩展,通过可重构拓扑灵活划分任务资源。华为昇腾 384 超节点利用 OCS,将 4096 颗 GPU 集群可用率从 99% 提升至99.999%,彻底解决电交换 “规模越大,可靠性越低” 的痛点。
中国头部云厂正加速追赶,2026 年从技术验证迈入小规模商用 + 大规模部署阶段。
华为:OCS + 超节点,构建万卡集群底座
华为是国内 OCS 布局最激进的厂商,发布OptiXtrans DC908 全光交换机,支持 256×256 无阻塞全光交换,功耗百瓦级。技术路线清晰:超节点内部用自研灵衢协议 + MatrixLink 总线,集群互联和数据中心顶层网络用 OCS,支撑 Atlas 950 SuperCluster 百万卡级集群互联。目前已在多个智算中心落地,服务昇腾 AI 集群规模化训练。
腾讯:OCS + 自研网络,适配大模型推理与训练
腾讯重点布局 OCS 在大模型推理 + 小规模训练场景的应用,联合国内光器件厂商定制化开发 OCS 设备,优化时延与功耗指标。在腾讯云智算中心,OCS 已用于万亿参数大模型的推理集群,将推理时延降低40%,同时支撑千卡级训练集群的高效互联,计划 2026 年底前规模化部署。
政策加持:工信部定调,OCS 成算力新基建标配
2026 年 4 月,工信部发布《普惠算力赋能中小企业发展专项行动》,明确提出 “推动全光交换(OCS)等技术应用部署,降低算力终端到服务器的网络时延”。“东数西算” 二期工程要求新建超算中心必须采用 OCS 架构,国产 OCS 设备在政务云渗透率已达25%,政策 + 市场双轮驱动,OCS 规模化落地进入倒计时。
本话题在雪球有267条讨论,点击查看。
雪球是一个投资者的社交网络,聪明的投资者都在这里。
点击下载雪球手机客户端 http://xueqiu.com/xz]]>
#OCS中国 #算力建设的特别意义