背景:模型公司开始靠近芯片设计
2026 年春季,Anthropic 被曝正在评估自研芯片的可能性。这家年收入已超过 300 亿美元、Claude 用户快速增长的 AI 实验室,正在从“算力消费者”逐步靠近“算力定义者”的位置。
即便相关计划仍处于早期阶段,这个动作本身已经足够说明问题:当纯模型公司开始认真考虑做芯片,AI 推理硬件竞争就进入了新的强度区间。
大迁移:算力重心从训练转向推理
过去两年,AI 行业最重要的变化之一,就是巨大的算力需求正在从训练阶段快速迁移到推理阶段。训练更看重大规模并行,NVIDIA 在这里拥有极深的积累;而推理更看重低延迟、高吞吐和低能耗,这些目标并不完全和 GPU 的传统优势重合。
到 2026 年,推理算力需求预计将占到 AI 总需求的绝大部分。也就是说,未来芯片市场真正的主战场,已经不再只是训练。
Groq:推理挑战者的兴衰
Groq 的故事之所以引人注目,是因为它试图走一条和 GPU 完全不同的路:去掉复杂的硬件级调度器,把数据流路径尽可能前移到编译阶段决定,让芯片像高度精密的流水线一样工作。
这种架构在推理延迟和每 token 能耗上表现极具冲击力,也吸引了大量开发者和资本。但也正因为它切中了推理市场的核心痛点,Groq 最终成为 NVIDIA 最需要盯住的外部目标之一。
云巨头的回应:推理 ASIC 加速上桌
事实上,在 Groq 之外,Google、Amazon、Microsoft 这些云巨头早已在自研或推进自己的算力路线。Google 有 TPU,AWS 有 Trainium,Microsoft 有 Maia,而且这些路线正在从内部项目逐步走向对外商业化。
Google 把新一代 TPU 明确定位为“推理时代最具性价比的商用引擎”;AWS 则更强调“自研为主、外采补充”的组合策略,用自研芯片打低成本推理,再用外部高性能方案覆盖对时延敏感的高端场景。
为什么推理芯片和训练芯片不一样
训练更重视短时间内的总算力冲刺,而推理更看重长期稳定的功耗控制和单位成本。GPU 往往功耗较高,而专用推理芯片在等效工作负载下可以把功耗压得更低。
对于需要数十万甚至更多推理芯片的大规模部署来说,这种差异会直接转化为巨额年度成本差距,这也是云厂商和大模型公司持续押注 ASIC 的核心原因之一。
Intel 与 SambaNova:更务实的异构路径
如果云巨头自研代表长期下注,那么 Intel 与 SambaNova 的合作代表的是另一条更现实的突破路径:把 GPU、CPU 和专用推理加速器组合起来,用异构方式针对实际工作负载做最优分工。
这种方案背后的判断是,纯 GPU 在预填充等并行阶段非常强,但在生产环境推理任务里,CPU 调度能力和专用解码效率同样重要。
Cerebras:从创业公司走向云供应商
Cerebras 的核心技术是整片晶圆级芯片 WSE,它通过整晶圆设计突破传统切割边界,在部分推理解码场景里能提供极具吸引力的延迟表现。
当 OpenAI 和 AWS 都开始把 Cerebras 拉进更真实的商业算力体系里时,它的身份也发生了变化:不再只是资本市场里的技术故事,而是逐步变成云基础设施的一部分。
CoreWeave:算力基础设施的承接者
算力大战的另一面,是基础设施供给侧的重构。CoreWeave 的价值就在于,它为大量不想被单一云平台深度绑定的 AI 公司,提供了一个更中性的算力租赁入口。
它的快速扩张说明,GPU 算力正在从“稀缺商品”转向“基础设施资产”。但与此同时,重资本扩张也让它承受着巨大的融资和现金流压力。
未来格局:异构共存将成常态
Anthropic 评估自研、NVIDIA 吸纳 Groq、Google 继续强化 TPU、AWS 引入 Cerebras、Intel 搭配 SambaNova,这些看似分散的动作,其实共同指向一个现实:AI 产业的重点正在从“如何训练更强模型”转向“如何用更低成本、更高速度完成更多推理”。
这轮竞争和早期 GPU 对 CPU 的替代并不一样。今天的推理芯片战争更像复杂生态内部的重新分工:GPU 负责大规模并行预填充,专用推理芯片承担解码,CPU 负责调度与控制,云和边缘则各自有不同重点。
结语
这意味着结局远未确定。对 Anthropic 来说,自研是争取算力自主权和防止被上游掐住的一张保险;对 NVIDIA 来说,CUDA 护城河依旧很深,但推理端日益明显的性能与成本缺口,也正在给所有潜在挑战者留下突破口。
战线已经拉开,参与者只会越来越多。这场 AI 推理芯片混战,才刚进入最激烈的一章。


