新闻中心

专业从事电子元器件代理、贸易及相关集成电路研发服务的高新科技公司

DeepSeek的出现掀起了推理算力需求的爆发,打破了

作者:旋乐吧  日期:2025-11-26  浏览:  来源:旋乐吧网站

DeepSeek的出现掀起了推理算力需求的爆发,打破了英伟达在算力领域的绝对统治,一场以ASIC芯片为核心的新算力革命正逐渐展开。业内消息显示,DeepSeek正积极布局自主研发AI芯片,尽管国内巨头如阿里、百度和字节跳动等早已进入自研行列。

与此同时,OpenAI自研芯片的进展也被曝光,其首款由博通定制的芯片即将完成量产。更加引人关注的是,有传闻称OpenAI创始人Sam Altman计划筹资万亿美元打造涵盖设计与制造的“芯片帝国”。谷歌、亚马逊、微软及Meta等全球科技巨头也纷纷加入了这场AI芯片自研热潮。

无论是DeepSeek、OpenAI,还是中国企业和硅谷巨头,都不愿在算力时代落后。ASIC芯片有望成为他们跨入新赛道的关键突破口。这场变革究竟会如何影响英伟达?是否会诞生下一个英伟达?尚无定论。但从上游芯片设计及服务供应商的发展可见一斑——博通的AI业务收入飙升,2024年同比增长240%,达到37亿美元,2025年第一季度营收更是达到41亿美元,其中80%来自ASIC芯片设计。

一、从GPU到ASIC:算力经济学的分水岭

AI推理需求激增的核心驱动力是成本的降低,而传统通用GPU芯片正逐渐成为限制因素。英伟达的H100、A100在大模型训练领域无可争议,占据统治地位,包括微软、Meta、Tesla等客户大量采购Hopper架构芯片。然而,GPU高昂的售价和较低的能效正日益显露劣势。

单块H100售价超过3万美元,千亿参数级大模型训练往往需要成千上万块GPU,再加上网络、存储和安全设备的成本,整体训练费用可超过5亿美元。根据市场数据,最新一代GB200 NVL72服务器报价超300万美元。算力虽强,但价格高昂,使得训练成本居高不下。以xAI为例,其Grok-3训练集群规模已达20万GPU。

而在能耗方面,10万个H100组成的集群功耗达150兆瓦,每年耗电量高达1.59太瓦时,电费超过1.2亿美元。更糟糕的是,推理阶段GPU的算力利用率普遍只有30%-50%,资源利用率低下,导致大量算力闲置浪费。

谷歌推出的TPU V4在训练速度表现上对比NVIDIA A100也显示出差异。性能突出、耗能低的ASIC芯片方案成为业内呼声日高的替代。云计算巨头逐渐丧失对硬件的主动权,供应链风险增加,AMD尚未成为有效替代者,促使更多企业投身ASIC芯片研发。

产业趋势正在由技术竞赛转向经济效益的博弈。研究显示,随着模型架构进入收敛期,算力投入必须实现可量化的成本效益。谷歌定制的TPU v5相比H100在推理阶段算力成本下降70%;亚马逊3nm制程Trainium 3能耗仅为通用GPU的三分之一,年节省电费超千万美元;微软自研ASIC助推Azure硬件采购成本从75%降至58%,提升议价能力。

博通作为北美ASIC设计链重要角色,AI业务已实现快速增长,预期2027年ASIC市场规模将突破900亿美元。借助这一趋势,博通成为继英伟达和台积电之后的全球第三家市值破万亿美元半导体企业。

图示:主流GPU与ASIC单位算力成本对比(数据来源:西南证券)

值得强调的是,ASIC不会取代GPU。谷歌、微软和Meta虽然都在进行自研ASIC,但仍积极抢占英伟达B200首发订单,表明两者更多是互补关系。GPU依然是训练市场的主力,推理阶段GPU的通用性也保持强劲。而ASIC则逐渐在推理市场占据更大份额,IDC预测2024-2026年ASIC推理场景市场占比将从15%提升至40,市场规模最高达1600亿美元。

未来格局可能为:ASIC主导推理市场,GPU坚守训练与图形任务。最终胜利者是能同时掌握芯片设计与场景应用的“全能玩家”,英伟达无疑是其中佼佼者。新机遇则在于发现除英伟达外的“双栖玩家”,布局ASIC新纪元。

二、ASIC的高效之道:剔除非核心模块,专注定制

与CPU、GPU普遍熟知不同,ASIC作为高度定制化芯片,专注于特定任务旋乐吧spin8。GPU设计需兼顾多种需求,导致大量晶体管资源分散在非核心模块。英伟达GPU结构有众多“小核”,通过CUDA生态支持丰富的并行计算,具备高度灵活性。

而ASIC根据应用特点,精简设计,仅保留与目标场景紧密相关的硬件单元。谷歌TPU v4中95%的晶体管专用于矩阵乘法和向量处理单元,远高于GPU的60%。其架构打破传统冯·诺依曼“计算-存储”分离,定制数据流设计有效降低延迟和能耗。例如,博通为Meta定制的推荐系统芯片中,计算单元嵌入存储控制器,数据传输距离缩短70%,延迟降低至GPU的1/8。亚马逊Trainium 2通过稀疏计算引擎跳过零值计算,理论性能提升300%。

ASIC的核心理念是将芯片打造为算法的“物理化身”,契合特定垂直应用。历史经验如比特币矿机ASIC,将数万个哈希单元集成芯片,实现算力密度远超GPU,同时显著节省能耗。ASIC进一步简化外围电路,减少主板面积与整体成本。

低成本、高效率及与应用场景的深度契合,使ASIC成为AI产业由“暴力堆叠算力”向“精细化效能优化”转型的重要支点。虽然研发成本高昂(单芯片设计费约5000万美元),但ASIC的边际成本下降速度远超GPU。谷歌TPU v4出货量从十万到百万,单位成本下跌近70%。预计2025年TPU v6出货量达160万片,算力提升三倍,进一步提升性价比。

自研ASIC的门槛仍较高,涉及IP授权、设计工具、掩模费用等成本达到亿元级别,主要由资金与规模优势的头部企业承担。谷歌、亚马逊凭借成熟客户体系拥有较大优势,Meta基于海量内需驱动布局ASIC研发。

三、新市场格局:价值超千亿美元,三大梯队浮现

早期矿机ASIC市场已逾百亿美元,博通预测2024年起AI ASIC市场规模将达700至900亿美元,甚至是保守估计。产业的发展关键在于掌握芯片设计与市场需求的博弈规则。

AI ASIC市场逐渐形成三大梯队:

第一梯队:芯片设计与制造的主导者,能生产高价ASIC芯片并与云厂商合作商用,包括博通、Marvell、AIchip及代工巨头台积电。

第二梯队:产业链配套企业,涵盖先进封装(如台积电CoWoS 35%产能服务ASIC客户),国产封装企业中芯国际、长电科技、通富微电等,以及服务器、光模块、交换机、PCB等低难度产业链环节,国产厂商竞争力强劲。

第三梯队:专注垂直应用的Fabless公司,定制ASIC以迎合特定场景需求。典型案例为自动驾驶芯片,随着比亚迪等加码智能驾驶,相关ASIC产品迎来爆发期。

面对国际禁令限制,国产GPU与英伟达差距依然明显,但ASIC凭借定制化与场景契合优势,与海外处于同一起跑线。国内多家Fabless公司已推出高能效AI ASIC产品,如矿机专用芯片、自动驾驶芯片、阿里平头哥的含光及百度昆仑等。制造端主要依赖中芯国际,中兴微等新玩家加快进入,未来有望引发国产ASIC链的战略升级。

图示:英伟达主要上游供应商与GB200 NVL72机柜内超长NVlink铜缆架构

产业链配套相对门槛较低,有利于国产企业发挥优势。服务器、光模块、PCB、铜缆行业已形成良好竞争格局,与国产算力生态形成共生关系。

四、总结

随着AI从训练阶段的算力军备竞赛逐步转向推理阶段的能效优化,算力格局的下半场必将由那些能够将技术优势转化为经济效益的企业主导。ASIC芯片的崛起不仅是一场技术革命,更是提升能效、降低成本、掌控行业话语权的关键路径。

面对这场新的芯片革命,中国企业的筹码不断积累,未来机遇更多留给有准备的参与者。

上一篇:ACM6753全集成三相无感直流无刷电机驱动芯片解析 下一篇:本设计采用MCU S9KEAZ128通过硬件I2C与外部ADC芯片

网站地图