研究定位:半导体与人工智能产业链 · 首席分析师深度报告
编辑日期:2026年4月9日
核心假设:DeepSeek 通过极致 MoE 架构与算法创新实现算力效率代际突破,行业逻辑从"盲目堆叠 H100"转向"国产硬件+极致软件优化"的实用主义路线
数据来源:IDC, Gartner, 各公司年报, DeepSeek 技术报告, Wind, 产业链调研
一句话结论:DeepSeek 的算力效率突破正在重写"AI 硬件需求函数"——从
性能 = f(制程 × 卡数)转变为性能 = f(架构效率 × 生态适配度)。这一变量切换,将国产 AI 硬件从"替代品"升格为"首选项",开启年化 3000 亿元级的国产替代市场。
关键数字速览:
| 指标 | 数值 | 数据出处 |
|---|---|---|
| DeepSeek V3 训练成本 | 557 万美元(2048×H800,仅为 GPT-4 的 ~3%) | DeepSeek 技术报告 |
| DeepSeek V3 训练 GPU 时长 | 278.8 万 H800 GPU 小时(Llama-3 405B 为 3080 万) | arXiv 2412.19437 |
| 2025 年中国 AI 加速卡总出货量 | 400 万张 | IDC 2026.04 |
| 国产厂商市场份额 | 41%(vs 英伟达 55%,较管制前 95% 腰斩) | IDC 2026.04 |
| 华为昇腾 2025 出货量 | 81.2 万颗(国产第一) | IDC 2026.04 |
| 昇腾 950PR 单卡算力 vs H20 | 2.87×(FP4 精度 1.56P) | 华为 2026.03 |
| 国产 AI 芯片自给率预测(2027) | 55%(vs 2023 年 17%) | IDC |
| 国产 HBM2 量产预期 | 2026 年中(长鑫存储) | 产业链 |
DeepSeek 的核心技术创新在于——用算法效率换算力冗余,彻底改写了"参数量=算力消耗"的线性关系:
| 技术创新 | 机制 | 效率收益 |
|---|---|---|
| MoE 混合专家架构 | 671B 总参数,每次推理仅激活 37B(5.5%) | 推理算力需求降低 ~18× |
| MLA 多头潜在注意力 | 压缩 KV Cache 至传统 MHA 的 5-13% | 显存占用大幅降低 |
| 动态稀疏注意力(DSA) | 长序列处理从 O(N²) 降至近线性 | 百万 token 上下文支持 |
| FP8 混合精度训练 | 首个在生产级大模型中大规模使用 FP8 | 训练成本再降 ~40% |
| Multi-Token Prediction | 一次前向传播预测多个 token | 推理吞吐量提升 ~1.8× |
对比维度:训练成本效率
| 模型 | 参数量 | 训练GPU小时 | 训练成本 | 效率倍数 |
|---|---|---|---|---|
| GPT-4 (推测) | ~1.8T (MoE) | ~2亿+ H100小时 | ~$1亿+ | 1× (基准) |
| Llama-3 405B | 405B (Dense) | 3,080万 H80小时 | ~$6,000万 | 1.7× |
| DeepSeek V3 | 671B (MoE) | 278.8万 H800小时 | $557万 | ~18× |
来源:DeepSeek V3 技术报告 (arXiv:2412.19437); Meta Llama-3 技术报告; OpenAI 成本推估基于 SemiAnalysis
关键逻辑链:
DeepSeek MoE 架构
→ 每次推理仅激活 37B/370B 参数
→ 单卡显存需求从 80GB→35GB (FP4)
→ 不再强依赖 4nm/5nm 制程的极致算力密度
→ 7nm 制程的国产芯片(昇腾910B/950PR)完全可用
→ 国产硬件从"性能够不着"变为"性能够用且生态成熟"
对国产 GPU 的本质改变:
| 维度 | DeepSeek 之前 | DeepSeek 之后 |
|---|---|---|
| 硬件门槛 | 必须 4nm 制程、HBM3e | 7nm + HBM2 即可承载 |
| 市场定位 | 国产=低端替代、政策驱动 | 国产=主力平台、性能驱动 |
| 生态适配 | 迁移成本高(30%代码修改) | CANN Next 高度兼容 CUDA |
| 客户心智 | "被迫用国产" | "主动选国产" |
| 标杆事件 | 无第一梯队模型运行于国产芯片 | DeepSeek V4 全量落地昇腾 950PR |
2025 年中国云端 AI 加速卡市场格局(IDC 2026.04 数据):
| 排名 | 厂商 | 出货量(万颗) | 份额 | 定位 |
|---|---|---|---|---|
| 1 | 英伟达 (NVIDIA) | ~220 | 55% | 份额从95%腰斩,H20为主 |
| 2 | 华为昇腾 | 81.2 | ~20% | 国产第一,推理芯片放量 |
| 3 | 平头哥 (阿里) | 25.6 | ~6% | 云厂商自用为主 |
| 4 | AMD | ~16 | ~4% | MI300系列小批量进入 |
| 5 | 昆仑芯 (百度) | ~11.6 | ~3% | 百度内部+外部客户 |
| 5 | 寒武纪 | ~11.6 | ~3% | 思元590放量 |
| — | 其他国产 | ~19 | ~5% | 海光、天数智芯、壁仞等 |
来源:IDC 2026.04, 芯智讯
国产份额增长路径预测(敏感度分析):
| 情景 | 2025 | 2026E | 2027E | 2028E | 核心假设 |
|---|---|---|---|---|---|
| 基准 | 41% | 50% | 55% | 62% | 美制裁维持,DeepSeek 效应持续 |
| 乐观 | 41% | 55% | 65% | 75% | DeepSeek V4 引爆国产全链替代 |
| 悲观 | 41% | 45% | 50% | 55% | 英伟达 H200 大规模获批 |
关键时间点预判: - 2026Q2:昇腾 950PR 大规模交付,DeepSeek V4 拉动推理算力需求井喷 - 2026Q4:昇腾 950DT(训练芯片)量产 → 训推一体生态闭环 - 2027:昇腾 960 对标 H200 → 高端市场竞争白热化
国产 HBM 进展时间表:
| 厂商 | 技术节点 | 进度 | 量产预期 | 溢价能力 |
|---|---|---|---|---|
| 长鑫存储 | HBM2 | 已向客户送样 | 2026年中 | 高(供不应求) |
| 长鑫存储 | HBM3 | 研发中 | 2026-2027 | 极高 |
| 长江存储(武汉新芯) | HBM | 月产能3000片产线建设中 | 2027 | 高 |
先进封装竞争格局:
| 厂商 | 核心能力 | HBM封装进展 | 投资逻辑 |
|---|---|---|---|
| 长电科技 | 先进封装占比~30%,最有潜力突破 HBM 封装 | TSV 技术储备完善 | 龙头溢价+订单排到2026年 |
| 通富微电 | 国内首家完成 3D DRAM 封装 | 南通三期产线建设中 | HBM封装纯正标的 |
| 华天科技 | SiP/Chiplet 封装 | 布局中 | 第二梯队 |
| 博敏电子 | 国内唯一实现 HBM3 载板量产 | 已通过长鑫验证 | 上游材料 |
Chiplet 封装的战略意义:
在先进制程(3nm/5nm)被卡脖子的前提下,Chiplet 通过"多个成熟制程芯粒拼接"实现等效性能,是国产路线绕过光刻限制的核心路径。DeepSeek 的 MoE 架构天然适配 Chiplet——不同专家模块可分布在不同芯粒上,充分利用异构计算。
HBM 溢价能力定量估算:
| 指标 | 全球 HBM 市场 | 中国需求缺口 |
|---|---|---|
| 2025 全球 HBM 出货量 | ~12亿GB | — |
| 中国 AI 芯片对 HBM 年需求 | — | ~3亿GB |
| 国产 HBM 供给能力(2026E) | — | <5000万GB |
| 供需缺口 | — | >80%依赖进口 |
| 国产 HBM 溢价预估 | — | 15-25%(稀缺性溢价) |
核心逻辑: 从"英伟达集成商"→"国产算力方案商",定价权和毛利率将发生质变。
| 厂商 | 2024毛利率 | 2025毛利率 | 2026E毛利率 | 变化逻辑 |
|---|---|---|---|---|
| 浪潮信息 | ~6.5% | ~6.8% | 8-10% | 国产方案占比提升→采购成本降低+定价权增强 |
| 中科曙光 | ~24% | ~26% | 28-30% | 绑定昇腾生态+信创项目溢价 |
| 工业富联 | ~7% | ~7.5% | ~8% | 全球ODM,毛利率天花板低 |
毛利率改善的三重驱动:
来源:各公司年报, 中科曙光毛利率26%(2025Q1), 浪潮信息毛利率6.8%
"大模型价格战"的终局 → 预算从云端流向本地化:
| 阶段 | 时间 | 客户行为 | 受益环节 |
|---|---|---|---|
| 价格战 | 2024-2025 | 云端大模型API价格暴跌90%+ | 云厂商获客 |
| 安全焦虑 | 2025-2026 | 企业发现数据上云=核心资产外泄风险 | — |
| 私有化回流 | 2026-2027 | 预算从"云端API"转向"私有化部署+国产算力池" | 国产芯片+服务器+一体机 |
私有化部署的经济账(以 DeepSeek V3 推理为例):
| 方案 | 硬件投入 | 年运营成本 | 3年TCO | 数据安全 |
|---|---|---|---|---|
| 云端API调用 | 0 | ~200万/年 | ~600万 | ❌ 数据出境 |
| 英伟达私有化 | ~500万(8×H200) | ~50万/年 | ~650万 | ✅ 但供应不稳 |
| 国产私有化 | ~300万(8×昇腾950PR) | ~40万/年 | ~420万 | ✅ 供应稳定 |
注:以中等规模金融机构部署为例,假设日均100万次推理请求
| 环节 | 代表标的 | 业绩兑现度 | 传导时滞 | 估值状态 | Alpha 评级 |
|---|---|---|---|---|---|
| 推理芯片 | 华为昇腾(未上市)、寒武纪 | ⭐⭐⭐⭐⭐ | 即时 | 偏高但有业绩支撑 | 🟢 超配 |
| 先进封装 | 长电科技、通富微电 | ⭐⭐⭐⭐ | 3-6个月 | 估值洼地 | 🟢🟢 强烈超配 |
| HBM 存储 | 长鑫存储(未上市)、深科技 | ⭐⭐⭐⭐ | 6-12个月 | 偏低 | 🟢 超配 |
| 服务器集成 | 中科曙光、浪潮信息 | ⭐⭐⭐ | 即时 | 合理 | 🟡 标配 |
| 训练芯片 | 海光信息 | ⭐⭐⭐ | 6-12个月 | 偏高 | 🟡 标配 |
| PCB/载板 | 博敏电子、兴森科技 | ⭐⭐ | 9-12个月 | 偏低 | 🟡 标配 |
| 边缘推理 | 瑞芯微、全志科技 | ⭐⭐ | 12个月+ | 偏低 | 🟡 关注 |
当前最大的 Alpha 机会 = 先进封装环节
逻辑: 1. 供需错配确定性最高:全球 HBM 封装产能集中在 SK海力士+三星+台积电,国产需求无法获得海外产能支持 2. 业绩兑现最快:长电科技"HBM 封测订单排到 2026 年,24 小时连轴转" 3. 估值尚未充分反映:先进封装标的 PE 普遍在 25-35×,远低于芯片设计公司的 60-100× 4. 催化剂密集:长鑫 HBM2 量产(2026H1) + 昇腾 950 系列放量 → 封装需求井喷
"国产 AI 硬件α组合"(6-12个月视角):
| 优先级 | 标的方向 | 权重建议 | 核心逻辑 |
|---|---|---|---|
| ⭐⭐⭐ | 先进封装(长电/通富) | 30% | 估值洼地+订单确定性+HBM催化 |
| ⭐⭐⭐ | 推理芯片(寒武纪) | 25% | DeepSeek V4直接拉动+出货量爬坡 |
| ⭐⭐ | AI服务器(中科曙光) | 20% | 毛利率改善+信创绑定 |
| ⭐⭐ | HBM上游(深科技/博敏) | 15% | 国产HBM量产前最确定的受益链 |
| ⭐ | 训练芯片(海光) | 10% | 长期逻辑好但短期估值偏高 |
| 风险因素 | 概率 | 影响度 | 具体场景 | 对冲建议 |
|---|---|---|---|---|
| CUDA 迁移成本 | 中 | 高 | 大型客户历史代码库庞大,迁移周期超预期 | 关注 CANN Next 兼容度实测数据 |
| 制裁升级 | 中高 | 极高 | 美国将制裁扩展至先进封装设备/EDA | 分散配置上下游,避免单一环节过度集中 |
| 英伟达反击 | 中 | 高 | H200 大规模获批+针对中国定制低价版 | 监控商务部审批动态 |
| 技术路线风险 | 低 | 高 | MoE 架构在某些任务上效率不及 Dense 模型 | 关注 DeepSeek V4 基准测试结果 |
| 产能瓶颈 | 高 | 中 | 昇腾 950PR 产能爬坡不及预期 | 关注华为季度出货数据 |
| HBM 良率 | 中 | 中 | 国产 HBM2 良率低于预期,量产延迟 | 监控长鑫客户验证进展 |
这是投资者最关心的"软风险"。数据表明迁移成本正在快速下降:
| 时间 | PyTorch 迁移至昇腾的代码修改量 | 主要障碍 |
|---|---|---|
| 2023 | ~30% | 算子缺失、调试工具不足 |
| 2024 | ~15% | CANN 4.0 补齐主要算子 |
| 2025 | ~5-8% | CANN Next 推出 SIMT 模型 |
| 2026(V4) | <2% | DeepSeek 团队与华为联合深度优化 |
来源:华为 CANN 官方文档, 芯智讯(eet-china)
| 情景 | 概率 | 对国产硬件影响 | 投资策略调整 |
|---|---|---|---|
| 制裁维持现状 | 50% | 国产替代稳步推进 | 基准组合不变 |
| 制裁扩展至封装设备 | 25% | 短期冲击封装链,长期加速国产化 | 增配设备/材料自主化标的 |
| 制裁放松(H200获批) | 15% | 国产份额增速放缓 | 降低芯片权重,增配应用层 |
| 极端升级(全面脱钩) | 10% | 短期休克,中期全面国产化 | 增配全产业链布局标的 |
DeepSeek 证明了"18× 效率"是可实现的。即使 DeepSeek 消失,MoE+MLA+FP8 的技术范式已被全球开源社区吸收。这意味着 "堆算力"的边际回报将持续递减,算法效率的权重将持续上升。
DeepSeek V4 全量落地昇腾 950PR,阿里/字节/腾讯数十万颗订单——这不是政策强制,而是市场选择。当最好的模型优先适配国产芯片,整个生态将发生不可逆的正反馈。
无论芯片之争谁赢,只要 AI 算力需求在增长,HBM 封装和 Chiplet 集成就是刚需。供需缺口>80%的国产 HBM 封装,是当前最确定的估值洼地。
昇腾 950DT(训练芯片)2026Q4 量产,届时华为将首次实现 训练+推理全国产化闭环。这是判断国产 AI 硬件能否从"推理替代"升级为"全栈替代"的分水岭事件。
免责声明:本报告基于公开数据和产业链调研整理,部分数据为合理估算。仅供机构投资者研究参考,不构成投资建议。市场有风险,投资需独立判断。
编辑日期:2026年4月9日
研报中心 · axiomflow.com.cn · 2026年4月