【技术前沿】飙至10.8GB/s!UFS 5.0决战移动端,为什么赢的不是BGA SSD?

【技术前沿】飙至10.8GB/s!UFS 5.0决战移动端,为什么赢的不是BGA SSD?

随着端侧大模型(On-Device GenAI)、4K/8K超高清视频录制以及智能座舱多屏互动的爆发,移动端和汽车的计算核心不仅对算力(TOPS)近乎压榨,更是将系统瓶颈直接推向了长期被忽视的领域——存储带宽

在刚刚过去的几个月里,JEDEC 终于掀开了下一代闪存标准 UFS 5.0 的神秘面纱。这场围绕“闪存速度翻倍”的军备竞赛,正在悄然重塑整个移动与智能出行生态的底层逻辑。

今天,我们就来深度扒一扒 UFS 5.0 繁华背后的技术演进、验证暗战,以及巨头之间的“冰与火之歌”。

存储大变局:铠侠、新思强推UFS 5.0,美光却“壮士断腕”,端侧AI存储究竟花落谁家?

01. 纠缠的铁三角:UFS、M-PHY 与 UniPro 的进化史

要谈 UFS 5.0 的爆发,必须先厘清它和 MIPI M-PHYMIPI UniPro 之间如同“套娃”一般的寄生关系。

回看移动存储的发展,早期的 eMMC(嵌入式多媒体卡)采用的是传统的并行8位总线架构。随着数据量激增,这种半双工(同一时间只能读或只能写)、多信号线易干扰的并行总线遇到了严重的物理瓶颈。

为了打破僵局,JEDEC 联合 MIPI 联盟,在 2011 年左右推出了 UFS(通用闪存存储) 标准。UFS 的核心革命在于:用串行总线代替并行总线,并支持全双工(同时读写)

为了实现这一点,UFS 并没有自己从头开发所有层级,而是直接套用了 MIPI 联盟成熟的协议栈:

  • 应用/命令层(UFS): 采用高级的 SCSI 架构,负责处理上层的闪存读写指令和队列管理。
  • 链路/传输层(MIPI UniPro): 负责确保数据包在传输过程中不丢包、不出错,管理通道(Lane)的分配与流控。
  • 物理层(MIPI M-PHY): 底层的硬件接口,负责在铜线上进行真正的高速电信号收发。

在这个“铁三角”关系里,UFS 的每一次大版本跃迁,都必须依赖底层 M-PHY 和 UniPro 的同步升级。

到了如今的 UFS 5.0 时代,三者完成了终极合体:UFS 5.0 强制绑定了 MIPI UniPro v3.0 传输层和 MIPI M-PHY v6.0 物理层

UFS 5.0 为什么能飙到 10.8 GB/s?

相比于 UFS 4.0,UFS 5.0 实现了性能的直接翻倍,其秘诀在于物理层和编码方式的两大激进变革:

  1. 编码效率大跃进: 从传统的 8b10b 编码彻底转向 1b1b 编码。这一举措直接干掉了过去多达 20% 的协议开销,让有效带宽硬生生提升了 25%。
  2. 引入 PAM-4 调制: 物理层全面引入了汽车和数据中心才用的 PAM-4 信号调制,在单通道上实现高达 46.6 Gbps 的速率。双通道(2 Lanes)并发下,有效读写性能轻松突破 10.8 GB/s

02. 灵魂拷问:既然都有小型的 BGA SSD 了,移动端为何独宠 UFS?

很多人会产生疑问:既然笔记本电脑上的 NVMe SSD 动辄 7GB/s、14GB/s,而且市场上早就有了类似 BGA 1113 这种把主控和闪存封装在一起、指甲盖大小的超小型 SSD(参见下图江波龙longsys的NVMe BGA SSD),为什么智能手机和汽车座舱不直接用 SSD,反而要大费周折搞一套 UFS 5.0?


答案只有两个字:功耗与热量(Power & Thermal)

根据 Micron 的官方对比测试数据,UFS 在活跃状态下的功耗比同代客户端 SSD 低了近 70%,在休眠模式下的功耗更是足足低了 66%

  1. 致命的热限频(Thermal Throttling): NVMe/PCIe 协议栈是为了高性能计算设计的,其主控芯片的功耗和发热量极其惊人。在手机或汽车智能座舱这种完全密闭、没有风扇主动散热的狭小空间里,BGA SSD 一旦全速运行,会迅速因为过热而触发硬件保护,导致严重的“热限频”掉速。而 UFS 天生自带极强的热敏优化,能保证长时间高负载下不烫手、不掉速。
  2. 休眠机制的降维打击: 手机的使用场景是高度碎片化的(亮屏工作几秒,灭屏待机)。UFS 协议内嵌了诸如 Hibern8 等极低功耗的底层超快休眠/唤醒状态,能够做到“即用即醒,不用即死”。而 PCIe/NVMe 协议的链路初始化和电源状态切换过于沉重,频繁切换会导致严重的系统延迟并榨干电池。感兴趣的可以参考我们Saniffer公众号发布很多文章和高清视频,查询关键词:L1.2

此外,手机 SoC(如高通、联发科)内部的摄像头、显示屏接口本就大量依赖 MIPI 协议生态,复用 MIPI M-PHY 作为存储接口,在硅片面积和布线复杂度上也是最优解。

03. 落地前夜:UFS 5.0 产业链的生态现状

在目前的 2026 年,UFS 5.0 已经完成了从“纸面标准”向“工程落地”的蜕变。

1. 硅前验证与主控 IP:Synopsys(新思科技)的全面降维

今年 4 月,新思科技(Synopsys)率先引爆市场,发布了业界首个完整的 UFS 5.0、UniPro 3.0 以及 M-PHY v6.0 的全套完整 IP 方案,并且已经在台积电的 N2/N2P(2纳米) 先进工艺节点上成功流片(Tape-out)。

在芯片研发阶段,为了保证设计出来的 UFS 5.0 主控能正常工作,新思集成了行业标准的 Synopsys Verdi® Protocol Analyzer(协议分析仪)

重点:新思 Verdi 协议分析仪与第三方独立硬件分析仪有何区别?

这在业内是一个经常被混淆的概念。很多人会问,这个 Verdi 协议分析仪和市场上卖的 独立分析仪有什么不同?它能单独作为硬件测试仪用吗?

  • 核心区别:硅前软件(Pre-Silicon) vs 硅后硬件(Post-Silicon)
  • 独立第三方分析仪: 它们是物理硬件盒子。当芯片已经做出来了,焊在电路板上,测试工程师需要用物理探针(Probe)或者夹具(Interposer)夹在印刷电路板(PCB)的铜线上,抓取真正的电信号。对于这部分感兴趣的,可以在本文底部下载Saniffer编写的白皮书获得更多信息。
  • Synopsys Verdi® Protocol Analyzer: 它是纯软件 EDA 验证平台。它运行在新思的软件仿真器或 ZeBu 硬件加速器上。它解析的不是真实的电信号,而是芯片流片前、在虚拟世界里运行产生的波形文件(如 FSDB/VCD)。它能够把底层的 0101 电平波形,直接“翻译”成可读的 UFS 5.0 事务层数据包(TLP)和指令日志,极大地加速了前端 RTL 工程师的 Debug 速度。
  • 能作为独立分析仪用吗? 不能。 Verdi 协议分析仪无法脱离新思的 EDA 仿真验证生态系统,它不能像第三方硬件盒子那样插上探针去测一块真正的物理主板。它的“独立性”仅体现在它能够作为一个独立的调试软件模块,导入并分析各种仿真平台导出的数据报文,用来验证逻辑设计的合规性。

2. 硅后物理器件:Kioxia(铠侠)首发打样测试

在物理硬件颗粒端,日本闪存巨头铠侠(Kioxia)已经率先推出了全球首款 UFS 5.0 嵌入式闪存存储测试样片(Evaluation Samples)


Kioxia UFS 5.0 样片关键规格解析:

根据官方披露的技术细节,铠侠这颗器件可谓战力拉满:

  • 容量与封装: 提供 512 GB1 TB 两种大容量版本。其封装尺寸被压缩到了惊人的 7.5 × 13 mm,厚度极薄,这为手机主板省下了大量寸土寸金的空间。
  • 核心架构: 采用了铠侠自研的 UFS 5.0 控制器,并搭配了最新的第 8 代 BiCS FLASH™ 3D 闪存颗粒
  • 针对端侧AI优化: 配合铠侠正在开发的 KIOXIA AiSAQ™(智能手机端侧 AI 向量数据库搜索技术),该芯片可以实现超高速的本地大模型参数加载与向量检索,让“无网环境”下的端侧生成式 AI 响应速度大幅提升。

兼容性透视:它和高通、联发科的验证板配合得怎么样?

铠侠在官方声明中明确指出:“这批样片目前正定向提供给正在开发 UFS 5.0 兼容主控系统的核心芯片组供应商(Chipset Vendors),以用于流片后的性能评估和互操作性测试(Interoperability Testing)。”

在移动和车载供应链中,这里的“供应商”指的就是高通(Qualcomm)联发科(MediaTek)

由于 UFS 5.0 的物理层需要 SoC 平台的硬件控制器原生支持(必须内置 M-PHY v6.0 的 IP 核)。在当前的 2026 年时间线上,铠侠这批样片主要在与两家巨头的最新一代旗舰/次旗舰平台验证板进行联合调试:

  • 高通阵营: 正在配合高通下一代基于全新 Oryon 架构的骁龙 8 Elite(第二代/或传闻中的骁龙 8 Gen 5)开发验证平台进行高频信号完整性测试。
  • 联发科阵营: 正在对齐联发科最新的天玑 9500(Dimensity 9500)系列工程开发板。由于联发科在端侧 AI 向量计算上跟进极快,铠侠的 AiSAQ 技术在天玑平台的验证板上据传有着非常深的底层指令集协同。

Saniffer公司提供的针对UFS的测试工具的软件涵盖了对应UFS 5.0/5.1的测试用例包,尤其是针对最新发布的UFS 5.0/5.1 device产品。

04. 幕后迷局:为什么美光(Micron)在一年多前彻底放弃了 UFS 研发?

在这场热闹的 UFS 5.0 盛宴中,唯独缺少了一个往日的存储巨头——美光(Micron)

在 2025 年 8 月左右,美光科技突然在行业内丢下了一颗炸弹:宣布在全球范围内停止未来所有移动端 NAND 闪存产品的研发,这其中明确包含了直接叫停第五代通用闪存存储(UFS 5.0)的项目。

曾经在移动端市占率不低的美光,为什么要选择在 UFS 5.0 爆发的前夜“壮士断腕”?其背后的核心商业逻辑非常现实:

1. 全球智能手机市场饱和,利润空间被严重压缩

美光高层在当年的行业会议上坦言,全球智能手机和消费级平板市场已经高度饱和,出货量增长极其缓慢。在低迷的消费电子周期中,移动端 NAND 闪存(包括 eMMC、UFS、uMCP)沦为了价格战的重灾区,毛利率被无限压低。与其在红海里和三星、SK海力士、铠侠贴身肉搏,不如寻找利润更高的赛道。

2. 生成式 AI 基础设施对产能的疯狂“虹吸效应”

这是美光做出的最彻底的战略转型。自 2024、2025 年 AI 大模型全面爆发以来,全球超大规模数据中心、AI 算力服务器对于 HBM(高带宽内存)企业级高容量 DRAM 以及 企业级 PCIe 5.0/6.0 SSD 的需求呈现出前所未有的饥渴状态。

在晶圆(Wafer)整体产能有限的情况下,美光保留消费级或移动级产品线,就意味着要分流原本可以卖给英伟达、微软或谷歌等超大客户的晶圆数量。 为了追求极致的利润和战略客户关系,美光果断做出了选择:彻底退出低毛利的消费级和移动端存储研发(包括其著名的 Crucial 英睿达品牌也在 2026 年初全面撤出市场通路),将所有核心研发资本和晶圆产能,全部梭哈到企业级 AI 存储这台“印钞机”上。

结语

美光的离场,并没有减缓 UFS 5.0 战车的轰鸣。相反,随着新思科技在 2 纳米节点上为主控铺平道路,以及铠侠 1TB UFS 5.0 样片源源不断地送往高通与联发科的实验室,端侧 AI 的高速存储时代已经近在咫尺。

下半年,当各大手机厂商的全新端侧 AI 旗舰机上市时,那一项项令人惊艳的本地大语言模型秒回、本地文生图秒出的功能背后,请记住,正是 UFS 5.0 这条在铜线上飙到 10.8 GB/s 的超级数据高速公路,在默默地源源不断输送着算力燃料。

了解更多关于下一代移动端 AI 存储的实际演进细节,可以参考铠侠针对 UFS 5.0 的官方技术展示视频,该内容详细展示了 10.8GB/s 理论带宽对端侧生成式大模型在智能手机上落地的重大意义。

一、 核心痛点与 UFS 5.0 的性能突破

  • 端侧 AI 的存储瓶颈: 在过去,传统的 UFS 读取速度是严重的性能瓶颈,极大地限制了手机等个人设备所能处理的大语言模型(LLM)的尺寸。因为要运行端侧 AI,必须将大模型从存储操作系统和应用的 UFS 闪存中加载到 DRAM(运行内存)中。
  • 速度直接翻倍: 全新推出的 UFS 5.0 标准同时实现了高速度与大容量。其理论最大读写速度达到了惊人的 10.8 GB/s,几乎是前代技术的两倍,从而让端侧 AI 无需依赖网络或云端连接,即可直接在本地顺畅运行。

二、 软硬结合解决 RAG(检索增强生成)难题

  • DRAM 容量不足的挑战: 为了缓解 AI 幻觉并提高回答的可靠性,AI 需要检索 RAG数据库来获取最新的准确信息。但大规模的 RAG 数据库体积过于庞大,根本无法完全塞进有限的 DRAM 中,导致性能大打折扣。
  • Kioxia AiSAQ 软件黑科技: 为了应对这一挑战,铠侠对其自研的生成式 AI 向量搜索软件技术 Kioxia AiSAQ 进行了升级。该技术允许智能手机直接从 UFS 闪存中检索相关的数据库信息,而无需占用 DRAM 空间。
  • 高效本地协同: 高性能的 UFS 5.0 硬件与 AiSAQ 软件算法相结合,让高精度的 AI 深度处理完全可以在本地设备上独立完成。

三、 端侧 AI 的核心优势与未来生活场景

视频指出,基于该方案的端侧 AI 具备四大与生俱来的优势:隐私保护、高度个性化、完全离线使用、以及极快的响应速度。在未来,它将在生活中扮演三种极具未来感的角色:

  • 个人造型师(Personal Stylist): 在用户授权的前提下,读取本地数据并为用户量身定制穿搭指南。
  • 导航员(Navigator): 即使在完全没有网络信号的离线状态下,也能通过调用现有数据提供即时精准的导航协助。
  • dependability 伴侣(Dependable Companion): 它能记住用户的过往生活经历,并智能协助用户创造全新的体验。
编辑于 2026-06-26 · 著作权归作者所有