如何评价小米6月9日发布的MiMo-V2.5-Pro-UltraSpeed模式?

国内首个基于 τ 定律进行时间折叠加速的大模型。

很多外行以为跑大模型慢是因为 GPU 的算力不够。

错!大错特错!

在 LLM 的 Decoding 阶段,算力根本不是瓶颈,显存带宽才是最卡脖子的。

老美在那搞算力霸权,左手英伟达拼命提升 HBM3e 的带宽,右手搞禁运疯狂掐脖子,让国产模型都喘不过气来。

靠堆硬件,搞物理摩尔定律做空间缩微,死路一条,唯一的出路就是另辟蹊径,用 \tau 定律打破西方封锁。


\tau 是半导体里的时间常数,代表信号延迟。

而所谓 \tau 定律,就是通过逻辑折叠、架构重构,把长长的信号传输路径折叠起来,用系统架构上的优化来压缩时间,从而打出和先进制程等价的效果。


小米第一步做的就是折叠显存带宽,通过 MoE 专家层定向 MXFP4 量化加速。

对于万亿参数的 MoE 模型,一刀切全量化到 4-bit,模型基本上就开始流口水了。

所以小米和 TileRT 玩的是选择性量化(Selective Quantization)。

在 MoE 架构里,真正把显存撑爆的是成百上千的 MLP 专家网络。

而掌管逻辑与上下文关联的 Attention 层,其实占的参数比例并不大,但对精度要求极高。

那么自然而然的想法就是只把专家层量化成极端高效的 FP4,而保留 Attention 等关键路径上的高精度计算。

再通过配合小米底层的 QAT 量化感知训练,把量化误差在训练阶段就提前抹平了。

这样一来,单次计算时,从显存向 GPU SRAM 搬运的数据量直接缩减了 70% 以上。

这就是 \tau 定律中的缩短传输路径思想,从逻辑上折叠了显存带宽的需求。


小米第二步做的则是折叠生成时间,用 DFlash 块并行推测解码。

虽然前一步解决了带宽的问题,但是只要是 Transform 大模型,还是会面对时间序上的瓶颈。

哪怕你显存读取再快,大模型的 Decoding 阶段是自回归的,想生成第 1919810 个字,必须等前 91919809 个字生成完。

纵使你的 GPU 有一万个核心,但在 Decode 阶段,绝大多数核心都只能躺平摸鱼,白白浪费时间等上一个字算完。

DFlash 琢磨了一下,不搞串行猜词了,直接弄一个轻量级 BF16 草稿模型,用类似扩散的机制,在一次前向传播中,直接预测一整个 Block 的候选文本(注意这里若是验证失败将会全部丢弃回退)。

官方说在代码生成以及逻辑推导这种结构化较强的任务里,这样做的命中率极高,平均下来每轮大概能接受 6.3 个 token。

显然就是 \tau 定律里说的时间轴上的逻辑折叠,原本走 8 步才能到达的地方,现在只要 1 步,跑起来能不快吗?


小米这套方案不用花一分钱买定制硬件,直接靠着对底层计算机体系结构的极致压榨,就在通用 8 卡上跑出了 Groq 这种专有芯片才有的恐怖速度。

同时还把系统的响应时间常数 \tau 压缩到了物理带宽的极限,可谓是遥遥领先!

诸位,且听龙吟,我已经让手下的 Agents 没日没夜的用 MiMo 研发产品了!

月底不烧穿银行卡,我提头来见!

编辑于 2026-06-11 · 著作权归作者所有