如何评价小米6月9日发布的MiMo-V2.5-Pro-UltraSpeed模式？

国内首个基于 τ 定律进行时间折叠加速的大模型。

很多外行以为跑大模型慢是因为 GPU 的算力不够。

错！大错特错！

在 LLM 的 Decoding 阶段，算力根本不是瓶颈，显存带宽才是最卡脖子的。

老美在那搞算力霸权，左手英伟达拼命提升 HBM3e 的带宽，右手搞禁运疯狂掐脖子，让国产模型都喘不过气来。

靠堆硬件，搞物理摩尔定律做空间缩微，死路一条，唯一的出路就是另辟蹊径，用 $\tau$ 定律打破西方封锁。

$\tau$ 是半导体里的时间常数，代表信号延迟。

而所谓 $\tau$ 定律，就是通过逻辑折叠、架构重构，把长长的信号传输路径折叠起来，用系统架构上的优化来压缩时间，从而打出和先进制程等价的效果。

小米第一步做的就是折叠显存带宽，通过 MoE 专家层定向 MXFP4 量化加速。

对于万亿参数的 MoE 模型，一刀切全量化到 4-bit，模型基本上就开始流口水了。

所以小米和 TileRT 玩的是选择性量化（Selective Quantization）。

在 MoE 架构里，真正把显存撑爆的是成百上千的 MLP 专家网络。

而掌管逻辑与上下文关联的 Attention 层，其实占的参数比例并不大，但对精度要求极高。

那么自然而然的想法就是只把专家层量化成极端高效的 FP4，而保留 Attention 等关键路径上的高精度计算。

再通过配合小米底层的 QAT 量化感知训练，把量化误差在训练阶段就提前抹平了。

这样一来，单次计算时，从显存向 GPU SRAM 搬运的数据量直接缩减了 70% 以上。

这就是 $\tau$ 定律中的缩短传输路径思想，从逻辑上折叠了显存带宽的需求。

小米第二步做的则是折叠生成时间，用 DFlash 块并行推测解码。

虽然前一步解决了带宽的问题，但是只要是 Transform 大模型，还是会面对时间序上的瓶颈。

哪怕你显存读取再快，大模型的 Decoding 阶段是自回归的，想生成第 1919810 个字，必须等前 91919809 个字生成完。

纵使你的 GPU 有一万个核心，但在 Decode 阶段，绝大多数核心都只能躺平摸鱼，白白浪费时间等上一个字算完。

DFlash 琢磨了一下，不搞串行猜词了，直接弄一个轻量级 BF16 草稿模型，用类似扩散的机制，在一次前向传播中，直接预测一整个 Block 的候选文本（注意这里若是验证失败将会全部丢弃回退）。

官方说在代码生成以及逻辑推导这种结构化较强的任务里，这样做的命中率极高，平均下来每轮大概能接受 6.3 个 token。

显然就是 $\tau$ 定律里说的时间轴上的逻辑折叠，原本走 8 步才能到达的地方，现在只要 1 步，跑起来能不快吗？

小米这套方案不用花一分钱买定制硬件，直接靠着对底层计算机体系结构的极致压榨，就在通用 8 卡上跑出了 Groq 这种专有芯片才有的恐怖速度。

同时还把系统的响应时间常数 $\tau$ 压缩到了物理带宽的极限，可谓是遥遥领先！

诸位，且听龙吟，我已经让手下的 Agents 没日没夜的用 MiMo 研发产品了！

月底不烧穿银行卡，我提头来见！

编辑于 2026-06-11 · 著作权归作者所有