如何评价小米6月9日发布的MiMo-V2.5-Pro-UltraSpeed模式?
国内首个基于 τ 定律进行时间折叠加速的大模型。
很多外行以为跑大模型慢是因为 GPU 的算力不够。
错!大错特错!
在 LLM 的 Decoding 阶段,算力根本不是瓶颈,显存带宽才是最卡脖子的。
老美在那搞算力霸权,左手英伟达拼命提升 HBM3e 的带宽,右手搞禁运疯狂掐脖子,让国产模型都喘不过气来。
靠堆硬件,搞物理摩尔定律做空间缩微,死路一条,唯一的出路就是另辟蹊径,用 定律打破西方封锁。
是半导体里的时间常数,代表信号延迟。
而所谓 定律,就是通过逻辑折叠、架构重构,把长长的信号传输路径折叠起来,用系统架构上的优化来压缩时间,从而打出和先进制程等价的效果。
小米第一步做的就是折叠显存带宽,通过 MoE 专家层定向 MXFP4 量化加速。
对于万亿参数的 MoE 模型,一刀切全量化到 4-bit,模型基本上就开始流口水了。
所以小米和 TileRT 玩的是选择性量化(Selective Quantization)。
在 MoE 架构里,真正把显存撑爆的是成百上千的 MLP 专家网络。
而掌管逻辑与上下文关联的 Attention 层,其实占的参数比例并不大,但对精度要求极高。
那么自然而然的想法就是只把专家层量化成极端高效的 FP4,而保留 Attention 等关键路径上的高精度计算。
再通过配合小米底层的 QAT 量化感知训练,把量化误差在训练阶段就提前抹平了。
这样一来,单次计算时,从显存向 GPU SRAM 搬运的数据量直接缩减了 70% 以上。
这就是 定律中的缩短传输路径思想,从逻辑上折叠了显存带宽的需求。
小米第二步做的则是折叠生成时间,用 DFlash 块并行推测解码。
虽然前一步解决了带宽的问题,但是只要是 Transform 大模型,还是会面对时间序上的瓶颈。
哪怕你显存读取再快,大模型的 Decoding 阶段是自回归的,想生成第 1919810 个字,必须等前 91919809 个字生成完。
纵使你的 GPU 有一万个核心,但在 Decode 阶段,绝大多数核心都只能躺平摸鱼,白白浪费时间等上一个字算完。
DFlash 琢磨了一下,不搞串行猜词了,直接弄一个轻量级 BF16 草稿模型,用类似扩散的机制,在一次前向传播中,直接预测一整个 Block 的候选文本(注意这里若是验证失败将会全部丢弃回退)。
官方说在代码生成以及逻辑推导这种结构化较强的任务里,这样做的命中率极高,平均下来每轮大概能接受 6.3 个 token。
显然就是 定律里说的时间轴上的逻辑折叠,原本走 8 步才能到达的地方,现在只要 1 步,跑起来能不快吗?
小米这套方案不用花一分钱买定制硬件,直接靠着对底层计算机体系结构的极致压榨,就在通用 8 卡上跑出了 Groq 这种专有芯片才有的恐怖速度。
同时还把系统的响应时间常数 压缩到了物理带宽的极限,可谓是遥遥领先!
诸位,且听龙吟,我已经让手下的 Agents 没日没夜的用 MiMo 研发产品了!
月底不烧穿银行卡,我提头来见!