阿里 z-image 仅 6b 参数 8 步高效出图,是如何实现低成本高效率的?
先说结论,这玩意是真牛逼,核显都能跑:

不过这玩意可不是真正意义的6b哦,你以为6b,实际它也不完全是啊。首先字面理解方面文件都7.9GB了,而且光靠这个模型还不够,这个仅仅是用于理解你输入的提示词的:

除此之外你还需要一个生图模型,高达11.4GB,而且运行的时候这两都会加载到显存或内存。

不过这个不是重点,重点也不是RTX 4090两三秒出图,重点是Intel核显也可以30秒内出图。

我这边基于Intel的xpu加速跑起来了,核显如果分配默认的18G是不够的,不过好在32G的板载内存能分更多,如下是必须调整后重启的:

你不用担心这个分得太多,系统的内存就不够用了,Intel的这个不是统一内存的独占模式,而是共享模式,是可以动态调度的,所以实际不会影响系统调用。

如上我们看一看看到跑图的时候,两个模型都调用了,最终显存这边出力大概接近22GB,所以实际你用低于24G独显显存的显卡去跑,肯定会降速,必然会调度内存的。而我这边借用的内存,实际最终都跑道了29GB了,真的很吃力了。
但是,两张图512x768仅需48秒:

如果你是启动后第二次生图,就少了挂入模块和预热的时间了,可以看到一张图8步24秒出。

如上我们基于1024x1024最大输出的模式跑一张,实际也不过70秒而已,最终效果:

这是一个核显能做到的?
以前想都不敢想的事情,但是它就是做到了。
提示词:
一张优雅的亚洲女性的照片,她有着长长的深棕色头发和白皙的皮肤,坐在一间装饰华丽、复古风格的房间里。她穿着一件无肩带的象牙色薄纱舞会礼服,上面有闪闪发光的细节,戴着精致的花朵耳环。她若有所思地侧目凝视,下巴托在手上。前景中有一杯模糊的玫瑰红酒和一盘草莓奶油。背景是编织图案的墙壁和装饰性线条,灯光温暖,增强了她礼服柔软的质感和整个场景丰富而诱人的氛围。
再参考运行记录:

我用的仅仅是一颗Ultra5 225H的入门级轻薄本,但是也可以看出来未来如果你有AI的需求,实际的主流32G内存是肯定不够用的,必然需要64GB起步(也难怪内存会涨价,不涨才奇怪了)。xpu加速的Comfy一键包可以到我公众号回复关键字获得[1],大概11GB,下载解压后,如果你的CPU是Ultra 200H系列,就可以使用,如果你有B580显卡之类的,也可以使用。
如果你的CPU是Ultra 100H系列,也可以尝试(但是速度会更慢一些),但是1340p之类的就不要去尝试了,两者三者之间的核心显卡算力差异太大了。
简单来看,顶级显卡两三秒出图,核显70秒出土,两者差异二三十倍。看起来很吓人,但是如果你不是高频使用,而它能提供更高效率的出图效果,废图的时间减少了,那么实际的可用性还是很高的,而且退一步讲,你又不是所有的需求都是1:1这样的1024x1024输出。实测512x768这样的像素方案也就24秒左右,极大的减少了输出时间,24秒是完全可以接受的!!!

最关键的是,如上的风格都是可以满足的,整体上30GB的固态占用,解决了很多个性化、本地化的需求,毕竟云AI很多你是不能输出的,会受到法律法规限制,而本地是百无禁忌的。