在你的专业领域，大模型目前最难跨越的一道「门坎」是什么？

数码评测，比如徕卡M11和M11-P成像有何区别？

我们以此为例，看看各家的回答如何？

知乎直答：

没有去全网乱搜、或者对比参数，全部引用了我的评测，并自己给出结论，有一定的AI幻想。

“核心画质基本相同”，这属于臆想臆测了，和真实评测没关系。开始对比规格参数。

“色彩风格完全一致”，实属武断了。而且画质并不只是色彩，还有高感光度的表现、宽容度的表现。你没测，怎么可能知道呢？

“核心画质完全一致”，更概括的说明了自己不懂装懂。

作为地表唯一一篇徕卡M11与M11-P对比评测，让知乎直答以外的各家大模型都露了馅。

评测需要

拿到对比样品：两部机身，两只镜头，价格超过20万人民币。

设计实验项目：两部看似只有外观不同的相机，如何进行对比。

进行实拍实测：得从技术角度进行专门的拍摄，尤其要进行真实世界的实拍，把变量尽可能变成可控，从而进行单一因素对比。

数据分析：要把拍摄的数千张样本进行筛选、对比和分析，给出结论。

这个评测无论是风险、还是难度，都不是对比同品牌两台旗舰手机的成像画质那么轻松，可谓针针尖儿对麦芒——极限了。

显然，目前的大模型+机器人根本不可能完成这类评测。

不仅限于相机，还有：

同一厂家RME推出的两款耳放解码编码一体机的对比评测，ADI-2/4 PRO SE vs ADI-2 PRO BE，大模型仍然是只会对比参数，而不具备实际音质听感的对比能力。

以上。

编辑于 2026-03-09 · 著作权归作者所有