IQ2. 为什么"图像质量"不是一个单一指标？

本文同步发表在我的微信公众号和知乎专栏"计算摄影学"，欢迎扫码关注，转载请注明作者和来源

一. 引子

你有没有遇到过这种情况——两款手机拍同一个场景，DxOMark 分数差了 5 分，但你反复翻看样张，反而觉得分数低的那张更顺眼？

或者你是做 ISP 调参的工程师：锐化强度拉满，MTF 曲线漂亮得像教科书，但样张拿给同事一看，她说"总觉得哪里不对"。仔细一看——高对比度边缘出现了光晕（halo），草地纹理被降噪抹成了油画质感，肤色虽然技术上调准了白平衡，但看起来偏冷，不够健康。我本人在做手机影像相关算法的时候，这种情况见过不止一次——客观指标全绿，但实际观感却很糟糕。

每个单项指标都"达标"了，整体感觉——就是不对。

这不是谁的审美出了问题，而是图像质量评估的一个根本困境：它不是一个可以压缩成单一数字的东西。

在我的 IQ 系列上一篇（IQ1：如何定义图像的质量？如何评价图像的质量？）中，我们讨论了主观与客观评价的基本框架。这一篇，我们要回答一个更深的问题：为什么我们永远无法用一个数字来概括"画质"？为什么"清晰"不等于"画质好"？为什么同样的信噪比，有时候噪声几乎看不出来，有时候却让人抓狂？

先从三个反直觉的例子说起。

二. 三个反直觉的例子

2.1 锐度 ≠ 分辨率

先看两组照片。左边一张看起来更锐利——边缘干脆利落，轮廓分明。右边一张看起来稍柔——像蒙了一层薄雾。直觉告诉你，左边的画质更好。

但如果你凑近看细节——比如远处芦苇丛的分叉、建筑外墙的砖缝——你会发现，右边那张"柔和"的照片反而能分辨出更多细小的纹理结构。左边那张"锐利"的照片，细节其实更少。

怎么回事？

原因在于，"锐度"和"分辨率"衡量的是两件不同的事。

锐度（sharpness）是一种主观感受——边缘的对比度越高，我们越觉得图像"锐"。它可以通过数字锐化技术轻松提升——本质上是增强边缘附近的对比度，让边界"更明显"。但这种操作不增加任何信息量，它只是让已有信息看起来更突出。

分辨率（resolution）则是一个客观能力——光学系统能分辨的最小空间频率。它取决于镜头的 MTF（调制传递函数）、传感器像素间距、以及光学系统的衍射极限。这些东西是"硬"的，不是靠后期处理能凭空创造的。

打个比方：锐度像字体加粗——同样一段文字，加粗后看起来更"扎眼"，但字数不会增加。分辨率像打印机的 DPI——决定了纸张上能印出多少个独立的信息点。你可以用 72dpi 的打印机把字加粗到天上去，但和 1200dpi 打印出来的精细线条相比，信息量差了几个数量级。

换句话说：一张看起来更锐利的照片，未必包含更多细节。 锐度骗得了直觉，骗不了信息量。

2.2 同样的 SNR，天差地别的感受

信噪比（SNR）是评价噪声水平的经典指标：信号均值除以噪声标准差。SNR 越高，理论上噪声越"少"。

但这个指标有一个致命的盲区：它只衡量噪声的"量"，完全忽略了噪声的"质"。

看下面四张图。前三张的 SNR 完全相同——如果你只看数字，它们的噪声水平一模一样。但你的眼睛会明确告诉你：

白噪声（左上）：虽然看得见，但还可以忍受，像老电视的雪花
1/f 噪声（右上）：明显更刺眼，因为有低频的"斑块"在晃动
彩色噪声（左下）：虽然只有右上那张噪声量的一半，但因为它改变了颜色，反而比白噪声更烦人
列噪声（右下）：最让人不适，因为水平条纹有明确的空间结构，人眼对这种有规律的干扰格外敏感

四种不同类型的噪声。前三张的 SNR 完全相同，但感知上的恼人程度截然不同。白噪声最容易忍受，有空间结构的噪声（1/f 噪声、列噪声）更令人不适，彩色噪声则因影响色温感知而格外烦人。（改编自 Phillips & Eliasson, 2018, Figure 3.19）

为什么会这样？因为人眼不是一台简单的信噪比计。我们的视觉系统对空间频率、色彩偏移、以及有规律的结构性干扰极其敏感。标准差完全相同的噪声，如果它恰好落在人眼最敏感的频段上，就会被放大感知；如果它的颜色影响了肤色或天空这类"记忆色"，就会触发更强烈的排斥反应。

所以——SNR 相同的图像，噪声给人的主观感受可能天差地别。 如果你只拿一个 SNR 数字就判定"噪声合格"，最终主观评审会上翻车。

2.3 降噪保锐度，但毁了纹理

现代降噪算法越来越聪明了——它们能区分"边缘"和"噪声"，在去除噪声的同时保持边缘锐利。听上去很完美？

看这张照片：狗的鼻子轮廓清晰，枕头上的几何图案线条分明——锐度指标很好看。但仔细看狗毛：原本一根一根的毛发纹理，变成了一团模糊的色块。整张照片看起来像一幅油画——边缘锐利，表面光滑，失去了真实质感。

纹理模糊（texture blur）的典型表现。边缘（狗鼻、枕头图案）保持锐利，但低对比度纹理（狗毛）被过度平滑，呈现出不自然的油画质感。（图源：Phillips & Eliasson, 2018, Figure 3.20）

这是现代降噪算法的一个陷阱：它很擅长保护高对比度的边缘，但对于低对比度的纹理——毛发、草地、织物、皮肤毛孔——它很容易把纹理和噪声混为一谈。结果就是，锐度指标没掉，但图像中最有"质感"的部分被抹平了。

如果你只看 MTF 曲线或锐度评分，你会觉得降噪效果很好。但你的眼睛会告诉你——这张照片"塑料感"太重了。

这大概是三个例子里最让 ISP 工程师头疼的一个：照片"看起来锐利"，却已经丢失了大量纹理细节。 降噪算法完成了它的 KPI，但用户拿到的是一张假得不行的照片。

小结

三个例子看完，结论其实都指向同一个方向：

锐度不等于分辨率——高锐度可能只是边缘对比度的错觉

SNR 不等于感知噪声——同样的数字，噪声的"长相"差很远

降噪不等于画质提升——保住了锐度却丢了纹理，这笔账不见得划算

任何一个单一指标，都无法代表完整的"画质"。 那么，"画质"到底由什么构成？

三. 图像质量的多属性模型

图像质量不是一个单一维度，而是一组有限的属性的集合。这个认识是整个图像质量科学的基石——从 Engeldrum（2000）用心理物理学量表把"画质"拆解为可度量的感知维度，到 Wang & Bovik（2006）系统建立客观质量评价的数学框架，学界花了几十年才把"画质好不好"这个模糊的日常问题变成可操作的工程问题。

Phillips 和 Eliasson 在 Camera Image Quality Benchmarking（2018）中，在前人基础上进一步面向相机成像链路，把这些属性分成了两大类：

全局属性——不受观看距离和缩放比例的影响：

曝光与色调：亮度是否合适？高光有没有溢出？暗部细节是否被噪声淹没？
颜色：白平衡是否正确？肤色是否自然？色彩饱和度是否恰当？
几何畸变：直线是否弯曲？透视是否合理？
不均匀性：画面四角是否比中心更暗（luminance shading）？颜色是否随位置偏移（color shading）？

局部属性——受观看条件影响：

锐度与分辨率：细节是否清晰？能否分辨微小结构？
噪声：画面是否"干净"？噪声的视觉感受如何？
纹理模糊：低对比度细节是否被过度平滑？
色散：高对比度边缘是否有彩色边？
压缩伪影：JPEG 块状效应、蚊式噪声等

全局属性 vs 局部属性。原始图像（左）分别被降低颜色饱和度（中）和高斯模糊（右）。在大尺寸下两种退化都很明显；但缩小后，颜色差异依然清晰可见（全局属性），而模糊的差异几乎消失（局部属性）。这说明局部属性的评价必须考虑观看条件。（改编自 Phillips & Eliasson, 2018, Figure 2.1）

这个"全局 vs 局部"的分类不是学术游戏——它有直接的工程含义。全局属性（如白平衡错误）在任何观看条件下都逃不过你的眼睛；局部属性（如轻微的锐度差异）在手机屏幕上可能完全看不出来，但放大到电脑显示器上就一目了然。所以，评价一张照片的"画质好不好"，取决于你在什么条件下看它。

3.1 一票否决效应

这些属性之间有一个非常重要的特性：一票否决。

Phillips & Eliasson 在书中写得很直白：

即使其他所有属性都表现出色，只要一个属性严重失准，整体印象就会被彻底拖垮

—— *Camera Image Quality Benchmarking*, §2.1

想象一下：一张照片，锐度极佳，噪声为零，曝光完美，细节丰富——但白平衡全错了，整张照片泛着诡异的绿色。你会给它打高分吗？不会。无论其他方面多么出色，这个绿偏色会像一根刺一样扎在你眼里，让你无法忽视。

打个比方：有点像十项全能——前面九项都比得漂亮，最后一项一个大失误，总成绩未必会记成「零分」，但名次往往一下子掉出夺牌区；别人扫一眼榜单，最先注意到的也常是你栽跟头的那一项。

这就是为什么用单一综合评分来衡量画质是危险的——它可能掩盖了某个"致命缺陷"。DxOMark 评分 120 的手机，如果在某个关键场景（比如低光人像）上白平衡严重翻车，那这个 120 分对那个场景来说毫无意义。

3.2 属性之间的暗战

如果各属性之间互不干扰，事情倒也简单——逐项评分然后汇总就行。但现实是，属性之间总有绕不开的取舍（我们在第二节已经领教过了：降噪与纹理就是一场没有赢家的拉锯战）：

降噪 vs 纹理保留：降噪越激进，纹理丢失越严重（这就是 2.3 节的例子）
锐化 vs 噪声放大：锐化在增强边缘的同时也会放大噪声，还可能引入光晕伪影
高分辨率 vs 高感光度：像素越小，单个像素接收的光子越少，噪声越严重——这就是为什么 200MP 手机传感器的像素合并在暗光下是必须的
HDR 合成 vs 运动伪影：多帧 HDR 在合成时，场景中的移动物体会产生鬼影
压缩率 vs 画质：文件越小，压缩伪影越明显

这些矛盾意味着，不存在一个"全优"的设置。你永远在取舍。好的 ISP 调参，本质上是找到一组"最不糟糕"的平衡点。

3.3 场景依赖：同一个相机，不同的"画质"

更复杂的是，属性的权重还取决于你在拍什么。我在手机影像项目里最深的体会之一，就是同一套 ISP 参数在不同场景下的表现可以判若两人。

同一台手机相机：拍风景和建筑时，光学畸变一下子变得很碍眼——建筑物的直线必须是直的，桶形或枕形畸变会立刻被察觉。但同一台机器拍人像，畸变反而没那么重要——面部的自然曲线能掩盖轻微的几何失真，这时候肤色准确性才是头等大事。拍文档呢？清晰度和对比度压倒一切，颜色根本不重要。到了夜景，动态范围和噪声才是决定性因素，锐度可以往后排。

说白了，"这台相机画质好不好"这个问题，没有一个绝对正确的答案——答案取决于你用它来拍什么、在什么条件下拍、以及最终怎么看。

四. 三种视角：谁在评价"画质"？

到这里，我们已经知道图像质量是多属性的、属性之间有 trade-off、而且属性的权重随场景变化。但还有一个维度我们没展开：谁在评价画质？

不同的评价者，关心的东西完全不同。

图像质量的三种评价视角：消费者关心"好不好看"（感知质量）、应用关心"能不能用"（任务质量）、工程师关心"达不达标"（工程质量）。同一张照片在三种视角下的评价可能截然不同。（图源：自制）

4.1 感知质量：人觉得好不好看

最直接的评价者是你和我——消费者。我们问的问题很简单："这张照片好看吗？"

感知质量是最主观的，也是最"真实"的——因为最终的照片是给人看的。Keelan（2002）在 *Handbook of Image Quality* 中花了大量篇幅讨论这个问题：我们的感知系统不是线性的、不是独立通道处理的，它有几个有趣的特性：

记忆色效应：我们对天空、肤色、草地有内在的期望——心理学上称为"记忆色"（memory color）。一张颜色"客观上准确"的照片，可能因为天空不够蓝、肤色不够暖而被认为"不好看"。研究甚至表明，人们普遍偏好比真实场景更鲜艳、更饱和的色彩

个人偏好差异：有人喜欢浓烈的色彩，有人喜欢素雅的调子。专业工程师和普通消费者的标准也不一样——工程师对噪声和伪影更敏感，而普通消费者更在意整体氛围

情绪与内容干扰：一张模糊的、噪声很大的照片，如果拍的是你孩子迈出的第一步，你很可能认为它"画质很好"——内容的情感价值压倒了技术的缺陷。这也是纯客观评价永远无法完全替代主观评价的原因之一

4.2 任务质量：机器能不能用

换一个角度。现在评价者不再是人，而是算法——OCR 引擎、人脸识别模型、自动驾驶感知模块。它们关心的问题是："这张照片能帮我完成任务吗？"

OCR/文档识别：需要极致对比度和清晰度，完全不在乎颜色

人脸识别：需要特定频段的面部特征信息，不在乎整体美观

医疗影像：需要最大可检测性——能发现最微小的病变——这可能完全不美观

自动驾驶：需要准确的边缘和深度信息，不在乎照片是否"好看"

任务质量有一个有趣的特征：它可能与感知质量完全反着来。一张对人眼来说噪声大、对比度过冲的照片，对 OCR 算法来说可能恰恰是最理想的输入——我见过有团队为了提升车牌识别率，故意把图像调成人眼看着很不舒服的高对比风格。

4.3 工程质量：物理指标达不达标

最后是工程师——也就是我们自己。我们手里有一堆可以量化的尺子：

MTF（锐度）、SNR（噪声）、ΔE（颜色误差）、畸变率、动态范围……

客观、可重复、可比较

不同实验室、不同时间测出的数字应该一致

工程质量是最"硬"的评价维度，但它有一个绕不过去的局限：它可能与人的感知不一致。就像我们在第二节看到的——MTF 高不代表看起来更清晰，SNR 高不代表噪声不烦人。说到底，客观指标是工具，不是答案。

4.4 当三种视角打架

这三种视角经常互相矛盾，甚至完全对着干：

一张技术上不完美的照片可能让人觉得很美（感知质量高，工程质量低）

一张所有客观指标都合格的照片可能在特定任务上表现不佳（工程质量高，任务质量低）

一张对机器来说最理想的输入可能对人来说完全不可接受（任务质量高，感知质量低）

所以，当我们问"画质好不好"的时候，首先要问的是：谁在评价？用什么标准？在什么场景下？

五. 小结

写到这里，我们可以给这篇文章的核心论点做一个总结：

具体来说：

多属性：图像质量由一组有限但互相独立的属性构成——曝光、颜色、锐度、噪声、纹理、畸变……它们之间存在矛盾取舍和一票否决效应

多视角：感知质量、任务质量、工程质量三种评价维度可能互相矛盾

场景依赖：属性的权重随拍摄场景和观看条件变化

单一指标的局限：任何一个单独的数字——无论是 DxOMark 总分、MTF 值、还是 SNR——都无法完整代表"画质"

这不是什么悲观的结论——恰恰相反，理解了"为什么不是单一指标"，我们才能正确地使用那些指标。客观测量不是没用，而是不能孤立地看。它们就像体检报告上的各项数字：每一项都有意义，但医生不会只看一个数就下结论。

在后续有机会的话，我们可以继续深入：这些指标分别是怎么测量的？相机内部的每个环节——从镜头到传感器到 ISP——又是如何影响最终画质的？这些将是 IQ 系列后续文章的主题。

如果你还没读过本系列的第一篇（IQ1：如何定义图像的质量？如何评价图像的质量？），建议回头翻一翻——那篇文章建立了主观评价与客观评价的基本框架，而本文正是在那个框架上进一步展开"为什么客观指标永远不够"的讨论。

六. 参考资料

Jonathan B. Phillips & Henrik Eliasson. *Camera Image Quality Benchmarking*, Wiley-IS&T, 2018. 第 2-3 章
Brian W. Keelan. *Handbook of Image Quality: Characterization and Prediction*, Marcel Dekker, 2002
Zhou Wang & Alan C. Bovik. *Modern Image Quality Assessment*, Morgan & Claypool, 2006
Peter G. Engeldrum. *Psychometric Scaling: A Toolkit for Imaging Systems Development*, Imcotek Press, 2000

本文同步发表在我的微信公众号和知乎专栏"计算摄影学"，欢迎扫码关注，转载请注明作者和来源

https://t.zsxq.com/05qRRjUfq (二维码自动识别)

编辑于 2026-04-20 · 著作权归作者所有

给耳机HRTF用的全景声/Atmos检测视频 SDRSharp+DSDPlus接收DMR信号当显示器有了“独立AI大脑”，裸眼3D离我们还有多远？一文搞懂调音台音频接口蓝牙 LE 音频实测：700 米超远传输与稳定音质的实力展现新学期逆袭神器：讯飞AI录音笔Magic 帮你打破信息差快速弯道超车才知道，微信通话也能录音，方法超简单！跟AI聊音响系列（三、监听和hifi的争议）三星手机影像到底有多强？S26 Ultra直接给答案一键拯救Z8 iso64【虚高】噪声|iso64/100之争经常外出、在咖啡厅谈工作，手机录下来全是背景噪音，有什么办法应对？三年客户执行的工作开挂神器：讯飞AI录音卡，嘈杂环境也不错过任何关键信息当「始终如一」成为声音的信仰——宁梵NM25监听耳机深度体验超详细 w-okada 变声器使用教程｜免费实现高质量AI实时变声让索尼RAW用上富士滤镜|使用Jiangtherapee PSMode进行LUT套用|如何进行色域转换？为什么业内说SQD是电视好画质的终极解法？SQD和RGB的真实差距，可能和你想的不一样 2026电视好画质二选一：RGB 和 SQD 到底谁更值得买？场景化全面实测对比来了 Vlog消除噪音有多难？零门槛专业收音，南卡QMic无线领夹麦（一拖二）体验电视参数那么多，怎样才算好画质？3.9cm完美贴墙+顶尖内置哈曼音质，创维A7H Pro重塑「电视美学」科技 | 从扩散场到哈曼目标，通往科学HiFi之路