有人能科普一下dsd,wav,flac等众多音频格式是怎么回事吗?

有人能科普一下dff,AAC,dsd,wav,flac等众多音频格式是怎么回事吗,还有都说wav是无压缩音频,但是为什么音乐软件上的高品质都是wav而且有损
关注者
77
被浏览
8918

首先要分层定义,搞清楚调制方式,编码方式,封装格式等的层次关系,才能正确认知这些字母。


Modulation 调制方式

模拟音频要经过数模转换,才能变成数字信号,转换方法有很多,目前主要的调制方式分两大类:

  • PCM (Pulse-Code Modulation) 8~f64bit 8k~1.536MHz 1~8Channels

用于音乐记录与回放的PCM是什么时候开始的已经无从考究了,但我们清楚的是,1980年,索尼和飞利浦发布了CD-DA红皮书规范,制定了16bit/44.1kHz 74min的规格。没错索粉们,就是索尼的工程师嫌40kHz的LPF太难做又嫌飞利浦的48kHz装不进120mm的盘中,才搞了一个210²这么诡异的数字,让我们这些年在跟SRC的斗争中消磨了不少工程师的大好青春。那么74分钟的规格是怎么来的呢?那是史诗级录音——1951年富特文格勒的拜罗伊特版贝九(企鹅评鉴三星带花)的时长。既然是Code,那么就要有Code的时间和Code的方式,采样率定义了Code的时间基准,而位深定义了Code的量化精度。当时的16bit能提供大约94dB的理论信噪比和20kHz的理论频响,而从30多年前的CD-DA到现在的Hi-Res Audio甚至DXD (32bit 352.8kHz/384kHz),PCM的规格越来越高,现在的理论参数已经远超硬件能够实现的程度了。

  • PDM (Pulse-Density Modulation) 1bit 2.8224~45.1584MHz 2~8Channels

很多人没有听说过PDM,但是对PWM (Pulse-Width Modulation)一定不陌生,如PWM调速的风扇,PWM调光的AMOLED等等,其实PWM只是一种脉冲频率固定的特殊的PDM。索尼和飞利浦于1995年发布的DSD (Direct Stream Digital) 格式,正是他们新推出的SACD的编码格式,也是一种特殊的1bit-PDM,即每个周期只有一次脉冲,且负载周期恒定。与PCM相对,PDM音频是直接靠某一时刻前后一段固定时间的脉冲频率来表示该时刻的电平高低。但索尼发布之后,才发现,原来DSD64的高频相噪是如此的可怕,但是当提升到128fs并且以更多的bit (如5~6bit)为单位进行调制的时候,DSD会真正变得无比强大,这就是为什么现代的Σ-Δ型DAC都做成了Multi-bit SDM 。扯得有点远,具体想了解的话,我还可以专门写一篇关于PCM,PWM,PDM,SDM的对比。



经过调制成为数字信号之后,就要考虑通过什么样的编码方式写成文件了。编码分为无压缩编码,无损压缩编码,以及有损压缩编码,这里主要介绍前两种。

Uncompressed Encode无压缩编码

  • AIFF (Audio Interchange File Format) .aif .aiff 8~32~f64bit 8k~1.536MHz 1~8Channels

这是苹果于1988年发布的开源的音频编码规范,是一种大端序的Linear PCM。许多人以为这是苹果抄袭WAV自己搞的一个小众版WAV,其实他比WAV更加古老,这个规范已经28年没有更新变动了。用过iPod/iDevice的人都知道,AIFF是可以携带元数据的,能够带上艺术家,唱片,流派,甚至封面等ID3信息。


  • WAV (Waveform Audio File Format) .wav .wave 8~32~f64bit 8k~1.536MHz 1~8Channels

这是1991年微软和IBM由RIFF规范扩展来的音频规范,与CDA和AIFF一样都为Linear PCM,可以说就是小端序版本的AIFF。因为Windows系统的巨大成功,WAV成为了从上至专业录音棚,下至消费者终端最通用的标准无压缩音频格式。因为其LPCM的性质,在非音频领域WAV的位深,采样率和通道数几乎没有限制。但和AIFF不同的是WAV不携带元数据。

  • DSDIFF (DSD Interchange File Format) .dff 1bit 2.8224~22.5792MHz 2~6Channels

这是飞利浦方面定义的DSD交互格式,类似于PCM中的WAV/AIFF,支持多声道,不支持元数据。

  • DSF (DSD Streaming Format) .dsf 1bit 2.8224~22.5792MHz 2Channels

这是索尼方面定义的DSD流媒体格式,类似于PCM中的立体声WAV/AIFF,只支持双声道,不支持元数据。

  • SACD-ISO (Super Audio CD Image File) .iso 1bit 2.8224MHz 2~6Channels

这是索尼PS3旧版本用户们通过破解方式将SACD光盘的映像抓取下来形成的文件类型。里面一般包含着未压缩的DSD原码,可能只含有双声道DSD,也可能还含有5.1声道DSD。有一些ISO甚至包含元数据,但规范并不统一。



Lossless Encode无损压缩编码


  • ALAC (Apple Lossless Audio Codec) .m4a 8k~32bit 8~384kHz 1~8Channels

2004发布。一开始是苹果独享的不开源编码,2011年苹果将其开源。压缩率大约在58%~60%,CPU资源消耗介于FLAC和WV之间,没有纠错功能。本以为会随着随身听和数字音乐的发展成为iTunes售卖无损音乐的载体,没想到直到开源iTunes也没有卖无损的意思。


  • APE (Monkey’s Audio) .ape 8~24bit 8k~192kHz 1-2Channels

2000年发布。这是最早从音乐论坛/资源网站开始流行的盗版无损音乐格式。优点是压缩率高,大约为WAV的55%左右(16bit/44.1kHz的CD规格,下同),半开源,由EAC抓轨伴随生成的log会使人信服为真无损。缺点是算法较为复杂,CPU编解码所需要的资源几乎一样,而且远高于其他主流无损编码,没有纠错功能。


  • FLAC (Free Lossless Audio Codec) .flac 8~32bit 8k~384kHz 1~8Channels

2001年发布。这是另一大盗版无损音乐格式,当然,大部分正版无损音乐也是这个格式。优点是全开源,算法较为简单,解码对于CPU资源消耗最少。缺点是压缩率较低,大约为WAV的57~62%大小,没有纠错功能。


  • WV (WavePack Lossless) .wv .wvc 8~32~f32bit 8k~384khz 1~8Channels

1998年发布。这是一个非常有意思的无损编码。把.wv后缀名改为.exe之后它会变成一个自解压文件,运行可以自行解压成WAV音频。同时支持有损模式,并通过.wvc修正文件和有损.wv文件一起还原成无损.wv文件,实际上能支持超高采样率(16.77MHz)与多达256声道,只是我们目前还用不到。缺点是编解码不比APE轻松多少,而压缩率也只有56~58%左右。优点是有纠错功能,可以用空白静音填补丢失或损坏的数据。


  • WMA (Windows Media Audio Lossless) .wma 8~24bit 8k~96kHz 1~6Channels

2003年发布。是微软的专利编码方式。压缩率在58%左右,CPU资源消耗大约相当于中档的WV,没有纠错功能。


  • DST (Compressed DSD Format) .dst 1bit 2.8224~22.5792MHz 2~6Channels

这是目前已知的唯一一种DSD压缩格式,编码与解码都需要占用非常多的CPU资源。但压缩率非常高,能达到50%左右。这种格式还能携带元数据,并支持多声道。

关于假无损的问题

现在的音频格式转换软件都非常强大,有损无损可以互相转换,所以很多音乐论坛,大型音乐门户网站,一些网络歌手,甚至包括大型唱片公司,都存在把有损音频转换成无损音频,或者把低规格的无损音频转换成高规格的无损音频放到网络上传播,售卖。大部分发烧友是无法通过耳朵鉴别的(没错,2015年广州音响展盲听128k和WAV居然无人全对),靠谱的方式还是通过专业音频软件的频谱分析功能来查看频响。当然,如果大家真的愿意从源头支持正版数字音乐,还是直接去唱片公司官网或者大型数字音乐发售网站购买专辑。这样的无损一般不会有假的。


注:本答案只介绍了部分主流无损压缩编码,可以在评论中提出想知道的冷门无损压缩编码方式,如果我知道我可以加进答案。有需要的话也会加入有损压缩编码。